Come curl o wget una pagina web?

voti
16

Vorrei fare un job cron ogni notte che recupera la mia pagina StackOverflow e diff dalla pagina del giorno precedente, in modo da poter visualizzare un riepilogo cambiamento delle mie domande, risposte, classifica, etc.

Purtroppo, non ho potuto ottenere il giusto set di biscotti, ecc, per fare questo lavoro. Qualche idea?

Inoltre, quando la beta è finita, sarà la mia pagina di stato essere accessibile senza effettuare il login?

È pubblicato 05/08/2008 alle 21:38
fonte dall'utente
In altre lingue...                            


5 risposte

voti
9

La vostra pagina di stato è ora disponibile senza effettuare il login (clicca il logout e provarlo). Quando il beta-cookie viene disabilitato, non ci sarà nulla tra voi e la vostra pagina di stato.

Per wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Risposto il 05/08/2008 a 21:43
fonte dall'utente

voti
6

Da Mark Harrison

Ed ecco ciò che funziona ...

arricciare -s --cookie soba =. https://stackoverflow.com/users

E per wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Risposto il 05/08/2008 a 23:04
fonte dall'utente

voti
3

Bella idea :)

Presumo che hai usato wget di

--load-cookies (filename)

potrebbe aiutare un po ', ma potrebbe essere più facile da usare qualcosa come Mechanize (in Perl o Python) per simulare un browser più pienamente per ottenere un buon ragno.

Risposto il 05/08/2008 a 21:43
fonte dall'utente

voti
2

Ed ecco ciò che funziona ...

curl -s --cookie soba=. http://stackoverflow.com/users
Risposto il 05/08/2008 a 22:22
fonte dall'utente

voti
2

Non riuscivo a capire come ottenere i cookie di lavorare sia, ma sono stato in grado di ottenere alla mia pagina di stato nel mio browser mentre ero disconnesso, quindi presumo che questo lavoro una volta StackOverflow diventa pubblico.

Questa è un'idea interessante, ma non sarà anche raccogliere diff del codice html sottostante? Avete una strategia per evitare di finire con un diff del html e non il contenuto effettivo?

Risposto il 05/08/2008 a 21:46
fonte dall'utente

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more