Aranhas que buscam notícias usando scrapy. Notícias são tiradas dos sites das revistas Galileu, Super Interessante e Mundo Educação.
Há uma aranha para cada revista. Para rodar todas, utilize os seguintes comandos:
$ scrapy crawl galileu $ scrapy crawl super $ scrapy crawl mundoeducacao
Note que, por enquanto, PParker busca somente 20 notícias, para facilitar os testes. Para baixar todas as notícias disponíveis (o que demora), utilize os seguintes comandos:
$ scrapy crawl -s DEPTH_LIMIT=0 galileu $ scrapy crawl -s DEPTH_LIMIT=0 super $ scrapy crawl -s DEPTH_LIMIT=0 mundoeducacao
Para alterar a pasta de destino das notícias, utilize a opção DIRETORIO_SAIDA
:
$ scrapy crawl -s DIRETORIO_SAIDA=caminho_das_noticias galileu
As notícias coletadas são armazenadas na pasta "noticias", em subpastas específicas da revista e seções da mesma. Cada arquivo é uma notícia individual.
Por que PParker?
É uma aranha que busca notícias, quem isso te lembra? =P