Skip to content

anacls/scrapy-study

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy Study

Scrapy Study é um repositório de estudo que contém algumas spiders para demonstração de web crawling e scraping com Scrapy e Scrapy Cloud.

Índice

  1. Pré-Requisitos
  2. Para começar
  3. Pastas
  4. Executando uma spider

Pré-Requisitos

Ferramentas usadas nesse repositório:

Para começar

  • Clone o repositório: git clone git@github.com:anacls/scrapy-study.git

  • Vá para o diretório principal: cd scrapy-study

Pastas

  • tdc_examples

    A pasta tdc_examples é um projeto com spiders utilizadas numa apresentação realizada no TDC.

    Spiders

    • books.py: faz raspagem no site books.toscrape.com, extrai e imprime título, nome do autor e link dos itens do catálogo.

    • quotes.py: faz raspagem em duas páginas do site quotes.toscrape.com e para cada página extrai todo o html e salva em um novo arquivo .html.

    • top_series_week.py: faz raspagem na sessão de séries do adorocinema.com extraindo e imprimindo título, descrição, quantidade de temporadas, de episódios e algumas outras informações sobre as séries.

    • trains_situation.py: faz raspagem no site da CPTM e retorna a situação atualizada das linhas.

    • trilhas_tdc.py: faz raspagem na sessão de trilhas do site do TDC 2018, extrai e retorna algumas informações sobre as trilhas.

  • tripadvisor

    A pasta tripadvisor é um projeto que contém uma única spider. Essa spider faz raspagem na página de restaurantes de Indaiatuba no site do tripadvisor e retorna nome, nota, endereço e link do item.

Executando uma spider

Para executar uma spider na sua máquina local:

Vá até a pasta do projeto onde a spider se encontra e execute o comando scrapy crawl <spider_name>

Eg.: cd tripadvisor && scrapy crawl tripadvisor

OBS: O nome da spider nem sempre é igual ao nome do arquivo, esse nome é definido na váriavel name dentro do arquivo da spider.

Para executar uma spider no ScrapingHub:

  • Crie uma conta no Scrapinghub

  • Crie um projeto selecionando Scrapy como a opção para fazer deploy das suas spiders

  • Siga o passo a passo da aba Code & Deploys

  • Vá para a sua dashboard e clique no botão RUN

  • No campo Spiders digite o nome da spider que deseja executar

About

Spiders para demonstração de web crawling e scraping.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages