# Instalando o scrapy

In [None]:
!pip install scrapy

# Criando um projeto scrapy

In [None]:
!scrapy startproject helloscrapy

In [None]:
!ls

In [None]:
!ls helloscrapy

In [None]:
!ls helloscrapy/helloscrapy

In [None]:
!ls helloscrapy/helloscrapy/spiders

# Como extrair informações do site abaixo?
http://quotes.toscrape.com/

# Criando um novo Spider

In [None]:
!cd helloscrapy/helloscrapy/spiders && touch first_spider.py

# Executando o spider

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Como extrair informações do site abaixo?
https://www.americanas.com.br/

# Executando o spider

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Arquivo robots.txt
https://www.amazon.com.br/robots.txt

https://www.americanas.com.br/robots.txt

# Exercício 1: Coletar página inicial de Games do Mercado Livre

# Extraíndo informações específicas
# Scrapy shell, CSS Selector, Xpath, Inspect, SelectorGadget (Chrome)

## Scrapy shell
Digitar no terminal da máquina
``` bash 
scrapy shell "http://quotes.toscrape.com/"
```

## CSS Selector

``` bash
response.css('title')

response.css('title').extract()

response.css('title::text').extract()

response.css('title::text')[0].extract() #Se a lista tiver vazia apresenta erro

response.css('title::text').extract_first() #Se não é possível extrair nada do site, retorna NULL como valor (não apresenta erro)

```

## Inspect (Navegador)
```bash
response.css('span.text').extract()

response.css('span.text::text').extract()

response.css('span.text::text')[1].extract()
```

## Selector Gadget (Google Chrome)
https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb?hl=pt-BR

```bash
Pegnado todos os autores com o selector gadget: .author

response.css('.author::text').extract()
```

## XPath
Mais poderosa que os seletores CSS porque pode-se analisar o conteúdo das tags. Ex: selecionar o link que contem o texto "Próxima Página"

```bash
response.xpath('//title').extract()

response.xpath('//title/text()').extract()

response.xpath("//span[@class='text']/text()").extract()

response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "text", " " ))]/text()').extract() #usando o Selector Gadget

response.xpath("//span[@class='text']/text()")[2].extract()
```

## Inspect + CSS + Xpath
Inspecionando o botão "Next"

Extraindo seu conteúdo utilizando os seletores CSS e XPath:
```bash
response.css("li.next a").xpath("@href").extract()
```

In [None]:
!scrapy shell "http://quotes.toscrape.com/" -c 'response.css("li.next a").xpath("@href").extract()'

### Como coletar todas os links desta página?

In [None]:
!scrapy shell "http://quotes.toscrape.com/" -c 'response.css("a").xpath("@href").extract()'

# Extraindo citações e autores
Alterando o script first_spider

In [None]:
!cd helloscrapy && scrapy crawl spiderone

### Como separar cada citação, author e tag??

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Exercício 2: Coletar os nomes dos produtos na primeira página do Mercado Livre Games

# Item containers
Extracted data > Temporary containers > Store in database

## Alterando o arquivo items.py
Declarando title, author e tag; Importando o arquivo items.py no Spider

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Armazenando o resultado em arquivos JSON

In [None]:
!cd helloscrapy && scrapy crawl spiderone -o items.json

## Armazenando o resultado em CSV e XML

In [None]:
!cd helloscrapy && scrapy crawl spiderone -o items.csv

In [None]:
!cd helloscrapy && scrapy crawl spiderone -o items.xml

# Exercício 3: Coletar os nomes dos produtos na primeira página do Mercado Livre Games e salvar em um arquivo JSON

# Pipelines
Scraped data > Item Containers > Pipeline > Database

## Alterando o arquivo settings.py
Descomentando a linha ITEM_PIPELINES...

## Alterando o arquivo pipeline.py
Verificando o fluxo de informação passado no pipeline

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Criando o banco de dados relacional - Sqlite

In [None]:
!cd helloscrapy/helloscrapy/ && touch create_database.py

In [None]:
!cd helloscrapy/helloscrapy/ && python create_database.py

### Visualizando o banco criado
https://sqliteonline.com/

## Inserindo os dados no banco através do arquivo pipeline.py
Alterando o arquivo pipeline.py

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Exercício 4: Coletar os nomes dos produtos na primeira página do Mercado Livre Games e armazenar no MongoDB

# Armazenando em banco de dados de documentos - MongoDB
Alterando o arquivo pipeline.py

In [None]:
!cd helloscrapy && scrapy crawl spiderone

### Consultando diretamente a coleção scrapy_col

In [None]:
from pymongo import MongoClient
from pprintpp import pprint
import warnings
warnings.filterwarnings('ignore')

mongoclient = MongoClient('localhost', 27017)
db = mongoclient.thedatasocietydb
result = db.scrapy_col.find({})

for document in result:
        pprint(document)
        print()

# Seguindo links
Alterando first_spider.py

In [None]:
!cd helloscrapy && scrapy crawl spiderone

# Exercício 5: Coletar o nome, preço e número de avaliações de todos os produtos do Mercado Livre Games e armazenar no MongoDB