# Scrapy
Resumo da <a href = 'https://docs.scrapy.org/en/latest/intro/'>documentação</a>.

| Capítulo 	| Assunto                       	|
|----------	|-------------------------------	|
| I        	| Novo Projeto Scrapy           	|
| II       	| Parsing Nativo do Scrapy      	|
| III      	| Parsing usando Beautiful Soup 	|

## I - Novo Projeto Scrapy

### Instalação do framework: 

```
pip install Scrapy
```

### Criação de um novo projeto
Digitar no terminal: 

```bash
scrapy startproject nome_do_projeto
```

O que criará a pasta ```nome_do_projeto``` com a seguinte estrutura: 

```bash
nome_do_projeto/
    scrapy.cfg            # Configurações do deplou

    nome_do_projeto/             # Módulo do python a ser importado
        __init__.py

        items.py          # Arquivo de definição dos itens do projeto

        middlewares.py    # Arquivo de middleware do projeto

        pipelines.py      # Arquivo de pipelines do projeto

        settings.py       # Arquivo de configurações do projeto

        spiders/          # Pasta onde serão colocados novos spiders
            __init__.py
```


### Arqtuitetura de um spider:  

Exemplo de spider da documentação:  

```python
import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)
```

#### ``` name = "quotes" ```
Define o identificador do spider. **Não pode haver mais de um spider com mesmo nome em um projeto**. 

#### ```start_requests()```
Método que **deve retornar um iterável¹ de Requests** o qual indica de onde o Spider começará o crawling.  

#### ```parse()```
Função que lida com as respostas das requisições. Normalmente:
- Faz o parsing a partir do HTML das respostas
- Salva o conteúdo tratado em um dicionário 
- Encontra novas URL's para continuar o processo 
- Cria novas requests para as URL's encontradas.

#### ```response```
Instância de ```TextResponse```**²** que armazena o conteúdo da página, bem como métodos úteis apra lider com ele.


¹Objeto capaz de retornar seus próprios membros um a um, habilitando-o a ser iterado por um for. No caso, uma lista de request ou função geradora. 
²Adiciona capacidade de encoding à classe base ```Response```, que originalmente só é capaz de lidar com dados binários, como imagens, sons ou medias. 

### Onde criar e salvar novos spiders
Novos spiders devem ser **salvos na pasta ```spiders/```**. O exemplo o salva como ```quotes_spiders.py```


### Rodando um spider: 
```bash
cd nome_do_projeto/
scrapy crawl quotes
```
**```scrapy crawl quotes``` deve ser utilizado na pasta ```nome_do_projeto/``` raiz mais alta do projeto, e não na subpasta**

O exemplo em questão salvará o HTML respondidos pelos URLs na raiz do projeto como ```quotes-1.html``` e ```quotes-2.html```.


## II -  Parsing nativo do Scrapy

## III - Parsing usando Beautiful Soup


---------------------------------------------------------

## O código foi **refatorado para funcionar no jupyter notebook**. 

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(QuotesSpider)
process.start() # the script will block here until the crawling is finished


2020-03-15 20:21:40 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: scrapybot)
2020-03-15 20:21:40 [scrapy.utils.log] INFO: Versions: lxml 4.4.1.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 3.6.9 (default, Nov  7 2019, 10:44:02) - [GCC 8.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1c  28 May 2019), cryptography 2.7, Platform Linux-4.15.0-20-generic-x86_64-with-LinuxMint-19.1-tessa
2020-03-15 20:21:40 [scrapy.crawler] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2020-03-15 20:21:40 [scrapy.extensions.telnet] INFO: Telnet Password: 3d2d6e0152bb2384
2020-03-15 20:21:40 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2020-03-15 20:21:41 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAut