## Webscraping com `requests` e `BeautifulSoup`

### Introdução

_Webscraping_ (raspagem de dados) é a técnica de extrair informações de determinado website ou aplicação e agregá-las para uso futuro (por exemplo, uma análise exploratória). Isso pode ser feito manualmente, por meio de sistemas específicos (como [webscraper.io](https://webscraper.io/)) ou a partir da criação de um script (de Python, R, Java ou outras linguagens) para esta finalidade.

Cabe aqui lembrar o funcionamento básico da internet:

![image](https://gitlab.com/rodolfo-viana/eventos/-/raw/main/20210327_gdgfoz_webscrapingcompython/img/01.jpg)

De forma simples:

1. o usuário, via browser, faz uma solicitação ao servidor (_request_);
2. o servidor responde (_response_) com arquivos `html`, `css`, `js` etc.;
3. o browser renderiza esses códigos e transforma no que conhecemos como website.

Este ponto inicial é importante porque, quando falamos em _webscraping_, estamos tratando de _request_, tags de HTML, classes de CSS etc.

### Lógica

Como sabemos, um website (por exemplo, o UOL), antes de aparecer "bonitinho" na nossa tela...

![image](./img/02.png)

...é, de maneira simplista, um amontoado de linhas de código com tags HTML, com classes CSS e, eventualmente, referências a scripts JavaScript.

![image](./img/03.png)

No meio dessa mistura estão os dados que queremos raspar. Por exemplo, digamos que eu queira raspar a chamada do UOL:

__"Alvo de CPI, garantidora da Covaxin foi usada por igreja para arrastar dívida"__

Ao olhar o código-fonte, quando nos deparamos com esta estrutura...

![image](./img/03b.png)

...observamos que esta informação está dentro da tag `h1`, com a classe `titulo color2`.

A primeira lógica de _webscraping_ se revela, portanto:

- Ao buscar a tag HTML e/ou a classe CSS, encontramos o dado.

Em outro exemplo, neste mesmo contexto, digamos que queiramos raspar as chamadas relacionadas:

__"Cármen Lúcia autoriza diretor de empresa a ficar em silêncio na CPI da Covid"__

__"Sócia de fábrica de ivermectina sacou R\$ 937 mil em espécie, aponta Coaf"__

__"Cidade de São Paulo estuda abrir parques no domingo para vacinar mais jovens"__

__"RJ: Reabertura e imunidade explicam por que idoso é principal alvo da covid"__

Quando inspecionamos o código-fonte, vemos que as três chamadas têm a mesma tag (`span`) e a mesma classe (`color2`), e todas estão dentro do elemento _parent_ `<ul class="relacionadas relacionadas-simples">`. Isso significa que, se eu instruir meu script para buscar os elementos _children_ da tag `ul` que sejam `span` e tenham a classe `color2`, eu chegarei às três chamadas que desejo.

![image](./img/03c.png)

Esta é a segunda lógica de _webscraping_:

- Se houver mais de um dado com a mesma tag HTML e/ou classe CSS, encontraremos todos eles.

### _Webscraping_ com Python

Para criar um script de _webscraping_ em Python, vamos usar duas bibliotecas:

- [Requests](https://requests.readthedocs.io/en/master/), que gerencia a requisição HTTP (ou seja, acessa e "copia" o website para dentro do script), e

- [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), que faz o _parsing_ dessa cópia (isto é, lê e "interpreta" o código HTML).

Para instalar as bibliotecas, no terminal ou linha de comando, digite:

`python3 -m pip install requests beautifulsoup4`