## Webscraping com `requests` e `BeautifulSoup`

### Introdução

_Webscraping_ (raspagem de dados) é a técnica de extrair informações de determinado website ou aplicação e agregá-las para uso futuro (por exemplo, uma análise exploratória). Isso pode ser feito manualmente, por meio de sistemas específicos (como [webscraper.io](https://webscraper.io/)) ou a partir da criação de um script (de Python, R, Java ou outras linguagens) para esta finalidade.

Cabe aqui lembrar o funcionamento básico da internet:

![image](https://gitlab.com/rodolfo-viana/eventos/-/raw/main/20210327_gdgfoz_webscrapingcompython/img/01.jpg)

De forma simples:

1. o usuário, via browser, faz uma solicitação ao servidor (_request_);
2. o servidor responde (_response_) com arquivos `html`, `css`, `js` etc.;
3. o browser renderiza esses códigos e transforma no que conhecemos como website.

Este ponto inicial é importante porque, quando falamos em _webscraping_, estamos tratando de _request_, tags de HTML, classes de CSS etc.

### Lógica

Como sabemos, um website (por exemplo, o UOL), antes de aparecer "bonitinho" na nossa tela...

![image](https://gitlab.com/rodolfo-viana/eventos/-/raw/main/20210327_gdgfoz_webscrapingcompython/img/02.png)

...é, de maneira simplista, um amontoado de linhas de código com tags HTML, com classes CSS e, eventualmente, referências a scripts JavaScript.

![image](https://gitlab.com/rodolfo-viana/eventos/-/raw/main/20210327_gdgfoz_webscrapingcompython/img/03.png)

No meio dessa mistura estão os dados que queremos raspar. Por exemplo, digamos que eu queira raspar a chamada do UOL:

__"Contra crise, Queiroga tem de resgatar coordenação nacional, dizem gestores"__

Ao olhar o código-fonte, quando nos deparamos com esta estrutura...

```html
<div class="mod-hibrido-manchete area-default manchete-editorial"> 
    <a href="https://www1.folha.uol.com.br/equilibrioesaude/2021/03/para-tirar-pais-da-crise-queiroga-deve-resgatar-coordenacao-nacional-e-ter-autonomia-dizem-gestores.shtml" name="manchete|3-colunas" data-metrics="mod-1;topo-hibrido" class="manchete manchete-editorial manchete-font1 clearfix"> 
        <strong class="chapeu color1">Pandemia de coronavírus</strong> 
        <h1 class="titulo color2">Contra crise, Queiroga tem de resgatar coordenação nacional, dizem gestores 
            <span class="comentariosContainer"></span>
        </h1> 
        <p class="texto color5">Especialistas defendem ação do Ministério da Saúde unificada em todo o país</p>
    </a>
    <ul class="relacionadas relacionadas-simples"> 
        <li>
            <a href="https://congressoemfoco.uol.com.br/justica/oab-pgr-stf-denuncia/" name="chamada-relacionada-manchete|coluna-unica" data-metrics="mod-1;topo-hibrido">
                <span class="color2">OAB pede à PGR que ofereça denúncia criminal contra Bolsonaro no STF 
                    <span class="comentariosContainer"></span>
                </span> 
            </a>
        </li>
        <li> 
            <a href="https://www.uol.com.br/universa/colunas/maria-carolina-trevisan/2021/03/24/pronunciamento-de-bolsonaro-mostra-desespero-e-sela-ingovernabilidade.htm" name="chamada-relacionada-manchete|coluna-unica" data-metrics="mod-1;topo-hibrido">
                <span class="color2">Trevisan: Discurso de Bolsonaro mostra desespero e sela ingovernabilidade 
                    <span class="comentariosContainer"></span>
                </span>
            </a>
        </li>
        <li>
            <a href="https://noticias.uol.com.br/colunas/jamil-chade/2021/03/24/a-guerra-do-brasil.htm" name="chamada-relacionada-manchete|coluna-unica" data-metrics="mod-1;topo-hibrido">
                <span class="color2">Jamil Chade: No pronunciamento para a nação, presidente do país estava nu
                    <span class="comentariosContainer"></span>
                </span>
            </a>
        </li>
    </ul>
</div>
```

...observamos que esta informação está dentro da tag `h1`, com a classe `titulo color2`.

A primeira lógica de _webscraping_ se revela, portanto:

- Ao buscar a tag HTML e/ou a classe CSS, encontramos o dado.

Em outro exemplo, neste mesmo contexto, digamos que queiramos raspar as chamadas relacionadas:

__"OAB pede à PGR que ofereça denúncia criminal contra Bolsonaro no STF"__

__"Trevisan: Discurso de Bolsonaro mostra desespero e sela ingovernabilidade"__

__"Jamil Chade: No pronunciamento para a nação, presidente do país estava nu"__

Quando inspecionamos o código-fonte, vemos que as três chamadas têm a mesma tag (`span`) e a mesma classe (`color2`), e todas estão dentro do elemento _parent_ `<ul class="relacionadas relacionadas-simples">`. Isso significa que, se eu instruir meu script para buscar os elementos _children_ da tag `ul`  que sejam `span` e tenham a classe `color2`, eu chegarei às três chamadas que desejo.

Esta é a segunda lógica de _webscraping_:

- Se houver mais de um dado com a mesma tag HTML e/ou classe CSS, encontraremos todos eles.

### _Webscraping_ com Python

Para criar um script de _webscraping_ em Python, vamos usar duas bibliotecas:

- [Requests](https://requests.readthedocs.io/en/master/), que gerencia a requisição HTTP (ou seja, acessa e "copia" o website para dentro do script), e

- [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), que faz o _parsing_ dessa cópia (isto é, lê e "interpreta" o código HTML).

Para instalar as bibliotecas, no terminal ou linha de comando, digite:

`python3 -m pip install requests beautifulsoup4`