## Webscraping com `requests` e `BeautifulSoup`

A primeira biblioteca que precisamos é Requests. Ela gerencia a requisição HTTP. Significa que ela acessa e "copia" o código-fonte para nosso script.

In [1]:
import requests

Com a biblioteca carregada, vamos gerar a URL do site que desejamos. Neste exemplo, vamos raspar as cota de despesa parlamentar (os gastos no Cotão) do senador Flávio Bolsonaro.

In [2]:
# A URL é https://www6g.senado.leg.br/transparencia/sen/5894/?ano=2021, mas
# eu costumo separá-la em pedaços para faciliar eventuais for loop
endereco = "https://www6g.senado.leg.br/transparencia/sen/"
senador = "5894"
query_ano = "/?ano="
ano = "2021"
url = endereco + senador + query_ano + ano

print(url)

https://www6g.senado.leg.br/transparencia/sen/5894/?ano=2021


Agora que temos a URL gerada, vamos fazer com que Requests busque seu conteúdo. Vamos armazenar na variável `site`.

In [3]:
site = requests.get(url)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.get

Com a captura do código-fonte feita, podemos ver o resultado usando `status_code` (se conseguimos conexão com o servidor), `headers` (os _headers_ usados na captura), `content` (o conteúdo, o código em bytes), `text` (o conteúdo, o código em unicode, "legível") e outros métodos.

Para saber mais métodos, consulte a [documentação de `requests.Response`](https://requests.readthedocs.io/en/master/api/#requests.Response).

In [4]:
print(site.status_code)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.status_code

200


In [5]:
print(site.headers)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.headers

{'Server': 'nginx', 'Date': 'Fri, 27 Aug 2021 18:38:03 GMT', 'Content-Type': 'text/html;charset=UTF-8', 'Content-Length': '7966', 'Connection': 'keep-alive', 'cache-control': 'max-age=900,public', 'content-language': 'pt-BR', 'Content-Encoding': 'gzip', 'Vary': 'Accept-Encoding', 'Age': '3216', 'X-Content-Type-Options': 'nosniff', 'Accept-Ranges': 'bytes'}


In [6]:
print(site.content)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.content

b'<!DOCTYPE html>\r\n<html lang="pt-br">\n<head>\n\n<title>Recursos Utilizados por\r\n\tFl\xc3\xa1vio Bolsonaro em\r\n\t2021 - Transpar\xc3\xaancia</title>\n<meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n<meta http-equiv="X-UA-Compatible" content="IE=edge" />\n<meta name="viewport" content="width=device-width, initial-scale=1.0" />\n<meta name="author" content="Senado Federal" />\n\n<link rel="shortcut icon" type="image/x-icon"\n\thref="/transparencia/img/senado/favicon.ico" />\n<link rel="icon" type="image/png"\n\thref="/transparencia/img/senado/icones-tablet/16x16.png" />\n<link rel="apple-touch-icon" type="image/png"\n\thref="/transparencia/img/senado/icones-tablet/114x114.png" />\n<link rel="apple-touch-icon-precomposed" type="image/png"\n\thref="/transparencia/img/senado/icones-tablet/96x96.png" />\n\n<link rel="stylesheet" type="text/css"\n\thref="/transparencia/lib/bootstrap-2.3.2/css/bootstrap.min-282663d1dc8a60dcef58304c09005aa5.css" />\n<link rel="styl

In [7]:
print(site.text)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.text

<!DOCTYPE html>
<html lang="pt-br">
<head>

<title>Recursos Utilizados por
	Flávio Bolsonaro em
	2021 - Transparência</title>
<meta http-equiv="content-type" content="text/html; charset=UTF-8" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta name="author" content="Senado Federal" />

<link rel="shortcut icon" type="image/x-icon"
	href="/transparencia/img/senado/favicon.ico" />
<link rel="icon" type="image/png"
	href="/transparencia/img/senado/icones-tablet/16x16.png" />
<link rel="apple-touch-icon" type="image/png"
	href="/transparencia/img/senado/icones-tablet/114x114.png" />
<link rel="apple-touch-icon-precomposed" type="image/png"
	href="/transparencia/img/senado/icones-tablet/96x96.png" />

<link rel="stylesheet" type="text/css"
	href="/transparencia/lib/bootstrap-2.3.2/css/bootstrap.min-282663d1dc8a60dcef58304c09005aa5.css" />
<link rel="stylesheet" type="text/css"
	href="/transparencia/lib

Agora que temos o código-fonte salvo na variável `site`, usamos BeautifulSoup para fazer o _parsing_, ou seja, compreender a estrutura. Vamos dar à biblioteca o apelido de `bs`.

In [8]:
from bs4 import BeautifulSoup as bs

Com a biblioteca carregada, vamos salvar `site.content` com _parsing_ na variável `content`.

In [9]:
content = bs(site.content, "html.parser")
# Documentação: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#making-the-soup

print(content)

<!DOCTYPE html>

<html lang="pt-br">
<head>
<title>Recursos Utilizados por
	Flávio Bolsonaro em
	2021 - Transparência</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="Senado Federal" name="author"/>
<link href="/transparencia/img/senado/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="/transparencia/img/senado/icones-tablet/16x16.png" rel="icon" type="image/png"/>
<link href="/transparencia/img/senado/icones-tablet/114x114.png" rel="apple-touch-icon" type="image/png"/>
<link href="/transparencia/img/senado/icones-tablet/96x96.png" rel="apple-touch-icon-precomposed" type="image/png"/>
<link href="/transparencia/lib/bootstrap-2.3.2/css/bootstrap.min-282663d1dc8a60dcef58304c09005aa5.css" rel="stylesheet" type="text/css"/>
<link href="/transparencia/lib/bootstrap-2.3.2/css/bootstrap-responsive-d2c30d07a

Visualmente não houve alteração. Contudo, o trabalho de BeautifulSoup foi interno: compreender a estrutura do HTML que foi apresentada; criar a árvore de elementos. Agora conseguimos encontrar tags, classes etc. Isso pode ser feito com:

- `find()` ([documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find)), para elemento único ou o primeiro elemento; ou 

- `find_all()` ([documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all)), para elemento que aparece mais de uma vez e seus descendentes.

(Há outras formas de encontrar elementos pela posição, como `find_parent()` e `find_next_sibling()`. Elas estão descritas na [documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree).)

Como argumentos, podemos usar a tag HTML e,opcionalmente, classe ou id de CSS.

Vamos ver como encontramos `<table>` (tabela). Primeiro, somente com `find("table")`, onde obtemos o primeiro valor disponível...

In [10]:
print(content.find("table"))

<table class="table table-striped">
<caption class="sr-only">Valores de Cotas para Exercício da Atividade Parlamentar</caption>
<thead>
<tr>
<th>Recurso</th>
<th class="valor">Valor</th>
</tr>
</thead>
<tbody>
<tr>
<td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>
<td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>
</tr>
<tr>
<td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>
<td class="valor">
<a href="ceaps/2/?ano=2021#

...depois, com `find_all("table")`, em que obtemos uma lista com todos os elementos `<table>` na página.

In [11]:
print(content.find_all("table"))

[<table class="table table-striped">
<caption class="sr-only">Valores de Cotas para Exercício da Atividade Parlamentar</caption>
<thead>
<tr>
<th>Recurso</th>
<th class="valor">Valor</th>
</tr>
</thead>
<tbody>
<tr>
<td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>
<td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>
</tr>
<tr>
<td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>
<td class="valor">
<a href="ceaps/2/?ano=2021

No exemplo, observamos múltiplas tabelas...

In [12]:
tabelas = content.find_all("table")
print(len(tabelas))

5


...mas apenas a primeira nos interessa. Como, em aulas anteriores, aprendemos a encontrar elementos em listas, usamos a posição do elemento na lista para selecioná-lo.

In [13]:
tabela = content.find_all("table")[0]

Vamos analisá-la:

In [14]:
print(tabela)

<table class="table table-striped">
<caption class="sr-only">Valores de Cotas para Exercício da Atividade Parlamentar</caption>
<thead>
<tr>
<th>Recurso</th>
<th class="valor">Valor</th>
</tr>
</thead>
<tbody>
<tr>
<td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>
<td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>
</tr>
<tr>
<td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>
<td class="valor">
<a href="ceaps/2/?ano=2021#

Olhando atentamente, vemos:

- os itens que desejamos estão dentro de `<td>`,
- os `<td>`s estão dentro de `<tr>`,
- os `<tr>`s estão dentro de `<tbody>`.

Algo mais ou menos assim:

```html
<table>
    (um monte de coisa que não interessa)
    <tbody>
        <tr>
            <td>descrição</td>
            <td>valor</td>
        </tr>
        <tr>
            <td>descrição</td>
            <td>valor</td>
        </tr>
        <tr>
            <td>descrição</td>
            <td>valor</td>
        </tr>
    </tbody>
    (outras tantas coisas que não interessam)
</table>
```

Assim, `<td>`s são _children_ de `<tr>`s que, por sua vez, são _children_ de `<tbody>` que, por sua vez, é _child_ de `<table>`.

Por lógico, se eu pegar `<tbody>` dentro de `<table>`, pegarei tudo que está dentro de todos os `<tr>`.

In [22]:
tbody = tabela.find("tbody")
print(tbody)

<tbody>
<tr>
<td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>
<td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>
</tr>
<tr>
<td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>
<td class="valor">
<a href="ceaps/2/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aquisição de material de consumo"><span>35,10</span>
</a>
</td>
</tr>
<tr>
<td title="Locomoção, hospedagem, alimentação, combustíveis e lubrifica

Agora que temos `tbody`, observamos que cada valor está dentro de um `<td>`, e cada dois `<td>`s está dentro de `<tr>`. 

Devemos, portanto, pegar todas (`find_all()`) as tags `tr`.

A esses itens vamos dar o nome de `itens`.

In [16]:
itens = tbody.find_all("tr")

print(itens)

[<tr>
<td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>
<td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>
</tr>, <tr>
<td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>
<td class="valor">
<a href="ceaps/2/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aquisição de material de consumo"><span>35,10</span>
</a>
</td>
</tr>, <tr>
<td title="Locomoção, hospedagem, alimentação, combustíveis e lubrificantes"

Como o que temos em `itens` é uma lista de `<td>`, podemos iterar sobre os elementos pegando os textos que estão contidos nas tags, e salvar isso tudo num dicionário. 

In [17]:
for i in itens:
    dicionario = dict()
    dicionario["categoria"] = i.find_all('td')[0]
    dicionario["valor"] = i.find_all('td')[1]
    
    print(dicionario)

{'categoria': <td title="Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles."><i class="icon-angle-right"></i> 
													Aluguel de imóveis para escritório político 
													
												</td>, 'valor': <td class="valor">
<a href="ceaps/1/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aluguel de imóveis para escritório político"><span>23.417,86</span>
</a>
</td>}
{'categoria': <td title="Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos."><i class="icon-angle-right"></i> 
													Aquisição de material de consumo 
													
												</td>, 'valor': <td class="valor">
<a href="ceaps/2/?ano=2021#conteudo_transparencia" title="Ver detalhe mês a mês de Aquisição de material de consumo"><span>35,10</span>
</a>
</td>}
{'categoria': <td title="Locomoção, hospedagem, alimenta

Notem que ainda temos código HTML nos resultados. Para eliminar isso, podemos passar, depois de `find_all()`, a função `text`. Também podemos usar outras funções, como `replace()`, `strip()` e `float()`. Assim:

In [18]:
for i in itens:
    dicionario = dict()
    dicionario["categoria"] = i.find_all('td')[0].text.strip()
    dicionario["valor"] = float(i.find_all('td')[1].text.strip().replace(".", "").replace(",", "."))
    
    print(dicionario)

{'categoria': 'Aluguel de imóveis para escritório político', 'valor': 23417.86}
{'categoria': 'Aquisição de material de consumo', 'valor': 35.1}
{'categoria': 'Locomoção, hospedagem, alimentação e combustíveis', 'valor': 0.0}
{'categoria': 'Contratação de serviços de apoio ao parlamentar', 'valor': 0.0}
{'categoria': 'Divulgação da atividade parlamentar', 'valor': 0.0}
{'categoria': 'Passagens aéreas, aquáticas e terrestres nacionais', 'valor': 12708.44}
{'categoria': 'Serviços de Segurança Privada', 'valor': 0.0}


Pronto. Perfeito. Raspamos os dados do senador. Podemos agora salvar colocar o dicionário numa lista e salvar como `csv` com a ajuda de Pandas.

In [19]:
import pandas as pd

dados = list()
for i in itens:
    dicionario = dict()
    dicionario["categoria"] = i.find_all('td')[0].text.strip()
    dicionario["valor"] = float(i.find_all('td')[1].text.strip().replace(".", "").replace(",", "."))
    dados.append(dicionario)

df = pd.DataFrame.from_dict(dados)

In [20]:
df

Unnamed: 0,categoria,valor
0,Aluguel de imóveis para escritório político,23417.86
1,Aquisição de material de consumo,35.1
2,"Locomoção, hospedagem, alimentação e combustíveis",0.0
3,Contratação de serviços de apoio ao parlamentar,0.0
4,Divulgação da atividade parlamentar,0.0
5,"Passagens aéreas, aquáticas e terrestres nacio...",12708.44
6,Serviços de Segurança Privada,0.0


In [21]:
df.to_csv('teste.csv', index=False)

Cabe ressaltar que obtivemos sete linhas, dados referentes a apenas um ano. Podemos fazer `for loop` e pegar 2 milhões de linhas de todos os anos: o código seria praticamente o mesmo. 