## Webscraping com `requests` e `BeautifulSoup`

### Código comentado de _webscraping_ simples

A primeira biblioteca que precisamos é Requests. Ela gerencia a requisição HTTP. Significa que ela acessa e "copia" o código-fonte para nosso script.

In [1]:
import requests

Com a biblioteca carregada, vamos gerar a URL do site que desejamos. Neste exemplo, vamos raspar a agenda do presidente da República para a data de 19 de março de 2021.

In [2]:
# Eu costumo separar a URL em pedaços para faciliar a compreensão
domain_url = "https://www.gov.br/"
path_url = "planalto/pt-br/acompanhe-o-planalto/agenda-do-presidente-da-republica/"
query_url = "2021-03-19"
url = domain_url + path_url + query_url

print(url)

https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/agenda-do-presidente-da-republica/2021-03-19


Agora que temos a URL gerada, vamos fazer com que Requests busque seu conteúdo. Vamos armazenar na variável `site`.

In [3]:
site = requests.get(url)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.get

Com a captura do código-fonte feita, podemos ver o resultado usando `status_code` (se conseguimos conexão com o servidor), `headers` (os _headers_ usados na captura), `content` (o conteúdo, o código em bytes), `text` (o conteúdo, o código em unicode, "legível") e outros métodos.

Para saber mais métodos, consulte a [documentação de `requests.Response`](https://requests.readthedocs.io/en/master/api/#requests.Response).

In [4]:
print(site.status_code)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.status_code

200


In [5]:
print(site.headers)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.headers

{'Date': 'Thu, 25 Mar 2021 18:00:59 GMT', 'Server': 'Zope/(2.13.28, python 2.7.16, linux2) ZServer/1.1', 'X-Cache-Operation': 'plone.app.caching.moderateCaching', 'Content-Language': 'pt-br', 'Expires': 'Mon, 28 Mar 2011 18:00:59 GMT', 'Vary': 'X-Anonymous,Accept-Encoding', 'X-Ua-Compatible': 'IE=edge,chrome=1', 'X-Cache-Rule': 'brasil.gov.agenda.AgendaDiaria', 'X-Frame-Options': 'DENY', 'Content-Type': 'text/html;charset=utf-8', 'cache-control': 'max-age=0, s-maxage=0, must-revalidate', 'X-Varnish': '34921631', 'Via': '1.1 varnish (Varnish/6.0), 1.1 www.gov.br', 'X-Cache': 'MISS', 'X-Varnish-Age': '0', 'Age': '0', 'Accept-Ranges': 'bytes', 'Content-Encoding': 'gzip', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '1', 'Referrer-Policy': 'same-origin', 'Strict-Transport-Security': 'max-age=31536000', 'Content-Security-Policy': "frame-ancestors 'self';", 'Content-Length': '30065', 'Keep-Alive': 'timeout=60, max=100', 'Connection': 'Keep-Alive'}


In [6]:
print(site.content)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.content

b'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" lang="pt-br" xml:lang="pt-br">\n  <head><script id="viewlet-appd" type="text/javascript" src="https://eum.appmon.serpro.gov.br/EUM/EUM-AAB-AUY/appdynamics.js?v=9506db872f2f9f91b83ece6f35484d0a"></script>\n        <script type="application/ld+json">\n        {\n            "@context": "https://schema.org",\n            "@type": "Organization",\n            "url": "https://www.gov.br/planalto",\n            "logo": "https://www.gov.br/planalto/logo.png"\n        }</script>\n        <script type="application/ld+json">\n        {\n            "@context": "https://schema.org",\n            "@type": "WebSite",\n            "url": "https://www.gov.br/planalto",\n            "potentialAction": {\n              "@type": "SearchAction",\n              "target": "https://www.gov.br/planalto/search?SearchableText={search_term_string}",\n              "query-input": "required name=search_term_string"\n            }\n        }</script>\n<

In [7]:
print(site.text)
# Documentação: https://requests.readthedocs.io/en/master/api/#requests.Response.text

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="pt-br" xml:lang="pt-br">
  <head><script id="viewlet-appd" type="text/javascript" src="https://eum.appmon.serpro.gov.br/EUM/EUM-AAB-AUY/appdynamics.js?v=9506db872f2f9f91b83ece6f35484d0a"></script>
        <script type="application/ld+json">
        {
            "@context": "https://schema.org",
            "@type": "Organization",
            "url": "https://www.gov.br/planalto",
            "logo": "https://www.gov.br/planalto/logo.png"
        }</script>
        <script type="application/ld+json">
        {
            "@context": "https://schema.org",
            "@type": "WebSite",
            "url": "https://www.gov.br/planalto",
            "potentialAction": {
              "@type": "SearchAction",
              "target": "https://www.gov.br/planalto/search?SearchableText={search_term_string}",
              "query-input": "required name=search_term_string"
            }
        }</script>
<style id="google-anti-f

Agora que temos o código-fonte salvo na variável `site`, usamos BeautifulSoup para fazer o _parsing_, ou seja, compreender a estrutura. Vamos dar à biblioteca o apelido de `bs`.

In [8]:
from bs4 import BeautifulSoup as bs

Com a biblioteca carregada, vamos salvar `site.content` com _parsing_ na variável `content`.

In [9]:
content = bs(site.content, "html.parser")
# Documentação: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#making-the-soup

print(content)

<!DOCTYPE html>

<html lang="pt-br" xml:lang="pt-br" xmlns="http://www.w3.org/1999/xhtml">
<head><script id="viewlet-appd" src="https://eum.appmon.serpro.gov.br/EUM/EUM-AAB-AUY/appdynamics.js?v=9506db872f2f9f91b83ece6f35484d0a" type="text/javascript"></script>
<script type="application/ld+json">
        {
            "@context": "https://schema.org",
            "@type": "Organization",
            "url": "https://www.gov.br/planalto",
            "logo": "https://www.gov.br/planalto/logo.png"
        }</script>
<script type="application/ld+json">
        {
            "@context": "https://schema.org",
            "@type": "WebSite",
            "url": "https://www.gov.br/planalto",
            "potentialAction": {
              "@type": "SearchAction",
              "target": "https://www.gov.br/planalto/search?SearchableText={search_term_string}",
              "query-input": "required name=search_term_string"
            }
        }</script>
<style id="google-anti-flicker-css">.asyn

Visualmente não houve alteração. Contudo, o trabalho de BeautifulSoup foi interno: compreender a estrutura do HTML que foi apresentado; criar a árvore de elementos. Agora conseguimos encontrar tags, classes etc. Isso pode ser feito com:

- `find()` ([documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find)), para elemento único ou o primeiro elemento; ou 

- `find_all()` ([documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all)), para elemento que aparece mais de uma vez e seus descendentes.

(Há outras formas de encontrar elementos pela posição, como `find_parent()` e `find_next_sibling()`. Elas estão descritas na [documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree).)

Como argumentos, podemos usar a tag HTML e,opcionalmente, classe ou id de CSS.

Vamos ver como encontramos `<ul>` (lista sem ordenação). Primeiro, somente com `find_all("ul")`...

In [10]:
print(content.find_all("ul"))

[<ul id="menu-barra-temp" style="list-style:none;">
<li style="display:inline; float:left;padding-right:10px; margin-right:10px; border-right:1px solid #EDEDED"><a href="http://brasil.gov.br" style="font-family:sans,sans-serif; text-decoration:none; color:white;">Portal do Governo Brasileiro</a></li>
<li><a href="http://epwg.governoeletronico.gov.br/barra/atualize.html" style="font-family:sans,sans-serif; text-decoration:none; color:white;">Atualize sua Barra de Governo</a></li>
</ul>, <ul>
<li class="titulo">Acesso rápido</li>
<li>
<a href="https://www.gov.br/pt-br/orgaos-do-governo">Órgãos do Governo</a>
</li>
<li>
<a href="http://www.acessoainformacao.gov.br">Acesso à Informação</a>
</li>
<li>
<a href="http://www4.planalto.gov.br/legislacao">Legislação</a>
</li>
<li>
<a href="https://www.gov.br/governodigital/pt-br/acessibilidade-digital">Acessibilidade</a>
</li>
<!--<li>
                <a href="http://www.vlibras.gov.br/" class="link-vlibras">
                  <span class="fas fa

...depois, com uma classe: `find("ul", class_="submenu")`

In [11]:
print(content.find("ul", class_="submenu"))

<ul class="submenu">
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/noticias">
            
            Notícias
        </a>
</li>
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/discursos">
            
            Discursos
        </a>
</li>
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/pronunciamentos">
            
            Pronunciamentos
        </a>
</li>
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/notas-oficiais">
            
            Notas Oficiais
        </a>
</li>
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/notas-comunicados">
            
            Comunicados Interministeriais
        </a>
</li>
<li>
<a class="state-published" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/entrevistas">
            
            Entr

...e, por fim, com um id: `find("ul", id="menu-barra-temp")`.

In [12]:
print(content.find("ul", id="menu-barra-temp"))

<ul id="menu-barra-temp" style="list-style:none;">
<li style="display:inline; float:left;padding-right:10px; margin-right:10px; border-right:1px solid #EDEDED"><a href="http://brasil.gov.br" style="font-family:sans,sans-serif; text-decoration:none; color:white;">Portal do Governo Brasileiro</a></li>
<li><a href="http://epwg.governoeletronico.gov.br/barra/atualize.html" style="font-family:sans,sans-serif; text-decoration:none; color:white;">Atualize sua Barra de Governo</a></li>
</ul>


Com esta lógica, conseguimos encontrar os elementos que desejamos.

Vamos testar: na agenda da Presidência há os compromissos de Jair Bolsonaro. Vamos inspecionar o código:

![image](https://gitlab.com/rodolfo-viana/eventos/-/raw/main/20210327_gdgfoz_webscrapingcompython/img/04.png)

Reparemos que todos os compromissos estão dentro de `<ul class="list-compromissos">`, são _children_ desse elemento. Vamos pegar essa tag com a classe específica e salvar na variável `lista`:

In [13]:
lista = content.find("ul", class_="list-compromissos")

print(lista)

<ul class="list-compromissos">
<li class="item-compromisso-wrapper">
<div class="item-compromisso">
<div class="compromisso-horarios">
<i class="far fa-clock"></i>
<div class="horario">
<time class="compromisso-inicio">10h40</time>
              
              -
              <time class="compromisso-fim">11h10</time>
</div>
</div>
<div class="compromisso-dados">
<h4 class="compromisso-titulo">Braga Netto, Ministro-Chefe da Casa Civil da Presidência da República</h4>
<div class="compromisso-footer">
<div class="compromisso-local">Palácio do Planalto</div>
<div class="download-compromisso">
<a class="add-agenda vcal" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/agenda-do-presidente-da-republica/2021-03-19/braga-netto-ministro-chefe-da-casa-civil-da-presidencia-da-republica/vcal_view">
<i class="far fa-calendar-alt"></i>
<span>Adicionar ao meu calendário</span>
</a>
</div>
</div>
</div>
</div>
</li>
<li class="item-compromisso-wrapper">
<div class="item-compromisso">
<div

Agora que temos `lista`, observamos que cada compromisso está dentro de `<li class="item-compromisso-wrapper">`. 

Devemos, portanto, pegar todos (`find_all()`) as tags `li` com classe `item-compromisso-wrapper` que estão dentro de `lista`.

A esses itens vamos dar o nome de `itens`.

In [14]:
itens = lista.find_all("li", class_="item-compromisso-wrapper")

print(itens)

[<li class="item-compromisso-wrapper">
<div class="item-compromisso">
<div class="compromisso-horarios">
<i class="far fa-clock"></i>
<div class="horario">
<time class="compromisso-inicio">10h40</time>
              
              -
              <time class="compromisso-fim">11h10</time>
</div>
</div>
<div class="compromisso-dados">
<h4 class="compromisso-titulo">Braga Netto, Ministro-Chefe da Casa Civil da Presidência da República</h4>
<div class="compromisso-footer">
<div class="compromisso-local">Palácio do Planalto</div>
<div class="download-compromisso">
<a class="add-agenda vcal" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/agenda-do-presidente-da-republica/2021-03-19/braga-netto-ministro-chefe-da-casa-civil-da-presidencia-da-republica/vcal_view">
<i class="far fa-calendar-alt"></i>
<span>Adicionar ao meu calendário</span>
</a>
</div>
</div>
</div>
</div>
</li>, <li class="item-compromisso-wrapper">
<div class="item-compromisso">
<div class="compromisso-horarios"

Os dados que queremos estão nas tags:

- horário inicial: `<time class="compromisso-inicio">`
- horário final: `<time class="compromisso-fim">`
- compromisso: `<h4 class="compromisso-titulo">`
- local: `<div class="compromisso-local">`

Como o que temos em `itens` é uma lista, podemos iterar sobre os elementos pegando (`find()`) os textos que estão contidos nas tags e classes, e salvar isso tudo num dicionário. 

In [15]:
for i in itens:
    inicio = i.find("time", class_="compromisso-inicio")
    fim = i.find("time", class_="compromisso-fim")
    compromisso = i.find("h4", class_="compromisso-titulo")
    local = i.find("div", class_="compromisso-local")
    dicionario = dict(
        inicio=inicio, 
        fim=fim, 
        compromisso=compromisso, 
        local=local
    )
    
    print(dicionario)

{'inicio': <time class="compromisso-inicio">10h40</time>, 'fim': <time class="compromisso-fim">11h10</time>, 'compromisso': <h4 class="compromisso-titulo">Braga Netto, Ministro-Chefe da Casa Civil da Presidência da República</h4>, 'local': <div class="compromisso-local">Palácio do Planalto</div>}
{'inicio': <time class="compromisso-inicio">15h00</time>, 'fim': <time class="compromisso-fim">15h50</time>, 'compromisso': <h4 class="compromisso-titulo">Pedro Cesar Sousa, Subchefe para Assuntos Jurídicos da Secretaria-Geral da Presidência da República</h4>, 'local': <div class="compromisso-local">Palácio do Planalto</div>}


Notem que ainda temos código HTML nos resultados. Para eliminar isso, podemos passar, depois de `find()`, a função `text`. Assim:

In [16]:
for i in itens:
    inicio = i.find("time", class_="compromisso-inicio").text
    fim = i.find("time", class_="compromisso-fim").text
    compromisso = i.find("h4", class_="compromisso-titulo").text
    local = i.find("div", class_="compromisso-local").text
    dicionario = dict(
        inicio=inicio, 
        fim=fim, 
        compromisso=compromisso, 
        local=local
    )
    
    print(dicionario)

{'inicio': '10h40', 'fim': '11h10', 'compromisso': 'Braga Netto, Ministro-Chefe da Casa Civil da Presidência da República', 'local': 'Palácio do Planalto'}
{'inicio': '15h00', 'fim': '15h50', 'compromisso': 'Pedro Cesar Sousa, Subchefe para Assuntos Jurídicos da Secretaria-Geral da Presidência da República', 'local': 'Palácio do Planalto'}


Pronto. Perfeito. Raspamos os dados da agenda do presidente. Podemos agora salvar colocar o dicionário numa lista e salvar como `csv`, transformar em `json`, trabalhar com Pandas etc.

In [17]:
import csv

# Crio uma lista vazia
lista_final = list()

for i in itens:
    inicio = i.find("time", class_="compromisso-inicio").text
    fim = i.find("time", class_="compromisso-fim").text
    compromisso = i.find("h4", class_="compromisso-titulo").text
    local = i.find("div", class_="compromisso-local").text
    dicionario = dict(
        inicio=inicio, 
        fim=fim, 
        compromisso=compromisso, 
        local=local
    )
    # Adiciono cada dicionário na lista que estava vazia
    lista_final.append(dicionario)

# Crio um arquivo...
with open('agenda_pres.csv', 'w') as file:
    # ...e escrevo os nomes das colunas...
    writer = csv.DictWriter(file, fieldnames=['inicio', 'fim', 'compromisso', 'local'])
    writer.writeheader()
    # ...e as linhas da lista
    writer.writerows(lista_final)

Cabe ressaltar que a lógica usada aqui, na página referente ao dia 19 de março de 2021, resultou em dois compromissos. Poderiam ser 2 milhões e o código seria o mesmo. 