# Coleta de dados WEB usando o BeautifulSoup

Este programa visa coletar os dados de candidatos do site Estadão, utilizando a biblioteca BeautifulSoup.

O código implementado foi reproduzido do bootcamp Diversidata - IGTI/Banco Pan

In [27]:
!pip install beautifulsoup4



In [2]:

!pip install requests



In [3]:
# O primeiro passo temos que importar as bibliotecas que vamos utilizar

import requests # para realizar as requisições HTMLs
from bs4 import BeautifulSoup #
import re # trabalhar com expressão regular

In [4]:
# Vamos fazer uma requisição ao link que contém as informações dos candidatos

# Criamos uma variável e atribuimos
r = requests.get("https://politica.estadao.com.br/eleicoes/2020/candidatos")

In [6]:
# criando um objeto do soup para receber o texto do requests e parsar o parametro html.parser
soup = BeautifulSoup(r.text, 'html.parser')

Esse tipo vai permitir realizar uma varredura no HTML e, assim, extrair seu conteúdo.

O próximo passo é analisar o conteúdo da página e buscar a Tag que contém as informações dos candidatos, através da ferramenta desenvolvedor.

In [8]:
#vamos utilizar o método que examina os descendentes de uma tag e recupera todos os descendentes que correspondem
#nesse caso vamos procurar a tag div e pela class col-cx-12 -only
candidatos = soup.find_all("div", attrs = {"class": "col-xs-12 -only"})

In [9]:
type(candidatos)

bs4.element.ResultSet

In [10]:
candidatos[:3]

[<div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55" title="andrea matarazzo"> <div class="mold-cand"> <div class="cand-mask"> <img alt="andrea matarazzo" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250000661535_div.jpg" onerror="this.onerror=null;this.src='https://statics.estadao.com.br/s2016/portal/eleicoes2020/img/img_placeholder.png';"/> </div> <div class="cand-desc"> <h3 class="cand-name">andrea matarazzo</h3> <span class="cand-partido">PSD</span> </div> </div> </a> </div>,
 <div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29" title="antônio carlos"> <div class="mold-cand"> <div class="cand-mask"> <img alt="antônio carlos" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250001172314_div.jpg" onerror="this.onerror=null;this.src='https:

A função usada acima transforma os dados sobre os candidatos em uma lista. POdemos perceber que cada candidato está separado por vírgula. Ainda que os dados estejam desorganizados, já podemos encontrar o nome dos candidatos, partido, link da página e etc.

In [11]:
#Extração do nome candidato utilizando a TAG "img"
nome_candidato = candidatos[1].img["alt"] # Traz o primeiro elemento da lista
#Extração do nome candidato utilizando a TAG "a"
nome_candidato2 = candidatos[1].a["title"]
print('Extração do nome do candidato utilizando a TAG "img": ',nome_candidato)
print('Extração do nome do candidato utilizando a TAG "a": ', nome_candidato2)

Extração do nome do candidato utilizando a TAG "img":  antônio carlos
Extração do nome do candidato utilizando a TAG "a":  antônio carlos


In [12]:
#busca dentro da tag span o nome do partido
partido = candidatos[1].span.text
print(partido)

PCO


In [13]:
link_cand = candidatos[1].a["href"]
print(link_cand)

https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


In [14]:
import re #biblioteca de expressão regular, para tratamento dos dados

In [15]:
print(candidatos[1].a["href"])

https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


É possível também extrair informações direto do link. O link possui informações sobre a cidade, estado, número e etc.

In [16]:
#agora vamos artibuir para as veriaveis 
estado = re.split('/', candidatos[1].a["href"])[6]
cidade = re.split('/', candidatos[1].a["href"])[7]
link = candidatos[1].a["href"]

In [17]:
print(estado, cidade, link)

sp sao-paulo https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


In [18]:
#estrutura para receber os dados em uma lista
lista_candidatos = []
# buscar o nome do candidado
for candidato in candidatos:
    dados_candidato = []
    dados_candidato.append(candidato.img["alt"]) # nome do candidato
    dados_candidato.append(candidato.span.text) # partido 
    dados_candidato.append(re.split('/', candidato.a["href"])[6])
    dados_candidato.append(re.split('/', candidato.a["href"])[7])
    dados_candidato.append(candidato.a["href"])
    lista_candidatos.append(dados_candidato)

In [19]:
lista_candidatos[:3]

[['andrea matarazzo',
  'PSD',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55'],
 ['antônio carlos',
  'PCO',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29'],
 ['arthur do val mamãe falei',
  'PATRIOTA',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/arthur-do-val-mamae-falei,51']]

criando um dataframe com os dados da lista

In [20]:
import pandas as pd

In [21]:
# Criando um data frame passando a lista de candidats e inserindo as colunas
df_candidatos = pd.DataFrame(lista_candidatos, columns=['nome_candidato', 'partido', 'estado', 'cidade', 'link'])

In [22]:
df_candidatos[:4]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...


# Tratando os dados contados

In [24]:
#retirando o hífen de são paulo, colocando em maiusculo e adicionando o ~
df_candidatos['cidade'] = df_candidatos['cidade'].str.upper().str.replace('-',' ').str.replace("SAO", "SÃO")

#visualiza DataFrame
df_candidatos

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,guilherme boulos,PSOL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,jilmar tatto,PT,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,joice hasselmann,PSL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,levy fidelix,PRTB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,marina helou,REDE,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...


In [25]:
df_candidatos['estado'] = df_candidatos['estado'].str.upper()

In [26]:
df_candidatos[:10]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,guilherme boulos,PSOL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,jilmar tatto,PT,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,joice hasselmann,PSL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,levy fidelix,PRTB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,marina helou,REDE,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
