<a href="https://colab.research.google.com/github/LTayrone/analisesexploratorias/blob/main/coleta_candidatos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta de dados na Web

Vamos iniciar nosso primeiro web crawling utilizando as bibliotecas requests e BeautifulSoup

In [1]:
!pip install beautifulsoup4



In [2]:
# O primeiro passo temos que importar as bibliotecas que vamos utilizar

import requests # para realizar as requisições HTMLs
from bs4 import BeautifulSoup #
import re # trabalhar com expressão regular

Para esse estudo vamos extrair informações dos candidatos a prefeitos a prefeitura de 3 cidades (São Paulo, Rio de Janeiro e Belo horizonte) Vamos acessar o site "https://politica.estadao.com.br/eleicoes/2020/candidatos"

Vamos extrair as seguintes informações:
1. Nome do candidato
2. Partido do candidato
3. O estado 
4. A cidade
5. O endereço de link do candidato


In [3]:
# Vamos fazer uma requisição ao link que contém as informações dos candidatos

# Criamos uma variável e atribuimos
r = requests.get("https://politica.estadao.com.br/eleicoes/2020/candidatos")


In [4]:
# Para ver o conteúdo do texto execute o código abaixo
r.text

'<!DOCTYPE html><html lang="pt-BR"><head><script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\': new Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src= \'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f); })(window,document,\'script\',\'dataLayerEstadao\',\'GTM-M4LH38R\');</script><meta charset="UTF-8"/><script async=\'async\' src=\'https://www.googletagservices.com/tag/js/gpt.js\'></script><script async=\'async\' src="https://statics.estadao.com.br/s2016/utils/publicidade/dfp.min.js"></script> <script type=\'text/javascript\'> var DFP = DFP || {}; DFP.cmd = DFP.cmd || []; DFP.cmd.push(function(){DFP.Prebid.init({ "bids": [{ "accepted_formats": [{ "devices": ["xl", "lg", "md", "sm", "xs"], "format": [300, 250], "params": { "networkId": 5963 } }, { "devices": ["xl", "lg", "md"], "format": [970, 90], "params": { "networkId": 5963 } }, { "devices": 

Perceba que veio todo o conteúdo do HTML. Porém dessa forma é dificil de trabalhar. Então o proximo passo é criar um objeto BeautifulSoup para tratar e encontrar os elementos na página.

In [5]:
# vamos então criar objeto soup que vai receber o texto do requests e parsar o parametro html.parser
soup = BeautifulSoup(r.text, 'html.parser')

In [6]:
type(soup) #vamos ver o tipo do objeto criardo

bs4.BeautifulSoup

Veja que o objeto criado é do tipo bs4.BeautifulSoup com ele vai ser possível fazer uma varredura no HTML e assim, extrair seu conteúdo.

O próximo passo é analisar o contéudo da página. E buscar a Tag que contém as informações dos candidatos. Para essa terefa vamos utiliar o navegador google Chrome. Com a página aberta no navegador, clique com o botão direito do mouse em cima da imagem do candidato em seguida clique em inspecionar.

![image.png](attachment:5e781ef1-d437-4578-b29c-b157c7a21f4c.png)



Ao inspecionar a página identificamos que a 'div class="col-xs-12 -only' contém as informações que estamos querendo coletar

![image.png](attachment:7c33d8f3-a370-4c45-84b9-4f30f307a89e.png)

In [7]:
# vamos utilizar o método método examina os descendentes de uma tag e recupera todos os descendentes que correspondem aos seus filtros
# Nesse caso vamos procurar a tag Div e pela class col-xs-12 -onl
candidatos = soup.find_all("div", attrs={"class": "col-xs-12 -only"})

O método traz uma lista do tipo BeautifulSoap de tags para cada candidato dessa forma podemos exibir os itens dentro da lista


In [8]:
type(candidatos)

bs4.element.ResultSet

In [11]:
#vamos listar os itens que estão na lista de candidatos
candidatos[:5] # traz os primeiros elementos da lista

[<div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55" title="andrea matarazzo"> <div class="mold-cand "> <div class="cand-mask"> <img alt="andrea matarazzo" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250000661535_div.jpg" onerror="this.onerror=null;this.src='https://statics.estadao.com.br/s2016/portal/eleicoes2020/img/img_placeholder.png';"/> </div> <div class="cand-desc"> <h3 class="cand-name">andrea matarazzo</h3> <span class="cand-partido">PSD</span> </div> </div> </a> </div>,
 <div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29" title="antônio carlos"> <div class="mold-cand "> <div class="cand-mask"> <img alt="antônio carlos" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250001172314_div.jpg" onerror="this.onerror=null;this.src='http



Perceba que cada candidato é separado por uma "virgula" assim podemos identificar os elementos dentro das tags
Vamos nesse momento iniciar o tratamento dos dados. Vamos iniciar então a extração dos dados.

Dentro de cada item da lista possuem várias tags. Por exemplo: div, a, span, img. Nossa tarefa é identificar qual tag esta cada dado e indicar. O nome do candidato podemos extrair das tags a, img

In [12]:
#Extração do nome candidato utilizando a TAG "img"
nome_candidato = candidatos[1].img["alt"] # Traz o primeiro elemento da lista
#Extração do nome candidato utilizando a TAG "a"
nome_candidato2 = candidatos[1].a["title"]
print('Extração do nome do candidato utilizando a TAG "img": ',nome_candidato)
print('Extração do nome do candidato utilizando a TAG "a": ', nome_candidato2)

Extração do nome do candidato utilizando a TAG "img":  antônio carlos
Extração do nome do candidato utilizando a TAG "a":  antônio carlos


Agora vamos fazer a coleta para os outros atributos: partido, estado, cidade, link_candidato

In [13]:
# buscando o partido do candidato
partido = candidatos[1].span.text
print(partido)

PCO


As informações de estado e cidade estão presentes dentro da TAG "a". A TAG "a" é um link de acesso, então vamos utilizar uma expressão regular para separar e encontrar os dados dentro do link. 

Para isso vamos importar a biblioteca re


In [14]:
import re 

Vamos ver como está a construção do link contido na página.


In [None]:
print(candidatos[1].a["href"])

https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


Perceba que as informações de estado e cidade estão separados por "/" . 
Então vamos executar o comando split para separar as palavras dentro de um vetor

In [15]:
print(re.split('/', candidatos[1].a["href"]))

['https:', '', 'politica.estadao.com.br', 'eleicoes', '2020', 'candidatos', 'sp', 'sao-paulo', 'prefeito', 'antonio-carlos,29']


Vejam que cada palavra foi separada dentro de um vetor. O vetor pode ser acessado informando a sua posição. 
Neste caso, a posição 6 e 7 indicam o estado e a cidade do candidato. 

In [16]:
print("Estado do candidato: ", re.split('/', candidatos[1].a["href"])[6])
print("Cidade do candidato:", re.split('/', candidatos[1].a["href"])[7])

Estado do candidato:  sp
Cidade do candidato: sao-paulo


In [17]:
#agora vamos artibuir para as veriaveis 
estado = re.split('/', candidatos[1].a["href"])[6]
cidade = re.split('/', candidatos[1].a["href"])[7]
link = candidatos[1].a["href"]

In [18]:
print (estado, cidade, link)

sp sao-paulo https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


Ótimo! Agora que temos todos os dados que queremos, vamos criar uma estrutura que percorra toda a lista de candidados
e coletando os dados. Ao final teremos uma lista contendo todos os dados dos candidatos.

Vamos criar um for para percorrer toda a lista e adicionar os elementos que queremos.

In [19]:
lista_candidatos = []
# buscar o nome do candidado
for candidato in candidatos:
    dados_candidato = []
    dados_candidato.append(candidato.img["alt"]) # nome do candidato
    dados_candidato.append(candidato.span.text) # partido 
    dados_candidato.append(re.split('/', candidato.a["href"])[6])
    dados_candidato.append(re.split('/', candidato.a["href"])[7])
    dados_candidato.append(candidato.a["href"])
    lista_candidatos.append(dados_candidato)
    
    
   

In [22]:
lista_candidatos[:2]

[['andrea matarazzo',
  'PSD',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55'],
 ['antônio carlos',
  'PCO',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29']]

Com os dados coletados e adicionados na lista de candidatos, vamos agora criar um Dataframe. Para isso vamos utilizar a biblioteca do pandas. 

In [23]:
import pandas as pd

In [24]:
# Criando um data frame passando a lista de candidats e inserindo as colunas
df_candidatos = pd.DataFrame(lista_candidatos, columns=['nome_candidato', 'partido', 'estado', 'cidade', 'link'])

In [25]:
df_candidatos[:4]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...


# Explorando e tratando os dados coletados

Pronto! Agora estamos com os dados carregados no nosso DataFrame. Vamos então explorar e tratar um pouco os dados?


In [26]:
# contar quantos candidatos temos por estado
df_candidatos['estado'].value_counts()

mg    16
rj    14
sp    14
Name: estado, dtype: int64

In [27]:
# contar quantos candidatos temos por estado
df_candidatos['cidade'].value_counts()

belo-horizonte    16
rio-de-janeiro    14
sao-paulo         14
Name: cidade, dtype: int64

In [28]:
# Contar quantos candidatos temos por partido
df_candidatos['partido'].value_counts()

PSOL             3
REPUBLICANOS     3
PRTB             3
PT               3
PCO              3
PSTU             3
NOVO             3
PROS             2
PSD              2
PMB              2
PATRIOTA         2
REDE             2
PSL              2
PC do B          2
PSDB             2
MDB              1
SOLIDARIEDADE    1
PSC              1
CIDADANIA        1
PSB              1
DEM              1
PDT              1
Name: partido, dtype: int64

# Realizando tratamento de texto 


In [29]:
df_candidatos[:5]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...


Perceba que no Dataframe contém dados em letras minusculas e a coluna de cidade os nomes estão separados com um hífem. 
Vamos então tratar esses dados substituindo o hífem por um espaço e alterando os nomes para maiúscalas

In [30]:
df_candidatos[:2].cidade.str.replace('-',' ').str.upper()

0    SAO PAULO
1    SAO PAULO
Name: cidade, dtype: object

Podemos ainda fazer a correção da palavra Sao Paulo. Vamos alterar inserindo o til "~"

In [31]:
df_candidatos[:2]['cidade'].str.upper().str.replace('-',' ').str.replace("SAO", "SÃO")

0    SÃO PAULO
1    SÃO PAULO
Name: cidade, dtype: object

Agora temos os tratamentos. Porém temos que atribuir essas mudanças ao proprio DataFrame na coluna cidade criada
Obs: Não se esqueçam de retirar o demilitador da lista [:2]

In [32]:
df_candidatos['cidade'] = df_candidatos['cidade'].str.upper().str.replace('-',' ').str.replace("SAO", "SÃO")

#visualiza DataFrame
df_candidatos

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,guilherme boulos,PSOL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,jilmar tatto,PT,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,joice hasselmann,PSL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,levy fidelix,PRTB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,marina helou,REDE,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...


Vamos colocar em maiúsculo também as colunas nome_candidato e estado


In [33]:
df_candidatos.nome_candidato = df_candidatos.nome_candidato.str.upper()
df_candidatos.estado = df_candidatos.estado.str.upper()

#visualiza DataFrame
df_candidatos[:3]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,ANDREA MATARAZZO,PSD,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,ANTÔNIO CARLOS,PCO,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,ARTHUR DO VAL MAMÃE FALEI,PATRIOTA,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...


# Verificando coleta de dados


In [34]:
df_candidatos

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,ANDREA MATARAZZO,PSD,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,ANTÔNIO CARLOS,PCO,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,ARTHUR DO VAL MAMÃE FALEI,PATRIOTA,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,BRUNO COVAS,PSDB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,CELSO RUSSOMANNO,REPUBLICANOS,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,GUILHERME BOULOS,PSOL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,JILMAR TATTO,PT,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,JOICE HASSELMANN,PSL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,LEVY FIDELIX,PRTB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,MARINA HELOU,REDE,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
