<a href="https://colab.research.google.com/github/oldairjsilva/IGTI/blob/main/coleta_dados_web_bs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta de dados na Web 
Vamos iniciar nosso primeiro web crawling utilizando as bibliotecas requests e BeautifulSoup

In [None]:
!pip install beautifulsoup4



In [None]:
!pip install requests

Collecting requests
  Downloading requests-2.27.1-py2.py3-none-any.whl (63 kB)
     ---------------------------------------- 63.1/63.1 KB 1.1 MB/s eta 0:00:00
Collecting charset-normalizer~=2.0.0
  Downloading charset_normalizer-2.0.12-py3-none-any.whl (39 kB)
Collecting idna<4,>=2.5
  Using cached idna-3.3-py3-none-any.whl (61 kB)
Collecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.9-py2.py3-none-any.whl (138 kB)
     -------------------------------------- 139.0/139.0 KB 2.8 MB/s eta 0:00:00
Collecting certifi>=2017.4.17
  Using cached certifi-2021.10.8-py2.py3-none-any.whl (149 kB)
Installing collected packages: certifi, urllib3, idna, charset-normalizer, requests
Successfully installed certifi-2021.10.8 charset-normalizer-2.0.12 idna-3.3 requests-2.27.1 urllib3-1.26.9


In [None]:
# O primeiro passo temos que importar as bibliotecas que vamos utilizar

import requests # para realizar as requisiçoes HTMLs
from bs4 import BeautifulSoup
import re #trabalhar com expressão regular

Para esse estudo vamos extrair informações dos candidatos a prefeitos de 3 cidades (São Paulo, Rio de Janeiro e Belo Horizonte)
Vamos acessar o site "https://politica.estadao.com.br/eleicoes/2020/candidatos"

Vamos extrair as seguintes informações:

1. Nome do candidato
2. Partido do candidado
3. O estado
4. A cidade
5. O endereço de link do candidato

In [None]:
# Vamos fazer uma requisição ao link que contém as informações dos candidatos

# Criamos uma variável e atribuimos
r = requests.get("https://politica.estadao.com.br/eleicoes/2020/candidatos")

In [None]:
# Para ver o conteúdo do texto execute o código abaixo
r.text

'<!DOCTYPE html><html lang="pt-BR"><head><script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\': new Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src= \'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f); })(window,document,\'script\',\'dataLayerEstadao\',\'GTM-M4LH38R\');</script><meta charset="UTF-8"/><link rel="preconnect" href="https://img.estadao.com.br" /><link rel="preconnect" href="https://statics.estadao.com.br" /><link rel="preconnect" href="https://www.googletagmanager.com" /><link rel="preconnect" href="https://www.google-analytics.com" /><link rel="preconnect" href="https://tag.navdmp.com" /><link rel="preconnect" href="https://acesso.estadao.com.br" /><link rel="preconnect" href="https://connect.facebook.net" /><link rel="preconnect" href="https://fundingchoicesmessages.google.com" /><link rel="dns-prefetch" href="https://securepuba

Perceba que veio todo o conteúdo do HTML. Porém dessa forma é difícil de trabalhar. Então o próximo passo é criar um objeto BeautifulSoup para tratar e encontrar os elementos da página.

In [None]:
# Vamos então criar objeto soup que vai receber o texto do requests e passar o parametro html.parser
soup = BeautifulSoup(r.text, 'html.parser')

In [None]:
type(soup) # Vamos ver o tipo do objeto criado

bs4.BeautifulSoup

Veja que o objeto criado é do tipo bs4.BeautifulSoup com ele vai ser possível fazer uma varredura no HTML e assim, extrair seu conteúdo.
O próximo passo é analisar o conteúdo da página. E buscar a Tag que contém as informações dos candidatos. Para essa tarefa utilizar o navegador google Chrome. Com a página aberta no navegador, clique com o botão direito do mouse em cima da imagem do candidato em seguida clique em inspecionar.

In [None]:
# Vamos utilizar o método examina os descendentes de uma tag e recupera todos os descendentes que correspondem aos seus elementos
# Nesse caso vamos procurar a tag Div e pela class col-xs-12 -only
candidatos = soup.find_all("div", attrs={"class": "col-xs-12 -only"})

O método traz uma lista do tipo BeautifulSoup de tags para cada candidato dessa forma podemos exibir os itens dentro da lista

In [None]:
type(candidatos)

bs4.element.ResultSet

In [None]:
# Vamos listar os itens que estão na lista de candidatos
candidatos[:3] # traz os primeiros elementos da lista

[<div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55" title="andrea matarazzo"> <div class="mold-cand"> <div class="cand-mask"> <img alt="andrea matarazzo" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250000661535_div.jpg" onerror="this.onerror=null;this.src='https://statics.estadao.com.br/s2016/portal/eleicoes2020/img/img_placeholder.png';"/> </div> <div class="cand-desc"> <h3 class="cand-name">andrea matarazzo</h3> <span class="cand-partido">PSD</span> </div> </div> </a> </div>,
 <div class="col-xs-12 -only"> <a href="https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29" title="antônio carlos"> <div class="mold-cand"> <div class="cand-mask"> <img alt="antônio carlos" class="elazy" data-src="https://img.estadao.com.br/fotos/politica/eleicoes-2020/SP/FSP250001172314_div.jpg" onerror="this.onerror=null;this.src='https:

Perceba que cada candidato é separado por uma "vírgula" assim podemos identificar os elementos dentro das tags. Vamos nesse momento iniciar o tratamento dos dados. Vamos iniciar então a extração dos dados.

Dentro de cada item da lista possuem várias tags. Por exemplo: div, a, span, img. Nossa tarefa é identificar qual tag esta cada dado e indicar o nome do candidato podemos extrair das tags a, img

In [None]:
# Extração do nome candidato utilizando a TAG "img"
nome_candidato = candidatos[1].img["alt"] # Traz o primeiro elemento da lista
# Extração do nome candidato utilizando a TAG "a"
nome_candidato2 = candidatos[1].a["title"]
print('Extração do nome do candidato utlizando a TAG "img": ', nome_candidato)
print('Extração do nome do candidato utlizando a TAG "a": ', nome_candidato2)

Extração do nome do candidato utlizando a TAG "img":  antônio carlos
Extração do nome do candidato utlizando a TAG "a":  antônio carlos


Agora vamos fazer a coleta para os outros atributos: partido, estado, cidade, link_candidato

In [None]:
# Buscando o partido do candidato
partido = candidatos[1].span.text
print(partido)

PCO


As informações de estado e cidade estão presentes dentro da TAG "a". A TAG "a" é um link de acesso, então vamos utilizar uma expressão regular para separar e encontrar os dados dentro do link.

Para isso vamos importar a biblioteca re.

In [None]:
import re

Vamos ver como está a construção do link contido na página.

In [None]:
print(candidatos[1].a["href"])

https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


Perceba que as informações de estado e cidade estão separados por "/". Então vamos executar o comando split para separar as palavras dentro de um vetor

In [None]:
print(re.split('/', candidatos[1].a["href"]))

['https:', '', 'politica.estadao.com.br', 'eleicoes', '2020', 'candidatos', 'sp', 'sao-paulo', 'prefeito', 'antonio-carlos,29']


Vejam que cada palavra foi separada dentro de um vetor. O vetor pode ser acessado informando a sua posição. Neste caso, a posição 6 e 7 indicam o estado e a cidade do candidato.

In [None]:
print("Estado do candidato: ", re.split('/', candidatos[1].a["href"])[6])
print("Cidade do candidato: ", re.split('/', candidatos[1].a["href"])[7])

Estado do candidato:  sp
Cidade do candidato:  sao-paulo


In [None]:
# Agora vamos atribuir para as variáveis
estado = re.split('/', candidatos[1].a["href"])[6]
cidade = re.split('/', candidatos[1].a["href"])[7]
link = candidatos[1].a["href"]

In [None]:
print(estado, cidade, link)

sp sao-paulo https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29


Ótimo! Agora que temos todos os dados que queremos, vamos criar uma estrutura que percorra toda a lista de candidatos e coletando os dados. Ao final teremos uma lista contendo todos os dados dos candidatos.

Vamos criar um for para percorrer toda a lista e adicionar os elementos que queremos.

In [None]:
lista_candidatos = []
# buscar o nome do candidato
for candidato in candidatos:
    dados_candidato = []
    dados_candidato.append(candidato.img["alt"]) # nome do candidato
    dados_candidato.append(candidato.span.text) # partido
    dados_candidato.append(re.split('/', candidato.a["href"])[6]) # estado
    dados_candidato.append(re.split('/', candidato.a["href"])[7]) # cidade
    dados_candidato.append(candidato.a["href"]) # link
    lista_candidatos.append(dados_candidato)

In [None]:
lista_candidatos[:2]

[['andrea matarazzo',
  'PSD',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/andrea-matarazzo,55'],
 ['antônio carlos',
  'PCO',
  'sp',
  'sao-paulo',
  'https://politica.estadao.com.br/eleicoes/2020/candidatos/sp/sao-paulo/prefeito/antonio-carlos,29']]

Com os dados coletados e adicionados na lista de candidatos, vamos agora criar um Dataframe. Para isso vamos utlizar a biblioteca do pandas.

In [None]:
import pandas as pd

In [None]:
# Criando um data frame passando a lista de candidatos e inserindo as colunas
df_candidatos = pd.DataFrame(lista_candidatos, columns = ['nome_candidato', 'partido', 'estado', 'cidade', 'link'])

In [None]:
df_candidatos[:4]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...


# Explorando e tratando os dados coletados
Pronto! Agora estamos com os dados carregados no nosso DataFrame. Vamos então explorar e tratar um pouco os dados?

In [None]:
# contar quantos candidatos temos por estado
df_candidatos['estado'].value_counts()

mg    16
sp    14
rj    14
Name: estado, dtype: int64

In [None]:
# contar quantos candidatos temos por estado
df_candidatos['cidade'].value_counts()

belo-horizonte    16
sao-paulo         14
rio-de-janeiro    14
Name: cidade, dtype: int64

In [None]:
# contar quantos candidatos temos por partido
df_candidatos['partido'].value_counts()

PCO              3
REPUBLICANOS     3
PSOL             3
PT               3
PSTU             3
PRTB             3
NOVO             3
PSD              2
PMB              2
PROS             2
PC do B          2
REDE             2
PSL              2
PSDB             2
PATRIOTA         2
PSB              1
PDT              1
DEM              1
PSC              1
MDB              1
CIDADANIA        1
SOLIDARIEDADE    1
Name: partido, dtype: int64

# Realizando tratamento de texto

In [None]:
df_candidatos[:6]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...
5,guilherme boulos,PSOL,sp,sao-paulo,https://politica.estadao.com.br/eleicoes/2020/...


Perceba que no DataFrame contém dados em letras minúsculas e a coluna de cidade os nomes estão separados com um hífem. Vamos então tratar esses dados substituindo o hífem por um espaço e alterando os nomes para maiúsculas.

In [None]:
df_candidatos[:2].cidade.str.replace('-', ' ').str.upper()

0    SAO PAULO
1    SAO PAULO
Name: cidade, dtype: object

Podemos ainda fazer a correção da palavra São Paulo. Vamos alterar inserindo o til "~"

In [None]:
df_candidatos[:2]['cidade'].str.upper().str.replace('-', ' ').str.replace("SAO", "SÃO")

0    SÃO PAULO
1    SÃO PAULO
Name: cidade, dtype: object

Agora temos os tratamentos. Porém temos que atribuir essas mudanças ao próprio DataFrame na coluna cidade criada. Obs: Não se esqueçam de retirar o delimitador da lista [:2]

In [None]:
df_candidatos['cidade'] = df_candidatos['cidade'].str.upper().str.replace('-', ' ').str.replace("SAO", "SÃO")

# Visualizando DataFrame
df_candidatos

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,andrea matarazzo,PSD,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,antônio carlos,PCO,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,arthur do val mamãe falei,PATRIOTA,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,bruno covas,PSDB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,celso russomanno,REPUBLICANOS,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,guilherme boulos,PSOL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,jilmar tatto,PT,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,joice hasselmann,PSL,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,levy fidelix,PRTB,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,marina helou,REDE,sp,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...


Vamos colocar em maiúsculo também as colunas nome_candidado e estado

In [None]:
df_candidatos.nome_candidato = df_candidatos.nome_candidato.str.upper()
df_candidatos.estado = df_candidatos.estado.str.upper()

# Visualiza DataFrame
df_candidatos[:3]

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,ANDREA MATARAZZO,PSD,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,ANTÔNIO CARLOS,PCO,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,ARTHUR DO VAL MAMÃE FALEI,PATRIOTA,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...


# Verificando coleta de dados

In [None]:
df_candidatos

Unnamed: 0,nome_candidato,partido,estado,cidade,link
0,ANDREA MATARAZZO,PSD,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
1,ANTÔNIO CARLOS,PCO,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
2,ARTHUR DO VAL MAMÃE FALEI,PATRIOTA,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
3,BRUNO COVAS,PSDB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
4,CELSO RUSSOMANNO,REPUBLICANOS,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
5,GUILHERME BOULOS,PSOL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
6,JILMAR TATTO,PT,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
7,JOICE HASSELMANN,PSL,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
8,LEVY FIDELIX,PRTB,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
9,MARINA HELOU,REDE,SP,SÃO PAULO,https://politica.estadao.com.br/eleicoes/2020/...
