# Coleta de dados na Web

Vamos iniciar nosso primeiro web crawling utilizando as bibliotecas requests e BeautifulSoup

In [None]:
!pip install beautifulsoup4

In [None]:
!pip install requests

In [None]:
# O primeiro passo temos que importar as bibliotecas que vamos utilizar

import requests # para realizar as requisições HTMLs
from bs4 import BeautifulSoup #
import re # trabalhar com expressão regular

Para esse estudo vamos extrair informações dos candidatos a prefeitos a prefeitura de 3 cidades (São Paulo, Rio de Janeiro e Belo horizonte) Vamos acessar o site "https://politica.estadao.com.br/eleicoes/2020/candidatos"

Vamos extrair as seguintes informações:
1. Nome do candidato
2. Partido do candidato
3. O estado 
4. A cidade
5. O endereço de link do candidato


In [None]:
# Vamos fazer uma requisição ao link que contém as informações dos candidatos

# Criamos uma variável e atribuimos
r = requests.get("https://politica.estadao.com.br/eleicoes/2020/candidatos")


In [None]:
# Para ver o conteúdo do texto execute o código abaixo
r.text

Perceba que veio todo o conteúdo do HTML. Porém dessa forma é dificil de trabalhar. Então o proximo passo é criar um objeto BeautifulSoup para tratar e encontrar os elementos na página.

In [None]:
# vamos então criar objeto soup que vai receber o texto do requests e parsar o parametro html.parser
soup = BeautifulSoup(r.text, 'html.parser')

In [None]:
type(soup) #vamos ver o tipo do objeto criardo

Veja que o objeto criado é do tipo bs4.BeautifulSoup com ele vai ser possível fazer uma varredura no HTML e assim, extrair seu conteúdo.

O próximo passo é analisar o contéudo da página. E buscar a Tag que contém as informações dos candidatos. Para essa terefa vamos utiliar o navegador google Chrome. Com a página aberta no navegador, clique com o botão direito do mouse em cima da imagem do candidato em seguida clique em inspecionar.

![image.png](attachment:5e781ef1-d437-4578-b29c-b157c7a21f4c.png)



Ao inspecionar a página identificamos que a 'div class="col-xs-12 -only' contém as informações que estamos querendo coletar

![image.png](attachment:7c33d8f3-a370-4c45-84b9-4f30f307a89e.png)

In [None]:
# vamos utilizar o método método examina os descendentes de uma tag e recupera todos os descendentes que correspondem aos seus filtros
# Nesse caso vamos procurar a tag Div e pela class col-xs-12 -onl
candidatos = soup.find_all("div", attrs={"class": "col-xs-12 -only"})

O método traz uma lista do tipo BeautifulSoap de tags para cada candidato dessa forma podemos exibir os itens dentro da lista


In [None]:
type(candidatos)

In [None]:
#vamos listar os itens que estão na lista de candidatos
candidatos[:3] # traz os primeiros elementos da lista



Perceba que cada candidato é separado por uma "virgula" assim podemos identificar os elementos dentro das tags
Vamos nesse momento iniciar o tratamento dos dados. Vamos iniciar então a extração dos dados.

Dentro de cada item da lista possuem várias tags. Por exemplo: div, a, span, img. Nossa tarefa é identificar qual tag esta cada dado e indicar. O nome do candidato podemos extrair das tags a, img

In [None]:
#Extração do nome candidato utilizando a TAG "img"
nome_candidato = candidatos[1].img["alt"] # Traz o primeiro elemento da lista
#Extração do nome candidato utilizando a TAG "a"
nome_candidato2 = candidatos[1].a["title"]
print('Extração do nome do candidato utilizando a TAG "img": ',nome_candidato)
print('Extração do nome do candidato utilizando a TAG "a": ', nome_candidato2)

Agora vamos fazer a coleta para os outros atributos: partido, estado, cidade, link_candidato

In [None]:
# buscando o partido do candidato
partido = candidatos[1].span.text
print(partido)

As informações de estado e cidade estão presentes dentro da TAG "a". A TAG "a" é um link de acesso, então vamos utilizar uma expressão regular para separar e encontrar os dados dentro do link. 

Para isso vamos importar a biblioteca re


In [None]:
import re 

Vamos ver como está a construção do link contido na página.


In [None]:
print(candidatos[1].a["href"])

Perceba que as informações de estado e cidade estão separados por "/" . 
Então vamos executar o comando split para separar as palavras dentro de um vetor

In [None]:
print(re.split('/', candidatos[1].a["href"]))

Vejam que cada palavra foi separada dentro de um vetor. O vetor pode ser acessado informando a sua posição. 
Neste caso, a posição 6 e 7 indicam o estado e a cidade do candidato. 

In [None]:
print("Estado do candidato: ", re.split('/', candidatos[1].a["href"])[6])
print("Cidade do candidato:", re.split('/', candidatos[1].a["href"])[7])

In [None]:
#agora vamos artibuir para as veriaveis 
estado = re.split('/', candidatos[1].a["href"])[6]
cidade = re.split('/', candidatos[1].a["href"])[7]
link = candidatos[1].a["href"]

In [None]:
print (estado, cidade, link)

Ótimo! Agora que temos todos os dados que queremos, vamos criar uma estrutura que percorra toda a lista de candidados
e coletando os dados. Ao final teremos uma lista contendo todos os dados dos candidatos.

Vamos criar um for para percorrer toda a lista e adicionar os elementos que queremos.

In [None]:
lista_candidatos = []
# buscar o nome do candidado
for candidato in candidatos:
    dados_candidato = []
    dados_candidato.append(candidato.img["alt"]) # nome do candidato
    dados_candidato.append(candidato.span.text) # partido 
    dados_candidato.append(re.split('/', candidato.a["href"])[6])
    dados_candidato.append(re.split('/', candidato.a["href"])[7])
    dados_candidato.append(candidato.a["href"])
    lista_candidatos.append(dados_candidato)
    
    
   

In [None]:
lista_candidatos[:2]

Com os dados coletados e adicionados na lista de candidatos, vamos agora criar um Dataframe. Para isso vamos utilizar a biblioteca do pandas. 

In [None]:
import pandas as pd

In [None]:
# Criando um data frame passando a lista de candidats e inserindo as colunas
df_candidatos = pd.DataFrame(lista_candidatos, columns=['nome_candidato', 'partido', 'estado', 'cidade', 'link'])

In [None]:
df_candidatos[:4]

# Explorando e tratando os dados coletados

Pronto! Agora estamos com os dados carregados no nosso DataFrame. Vamos então explorar e tratar um pouco os dados?


In [None]:
# contar quantos candidatos temos por estado
df_candidatos['estado'].value_counts()

In [None]:
# contar quantos candidatos temos por estado
df_candidatos['cidade'].value_counts()

In [None]:
# Contar quantos candidatos temos por partido
df_candidatos['partido'].value_counts()

# Realizando tratamento de texto 


In [None]:
df_candidatos[:5]

Perceba que no Dataframe contém dados em letras minusculas e a coluna de cidade os nomes estão separados com um hífem. 
Vamos então tratar esses dados substituindo o hífem por um espaço e alterando os nomes para maiúscalas

In [None]:
df_candidatos[:2].cidade.str.replace('-',' ').str.upper()

Podemos ainda fazer a correção da palavra Sao Paulo. Vamos alterar inserindo o til "~"

In [None]:
df_candidatos[:2]['cidade'].str.upper().str.replace('-',' ').str.replace("SAO", "SÃO")

Agora temos os tratamentos. Porém temos que atribuir essas mudanças ao proprio DataFrame na coluna cidade criada
Obs: Não se esqueçam de retirar o demilitador da lista [:2]

In [None]:
df_candidatos['cidade'] = df_candidatos['cidade'].str.upper().str.replace('-',' ').str.replace("SAO", "SÃO")

#visualiza DataFrame
df_candidatos

Vamos colocar em maiúsculo também as colunas nome_candidato e estado


In [None]:
df_candidatos.nome_candidato = df_candidatos.nome_candidato.str.upper()
df_candidatos.estado = df_candidatos.estado.str.upper()

#visualiza DataFrame
df_candidatos[:3]

# Verificando coleta de dados


In [None]:
df_candidatos