# Parte 4 - Recuperar informações da Wikipedia

In [None]:
import requests

In [None]:
from requests.exceptions import ConnectionError

In [None]:
def download_html(url, numero_tentativas=2):
    print("Realizando o download da página:", url)
    try:
        req = requests.get(url)
        if req.status_code != 200:
            if numero_tentativas > 0:
                print("Não foi possível realizar o download. Erro:", req.status_code)
                print("\nRealizando nova tentativa:")
                return download_html(url, numero_tentativas - 1)
            else:
                print("Número de tentativas excedidas. Erro: {}".format(req.status_code))
                html = None
                return html
        html = req.text
        return html
    except ConnectionError as e:
        print("Erro no download:", e)
        html = None

In [None]:
html = download_html("https://pt.wikipedia.org/wiki/Unidades_federativas_do_Brasil")

In [None]:
from bs4 import BeautifulSoup

In [None]:
bs = BeautifulSoup(html, "html.parser")

In [None]:
print(bs.prettify())

In [None]:
print(bs.h1.text)

In [None]:
bs.h1

## Recuperar todos os links disponíveis nessa página

In [None]:
bs.a

Note que apenas um único link foi retornado. Para retornar todos precisamos utilizar um método chamado ```findall()```.

In [None]:
links = bs.findAll('a')
print(links)

In [None]:
print(type(links))

Note que além dos links, tem outras informações.

In [None]:
links[3]

Para imprimir/salvar apenas os links, precisamos iterar na lista que foi criada para pegar apenas o conteúdo do href.

In [None]:
for link in links:
    print(link.get("href"))

É importante verificar que estamos trazendo todos os links (internos e externos) com essa abordagem.

## Recuperar uma tabela

Como vimos, iremos recuperar a tabela que está disponível na página, que lista todos os estados do Brasil, adicionando outras informações, como a abreviação, capital, area, população, mortalidade infantil, entre outras.

Existem duas formas de recuperarmos a tabela correta. A primeira, seria recuperar todas as tabelas disponível, iterar em cada uma delas e verificar a classe que ela pertecem.

A outra forma, é mais rápida e simples. No navegador Chrome, abrar a página em questão, clique com o Botão Direito em cima da tabela que deseja recuperar e depois clique em Inspecionar (Ctrl + Shift + I) e copie o nome da classe.

```
<table class="wikitable sortable jquery-tablesorter" style="text-align:center; font-size:85%">
```

Iremos utilizar ```wikitable sortable jquery-tablesorter``` para recuperar somente essa tabela.

In [None]:
tabela = bs.findAll('table', 
                 class_='wikitable sortable')

In [None]:
#print(len(tabela))
#tabela

Ótimo! Já temos a tabela recuperada.

O que iremos fazer agora é extrair as informações e adicionar em um DataFrame. Para isso precisamos iterar em cada linha (```tr```) e então atribuir cada elemento de tr (```td```) à uma variável e então adicionar a uma lista.

In [None]:
colunas = [th.text.lower() for th in tabela[0].findAll('tr')[0].findAll('th')]

In [None]:
#colunas

Antes de renomear o nome de cada coluna, iremos remover as acentuações para facilitar a criação das variáveis.

Essa função retorna a forma normal da string (sem acentuação). As opções são:

| Forma | Descrição |
| ---- | ----- |
| **NFD** - Normalization Form Canonical Decomposition | Os caracteres são decompostos pela equivalência canônica e vários caracteres combinados são organizados em uma ordem específica.  | 
| **NFC** - Normalization Form Canonical Composition | Os caracteres são decompostos e, em seguida, recompostos pela equivalência canônica. |
| **NFKD** - Normalization Form Compatibility Decomposition | Os caracteres são decompostos por compatibilidade e vários caracteres combinados são organizados em uma ordem específica. |
| **NFKC** - Normalization Form Compatibility Composition | Os caracteres são decompostos por compatibilidade e depois recompostos pela equivalência canônica. |



https://docs.python.org/3/library/unicodedata.html#unicodedata.normalize

In [None]:
from unicodedata import normalize
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

**Atenção**

Se testarmos a função ```remover_acentos``` sem o enconde/decode, nenhum erro será gerado, porém durante a normalização caso algum caractere não seja possível normalizar um erro será gerado. Utilizando os métodos encode/decode, podemos garantir que caso algum caractere não seja identificado corretamente, o mesmo seja ignorado e removido. Por exemplo:

In [None]:
print("hello\xffworld".encode("ascii"))

In [None]:
print("hello\xffworld".encode("ascii", 'ignore'))

In [None]:
print("hello\xffworld".encode("ascii", 'ignore').decode('ASCII'))

In [None]:
colunas = [remover_acentos(nome)[:-1] for nome in colunas]
colunas

In [None]:
colunas[colunas.index('(% total) (2015)')] = "percentual_pib_2015"
colunas[colunas.index('pib per capita (r$) (2015)')] = 'pib_per_capita_reais_2015'

Remover os caracteres especiais ```(``` e ```)``` e substituir o espaco pelo caractere ```_```.

In [None]:
colunas = [nome.replace('(', '') for nome in colunas]
colunas = [nome.replace(')', '') for nome in colunas]
colunas = [nome.replace(' ', '_') for nome in colunas]

In [None]:
colunas

In [None]:
linha = tabela[0].findAll('tr')[1].findAll('td')

In [None]:
linha[0].find('a').get('href')

In [None]:
linha[13].find(text=True)

In [None]:
# Estruturando 
dados = {}
for nome in colunas:
    dados[nome] = []

In [None]:
dados

In [None]:
linhas = tabela[0].findAll('tr')
len(linhas)

In [None]:
# Começa em 1, pois o 0 é o cabeçalho da tabela
for lin in range(1, len(linhas)):
    linha = tabela[0].findAll('tr')[lin].findAll('td')
    for i, chave in enumerate(colunas):
        if i == 0 and chave == 'bandeira':
            dados[chave].append(linha[i].find('a').get('href'))
        else:
            dados[chave].append(linha[i].find(text=True))

In [None]:
dados

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(dados)

In [None]:
df.head()

Agora, basta criar o DataFrame

In [None]:
import pandas as pd

In [None]:
df_final = df.drop('bandeira', axis=1)

In [None]:
df_final.head()

### Realizando ajustes e conversões de tipos

Para realizarmos algumas análises será necessário realizar as conversões de tipo. 

Realizando uma copia do ```df_final``` para tratamento dos dados

In [None]:
df_aux = df_final.copy()

Também será necessário selecionar as colunas que se deseja realizar o tratamento.

In [None]:
print(len(df_aux.columns))

In [None]:
colunas_removidas = ['abreviacao', 'sede_de_governo', 'unidade_federativa']

In [None]:
aux_colunas = list(filter(lambda col: col not in colunas_removidas, df_aux.columns))

In [None]:
print(len(aux_colunas))

Funções auxiliares para remover espaços e converter a pontuação.

In [None]:
def remover_espacos(string):
    string = string.replace(u'%', '')
    string = string.replace(u'‰', '')
    string = string.replace(u'anos', '')
    return string.replace(u'\xa0', '')

In [None]:
def converter_pontuacao(string):
    return string.replace(u',', '.')

Aplicando as funções criadas em cada uma das colunas definidas na variável ```colunas_float``` e ```colunas_int```.

In [None]:
for coluna in aux_colunas:
    df_aux[coluna] = df_aux[coluna].apply(remover_espacos)
    df_aux[coluna] = df_aux[coluna].apply(converter_pontuacao)

In [None]:
df_aux.head()

In [None]:
print(type(df_aux.area_km2[0]))

Temos que realizar as conversões de tipo, para isso iremos utilizar o método do Pandas que realiza a conversão de maneira automatica seja para um tipo numérico.

In [None]:
for coluna in aux_colunas:
    df_aux[coluna] = df_aux[coluna].apply(pd.to_numeric)

In [None]:
df_aux.dtypes

Visualizando o DataFrame Final

In [None]:
df_aux.head()

In [None]:
df_aux.describe()