# Embaixadores Analytics BB

**Trilha Engenharia**

**Aula 3 - Python para ETL - Parte 3: Exercício prático de tratamento de DataFrame da web**

Conceitos teóricos por: Chat GPT (<https://chat.openai.com/>)

Exercícios práticos por: Amanda Ramos Coiado e Diego Vieira Brilhalva

27/06/2023

# IDH

O objetivo da criação do Índice de Desenvolvimento Humano foi o de oferecer um contraponto a outro indicador muito utilizado, o Produto Interno Bruto (PIB) per capita, que considera apenas a dimensão econômica do desenvolvimento. 

Para nossa anállise do IDH Municipal, vamos utilizar um DataFrame originada da web, obtida no endereço: https://www.undp.org/pt/brazil/idhm-municípios-2010

Por ter sido retirada da web, o DataFrame necessita de alguns tratamentos antes de ficar pronta para uso.

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# ETL

ETL significa "Extract, Transform, Load", que são as três etapas principais do processo de integração de dados.

1) Extract (Extração): Nessa etapa, os dados são obtidos de várias fontes, como bancos de dados, arquivos ou outras fontes de dados. É como pegar informações de diferentes lugares.

2) Transform (Transformação): Depois de extrair os dados, eles passam por transformações. Isso significa que os dados são modificados de alguma forma para que fiquem corretos e se encaixem nas necessidades do sistema ou da análise que será feita posteriormente.

3) Load (Carga): Após a transformação, os dados são carregados em um destino final, como um banco de dados ou um local de armazenamento. É como colocar os dados em um lugar onde possam ser facilmente acessados e usados.

O processo ETL é importante porque permite reunir dados de diferentes fontes, transformá-los para que estejam corretos e, em seguida, carregá-los em um lugar onde possam ser utilizados para análise ou tomada de decisões.

Em resumo, o ETL é o processo de extrair dados de diferentes lugares, transformá-los para que fiquem corretos e carregá-los em um local onde possam ser usados.

## Extração: Opção 1

### Web Scraping

[Clique aqui](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiz6YGkm6L_AhWlmpUCHUuxBUwQtwJ6BAgMEAI&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DGSFv2djA-W4&usg=AOvVaw3W1BauQb6HnYUm3o0vxwVH) para assistir a um vídeo sobre verificar permissões antes de fazer web scraping.

Para consultar as permissões do site da undp, verifique o link abaixo:
https://www.undp.org/robots.txt

In [2]:
## para rodar no Google Colab
# !pip install requests
# import requests

## criar uma variável com a url https://www.undp.org/pt/brazil/idhm-munic%C3%ADpios-2010
# url = 'https://www.undp.org/pt/brazil/idhm-munic%C3%ADpios-2010'

## obter o conteúdo da página e jogar para uma variável
# html = requests.get(url).content

## utilizar um analisador (parser) de html para organizar o conteúdo da string
## atribuir o conteúdo organizado em uma variável chamada soup
# soup = BeautifulSoup(html, 'html.parser')

## visualizar as classes de tabelas existentes em soup
# print('Classes of each table:')
# for table in soup.find_all('table'):
    # print(table.get('class'))

In [3]:
## localizar a tabela da classe 'tableizer-table' e jogar para uma variável chamada table
# table = soup.find('table', class_='tableizer-table')

## coletar os dados e jogar para o novo dataframe
## primeiro, é necessário localizar todas as linhas
## o comando "tr" indica a mudança de linha em html
# lista = []
# for row in table.tbody.find_all('tr'):    
    
    ## depois, localizar todas as colunas
    ## o comando "td" indica a mudança de coluna em html
    # columns = row.find_all('td')
    
    ## verificar se há dados nas colunas
    # if(columns != []):
      
      ## jogar o valor de cada coluna para uma lista
      # cols = [col.text.strip() for col in columns]
      ## adicionar os valores de cada linha à lista
      # lista.append(cols)
    
## definir um dataframe chamado idh com os nomes das colunas
# colunas: 'Ranking IDHM 2010', 'Município', 'IDHM 2010', 'IDHM Renda 2010', 'IDHM Longevidade 2010', 'IDHM Educação 2010'
# idh = pd.DataFrame(lista, columns=['Ranking IDHM 2010', 'Município', 'IDHM 2010', 'IDHM Renda 2010', 'IDHM Longevidade 2010', 'IDHM Educação 2010'])
# idh.head()

## Extração: Opção 2

### Carregar arquivo idh.csv

Na Plataforma ou no Labblite não é possível fazer Web Scraping, portanto vamos utilizar um arquivo csv contendo o resultado dos comandos acima, ou seja, o DataFrame bruto para efetuarmos eventuais tratamentos dos dados.

In [36]:
# Abrir o arquivo idh.csv: pd.read_csv()
idh = pd.read_csv('idh.csv')
idh

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
0,1 º,São Caetano do Sul (SP),0862,0891,0887,0811
1,2 º,Águas de São Pedro (SP),0854,0849,0890,0825
2,3 º,Florianópolis (SC),0847,0870,0873,0800
3,4 º,Balneário Camboriú (SC),0845,0854,0894,0789
4,4 º,Vitória (ES),0845,0876,0855,0805
...,...,...,...,...,...,...
5560,5560 º,Uiramutã (RR),0453,0439,0766,0276
5561,5562 º,Marajá do Sena (MA),0452,0400,0774,0299
5562,5563 º,Atalaia do Norte (AM),0450,0481,0733,0259
5563,5564 º,Fernando Falcão (MA),0443,0417,0728,0286


In [5]:
# visualizar dataframe criado: .info()
idh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Ranking IDHM 2010      5565 non-null   object
 1   Município              5565 non-null   object
 2   IDHM 2010              5565 non-null   object
 3   IDHM Renda 2010        5565 non-null   object
 4   IDHM Longevidade 2010  5565 non-null   object
 5   IDHM Educação 2010     5565 non-null   object
dtypes: object(6)
memory usage: 130.5+ KB


## 1º Passo do Tratamento

Substituir vírgulas (,) por pontos(.) para possibilitar a alteração do tipo para numérico.

In [6]:
# substituir usando: .str.replace()
idh["IDHM 2010"] = idh["IDHM 2010"].str.replace(",", ".")
idh["IDHM Renda 2010"] = idh["IDHM Renda 2010"].str.replace(",", ".")
idh["IDHM Longevidade 2010"] = idh["IDHM Longevidade 2010"].str.replace(",", ".")
idh["IDHM Educação 2010"] = idh["IDHM Educação 2010"].str.replace(",", ".")

## 2º Passo do Tratamento

Converter colunas numéricas para o tipo float.

In [7]:
# converter usando .astype(tipo)
# primeiro para a colula "IDHM 2010"
idh["IDHM 2010"] = idh["IDHM 2010"].astype(float)

In [8]:
#converter colunas para float: "IDHM Renda 2010"
idh["IDHM Renda 2010"] = idh["IDHM Renda 2010"].astype(float)

<class 'ValueError'>: could not convert string to float: '0.784td>'

In [9]:
#converter colunas para float: "IDHM Longevidade 2010"
idh["IDHM Longevidade 2010"] = idh["IDHM Longevidade 2010"].astype(float)

<class 'ValueError'>: could not convert string to float: '0.779td>'

In [10]:
#converter colunas para float: "IDHM Educação 2010"
idh["IDHM Educação 2010"] = idh["IDHM Educação 2010"].astype(float)

In [11]:
# foi possível apenas para as colunas IDHM 2010 e IDHM Educação 2010
# as colunas 'IDHM Longevidade 2010' e 'IDHM Renda 2010' tem caracteres junto com os números
idh['IDHM Longevidade 2010'].sort_values().unique()

array(['0.672', '0.673', '0.675', '0.676', '0.677', '0.680', '0.681',
       '0.682', '0.683', '0.684', '0.685', '0.686', '0.687', '0.688',
       '0.689', '0.690', '0.691', '0.692', '0.693', '0.694', '0.695',
       '0.696', '0.697', '0.698', '0.699', '0.700', '0.701', '0.702',
       '0.703', '0.704', '0.705', '0.706', '0.707', '0.708', '0.709',
       '0.710', '0.711', '0.712', '0.713', '0.714', '0.715', '0.716',
       '0.717', '0.718', '0.719', '0.720', '0.721', '0.722', '0.723',
       '0.724', '0.725', '0.726', '0.727', '0.728', '0.729', '0.730',
       '0.731', '0.732', '0.733', '0.734', '0.735', '0.736', '0.737',
       '0.738', '0.739', '0.740', '0.741', '0.742', '0.743', '0.744',
       '0.745', '0.746', '0.747', '0.748', '0.749', '0.750', '0.751',
       '0.752', '0.753', '0.754', '0.755', '0.756', '0.757', '0.758',
       '0.759', '0.760', '0.761', '0.762', '0.763', '0.764', '0.765',
       '0.766', '0.767', '0.768', '0.769', '0.770', '0.771', '0.772',
       '0.773', '0.7

In [12]:
# outra forma de localizar os registros com caracteres: .str.contains()
idh[idh["IDHM Renda 2010"].str.contains('td')]

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
297,289 º,Não-Me-Toque (RS),0.765,0.784td>,0.847,0.673
2690,2691 º,Coronel Pacheco (MG),0.669,0.673td>,0.789,0.565
4769,4764 º,São Félix do Tocantins (TO),0.574,0.550td>,0.771,0.446


In [13]:
# consultar também a coluna 'IDHM Longevidade 2010'
idh[idh['IDHM Longevidade 2010'].str.contains('td')]

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
3876,3866 º,Santana do Cariri (CE),0.612,0.527,0.779td>,0.557


### Regex

Regex (ou expressões regulares) é uma sequência de caracteres que forma um padrão de busca. Elas são amplamente utilizadas em programação e processamento de texto para realizar tarefas como **busca**, **validação**, **substituição** e **extração** de informações com base em determinados padrões.

Usando as expressões regulares, é possível criar **padrões flexíveis e poderosos** para encontrar e manipular texto de forma eficiente. Elas podem ser usadas em várias linguagens de programação, como Python, JavaScript, Java, entre outras, geralmente por meio de bibliotecas específicas que oferecem suporte a expressões regulares, como o módulo re no Python.

Algumas das principais aplicações das expressões regulares incluem:

1) Buscar e extrair informações de textos, como encontrar todas as ocorrências de uma determinada palavra ou padrão.

2) Realizar validações, como verificar se um endereço de e-mail está no formato correto.

3) Realizar substituições e formatações de texto, como substituir todas as ocorrências de uma palavra por outra.

4) Analisar e processar dados estruturados, como arquivos CSV ou log de eventos.

No entanto, é importante mencionar que a criação e compreensão de expressões regulares podem ser complexas, pois existem muitas regras e recursos para aprender. É recomendável consultar a documentação da linguagem ou biblioteca específica que você está usando para obter mais informações sobre a sintaxe e os recursos disponíveis para expressões regulares.

In [14]:
# importar a biblioteca regex
import re
print(re.__version__)

2.2.1


In [15]:
# usando regex
# consultar o significado do padrão regex em: https://regexr.com/
idh[idh["IDHM Renda 2010"].str.contains('[^0-9.]')]

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
297,289 º,Não-Me-Toque (RS),0.765,0.784td>,0.847,0.673
2690,2691 º,Coronel Pacheco (MG),0.669,0.673td>,0.789,0.565
4769,4764 º,São Félix do Tocantins (TO),0.574,0.550td>,0.771,0.446


In [16]:
# vamos tratar o erro substituindo os caracteres não numéricos
# Opção 1: .str.replace()
idh['IDHM Renda 2010'] = idh['IDHM Renda 2010'].str.replace('td>', '')
idh['IDHM Longevidade 2010'] = idh['IDHM Longevidade 2010'].str.replace('td>', '')

In [17]:
## Opção 2: usar regex
# etapa para considerar apenas caracteres numéricos (0 a 9) e ponto (.)
# idh['IDHM Renda 2010'] = idh['IDHM Renda 2010'].str.replace('[^0-9.]', '')
# idh['IDHM Longevidade 2010'] = idh['IDHM Longevidade 2010'].str.replace('[^0-9.]', '')

In [18]:
# converter para float após tratamento do erro: astype(tipo)
idh["IDHM Renda 2010"] = idh["IDHM Renda 2010"].astype(float)
idh["IDHM Longevidade 2010"] = idh["IDHM Longevidade 2010"].astype(float)

In [19]:
# checar tipo das colunas
idh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Ranking IDHM 2010      5565 non-null   object 
 1   Município              5565 non-null   object 
 2   IDHM 2010              5565 non-null   float64
 3   IDHM Renda 2010        5565 non-null   float64
 4   IDHM Longevidade 2010  5565 non-null   float64
 5   IDHM Educação 2010     5565 non-null   float64
dtypes: float64(4), object(2)
memory usage: 217.4+ KB


In [20]:
# checar as estatísticas das colunas numéricas: .describe()
idh.describe()

Unnamed: 0,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
count,5565.0,5565.0,5565.0,5565.0
mean,0.659157,0.642873,0.801564,0.559094
std,0.071997,0.080662,0.044681,0.093328
min,0.418,0.4,0.672,0.207
25%,0.599,0.572,0.769,0.49
50%,0.665,0.654,0.808,0.56
75%,0.718,0.707,0.836,0.631
max,0.862,0.891,0.894,0.825


## 3º Passo do Tratamento

Separar Município e UF em colunas distintas.

In [21]:
# separar município de UF
# visualizar o cabeçalho do dataframe
idh.head()

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
0,1 º,São Caetano do Sul (SP),0.862,0.891,0.887,0.811
1,2 º,Águas de São Pedro (SP),0.854,0.849,0.89,0.825
2,3 º,Florianópolis (SC),0.847,0.87,0.873,0.8
3,4 º,Balneário Camboriú (SC),0.845,0.854,0.894,0.789
4,4 º,Vitória (ES),0.845,0.876,0.855,0.805


In [22]:
# separar (split) pelo caracter '(' jogando para uma nova coluna
idh[['municipio_original','UF']]= idh['Município'].str.split(' \(', expand=True)
idh[['municipio_original','UF']]

Unnamed: 0,municipio_original,UF
0,São Caetano do Sul,SP)
1,Águas de São Pedro,SP)
2,Florianópolis,SC)
3,Balneário Camboriú,SC)
4,Vitória,ES)
...,...,...
5560,Uiramutã,RR)
5561,Marajá do Sena,MA)
5562,Atalaia do Norte,AM)
5563,Fernando Falcão,MA)


In [23]:
# retirar o caractere ')'
idh['UF'] = idh['UF'].str.replace(')', '')
idh.head()

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010,municipio_original,UF
0,1 º,São Caetano do Sul (SP),0.862,0.891,0.887,0.811,São Caetano do Sul,SP
1,2 º,Águas de São Pedro (SP),0.854,0.849,0.89,0.825,Águas de São Pedro,SP
2,3 º,Florianópolis (SC),0.847,0.87,0.873,0.8,Florianópolis,SC
3,4 º,Balneário Camboriú (SC),0.845,0.854,0.894,0.789,Balneário Camboriú,SC
4,4 º,Vitória (ES),0.845,0.876,0.855,0.805,Vitória,ES


## 4º Passo do Tratamento

Retirar os acentos dos nomes dos municípios e colocar no padrão caixa alta.

### Normalização Unidecode

A normalização de Unicode é um processo que visa transformar diferentes formas de representação de caracteres Unicode em uma forma canônica, simplificando assim a comparação e manipulação de texto que pode conter caracteres acentuados, diacríticos ou outras formas de representação variantes.

A função **unicodedata.normalize()** recebe dois argumentos: o primeiro é uma string que representa o **tipo de normalização desejado**, e o segundo é a **string que será normalizada**.

O tipo de normalização 'NFKD' representa a forma de normalização "compatibilidade com decomposição canônica". Isso significa que ele divide os caracteres acentuados ou com diacríticos em seu equivalente separado (base + marca) para uma representação mais básica e canônica.

In [24]:
# importar a unicodedata
import unicodedata

In [25]:
# utilizando a função unicodedata.normalize
# forma de normalização: NFKD
# exemplo
for ch in unicodedata.normalize('NFKD', 'São José'):
  print(ch)

S
a
̃
o
 
J
o
s
e
́


In [26]:
# a fução unicodedata.combining() indica se o caracter é de combinação ou não.
# os caracteres de combinação retornam um valor diferente de 0
# Exemplo: "é" é o resultado de "e" + "´"
# nesse caso, o "e" retorna 0 e o "´" retorna 230
for ch in unicodedata.normalize('NFKD', 'São José'):
  print(f'caracter: {ch}, combining: {unicodedata.combining(ch)}')

caracter: S, combining: 0
caracter: a, combining: 0
caracter: ̃, combining: 230
caracter: o, combining: 0
caracter:  , combining: 0
caracter: J, combining: 0
caracter: o, combining: 0
caracter: s, combining: 0
caracter: e, combining: 0
caracter: ́, combining: 230


In [27]:
# criar uma função que refaz a string, caracter por caracter, utilizando apenas os caracteres que não são de combinação
def altera_string(municipio):
    municipio_alterado = []
    for ch in unicodedata.normalize('NFKD', municipio):
        if unicodedata.combining(ch) == 0:
            municipio_alterado.append(ch)
    municipio = ''.join(municipio_alterado)
    return municipio

In [None]:
## outra forma de escrever essa mesma função
#def altera_string(municipio):
#    municipio_alterado = ''.join(ch for ch in unicodedata.normalize('NFKD', municipio) 
#                                 if not unicodedata.combining(ch))
#    return municipio_alterado

### Lambda

Uma **expressão lambda** (ou simplesmente lambda) é uma função anônima que pode ser definida em linha e sem a necessidade de ser nomeada. Ela é uma forma concisa de criar funções de forma rápida e simples.

Em Python, uma expressão lambda é criada usando a palavra-chave **lambda**, seguida de uma lista de parâmetros separados por vírgulas, seguida por dois pontos :, e finalmente a expressão que define o comportamento da função. A sintaxe geral é a seguinte:

lambda argumentos : expressão

As expressões lambda são frequentemente usadas em conjunto com funções de ordem superior, como **map()**, **filter()**, **reduce()**, onde podem ser passadas como argumentos para essas funções, permitindo um código mais conciso e legível.

Vale ressaltar que, apesar de serem úteis em muitos casos, expressões lambda podem se tornar complexas e difíceis de ler quando envolvem lógica mais elaborada. Nesses casos, é recomendado usar funções nomeadas (definidas com a palavra-chave **def**) para uma maior clareza e manutenibilidade do código.

In [28]:
# chamar a função usando lambda e já alterando para caixa alta
idh['municipio_nfkd'] = idh['municipio_original'].apply(lambda x: altera_string(x)).str.upper()
idh.head(20)

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010,municipio_original,UF,municipio_nfkd
0,1 º,São Caetano do Sul (SP),0.862,0.891,0.887,0.811,São Caetano do Sul,SP,SAO CAETANO DO SUL
1,2 º,Águas de São Pedro (SP),0.854,0.849,0.89,0.825,Águas de São Pedro,SP,AGUAS DE SAO PEDRO
2,3 º,Florianópolis (SC),0.847,0.87,0.873,0.8,Florianópolis,SC,FLORIANOPOLIS
3,4 º,Balneário Camboriú (SC),0.845,0.854,0.894,0.789,Balneário Camboriú,SC,BALNEARIO CAMBORIU
4,4 º,Vitória (ES),0.845,0.876,0.855,0.805,Vitória,ES,VITORIA


## 5º Passo do Tratamento

Deixar apenas as colunas transformadas na ordem correta.

In [32]:
# descartar colunas intermediárias
idh.drop(columns=['Município', 'municipio_original'], inplace=True)

In [33]:
# renomear coluna transformada
idh.rename(columns={'municipio_nfkd' : 'Município'}, inplace=True)
idh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Ranking IDHM 2010      5565 non-null   object 
 1   IDHM 2010              5565 non-null   float64
 2   IDHM Renda 2010        5565 non-null   float64
 3   IDHM Longevidade 2010  5565 non-null   float64
 4   IDHM Educação 2010     5565 non-null   float64
 5   UF                     5565 non-null   object 
 6   Município              5565 non-null   object 
dtypes: float64(4), object(3)
memory usage: 239.2+ KB


In [34]:
# reordenar as colunas
# ['Ranking IDHM 2010', 'Município', 'UF', 'IDHM 2010', 'IDHM Renda 2010', 'IDHM Longevidade 2010', 'IDHM Educação 2010']
idh = idh[['Ranking IDHM 2010', 'Município', 'UF', 'IDHM 2010', 'IDHM Renda 2010', 'IDHM Longevidade 2010', 'IDHM Educação 2010']]
idh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Ranking IDHM 2010      5565 non-null   object 
 1   Município              5565 non-null   object 
 2   UF                     5565 non-null   object 
 3   IDHM 2010              5565 non-null   float64
 4   IDHM Renda 2010        5565 non-null   float64
 5   IDHM Longevidade 2010  5565 non-null   float64
 6   IDHM Educação 2010     5565 non-null   float64
dtypes: float64(4), object(3)
memory usage: 239.2+ KB


## Carregamento dos dados

No nosso caso, vamos gerar um arquivo csv a partir da tabela tratada.

In [35]:
# jogar a tabela tratada para um csv
idh.to_csv('idh_novo.csv', index=False)

# Desafio: 
Gerar um novo notebook com a rotina de tratamento do DataFrame idh mantendo apenas as instruções essenciais para conversão da tabela.

Ao final, contar a quantidade de células e/ou comandos resultantes e comparar com este Notebook.

Exemplo de "limpeza" do Notebook final: 

- retirar comandos de consulta visual, erros, opções de tratamento não utilizadas e exemplos explicativos.

- manter comentários explicativos dos comandos utilizados, apenas.