<a href="https://colab.research.google.com/github/irajamuller/data_science/blob/main/Prepara%C3%A7%C3%A3o_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1.Tratamento Básico de Dados**
---
<p align="justify">
Este notebook apresenta os métodos mais fundamentais para o tratamento de conjuntos de dados utilizando o Dataframe da biblioteca Pandas. Iremos nos focar nos métodos para trabalhar com:
</p>

- Ajuste de colunas;
- Análise e tratamento de dados faltantes;
- Análise e tratamento de dados duplicados.

<p align="justify">
Para esta atividade iremos utilizar uma versão modificada do conjunto de dados <strong>titanic</strong>. A versão original do conjunto de dados encontra-se disponível através da biblioteca Seaborn. Entretanto, neste exercício, iremos utilizar uma versão que apresenta dados modificados para ressaltar alguns problemas presentes em conjuntos de dados não tratados.
</p>
<p align="justify">
Neste notebook iremos utilizar apenas a biblioteca Pandas. Primeiramente, iremos carregar o conjunto de dados modificado, o qual encontra-se disponível no github <strong>titanic.csv</strong>.
</p>



In [None]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/irajamuller/data_science/main/dataset/titanic.csv') # Carrega o conjunto de dados
df.info() # Apresenta informações gerais sobre a estrutura do conjunto de dados

In [None]:
df.head() # Exibe as primeiras entradas do conjunto de dados

<p align="justify">
É importante compreender o contexto e o significado de cada um dos atributos do conjunto de dados para saber como utilizá-lo em tarefas de aprendizado de máquina. O <strong>titanic</strong> é um conjunto de dados aberto e bem documentado, permitindo facilmente encontrar informações sobre o significado e características de cada um dos atributos.
</p>
<p align="justify">
Vamos olhar primeiramente para os nomes das colunas. Algumas colunas apresentam nomes abreviados. Por exemplo, "sibsp" é um valor inteiro que indica quantos irmãos (siblings) ou cônjuges (spouses) estavam à bordo junto com o passageiro. Da mesma forma "parch" é um valor inteiro que indica quantos pais (parents) ou filhos (children) estavam à bordo junto com o passageiro. Para facilitar nossa interpretação do conjunto de dados, podemos renomear estas colunas. O código abaixo apresenta este processo.
</p>
<div align="center">

| **Coluna**    | **Descrição**                                                 |
| ------------- | ------------------------------------------------------------- |
| `survived`    | Sobreviveu (1 = sim, 0 = não)                                 |
| `pclass`      | Classe do bilhete (1ª, 2ª, 3ª)                                |
| `sex`         | Sexo do passageiro (`male` ou `female`)                       |
| `age`         | Idade do passageiro                                           |
| `sibsp`       | Nº de irmãos/cônjuges a bordo                                 |
| `parch`       | Nº de pais/filhos a bordo                                     |
| `fare`        | Valor pago na passagem (em libras)                            |
| `embarked`    | Porto de embarque (`C`, `Q`, `S`)                             |
| `class`       | Classe do bilhete (`First`, `Second`, `Third`)                |
| `who`         | Tipo de pessoa (`man`, `woman`, `child`)                      |
| `adult_male`  | Se é um homem adulto (`True` ou `False`)                      |
| `deck`        | Letra do deck da cabine (`A` a `G`, ou ausente)               |
| `embark_town` | Cidade de embarque (`Cherbourg`, `Queenstown`, `Southampton`) |
| `alive`       | Está vivo (`yes`) ou não (`no`)                               |
| `alone`       | Estava sozinho a bordo (`True` ou `False`)                    |

</div>

In [None]:
# Renomear colunas
df = df.rename(columns={
    "sibsp": "siblings_spouses",
    "parch": "parent_children",
    "sex": "gender"
})

df.info() # Exibe os metadados do conjunto de dados

**Valores Ausentes**
<p align="justify">
Nosso próximo passo é avaliar os valores ausentes no conjunto de dados. Valores ausentes se referem a entradas no conjunto de dados que não possuem um valor registrado em um ou mais de seus atributos. Ao exibir o conjunto de dados, o Pandas mostra estas entradas através de um <strong>NaN</strong>, que é a abreviação para <strong>Not a Number</strong>. De modo geral, existem dois motivos porque registros podem apresentar atributos com valor ausente:
</p>

- A ausência do valor está correta pelo fato de que o valor de fato não existe;
- Houve um problema na coleta de dados que impediu a aquisição do valor para uma parcela dos registros.

<p align="justify">
Um exemplo do primeiro caso seria a existência de uma coluna para nome do cônjuge, a qual deveria permanecer vazia para passageiros solteiros. Neste caso, faz sentido não haver um valor registrado neste item e ele deve ser considerado pelo processo de aprendizado. Por sua vez, o segundo caso pode ocorrer por motivos como um processo de coleta falho ou erros de leitura em dispositivos. Nestes casos, deveria haver um valor nesta coluna, mas os motivos acima impediram que ele fosse registrado.
</p>

<p align="justify">
Existem diferentes métodos que podemos utilizar para tratar valores ausentes. O método a ser utilizado vai depender de diferentes fatores como a porcentagem de valores ausentes e a significância do parâmetro para o processo de aprendizado.
</p>

<p align="justify">
A célula abaixo demonstra como podemos avaliar o número de registros com valores ausentes para cada um dos atributos do conjunto de dados.
</p>


In [None]:
'''
Apresenta, para cada coluna, o total de registros que possui valores vazios.
Também podem ser visualizado através do método "info".
'''
df.isna().sum()

<p align="justify">
O método mais simples de tratamento é a remoção de qualquer registro que possua algum atributo com valor ausente no conjunto de dados. A célula abaixo apresenta o código para realizar este tipo de tratamento.
</p>

In [None]:
df_dropped = df.dropna() # Realiza a remoção de qualquer registro no dataframe que possua algum valor vazio.
df_dropped.info() # O resultado abaixo mostra que a remoção das colunas resultou na eliminação de 79,6% do Conjunto de dados.

<p align="justify">
Como podemos ver, a simples remoção de todos os registros com algum valor ausente causou a eliminação de aproximadamente 80% do conjunto de dados, o que pode inviabilizar a utilização do conjunto de dados. Uma alternativa mais interessante pode ser remover atributos que apresentam maior ausência de dados e não são relevantes para o processo de aprendizado. Os metadados do conjunto mostram que o atributo <strong>deck</strong> apresenta a maior parte dos valores ausentes. Portanto, iremos eliminá-lo de nosso conjunto de dados antes de remover os valores ausentes.
</p>


In [None]:
# Remove uma coluna do conjunto de dados.
df_dropped = df.drop(columns=['deck'])
# Repetimos a operação de limpeza dos demais registros que possuem valores em branco.
df_dropped = df_dropped.dropna()

'''
A remoção da coluna "deck" evita que uma porção considerável do conjunto de dados seja descartada
Como resultado, o conjunto de dados limpo perdeu apenas 20,1% em comparação ao original.
'''
df_dropped.info()


<p align="justify">
Dependendo do conjunto de dados e suas características, também podemos preencher os valores faltantes com dados sintéticos, tais como valores gerados a partir de cálculos estatísticos. Este tipo de tratamento requer uma análise cuidadosa dos valores gerados e suas implicações para o restante dos dados, pois ela pode causar viéses indesejados no processo de aprendizado.
</p>
<p align="justify">
Analisando nosso conjunto de dados, podemos ver que a coluna <strong>age</strong>, que registra a idade do passageiro, possui o segundo maior número de valores ausentes. Uma possível solução para eliminar os valores faltantes nesta coluna sem perder os registros através de eliminação seria preencher a idade dos passageiros com valores gerados a partir da análise do restante dos dados no conjunto.
</p>
<p align="justify">
No exemplo abaixo iremos realizar um preenchimento simples utilizando o valor da mediana da idade dos passageiros.
</p>

In [None]:
df_dropped = df.drop(columns=['deck']) # Remove uma coluna do conjunto de dados.
'''
Ao invés de remover os registros com valores faltantes, podemos substituílos por um valor padrão, por exemplo zero.
No exemplo abaixo substituímos os valores faltantes apenas da coluna "age" por zero.
'''
median_age = df_dropped['age'].median()
df_dropped['age'] = df_dropped['age'].fillna(median_age)

df_dropped = df_dropped.dropna() # Repetimos a operação de limpeza dos demais registros que possuem valores em branco.
df_dropped.info() # O resultado agora mostra que praticamente todo o dataset possui valores completos em seus registros.


<p align="justify">
Além de valores faltantes, outra questão que requer atenção é a existência de <strong>registros duplicados</strong> no conjunto de dados. Dependendo do contexto do conjunto de dados e sua finalidade, registros duplicados podem causar inconsistências como o desbalanceamento de classes, o que poderia resultar e viéses indesejaveis em modelos de aprendizado. Por esse motivo, o Pandas oferece métodos que permitem identificar e eliminar registros duplicados.

As células abaixo apresentam os métodos para identificar o número de registros duplicados e, após, realizar a sua eliminação do conjunto de dados.
</p>

In [None]:
# Verificar itens duplicados (em todo o dataset)
df_duplicated = df[df.duplicated()]
df_duplicated.info()

In [None]:
# Verificar itens duplicados
# Cria uma lista que indica para cada registro do dataset se ele é uma duplicata ou não através de um valor booleano.
df_duplicated = df_dropped.duplicated()
print( f"Registros duplicados: {df_duplicated.sum()}" )


In [None]:
# Realiza a limpeza de todas as duplicatas encontradas.
df_dropped = df_dropped.drop_duplicates()

#2.Padronização de Dados
<p align="justify">
A padronização de dados diz respeito a diferentes tarefas de conversão que têm por objetivo tornar os dados tratáveis por métodos de aprendizado de máquina. É comum que conjuntos de dados reais apresentem inconsistências de preenchimento em dados categóricos ou de data, sendo necessário realizar tratamentos para que eles sejam interpretados de forma correta. Além disso, algoritmos de aprendizado de máquina apresentam melhor acurácia quando dados numéricos são normalizados para valores dentro de uma escala padronizada. Devemos analisar o nosso conjunto de dados e escolher os métodos que devem ser aplicados dependendo de quais algoritmos de aprendizado serão utilizados posteriormente.
</p>
<p align="justify">
Iremos trabalhar com métodos da biblioteca Pandas para a realização das seguintes atividades:
</p>

- Conversão de dados categóricos;
- Tratamento de formatos de data;
- Normalização de valores numéricos.

<p align="justify">
Nesta atividade iremos utilizar um conjunto de dados <strong>fictício</strong> que apresenta informações sobre salários e tempo de serviço de pessoas em uma empresa. Este conjunto de dados encontra-se disponível no arquivo <strong>people.csv</strong>. Primeiramente iremos carregar a biblioteca Pandas, a qual iremos utilizar no restante da atividade, além de realizar a carga do conjunto de dados. Também iremos tratar os dados ausentes na coluna <strong>salario_bruto</strong> utilizando a mediana dos demais valores deste atributo.
</p>

In [8]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/irajamuller/data_science/main/dataset/people.csv') # Carregar o conjunto de dados
df


Unnamed: 0,id,nome,idade,data_nascimento,estado,salario_bruto,cargo,ultima_avaliacao,tempo_empresa_anos
0,1,Paul Blackwell,56,1954-11-18,OKLAHOMA,5161.20,Trading standards officer,2024-01-05,16.2
1,2,Dave Shaw,69,1944-08-23,alaska,9413.27,Osteopath,2024-11-15,13.7
2,3,Jennifer Padilla,46,1974-09-28,idaho,,"Administrator, arts",2024-03-04,16.8
3,4,John Clayton,32,2002-05-18,VIRGINIA,4612.33,"Programme researcher, broadcasting/film/video",2024-02-03,18.0
4,5,Kenneth Smith,60,1975-04-09,ohio,6563.55,Wellsite geologist,2024-01-23,2.9
...,...,...,...,...,...,...,...,...,...
95,96,Kimberly Fleming,46,1987-10-07,kentucky,5288.30,"Presenter, broadcasting",2024-06-15,17.4
96,97,Mario Cole,35,2006-07-02,SOUTH DAKOTA,2264.41,"Therapist, art",2024-06-11,29.4
97,98,Dakota Brooks,43,1973-02-19,wisconsin,4760.57,Armed forces logistics/support/administrative ...,2024-04-13,2.7
98,99,James Mcdonald,61,1980-02-20,maine,7074.81,"Embryologist, clinical",2024-01-17,9.5


In [9]:
mediana_salario = df["salario_bruto"].median() # Tratar os dados ausentes na coluna de salários com a mediana dos valores presentes
df["salario_bruto"] = df["salario_bruto"].fillna(mediana_salario).astype(float)

In [18]:
df

Unnamed: 0,id,nome,idade,data_nascimento,estado,salario_bruto,cargo,ultima_avaliacao,tempo_empresa_anos
0,1,Paul Blackwell,56,1954-11-18,OKLAHOMA,5161.20,Trading standards officer,2024-01-05,16.2
1,2,Dave Shaw,69,1944-08-23,alaska,9413.27,Osteopath,2024-11-15,13.7
2,3,Jennifer Padilla,46,1974-09-28,idaho,5802.96,"Administrator, arts",2024-03-04,16.8
3,4,John Clayton,32,2002-05-18,VIRGINIA,4612.33,"Programme researcher, broadcasting/film/video",2024-02-03,18.0
4,5,Kenneth Smith,60,1975-04-09,ohio,6563.55,Wellsite geologist,2024-01-23,2.9
...,...,...,...,...,...,...,...,...,...
95,96,Kimberly Fleming,46,1987-10-07,kentucky,5288.30,"Presenter, broadcasting",2024-06-15,17.4
96,97,Mario Cole,35,2006-07-02,SOUTH DAKOTA,2264.41,"Therapist, art",2024-06-11,29.4
97,98,Dakota Brooks,43,1973-02-19,wisconsin,4760.57,Armed forces logistics/support/administrative ...,2024-04-13,2.7
98,99,James Mcdonald,61,1980-02-20,maine,7074.81,"Embryologist, clinical",2024-01-17,9.5


<p align="justify">
Primeiramente iremos padronizar o formato de colunas com dados de string. Em vários casos, dados de string são utilizados para categorização dos demais atributos. Apenas lembrando, atributos categóricos permitem classificar os dados entre diferentes categorias predefinidas. No conjunto de dados que estamos trabalhando, um exemplo é o atributo <strong>estado</strong>, que indica o estado de origem do empregado. Observando os dados contidos na coluna, podemos ver que há tanto versões onde o estado está em maiúsculas e, em outros casos, em minúsculas. Estas diferenças de formatação podem causar inconsistências quando tentamos converter essa coluna para um tipo categórico, resultando em mais de uma categoria criada para um mesmo estado, por exemplo.
</p>
<p align="justify">
Neste caso, precisamos tratar estes atributos para padronizar o seu formato. Como exemplo, iremos converter a coluna <strong>estado</strong> para um formato de caixa alta (todos caracteres maiúsculos) e a coluna <strong>cargo</strong> para um formato de caixa baixa (todos caracteres minúsculos).
</p>

In [21]:
df["estado"] = df["estado"].str.upper() # Padronizar strings de estado para uppercase
df["cargo"] = df["cargo"].str.lower().str.strip() # Padronizar cargos para lowercase e remover espaços extras

df.head()

Unnamed: 0,id,nome,idade,data_nascimento,estado,salario_bruto,cargo,ultima_avaliacao,tempo_empresa_anos
0,1,Paul Blackwell,56,1954-11-18,OKLAHOMA,5161.2,trading standards officer,2024-01-05,16.2
1,2,Dave Shaw,69,1944-08-23,ALASKA,9413.27,osteopath,2024-11-15,13.7
2,3,Jennifer Padilla,46,1974-09-28,IDAHO,5802.96,"administrator, arts",2024-03-04,16.8
3,4,John Clayton,32,2002-05-18,VIRGINIA,4612.33,"programme researcher, broadcasting/film/video",2024-02-03,18.0
4,5,Kenneth Smith,60,1975-04-09,OHIO,6563.55,wellsite geologist,2024-01-23,2.9


<p align="justify">
Após a padronização destas informações, podemos transformar a coluna estado em um atributo categórico, conforme apresentado na célula abaixo.
</p>

In [28]:
df["estado"] = df["estado"].astype("category") # Converter estado para categoria

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   id                  100 non-null    int64   
 1   nome                100 non-null    object  
 2   idade               100 non-null    int64   
 3   data_nascimento     100 non-null    object  
 4   estado              100 non-null    category
 5   salario_bruto       100 non-null    float64 
 6   cargo               100 non-null    object  
 7   ultima_avaliacao    100 non-null    object  
 8   tempo_empresa_anos  100 non-null    float64 
dtypes: category(1), float64(2), int64(2), object(4)
memory usage: 7.9+ KB


<p align="justify">
Em seguida, iremos tratar os dados de data que estão presentes nas colunas <strong>data_nascimento</strong> e <strong>ultima_avaliacao</strong>. Por padrão, o Pandas armazena a informação de datas como strings, sendo necessário converter estes atributos para informações de data e hora de forma explícita. Partindo do princípio que as colunas contenham formatos padrão para o armzenamento de informações de data e hora, a conversão pode ser realizada através do método <strong>to_datetime</strong>, conforme apresentado a seguir.
</p>

In [29]:
# Corrigir tipos de dados
df["data_nascimento"] = pd.to_datetime(df["data_nascimento"])
df["ultima_avaliacao"] = pd.to_datetime(df["ultima_avaliacao"])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  100 non-null    int64         
 1   nome                100 non-null    object        
 2   idade               100 non-null    int64         
 3   data_nascimento     100 non-null    datetime64[ns]
 4   estado              100 non-null    category      
 5   salario_bruto       100 non-null    float64       
 6   cargo               100 non-null    object        
 7   ultima_avaliacao    100 non-null    datetime64[ns]
 8   tempo_empresa_anos  100 non-null    float64       
dtypes: category(1), datetime64[ns](2), float64(2), int64(2), object(2)
memory usage: 7.9+ KB


<p align="justify">
Podemos realizar processamentos adicionais com informações de data e hora. Por exemplo, podemos criar atributos adicionais com elementos individuais como o ano e o mês. Desta forma, o algoritmo de aprendizado pode tratar essas informações de forma individual caso isso seja necessário para a análise a ser realizada. A célula abaixo apresenta como é possível criar dois novos atributos a partir da informação contida na coluna <strong>ultima_avaliacao</strong>, a qual já foi previamente convertida para uma coluna com dados temporais.
</p>

In [31]:
# Criar colunas derivadas a partir de datas
df["ano_ultima_avaliacao"] = df["ultima_avaliacao"].dt.year
df["mes_ultima_avaliacao"] = df["ultima_avaliacao"].dt.month



Unnamed: 0,id,nome,idade,data_nascimento,estado,salario_bruto,cargo,ultima_avaliacao,tempo_empresa_anos,ano_ultima_avaliacao,mes_ultima_avaliacao
0,1,Paul Blackwell,56,1954-11-18,OKLAHOMA,5161.2,trading standards officer,2024-01-05,16.2,2024,1
1,2,Dave Shaw,69,1944-08-23,ALASKA,9413.27,osteopath,2024-11-15,13.7,2024,11
2,3,Jennifer Padilla,46,1974-09-28,IDAHO,5802.96,"administrator, arts",2024-03-04,16.8,2024,3
3,4,John Clayton,32,2002-05-18,VIRGINIA,4612.33,"programme researcher, broadcasting/film/video",2024-02-03,18.0,2024,2
4,5,Kenneth Smith,60,1975-04-09,OHIO,6563.55,wellsite geologist,2024-01-23,2.9,2024,1


<p align="justify">
Uma tarefa comum no tratamento de conjuntos de dados é a aplicação de técnicas para a normalização de valores de atributos. O objetivo da normalização é padronizar os valores de um atributo para uma escala controlada. O processo de normalização é comumente utilizado para escalar os valores de atributos para uma faixa aceita pelos algoritmos de aprendizado de máquina que serão aplicados. De forma geral, algoritmos de aprendizado apresentam melhores resultados quando não há uma disparidade muito grande entre as escalas de valores utilizadas pelos diferentes atributos numéricos. Além disso, algoritmos que trabalham com o conceito de distância, tal como clusterização, requerem que os atributos encontrem-se em faixas determinadas, por exemplo entre valores 0 e 1.
</p>
<p align="justify">
Existem diferentes métodos que podem ser aplicados para normalizar os valores de atributos. Neste notebook iremos trabalhar com o método de normalização min-max, que pode ser diretamente implementado através dos métodos disponíveis na biblioteca Pandas. Mais adiante também iremos trabalhar com outros métodos de normalização que podem ser implementados utilizando outras bibliotecas do Python como o SciPy.
</p>
<p align="justify">
Abaixo temos a fórmula utilizada para a normalização de valores utilizando min-max.
</p>
$X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$

- $X$ é o valor original que queremos normalizar
- $X_{\text{min}}$ é o valor mínimo presente no atributo que será normalizado
- $X_{\text{max}}$ é o valor máximo presente no atributo que será normalizado
- $X'$ é o valor obtido a partir do processo de normalização

<p align="justify">
A célula abaixo apresenta a aplicação deste método para dois atributos numéricos presentes no conjunto de dados.
</p>

In [35]:
# Normalizar salário utilizando escalonamento Min-Max
df["salario_normalizado"] = (df["salario_bruto"] - df["salario_bruto"].min()) / (df["salario_bruto"].max() - df["salario_bruto"].min())

# Normalizar tempo de empresa utilizando escalonamento Min-Max
df["tempo_empresa_anos"] = (df["tempo_empresa_anos"] - df["tempo_empresa_anos"].min()) / (df["tempo_empresa_anos"].max() - df["tempo_empresa_anos"].min())

df.head()

Unnamed: 0,id,nome,idade,data_nascimento,estado,salario_bruto,cargo,ultima_avaliacao,tempo_empresa_anos,ano_ultima_avaliacao,mes_ultima_avaliacao,salario_normalizado
0,1,Paul Blackwell,56,1954-11-18,OKLAHOMA,5161.2,trading standards officer,2024-01-05,0.525952,2024,1,0.39573
1,2,Dave Shaw,69,1944-08-23,ALASKA,9413.27,osteopath,2024-11-15,0.439446,2024,11,0.928721
2,3,Jennifer Padilla,46,1974-09-28,IDAHO,5802.96,"administrator, arts",2024-03-04,0.546713,2024,3,0.476174
3,4,John Clayton,32,2002-05-18,VIRGINIA,4612.33,"programme researcher, broadcasting/film/video",2024-02-03,0.588235,2024,2,0.32693
4,5,Kenneth Smith,60,1975-04-09,OHIO,6563.55,wellsite geologist,2024-01-23,0.065744,2024,1,0.571513
