[<- Anterior](README.md) | [Próximo ->](scaling_normalization.ipynb)

# Imputação de valores nulos ou ausentes

Modelos de IA não conseguem lidar com valores nulos ou ausentes. Dessa forma é necessário remover esses valores do conjunto de treino ou preenche-los segundo algum critério (média, moda, mediana, etc...)

Esses critérios podem ser diferentes de acordo com o tipo de dado que se deseja preencher.

Nesse tópico será explorado como lidar com esses valores no caso de dados numericos e textos.

**O que será abordado**
- Imports
- Dataset de teste
- Valores Numéricos
- Valores Categóricos

# Imports

In [None]:
# Import da biblioteca Pandas -> Utilizada na visualização dos dados e criação do Dataframe
import pandas as pd

# Importação da Classe SimpleImputer -> Utilizada nas imputações de valores nulos ou ausentes
from sklearn.impute import SimpleImputer

# Dataset de teste

Para o estudo do processo de imputação dos dados será utilizado um dataset que possui diferentes tipos de dados e valores nulos. Dessa forma o dataframe de teste pode se aproximar de um caso real.

O dataset utilizado está disponível na pasta Data desse diretório ([aperte aqui para acessar](../Data/PreProcessing_Test.csv)) e possui 100 linhas, apresentando valores nulos nas colunas 'Genero' e 'Salario'. O dataset apresenta uma coluna binaria 'Comprou' que indica se uma pessoa comprou um certo produto

In [1]:
# Inicia o Dataframe
df = pd.read_csv('../Data/pre_processing_test.csv')

# Exibe o dataframe composto pelas linhas com valores ausentes
df[df.isnull().any(axis=1)]

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
9,28,4840.0,,RH,1
15,39,5488.0,,Marketing,0
22,50,8858.0,,TI,0
33,24,2678.0,,RH,1
68,31,2636.0,,TI,1
84,41,,Feminino,TI,1
89,34,9004.0,,Marketing,1
93,50,,Feminino,RH,1
99,24,,Feminino,RH,1


# Valores Numéricos

Valores numéricos podem ser preenchidos usando média, moda ou mediana. Nesse exemplo, os valores faltantes serão preenchidos usando a média dos valores disponíveis.

Primeiramente é necessário criar um 'imputer', isso é, uma variável que armazena o método de preenchimento dos valores. Isso é feito usando a expressão:

```py
nome_do_imputer = SimpleImpputer()
```
 
 O parâmetro 'strategy' define qual será o método de preenchimento, nesse caso é determinado como 'mean' que é a média.

Após a criação do imputer, o mesmo pode ser utilizado para aplicar o método de preenchimento no conjunto de dados desejado.

In [None]:

#Criação do Imputer, o método de preenchimento é a média (strategy = 'mean')
numeric_imput = SimpleImputer(strategy='mean')

#Determina que os valores da coluna 'Salario' são substituidos pelo retorno da função fit_transform, que substitui os valores auxentes pela média dos valores da coluna
df[['Salario']] = numeric_imput.fit_transform(df[['Salario']])

#Exibe novamente o dataframe dos valores nulos
df[df.isnull().any(axis=1)]

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
9,-0.815088,-0.3726,,RH,1
15,0.089651,-0.114828,,Marketing,0
22,0.99439,1.225747,,TI,0
33,-1.144084,-1.232636,,RH,1
68,-0.568341,-1.249344,,TI,1
89,-0.321594,1.283825,,Marketing,1


Após a aplicação do método `.fit_transform()` é possível verificar que não existem mais valores ausentes na coluna 'Salario'.

Esse procedimento pode ser realizado com varias colunas ao mesmo tempo, basta que o dataframe com as colunas desejadas seja passado como parâmetro da função `.fit_transform()`. Nesse caso era necessário apenas a coluna 'Salario', mas o mesmo poderia ser realizado com a coluna Idade (que possui um valor numérico). A expressão para aplicar o `.fit_transform()` às duas colunas ao mesmo tempo seria:   

`df[['Idade', 'Salario']] = numeric_imput.fit_transform(df[['Idade', 'Salario']])`

O retorno também não precisa ser aplicado diretamente à coluna desejada, podendo ser atribuído a uma variável qualquer se desejado

# Valores Categóricos

Ao contrário dos valores numéricos, o único método possível de se aplicar à colunas de valor str é a moda, isso é, o valor que mais se repete dentro da coluna.

Primeiramente é necessário criar um 'imputer', isso é, uma variável que armazena o método de preenchimento dos valores. Isso é feito usando a expressão:

```py
nome_do_imputer = SimpleImpputer()
```
 O parâmetro 'strategy' define qual será o método de preenchimento, nesse caso é determinado como **'most_frequent'** que é a **moda**.

Após a criação do imputer, o mesmo pode ser utilizado para aplicar o método de preenchimento no conjunto de dados desejado com o método.`.fit_transform()`.

In [4]:
#Cria o Imputer 
str_imput = SimpleImputer(strategy='most_frequent')

#Determina que os valores da coluna Genero sejam substituidos pelo retorno do metodo .fit_transform() que substitui os alores faltantes pela moda da coluna
df[['Genero']] = str_imput.fit_transform(df[['Genero']])

df[df.isnull().any(axis=1)]

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou


Após a aplicação do método `.fit_transform()` é possível verificar que não existem mais valores ausentes na coluna 'Genero'.

Esse procedimento pode ser realizado com varias colunas ao mesmo tempo, basta que o dataframe com as colunas desejadas seja passado como parâmetro da função `.fit_transform()`. Nesse caso era necessário apenas a coluna 'Genero', mas o mesmo poderia ser realizado com a coluna Setor (que é do tipo string). A expressão para aplicar o `.fit_transform()` às duas colunas ao mesmo tempo seria:   

`df[['Genero', 'Setor']] = numeric_imput.fit_transform(df[['Genero', 'Setor']])`

O retorno também não precisa ser aplicado diretamente à coluna desejada, podendo ser atribuído a uma variável qualquer se desejado

#
[<- Anterior](README.md) | [Próximo ->](scaling_normalization.ipynb)