In [1]:
#Usando simpleImputer, permite lidar com dados ausentes em conjuntos de dados
#Ele oferece estrategias como media, mediana, valor mais frequente e valor fixo

from sklearn.impute import SimpleImputer
import pandas as pd


In [4]:
#Primeiro exemplo
dados = {
    'A': [1,2,None,4,5],
    'B': [None,2,3,4,5],
    'C': [1,2,3,4,None]
}
df = pd.DataFrame(dados)

#Criando instancia do simpleImputer
imputer = SimpleImputer(strategy='mean')

#Aplicando imputer
#PRIMEIRO vem o treinamento
df_imputer = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
#Criado novo dataframe para visualizar
print('Conjunto de dados original')
print(df)
print('\n Conjunto de dados ausentes tratados')
print(df_imputer)

Conjunto de dados original
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  4.0
4  5.0  5.0  NaN

 Conjunto de dados ausentes tratados
     A    B    C
0  1.0  3.5  1.0
1  2.0  2.0  2.0
2  3.0  3.0  3.0
3  4.0  4.0  4.0
4  5.0  5.0  2.5


In [7]:
#Utilizando KNNImputer
#Trabalha com distancias entre as instancias com valores faltantes
#Vantagem leva em consideração as relações e a estrutura de dados para preencher os valores ausentes
#Especialmente em casos onde as variaveis estao correlacionadas

from sklearn.impute import KNNImputer
import numpy as np

dados = {
    'Matematica':[80,90,np.nan, 95],
    'Portugues':[60,65,56,np.nan],
    'Fisica':[80,57,80,78],
    'Biologia':[78, 83,67,np.nan]
}
df = pd.DataFrame(dados)

#Criando instancia KNN
imputer = KNNImputer(n_neighbors=2)

#Aplicar o imputer
df_imputer = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)


print('Conjunto de dados original')
print(df)
print('\n Conjunto de dados ausentes tratados')
print(df_imputer)

Conjunto de dados original
   Matematica  Portugues  Fisica  Biologia
0        80.0       60.0      80      78.0
1        90.0       65.0      57      83.0
2         NaN       56.0      80      67.0
3        95.0        NaN      78       NaN

 Conjunto de dados ausentes tratados
   Matematica  Portugues  Fisica  Biologia
0        80.0       60.0    80.0      78.0
1        90.0       65.0    57.0      83.0
2        87.5       56.0    80.0      67.0
3        95.0       58.0    78.0      72.5


In [19]:
#Usando MissingIndicator
#Util para criar representacao binaria indicado se tem valor ausente ou nao em cada instancia do conjunto de dados
from sklearn.impute import MissingIndicator
dados = {
    'Matematica':[80,90,np.nan, 95],
    'Portugues':[60,65,56,np.nan],
    'Fisica':[np.nan,57,80,78],
    'Biologia':[78, 83,67,np.nan]
}
df = pd.DataFrame(dados)
indicator= MissingIndicator()
indicator.fit(df)

df_imputer = pd.DataFrame(indicator.transform(df), columns=df.columns)
print('Conjunto de dados original')
print(df)
print('\n Conjunto de dados ausentes tratados')
print(df_imputer)

Conjunto de dados original
   Matematica  Portugues  Fisica  Biologia
0        80.0       60.0     NaN      78.0
1        90.0       65.0    57.0      83.0
2         NaN       56.0    80.0      67.0
3        95.0        NaN    78.0       NaN

 Conjunto de dados ausentes tratados
   Matematica  Portugues  Fisica  Biologia
0       False      False    True     False
1       False      False   False     False
2        True      False   False     False
3       False       True   False      True
