# IMPUTING MISSING

In [1]:
# Importar módulos

import sklearn
from sklearn.impute import SimpleImputer

import pandas as pd
import numpy as np
import random as rd

In [2]:
# Versões dos módulos

!python --version
%reload_ext watermark
%watermark --iversions

Python 3.9.7
sklearn: 0.24.2
numpy  : 1.20.3
pandas : 1.3.4



In [3]:
# Criar dados aleatórios

tamanho = 20
rd.seed = 42

sx = [rd.sample(['F', 'M'], 1)[0] for _ in range(tamanho)]
idade = [rd.sample(list(range(18, 75)), 1)[0] for _ in range(tamanho)]
classe = [rd.sample(['A', 'B', 'C'], 1)[0] for _ in range(tamanho)]

dic = {'sexo': sx, 'idade': idade, 'classe': classe}

dados = pd.DataFrame(dic)
dados.sample(5)

Unnamed: 0,sexo,idade,classe
13,M,40,B
12,F,48,A
5,F,30,C
11,M,54,C
15,F,18,B


In [4]:
# Criar dados aleatórios missing

for linha in rd.sample(list(dados.index), 10):
  coluna = rd.sample([0, 1, 2], 1)[0]
  dados.iloc[linha, coluna] = np.NaN

dados

Unnamed: 0,sexo,idade,classe
0,M,33.0,B
1,F,32.0,C
2,M,63.0,C
3,F,20.0,B
4,M,19.0,C
5,F,,C
6,F,,B
7,M,,A
8,F,21.0,B
9,F,46.0,C


In [5]:
# Verificar a quantidade de dados missing

dados.isna().sum()

sexo      1
idade     6
classe    3
dtype: int64

In [6]:
# Verificar informações dos dataset

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   sexo    19 non-null     object 
 1   idade   14 non-null     float64
 2   classe  17 non-null     object 
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


In [7]:
# Completar os dados missing com a média mediana

imput = SimpleImputer(missing_values=np.NaN, strategy='median')
newimput = imput.fit_transform(dados['idade'].values.reshape(-1,1))[:, 0]
newimput

array([33., 32., 63., 20., 19., 51., 51., 51., 21., 46., 70., 54., 48.,
       51., 63., 51., 51., 66., 70., 62.])

In [8]:
# Completar os dados missing com a maior frequência

imputer = SimpleImputer(missing_values=np.NaN, strategy='most_frequent')
imputer.fit_transform(dados['sexo'].values.reshape(-1,1))[:, 0]

array(['M', 'F', 'M', 'F', 'M', 'F', 'F', 'M', 'F', 'F', 'F', 'F', 'F',
       'M', 'F', 'F', 'M', 'M', 'F', 'M'], dtype=object)

In [9]:
# Completar os dados missing com um valor fixo

imputer = SimpleImputer(missing_values=np.NaN, strategy='constant', fill_value='F')
imputer.fit_transform(dados['sexo'].values.reshape(-1,1))[:, 0]

array(['M', 'F', 'M', 'F', 'M', 'F', 'F', 'M', 'F', 'F', 'F', 'F', 'F',
       'M', 'F', 'F', 'M', 'M', 'F', 'M'], dtype=object)

In [10]:
# Completar os dados missing com a maior frequência

imputer = SimpleImputer(missing_values=np.NaN, strategy='most_frequent')
imputer.fit_transform(dados['classe'].values.reshape(-1,1))[:, 0]

array(['B', 'C', 'C', 'B', 'C', 'C', 'B', 'A', 'B', 'C', 'C', 'C', 'C',
       'B', 'B', 'B', 'C', 'C', 'C', 'C'], dtype=object)

In [11]:
imputer.fit_transform(dados[['classe']])

array([['B'],
       ['C'],
       ['C'],
       ['B'],
       ['C'],
       ['C'],
       ['B'],
       ['A'],
       ['B'],
       ['C'],
       ['C'],
       ['C'],
       ['C'],
       ['B'],
       ['B'],
       ['B'],
       ['C'],
       ['C'],
       ['C'],
       ['C']], dtype=object)