# Missing Data

Antes de aplicar qualquer algoritmo de Machine Learning, é necessário tratar missing data. Existem diversas técnicas para realizar este tratamento, iremos ver algumas neste notebook.

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3],
                  'D':[np.nan, np.nan, 3]})

In [3]:
df

Unnamed: 0,A,B,C,D
0,1.0,5.0,1,
1,2.0,,2,
2,,,3,3.0


### Podemos simplesmente deletar as linhas e colunas com os NaN

In [4]:
df.dropna()

Unnamed: 0,A,B,C,D


In [5]:
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [8]:
df.dropna(thresh=3)

Unnamed: 0,A,B,C,D
0,1.0,5.0,1,


### É recomendável usar alguma técnica para preencher os valores missing.

In [9]:
df.fillna(value='FILL VALUE')

Unnamed: 0,A,B,C,D
0,1,5,1,FILL VALUE
1,2,FILL VALUE,2,FILL VALUE
2,FILL VALUE,FILL VALUE,3,3


In [10]:
# Inputando média
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [11]:
# Inputando mediana
df['B'].fillna(value=df['B'].median())

0    5.0
1    5.0
2    5.0
Name: B, dtype: float64

In [12]:
# ffill - propaga última observação válida
df['A'].fillna(method = 'ffill')

0    1.0
1    2.0
2    2.0
Name: A, dtype: float64

In [13]:
# ffill - usa próxima observação válida
df['D'].fillna(method = 'bfill')

0    3.0
1    3.0
2    3.0
Name: D, dtype: float64