# Missing Data

Let's show a few convenient methods to deal with Missing Data in pandas:

In [1]:
import numpy as np
import pandas as pd

In [2]:
# criando DF
df = pd.DataFrame({'A':[1,2,np.nan,4],
                  'B':[5,np.nan,np.nan,8],
                  'C':[10,20,30,40]})

In [3]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


## Removing missing data

In [4]:
# 'axis = 0' é default, remove as linhas com dados nulos
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40


In [5]:
# 'axis = 1' remove as colunas com valores nulos
df.dropna(axis = 1)

Unnamed: 0,C
0,10
1,20
2,30
3,40


In [6]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


### Threshold (Require that many non-NA values.)

In [12]:
# parâmetro 'thresh' determina o limita mínimo de valores não-nulos para excluir a linha
df.dropna(thresh=2)  # linha 2 só tem 1 valor não-nulo

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
3,4.0,8.0,40


In [14]:
# thresh = 3, pelo menos 3 valores não-nulos
df.dropna(axis = 1, thresh = 3) # coluna B só tinha 2 valores não-nulos

Unnamed: 0,A,C
0,1.0,10
1,2.0,20
2,,30
3,4.0,40


## Filling in missing data

In [19]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [18]:
# preencher com o 'value' indicado
df.fillna(value = 'FILL NULL')  # os números ficam como string

Unnamed: 0,A,B,C
0,1,5,10
1,2,FILL NULL,20
2,FILL NULL,FILL NULL,30
3,4,8,40


In [20]:
# preencher com o 'value' indicado
df.fillna(value = 0)  # os '0' preenchidos viram floats

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,0.0,20
2,0.0,0.0,30
3,4.0,8.0,40


In [22]:
# podemos preencher apenas a coluna especificada
df['A'] = df['A'].fillna(0) # nesse caso, alteramos permanentemente

In [23]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,0.0,,30
3,4.0,8.0,40


In [24]:
# alterando com o valor da média da coluna B
df['B'].fillna(df['B'].mean())

0    5.0
1    6.5
2    6.5
3    8.0
Name: B, dtype: float64

In [25]:
# criando o DF novamente para visuzlizar como funciona o preenchimento de todo os DF
df = pd.DataFrame({'A':[1,2,np.nan,4],
                  'B':[5,np.nan,np.nan,8],
                  'C':[10,20,30,40]})
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [26]:
# podemos neste caso, Pandas preenche com a média de CADA COLUNA
df.fillna(df.mean()) # A.mean() = 2.333 e B.mean() = 6.5

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,6.5,20
2,2.333333,6.5,30
3,4.0,8.0,40
