# Manipulação de dados ausentes

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({'A': [1,2,np.nan],
                   'B': [5, np.nan, np.nan],
                   'C': [7,8,9]})

In [4]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,,8
2,,,9


In [5]:
# Uma forma é jogar fora linhas ou colunas que conter dados ausentes, com método dorpna

df.dropna() # Remove linhas com dados ausentes

Unnamed: 0,A,B,C
0,1.0,5.0,7


In [6]:
# se eu informar o eixo 1 ele apaga as colunas com valores ausentes

df.dropna(axis=1)

Unnamed: 0,C
0,7
1,8
2,9


In [9]:
# eu posso informar qual vai ser o critério de corte através do parametro thresh, nesse exemplo se encontrar 2 ou mais dados ausentes
df.dropna(axis=1, thresh=2)

Unnamed: 0,A,C
0,1.0,7
1,2.0,8
2,,9


In [10]:
# ou usando o método fillna que irá preencher os valores vazios com algum outro valor

df.fillna(value=0)

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,0.0,8
2,0.0,0.0,9


In [11]:
# Ou definir com uma média para não atrapalhar a distribuição da amostragem

df.fillna(value=df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,1.5,5.0,9


In [12]:
# ou se quiser decobrir a média de uma coluna e aplicar ela nos vazios

df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [None]:
# ou preencher com o último valor observável, para serie temporais, para algo como validar o PIB de um país, ou serie de cotações do dia anterior hoje.
df.ffill()

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,2.0,5.0,9
