# Lidando com dados vazios

In [2]:
import numpy as np 
import pandas as pd

In [3]:
df = pd.DataFrame({
    'A': [1,2,np.nan,4],
    'B': [5,np.nan,np.nan,8],
    'C': [10,20,30,40]
})

In [4]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [5]:
# Remove todas as linhas que possuem ao menos um elemento NaN
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40


In [6]:
# Remove todas as colunas que tenham ao menos um elemento NaN
df.dropna(axis=1)

Unnamed: 0,C
0,10
1,20
2,30
3,40


In [7]:
# Remove as colunas em que pelo menos 3 elementos nao sao nulos
# thresh é o limite minimo de itens nao nulos
df.dropna(axis=1,thresh=3)

Unnamed: 0,A,C
0,1.0,10
1,2.0,20
2,,30
3,4.0,40


In [8]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [9]:
df.fillna(value='Fill Value')

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,Fill Value,20
2,Fill Value,Fill Value,30
3,4.0,8.0,40


In [11]:
df.fillna(value=0)

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,0.0,20
2,0.0,0.0,30
3,4.0,8.0,40


In [12]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [16]:
# Refatorando uma coluna com um valor substituto fixo para os elementos vazios
df['A'] = df['A'].fillna(value=0)

In [17]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,0.0,,30
3,4.0,8.0,40


In [20]:
# Refatorando uma coluna com um valor substituto - média da coluna - para os elementos vazios
df['B'] = df['B'].fillna(value=df['B'].mean())

In [19]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,6.5,20
2,0.0,6.5,30
3,4.0,8.0,40


In [23]:
# Podemos fazer em todo o dataframe de uma vez
df = pd.DataFrame({
    'A': [1,2,np.nan,4],
    'B': [5,np.nan,np.nan,8],
    'C': [10,20,30,40]
})

# Ele preenche com a média da respectiva coluna
df.fillna(df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,6.5,20
2,2.333333,6.5,30
3,4.0,8.0,40
