# Dados ausentes

Vamos mostrar alguns métodos convenientes para lidar com Missing Data em pandas:

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [17]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [5]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [6]:
#deixar apenas as colunas que não possuem nan(dados ausentes) 
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [16]:
#deixar apenas as linhas que não possuem nan(dados ausentes) 
# retirar as linhas com dados ausentes
df.dropna(axis=0)

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [9]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
# Mantenha apenas as linhas com pelo menos 1 valor que não sejam NA.
df.dropna(thresh=1)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [11]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
# Mantenha apenas as linhas com pelo menos 2 valores que não sejam NA.
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [13]:
# Mantenha apenas as linhas com pelo menos 3 valores que não sejam NA.
df.dropna(thresh=3)

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [18]:
# Mantenha apenas as linhas com pelo menos 4 valores que não sejam NA.
df.dropna(thresh=4)

Unnamed: 0,A,B,C


In [19]:
df.dropna(thresh=0)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [20]:
# Mantenha apenas as colunas com pelo menos 1 valor que não sejam NA.
df.dropna(thresh=1, axis=1)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [22]:
# Mantenha apenas as colunas com pelo menos 2 valor que não sejam NA.
df.dropna(thresh=2, axis=1)

Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [24]:
# Mantenha apenas as colunas com pelo menos 3 valor que não sejam NA.
df.dropna(thresh=3, axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [25]:
df.dropna(thresh=4, axis=1)

0
1
2


In [26]:
df1 = pd.DataFrame({'A':[np.nan,3,4,5,6,17,1],
                  'B':[np.nan,np.nan,2,5,6,19,2],
                  'C':[np.nan,np.nan,np.nan,5,6,21,3],
                  'D':[np.nan,np.nan,np.nan,np.nan,6,22,4],
                  'E':[np.nan,np.nan,np.nan,np.nan,np.nan,23,5],
                  'F':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,6],
                  'G':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan]})
df1

Unnamed: 0,A,B,C,D,E,F,G
0,,,,,,,
1,3.0,,,,,,
2,4.0,2.0,,,,,
3,5.0,5.0,5.0,,,,
4,6.0,6.0,6.0,6.0,,,
5,17.0,19.0,21.0,22.0,23.0,,
6,1.0,2.0,3.0,4.0,5.0,6.0,


In [61]:
# Mantenha apenas as colunas(axis=1) com pelo menos 2 valores que não sejam NA.
df1.dropna(thresh=2, axis=1)

Unnamed: 0,A,B,C,D,E
0,,,,,
1,3.0,,,,
2,4.0,2.0,,,
3,5.0,5.0,5.0,,
4,6.0,6.0,6.0,6.0,
5,17.0,19.0,21.0,22.0,23.0
6,1.0,2.0,3.0,4.0,5.0


In [29]:
# Mantenha apenas as colunas(axis=1) com pelo menos 3 valores que não sejam NA. Portanto a coluna E não irá aparecer
df1.dropna(thresh=3, axis=1)

Unnamed: 0,A,B,C,D
0,,,,
1,3.0,,,
2,4.0,2.0,,
3,5.0,5.0,5.0,
4,6.0,6.0,6.0,6.0
5,17.0,19.0,21.0,22.0
6,1.0,2.0,3.0,4.0


In [33]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [43]:
# preenche NaN com 'Conteúdo'
# por padrão inplace=False
df.fillna(value='Conteúdo', inplace=True)

In [44]:
df

Unnamed: 0,A,B,C
0,1,5,1
1,2,Conteúdo,2
2,Conteúdo,Conteúdo,3


In [39]:
help(df.fillna)

Help on method fillna in module pandas.core.frame:

fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) method of pandas.core.frame.DataFrame instance
    Fill NA/NaN values using the specified method.
    
    Parameters
    ----------
    value : scalar, dict, Series, or DataFrame
        Value to use to fill holes (e.g. 0), alternately a
        dict/Series/DataFrame of values specifying which value to use for
        each index (for a Series) or column (for a DataFrame). (values not
        in the dict/Series/DataFrame will not be filled). This value cannot
        be a list.
    method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
        Method to use for filling holes in reindexed Series
        pad / ffill: propagate last valid observation forward to next valid
        backfill / bfill: use NEXT valid observation to fill gap
    axis : {0 or 'index', 1 or 'columns'}
    inplace : boolean, default False
        If True, fi

In [63]:
# onde houver NaN será preenchido com a média da coluna 'A'
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64