In [1]:
# importando as bibilotecas

import pandas as pd
import numpy as np

In [2]:
# criando um dicionario e transformando em dataframe em seguida

data = {'Nome': ['Andre', 'Bruno', 'Maria', 'Natalia', 'Thiago', 'Vanessa'],
       'Idade': [20, 24, np.nan, 19, np.nan, 20],
       'UF': ['SP', 'MG', np.nan, 'MG', 'BA', np.nan]} 

df = pd.DataFrame(data)

df

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
2,Maria,,
3,Natalia,19.0,MG
4,Thiago,,BA
5,Vanessa,20.0,


In [3]:
# filtrando os missing values

df.isna()

Unnamed: 0,Nome,Idade,UF
0,False,False,False
1,False,False,False
2,False,True,True
3,False,False,False
4,False,True,False
5,False,False,True


In [4]:
# contando os missing values por coluna

df.isna().sum()

Nome     0
Idade    2
UF       2
dtype: int64

In [5]:
# contando os nao-missing por coluna

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nome    6 non-null      object 
 1   Idade   4 non-null      float64
 2   UF      4 non-null      object 
dtypes: float64(1), object(2)
memory usage: 272.0+ bytes


In [6]:
# filtrando os missing values da coluna UF

df[pd.isna(df['UF'])]

Unnamed: 0,Nome,Idade,UF
2,Maria,,
5,Vanessa,20.0,


In [7]:
# filtrando os missing values da coluna Idade

df[pd.isna(df['Idade'])]

Unnamed: 0,Nome,Idade,UF
2,Maria,,
4,Thiago,,BA


In [8]:
# preenchendo os missing values com o valor 0

df.fillna(0)

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
2,Maria,0.0,0
3,Natalia,19.0,MG
4,Thiago,0.0,BA
5,Vanessa,20.0,0


Se eu quisesse preencher o missing com 0 em definitivo (alterar dataset original), teria que usar o parâmetro INPLACE. Desta forma:

df.fillna(0, inplace=True)

ou simplesmente atribuir o objeto fillna ao dataset original:

df = df.fillna(0)

In [9]:
# preenchendo o missing com a media da coluna idade

df['Idade'].fillna(df['Idade'].mean())

0    20.00
1    24.00
2    20.75
3    19.00
4    20.75
5    20.00
Name: Idade, dtype: float64

In [10]:
# preenchendo o missing com a mediana da coluna idade

df['Idade'].fillna(df['Idade'].median())

0    20.0
1    24.0
2    20.0
3    19.0
4    20.0
5    20.0
Name: Idade, dtype: float64

In [11]:
# veja que continuamos sem alterar o dataset original, por enquanto
df

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
2,Maria,,
3,Natalia,19.0,MG
4,Thiago,,BA
5,Vanessa,20.0,


In [12]:
# criando um dicionario valores

valores = {'Idade': df['Idade'].mean(), 'UF': 'N/A'}
df.fillna(valores)

# novamente, para alterar dataset original, use df.fillna(valores, inplace=True)

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
2,Maria,20.75,
3,Natalia,19.0,MG
4,Thiago,20.75,BA
5,Vanessa,20.0,


In [13]:
# excluindo todas as linhas onde tem missing values

df.dropna()

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
3,Natalia,19.0,MG


In [14]:
# Excluindo missing values utilizando o comando subset
# ele exclui só as linhas que tem idade missing, não importa as outras colunas

df.dropna(subset=['Idade'])

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
3,Natalia,19.0,MG
5,Vanessa,20.0,


### Criando um novo dataset de exemplo

In [15]:
data = {'Nome':['Andre', 'Bruno', np.nan, 'Natalia' ,'Thiago', 'Vanessa'], 
        'Idade':[20, 24, np.nan, 19, np.nan, 20],
        'UF':['SP', 'MG', np.nan, 'MG', 'BA', np.nan]} 

df = pd.DataFrame(data) 
  
df 

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
2,,,
3,Natalia,19.0,MG
4,Thiago,,BA
5,Vanessa,20.0,


In [16]:
# exclui somente linhas em que todos os elementos missing values

df.dropna(how='all', inplace=True)

In [17]:
df

Unnamed: 0,Nome,Idade,UF
0,Andre,20.0,SP
1,Bruno,24.0,MG
3,Natalia,19.0,MG
4,Thiago,,BA
5,Vanessa,20.0,


Como podemos observar acima, somente foi excluído a linha 2 que tinha em todas as colunas NaN