In [1]:
import pandas as pd
import numpy as np

# Criando um DataFrame com valores nulos
data = {
    'Nome': ['Ana', None, 'Carlos', 'Diana', 'Eduardo'],
    'Idade': [23, np.nan, 45, None, 33],
    'Cidade': ['São Paulo', 'Rio de Janeiro', None, 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)


### Identificando Dados Faltantes

Para identificar dados faltantes em um DataFrame, você pode usar os métodos `isna()` ou `isnull()`. Eles retornam um DataFrame booleano indicando True para valores nulos.

In [2]:
# Verificando valores nulos
print(df.isna())

    Nome  Idade  Cidade
0  False  False   False
1   True   True   False
2  False  False    True
3  False   True   False
4  False  False   False


Para contar o número de nulos em cada coluna, combine `isna()` com `sum()`.

In [3]:
# Contando valores nulos em cada coluna
print(df.isna().sum())


Nome      1
Idade     2
Cidade    1
dtype: int64


### Removendo Dados Faltantes

O método `dropna()` permite remover linhas ou colunas que contêm valores nulos.

In [4]:
# Removendo linhas com valores nulos
df_limpo = df.dropna()

# Removendo colunas com valores nulos
df_limpo_colunas = df.dropna(axis=1)



### Substituindo Dados Faltantes

O método `fillna()` é usado para substituir os valores nulos por um valor específico ou por um método de interpolação.

In [6]:
# Substituindo valores nulos por um valor fixo
df_preenchido = df.fillna(0)

# Substituindo valores nulos com o valor anterior (forward fill)
df_ffill = df.ffill()

# Substituindo valores nulos com o valor seguinte (backward fill)
df_bfill = df.bfill()

In [7]:
df_bfill

Unnamed: 0,Nome,Idade,Cidade
0,Ana,23.0,São Paulo
1,Carlos,45.0,Rio de Janeiro
2,Carlos,45.0,Porto Alegre
3,Diana,33.0,Porto Alegre
4,Eduardo,33.0,Salvador


### Interpolação de Dados Faltantes

A interpolação é uma técnica sofisticada para estimar e substituir valores nulos baseando-se nos valores existentes.

In [17]:
# Interpolando valores nulos
df["Idade"].interpolate()


0    23.0
1    34.0
2    45.0
3    39.0
4    33.0
Name: Idade, dtype: float64


Tratar dados faltantes é essencial para garantir a qualidade e a precisão das análises de dados. O Pandas oferece várias ferramentas para identificar, remover e imputar valores nulos, permitindo que os analistas preparem seus dados de forma eficaz para análise e modelagem. Dependendo do contexto e da natureza dos dados, diferentes métodos de tratamento de dados nulos podem ser mais adequados, desde a remoção simples até técnicas mais complexas de imputação e interpolação