# üßπ Tratamento de Valores Ausentes com Pandas

Este notebook demonstra diferentes t√©cnicas para lidar com **missing values (NaN)** em datasets.  
O tratamento adequado √© essencial para evitar **vi√©s**, **perda de informa√ß√£o** e **erros em modelos de machine learning**.

---

## üì• 1. Importando bibliotecas e criando dataset de exemplo

In [7]:
import pandas as pd
import numpy as np

# Criando um DataFrame com valores ausentes
data = {
    "Nome": ["Ana", "Bruno", "Carlos", "Daniela", "Eduardo"],
    "Idade": [23, np.nan, 35, 29, np.nan],
    "Salario": [5000, 6200, np.nan, 5800, 7200],
    "Cidade": ["SP", "RJ", np.nan, "SP", "BH"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Idade,Salario,Cidade
0,Ana,23.0,5000.0,SP
1,Bruno,,6200.0,RJ
2,Carlos,35.0,,
3,Daniela,29.0,5800.0,SP
4,Eduardo,,7200.0,BH


## üîç 2. Identifica√ß√£o de valores ausentes

In [8]:
# Verificando presen√ßa de NaN
df.isnull()

# Contando valores ausentes por coluna
df.isnull().sum()

# Total de valores ausentes no DataFrame
df.isnull().sum().sum()


4

## üóë 3. Remo√ß√£o de valores ausentes



In [4]:
# Remover linhas com qualquer valor nulo
df_drop_lin = df.dropna()

# Remover colunas inteiras com valores nulos
df_drop_col = df.dropna(axis=1)

df_drop_lin, df_drop_col


(      Nome  Idade  Salario Cidade
 0      Ana   23.0   5000.0     SP
 3  Daniela   29.0   5800.0     SP,
       Nome
 0      Ana
 1    Bruno
 2   Carlos
 3  Daniela
 4  Eduardo)

## üîÑ 4. Preenchimento de valores ausentes

In [12]:
# Preenchendo com valor constante 
df_fill_const = df.fillna("Desconhecido")

# Preenchendo com m√©dia/mediana 
df_fill_mean = df.fillna({
    "Idade": df["Idade"].mean(),
    "Salario": df["Salario"].median()
})

# Forward fill (valor anterior) 
df_ffill = df.ffill()  

# Backward fill (valor seguinte) 
df_bfill = df.bfill()  

df_fill_const, df_fill_mean, df_ffill, df_bfill

(      Nome  Idade  Salario Cidade
 0      Ana   23.0   5000.0     SP
 1    Bruno   29.0   6200.0     RJ
 2   Carlos   35.0   6000.0     SP
 3  Daniela   29.0   5800.0     SP
 4  Eduardo   29.0   7200.0     BH,
       Nome  Idade  Salario Cidade
 0      Ana   23.0   5000.0     SP
 1    Bruno   29.0   6200.0     RJ
 2   Carlos   35.0   6000.0     SP
 3  Daniela   29.0   5800.0     SP
 4  Eduardo   29.0   7200.0     BH,
       Nome  Idade  Salario Cidade
 0      Ana   23.0   5000.0     SP
 1    Bruno   29.0   6200.0     RJ
 2   Carlos   35.0   6000.0     SP
 3  Daniela   29.0   5800.0     SP
 4  Eduardo   29.0   7200.0     BH,
       Nome  Idade  Salario Cidade
 0      Ana   23.0   5000.0     SP
 1    Bruno   29.0   6200.0     RJ
 2   Carlos   35.0   6000.0     SP
 3  Daniela   29.0   5800.0     SP
 4  Eduardo   29.0   7200.0     BH)

## üìä 5. Estrat√©gias avan√ßadas

In [15]:
# Substituindo valores nulos de 'Idade' pela m√©dia da coluna
df["Idade"] = df["Idade"].fillna(df["Idade"].mean())

# Substituindo nulos de 'Salario' pela mediana
df["Salario"] = df["Salario"].fillna(df["Salario"].median())

# Para colunas categ√≥ricas, usar o valor mais frequente (moda)
df["Cidade"] = df["Cidade"].fillna(df["Cidade"].mode()[0])

df


Unnamed: 0,Nome,Idade,Salario,Cidade
0,Ana,23.0,5000.0,SP
1,Bruno,29.0,6200.0,RJ
2,Carlos,35.0,6000.0,SP
3,Daniela,29.0,5800.0,SP
4,Eduardo,29.0,7200.0,BH


## ‚úÖ 6. Conclus√£o
- Valores ausentes devem ser tratados com cuidado.  
- Estrat√©gia depende do contexto:  
    - **Remo√ß√£o** ‚Üí quando poucos dados est√£o ausentes.  
    - **Preenchimento estat√≠stico** ‚Üí quando h√° padr√£o num√©rico claro.  
    - **Preenchimento categ√≥rico (moda)** ‚Üí √∫til em dados de texto/categorias.  
    - **M√©todos avan√ßados** ‚Üí imputa√ß√£o por modelos ou KNN (fora do escopo b√°sico).