# 🧼 Tratamento de Dados Ausentes - Base de Imóveis (Housing)

## 🎯 Objetivo

Este notebook tem como foco aplicar e comparar diferentes estratégias de tratamento de dados ausentes em uma base pública de imóveis da Califórnia.

A base possui variáveis numéricas e categóricas, permitindo simular situações reais de análise e preparação de dados para modelos de machine learning.


## 📚 Bibliotecas utilizadas

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Base da ação (carregamento da base)

In [None]:
url = "https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv"
df = pd.read_csv(url)

# Visualizar as 5 primeiras linhas
df.head()

## Informações iniciais sobre a base

In [None]:
# Dimensões da base
print("Dimensões:", df.shape)

# Informações gerais
df.info()

# Estatísticas descritivas
df.describe()


## 🛠️ Estratégias de tratamento de dados ausentes

A variável `total_bedrooms` contém valores ausentes. Vamos aplicar três abordagens:

1. Remoção das linhas com `NaN`
2. Imputação com a média
3. Imputação com a mediana


### Remoção de nulos


In [None]:
df_dropna = df.dropna(subset=["total_bedrooms"])
print("Após remoção:", df_dropna.shape)

### Imputação com média

In [None]:
df_mean = df.copy()
df_mean["total_bedrooms"].fillna(df_mean["total_bedrooms"].mean(), inplace=True)


### Imputação com mediana

In [None]:
df_median = df.copy()
df_median["total_bedrooms"].fillna(df_median["total_bedrooms"].median(), inplace=True)


## Comparações

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(df_dropna["total_bedrooms"], kde=True, ax=ax[0])
ax[0].set_title("Remoção de nulos")

sns.histplot(df_mean["total_bedrooms"], kde=True, ax=ax[1])
ax[1].set_title("Imputação com média")

sns.histplot(df_median["total_bedrooms"], kde=True, ax=ax[2])
ax[2].set_title("Imputação com mediana")

plt.tight_layout()
plt.show()


## 📈 Considerações finais

- A remoção dos nulos reduziu o número total de observações, podendo prejudicar análises futuras.
- A imputação com média ou mediana mantém o tamanho da base, mas insere valores estimados.
- A escolha da estratégia depende do contexto e da distribuição dos dados.

O ideal é sempre avaliar o impacto da imputação na variável alvo, se houver.