# üßº Tratamento de Dados Ausentes - Base de Im√≥veis (Housing)

## üéØ Objetivo

Este notebook tem como foco aplicar e comparar diferentes estrat√©gias de tratamento de dados ausentes em uma base p√∫blica de im√≥veis da Calif√≥rnia.

A base possui vari√°veis num√©ricas e categ√≥ricas, permitindo simular situa√ß√µes reais de an√°lise e prepara√ß√£o de dados para modelos de machine learning.


## üìö Bibliotecas utilizadas

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Base da a√ß√£o (carregamento da base)

In [None]:
url = "https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv"
df = pd.read_csv(url)

# Visualizar as 5 primeiras linhas
df.head()

## Informa√ß√µes iniciais sobre a base

In [None]:
# Dimens√µes da base
print("Dimens√µes:", df.shape)

# Informa√ß√µes gerais
df.info()

# Estat√≠sticas descritivas
df.describe()


## üõ†Ô∏è Estrat√©gias de tratamento de dados ausentes

A vari√°vel `total_bedrooms` cont√©m valores ausentes. Vamos aplicar tr√™s abordagens:

1. Remo√ß√£o das linhas com `NaN`
2. Imputa√ß√£o com a m√©dia
3. Imputa√ß√£o com a mediana


### Remo√ß√£o de nulos


In [None]:
df_dropna = df.dropna(subset=["total_bedrooms"])
print("Ap√≥s remo√ß√£o:", df_dropna.shape)

### Imputa√ß√£o com m√©dia

In [None]:
df_mean = df.copy()
df_mean["total_bedrooms"].fillna(df_mean["total_bedrooms"].mean(), inplace=True)


### Imputa√ß√£o com mediana

In [None]:
df_median = df.copy()
df_median["total_bedrooms"].fillna(df_median["total_bedrooms"].median(), inplace=True)


## Compara√ß√µes

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(df_dropna["total_bedrooms"], kde=True, ax=ax[0])
ax[0].set_title("Remo√ß√£o de nulos")

sns.histplot(df_mean["total_bedrooms"], kde=True, ax=ax[1])
ax[1].set_title("Imputa√ß√£o com m√©dia")

sns.histplot(df_median["total_bedrooms"], kde=True, ax=ax[2])
ax[2].set_title("Imputa√ß√£o com mediana")

plt.tight_layout()
plt.show()


## üìà Considera√ß√µes finais

- A remo√ß√£o dos nulos reduziu o n√∫mero total de observa√ß√µes, podendo prejudicar an√°lises futuras.
- A imputa√ß√£o com m√©dia ou mediana mant√©m o tamanho da base, mas insere valores estimados.
- A escolha da estrat√©gia depende do contexto e da distribui√ß√£o dos dados.

O ideal √© sempre avaliar o impacto da imputa√ß√£o na vari√°vel alvo, se houver.