# Análise Exploratória de Dados (EDA)
Este notebook foca na Análise Exploratória de Dados, que nos ajuda a extrair insights e compreender a distribuição e correlações das nossas variáveis.

**Instruções de Download do Dataset:**
Este notebook utiliza o *Ames Housing Dataset*. Para executá-lo corretamente:
1. Acesse: [House Prices (Kaggle)](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques)
2. Baixe os dados e extraia o arquivo `train.csv` na pasta `data/ames_housing/` deste repositório.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Definição das cores (Paleta Padrão da Instituição)
COR_AZUL_PRINCIPAL = "#0D134C"
COR_VERMELHO = "#DD303E"
COR_PRETO = "#000000"
COR_BRANCO = "#FFFFFF"

# 2. Definição de tamanhos de fonte otimizados para leitura
FONT_LABEL = 20
FONT_TICK = 14
FONT_SUBFIGURE = 26

# 3. Carregamento dos dados
# Utilizamos o dataset Ames Housing para exploração avançada
df = pd.read_csv('data/ames_housing/train.csv')

# Aplica o estilo visual base do Seaborn com fundo neutro para destacar as cores
sns.set_theme(style="whitegrid", rc={"axes.facecolor": "#F9F9F9"})

FileNotFoundError: [Errno 2] No such file or directory: './data/ames_housing/train.csv'

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 7), facecolor=COR_BRANCO)

# --- (a) O Tradicional: Histograma Básico ---
# O Histograma agrupa os dados de preço em faixas contínuas (bins)
sns.histplot(df['SalePrice'], ax=ax1, color=COR_AZUL_PRINCIPAL, bins=30, alpha=0.7)
ax1.set_xlabel('Preço de Venda (US$)', fontsize=FONT_LABEL, labelpad=15)
ax1.set_ylabel('Contagem', fontsize=FONT_LABEL, labelpad=15)

# --- (b) O Avançado: KDE (Kernel Density Estimation) ---
# O KDE calcula a função de densidade de probabilidade, revelando a curva real dos dados
sns.kdeplot(df['SalePrice'], ax=ax2, color=COR_VERMELHO, fill=True, linewidth=3, alpha=0.3)
ax2.set_xlabel('Preço de Venda (US$)', fontsize=FONT_LABEL, labelpad=15)

# Oculta a notação científica automática e adiciona a informação na label com quebra de linha
ax2.yaxis.get_offset_text().set_visible(False)
ax2.set_ylabel('Densidade de Probabilidade\n(x 10⁻⁶)', fontsize=FONT_LABEL - 2, labelpad=15)

for ax in [ax1, ax2]:
    ax.tick_params(axis='both', labelsize=FONT_TICK)

# Posiciona as labels (a) e (b) centralizadas dinamicamente em relação aos eixos
ax1.text(0.5, -0.25, '(a)', transform=ax1.transAxes, fontsize=FONT_SUBFIGURE, fontweight='bold', color=COR_PRETO, ha='center')
ax2.text(0.5, -0.25, '(b)', transform=ax2.transAxes, fontsize=FONT_SUBFIGURE, fontweight='bold', color=COR_PRETO, ha='center')

# Ajusta o layout automaticamente e garante margem inferior para as labels
plt.tight_layout()
fig.subplots_adjust(bottom=0.25)

# Salvamento da imagem
caminho_arquivo = "../Imagens/aula_03_histograma_vs_kde.png"
plt.savefig(caminho_arquivo, format='png', dpi=300)

plt.show()

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 7), facecolor=COR_BRANCO)

# --- (a) O Tradicional: Boxplot ---
# O Boxplot é excelente para visualizar os quartis (25%, 50%, 75%) e mapear outliers
sns.boxplot(
    x='OverallQual', y='SalePrice', data=df, ax=ax1, 
    color=COR_AZUL_PRINCIPAL,
    boxprops=dict(alpha=0.8),
    medianprops=dict(color='white', linewidth=1.5) 
)
ax1.set_xlabel('Nota de Qualidade Geral', fontsize=FONT_LABEL, labelpad=15)
ax1.set_ylabel('Preço de Venda (US$)', fontsize=FONT_LABEL, labelpad=15)

# --- (b) O Avançado: Violin Plot ---
# O Violin Plot combina o Boxplot com o KDE, revelando a densidade interna dos dados (ex: bimodalidades)
sns.violinplot(
    x='OverallQual', y='SalePrice', data=df, ax=ax2, 
    palette=sns.light_palette(COR_VERMELHO, n_colors=10, reverse=False), 
    hue='OverallQual', legend=False, linewidth=1.5
)
ax2.set_xlabel('Nota de Qualidade Geral', fontsize=FONT_LABEL, labelpad=15)
ax2.set_ylabel('Preço de Venda (US$)', fontsize=FONT_LABEL, labelpad=15)

for ax in [ax1, ax2]:
    ax.tick_params(axis='both', labelsize=FONT_TICK)

# Posiciona as labels (a) e (b) centralizadas dinamicamente em relação aos eixos
ax1.text(0.5, -0.25, '(a)', transform=ax1.transAxes, fontsize=FONT_SUBFIGURE, fontweight='bold', color=COR_PRETO, ha='center')
ax2.text(0.5, -0.25, '(b)', transform=ax2.transAxes, fontsize=FONT_SUBFIGURE, fontweight='bold', color=COR_PRETO, ha='center')

# Ajusta o layout automaticamente e garante margem inferior para as labels
plt.tight_layout()
fig.subplots_adjust(bottom=0.25)

# Salvamento da imagem
caminho_arquivo = "../Imagens/aula_03_box_vs_violin.png"
plt.savefig(caminho_arquivo, format='png', dpi=300)

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(12, 8), facecolor=COR_BRANCO)

# --- Análise Multivariada: Scatterplot ---
# Cruzamento de três dimensões: Eixo X (Área), Eixo Y (Preço) e Cor/Tamanho (Qualidade do Imóvel)
scatter = sns.scatterplot(
    x='GrLivArea', 
    y='SalePrice', 
    hue='OverallQual', 
    palette='flare',
    size='OverallQual',
    sizes=(20, 150),
    data=df, 
    ax=ax,
    alpha=0.8,
    edgecolor="w"
)

ax.set_xlabel('Área Habitável Acima do Solo (sq ft)', fontsize=FONT_LABEL, labelpad=15)
ax.set_ylabel('Preço de Venda (US$)', fontsize=FONT_LABEL, labelpad=15)
ax.tick_params(axis='both', labelsize=FONT_TICK)

# Posiciona a legenda visualmente em uma área vazia do gráfico (ex: canto superior direito dos dados)
plt.legend(
    title='Qualidade (1-10)', 
    title_fontsize=FONT_TICK + 2, 
    fontsize=FONT_TICK, 
    loc='upper right',
    bbox_to_anchor=(0.98, 0.85),
    framealpha=0.9
)

plt.tight_layout()

# Salvamento da imagem
caminho_arquivo = "../Imagens/aula_03_scatter_hue.png"
plt.savefig(caminho_arquivo, format='png', dpi=300)

plt.show()