# 2. Análise Estatística - Ames Housing Dataset

Este notebook realiza uma análise estatística detalhada do conjunto de dados, focando em:
1. Distribuição da variável alvo (SalePrice)
2. Correlações entre variáveis numéricas
3. Análise de outliers
4. Testes estatísticos básicos

In [None]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configurações de visualização
plt.style.use('seaborn')
pd.set_option('display.max_columns', None)
%matplotlib inline

In [None]:
# Carregando os dados
df = pd.read_csv('../data/ames_housing.csv')

# Selecionando apenas variáveis numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns
df_numeric = df[numeric_cols]

## 1. Análise da Variável Alvo (SalePrice)

In [None]:
# Distribuição do preço de venda
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
sns.histplot(df['SalePrice'], kde=True)
plt.title('Distribuição do Preço de Venda')
plt.xlabel('Preço')

plt.subplot(1, 2, 2)
sns.histplot(np.log1p(df['SalePrice']), kde=True)
plt.title('Distribuição do Log do Preço de Venda')
plt.xlabel('Log(Preço)')

plt.tight_layout()
plt.show()

# Estatísticas descritivas do preço
print("\nEstatísticas descritivas do Preço de Venda:")
print(df['SalePrice'].describe())

## 2. Análise de Correlações

In [None]:
# Matriz de correlação
correlation_matrix = df_numeric.corr()

# Plotando o mapa de calor das correlações
plt.figure(figsize=(15, 12))
sns.heatmap(correlation_matrix, 
            cmap='coolwarm',
            center=0,
            annot=False)
plt.title('Mapa de Calor - Correlações entre Variáveis Numéricas')
plt.show()

# Top 10 correlações com o preço de venda
price_correlations = correlation_matrix['SalePrice'].sort_values(ascending=False)
print("\nTop 10 correlações com Preço de Venda:")
print(price_correlations[:10])

## 3. Análise de Outliers

In [None]:
def plot_boxplots(df, columns, ncols=3):
    nrows = len(columns) // ncols + (len(columns) % ncols > 0)
    fig, axes = plt.subplots(nrows, ncols, figsize=(15, 5*nrows))
    axes = axes.ravel()
    
    for idx, col in enumerate(columns):
        sns.boxplot(data=df, y=col, ax=axes[idx])
        axes[idx].set_title(f'Boxplot - {col}')
    
    for idx in range(len(columns), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()

# Selecionando as variáveis numéricas mais importantes
important_numeric_cols = price_correlations[:6].index
plot_boxplots(df, important_numeric_cols)

## 4. Testes Estatísticos

In [None]:
# Teste de normalidade para o preço de venda
_, p_value = stats.normaltest(df['SalePrice'])
print(f"Teste de normalidade para Preço de Venda (p-value): {p_value:.10f}")

# Teste de normalidade para o log do preço de venda
_, p_value_log = stats.normaltest(np.log1p(df['SalePrice']))
print(f"Teste de normalidade para Log(Preço de Venda) (p-value): {p_value_log:.10f}")