# 1. Análise Exploratória de Dados (EDA) e Limpeza

Este notebook é dedicado à **Análise Exploratória de Dados (EDA)** e à fase inicial de **Limpeza e Transformação** do dataset, conforme exigido na Parte 2 da avaliação.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configuração para melhor visualização
pd.set_option('display.max_columns', None)
sns.set_style("whitegrid")

# Caminho para o dataset
DATA_PATH = "../data/Housing.csv"

# 1. Carregamento dos Dados
print("--- 1. Carregamento dos Dados ---")
try:
    df = pd.read_csv(DATA_PATH)
    print("Dataset carregado com sucesso.")
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado em {DATA_PATH}. Certifique-se de que o script de download foi executado.")
    df = None

if df is not None:
    # 2. Visão Geral dos Dados
    print("\n--- 2. Visão Geral dos Dados ---")
    print(f"Formato do Dataset: {df.shape}")
    print("Primeiras 5 linhas:")
    print(df.head())
    print("\nInformações sobre as colunas e tipos de dados:")
    df.info()

    # 3. Estatísticas Descritivas
    print("\n--- 3. Estatísticas Descritivas ---")
    print("Variáveis Numéricas:")
    print(df.describe())
    print("\nVariáveis Categóricas:")
    print(df.describe(include=['object']))

    # 4. Verificação de Valores Ausentes
    print("\n--- 4. Verificação de Valores Ausentes ---")
    missing_values = df.isnull().sum()
    print(missing_values[missing_values > 0])
    if missing_values.sum() == 0:
        print("Não há valores ausentes no dataset.")

    # 5. Análise da Variável Alvo (price)
    print("\n--- 5. Análise da Variável Alvo (price) ---")
    plt.figure(figsize=(10, 6))
    sns.histplot(df['price'], kde=True)
    plt.title('Distribuição do Preço dos Imóveis')
    plt.xlabel('Preço (R$)')
    plt.ylabel('Contagem')
    plt.savefig('../notebooks/distribuicao_preco.png')
    plt.close()
    print("Gráfico de distribuição de preço salvo como distribuicao_preco.png")
    
    # 6. Análise de Correlação com a Variável Alvo
    print("\n--- 6. Análise de Correlação com a Variável Alvo ---")
    # Seleciona apenas colunas numéricas para a correlação
    df_numeric = df.select_dtypes(include=np.number)
    correlation_matrix = df_numeric.corr()
    price_corr = correlation_matrix['price'].sort_values(ascending=False)
    print("Correlação das variáveis numéricas com o Preço:")
    print(price_corr)
    
    # Visualização da Correlação
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Matriz de Correlação das Variáveis Numéricas')
    plt.savefig('../notebooks/matriz_correlacao.png')
    plt.close()
    print("Matriz de correlação salva como matriz_correlacao.png")
    
    # 7. Análise de Variáveis Categóricas
    print("\n--- 7. Análise de Variáveis Categóricas ---")
    categorical_cols = df.select_dtypes(include='object').columns
    
    for col in categorical_cols:
        plt.figure(figsize=(8, 5))
        sns.boxplot(x=col, y='price', data=df)
        plt.title(f'Preço vs {col}')
        plt.savefig(f'../notebooks/boxplot_{col}.png')
        plt.close()
        print(f"Boxplot de Preço vs {col} salvo como boxplot_{col}.png")
        
    # 8. Conclusões da EDA (para documentação)
    print("\n--- 8. Conclusões da EDA ---")
    print("A EDA revelou que a variável alvo 'price' tem uma distribuição ligeiramente inclinada à direita, sugerindo a necessidade de transformação logarítmica ou o uso de modelos robustos a outliers. As variáveis 'area', 'bedrooms' e 'bathrooms' são as mais correlacionadas com o preço. As variáveis categóricas mostram diferenças claras na mediana de preço entre as categorias, indicando que serão importantes para o modelo.")
    
    # 9. Salvando o DataFrame para a próxima etapa (se necessário, mas neste caso não é, pois o pré-processamento será feito no próximo notebook)
    # Apenas para fins de documentação, vamos salvar o nome das colunas categóricas para o próximo notebook.
    categorical_cols_list = list(categorical_cols)
    print(f"Colunas categóricas identificadas: {categorical_cols_list}")
    
    # Salvando o código do notebook em um arquivo .py para execução no shell
    with open('../notebooks/01_EDA_e_Limpeza.py', 'w') as f:
        f.write("""import pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\nimport seaborn as sns\nimport os\n\npd.set_option('display.max_columns', None)\nsns.set_style("whitegrid")\n\nDATA_PATH = "../data/Housing.csv"\n\ntry:\n    df = pd.read_csv(DATA_PATH)\nexcept FileNotFoundError:\n    print(f"Erro: Arquivo não encontrado em {DATA_PATH}.")\n    exit()\n\n# 2. Visão Geral dos Dados\nprint(f"Formato do Dataset: {df.shape}")\n\n# 4. Verificação de Valores Ausentes\nmissing_values = df.isnull().sum()\nif missing_values.sum() == 0:\n    print("Não há valores ausentes no dataset.")\n\n# 5. Análise da Variável Alvo (price)\nplt.figure(figsize=(10, 6))\nsns.histplot(df['price'], kde=True)\nplt.title('Distribuição do Preço dos Imóveis')\nplt.xlabel('Preço (R$)')\nplt.ylabel('Contagem')\nplt.savefig('../notebooks/distribuicao_preco.png')\nplt.close()\n\n# 6. Análise de Correlação com a Variável Alvo\ndf_numeric = df.select_dtypes(include=np.number)\ncorrelation_matrix = df_numeric.corr()\nplt.figure(figsize=(12, 10))\nsns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")\nplt.title('Matriz de Correlação das Variáveis Numéricas')\nplt.savefig('../notebooks/matriz_correlacao.png')\nplt.close()\n\n# 7. Análise de Variáveis Categóricas\ncategorical_cols = df.select_dtypes(include='object').columns\nfor col in categorical_cols:\n    plt.figure(figsize=(8, 5))\n    sns.boxplot(x=col, y='price', data=df)\n    plt.title(f'Preço vs {col}')\n    plt.savefig(f'../notebooks/boxplot_{col}.png')\n    plt.close()\n\nprint(\"EDA concluída. Resultados e gráficos salvos na pasta notebooks.\")\n""")
    print("Script Python 01_EDA_e_Limpeza.py salvo para execução.")