# 2. Pré-processamento e Engenharia de Features

Este notebook implementa as etapas de **Limpeza, Transformação e Preparação para Modelagem** conforme a Parte 2 da avaliação, incluindo a codificação de variáveis categóricas e a divisão dos dados.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
import numpy as np
import os

# Caminho para o dataset
DATA_PATH = "../data/Housing.csv"

# 1. Carregamento dos Dados
print("--- 1. Carregamento dos Dados ---")
try:
    df = pd.read_csv(DATA_PATH)
    print(f"Dataset carregado. Formato: {df.shape}")
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado em {DATA_PATH}.")
    exit()

# 2. Codificação de Variáveis Categóricas
print("\n--- 2. Codificação de Variáveis Categóricas ---")
categorical_cols = df.select_dtypes(include='object').columns

# O dataset possui colunas binárias (yes/no) e colunas com mais de duas categorias (furnishingstatus, prefarea, hotwaterheating, airconditioning, etc.)
# Vamos usar One-Hot Encoding (get_dummies) para todas as colunas categóricas para simplificar.
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)
print(f"Dataset após One-Hot Encoding. Formato: {df_encoded.shape}")
print("Novas colunas criadas:")
print(df_encoded.columns.difference(df.columns))

# 3. Separação de Variáveis (X e y)
print("\n--- 3. Separação de Variáveis (X e y) ---")
X = df_encoded.drop('price', axis=1)
y = df_encoded['price']
print(f"Variáveis preditoras (X) shape: {X.shape}")
print(f"Variável alvo (y) shape: {y.shape}")

# 4. Normalização/Escalonamento de Variáveis Numéricas
print("\n--- 4. Normalização/Escalonamento de Variáveis Numéricas ---")
# A coluna 'price' (y) não será escalonada neste momento, apenas as features (X)
numeric_cols = X.select_dtypes(include=np.number).columns
scaler = MinMaxScaler()
X[numeric_cols] = scaler.fit_transform(X[numeric_cols])
print("Variáveis numéricas em X escalonadas com MinMaxScaler.")

# 5. Divisão em Conjuntos de Treino e Teste
print("\n--- 5. Divisão em Conjuntos de Treino e Teste ---")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

# 6. Salvando os dados pré-processados para a próxima etapa
print("\n--- 6. Salvando os dados pré-processados ---")
np.savez_compressed('../data/processed_data.npz', 
                     X_train=X_train.values, X_test=X_test.values, 
                     y_train=y_train.values, y_test=y_test.values, 
                     feature_names=X_train.columns.values)
print("Dados de treino e teste salvos em ../data/processed_data.npz")

# Salvando o código do notebook em um arquivo .py para execução no shell
with open('../notebooks/02_Pre_processamento_e_Features.py', 'w') as f:
    f.write("""import pandas as pd\nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.preprocessing import MinMaxScaler\nimport os\n\nDATA_PATH = "data/Housing.csv"\n\ntry:\n    df = pd.read_csv(DATA_PATH)\nexcept FileNotFoundError:\n    print(f"Erro: Arquivo não encontrado em {DATA_PATH}.")\n    exit()\n\n# Codificação de Variáveis Categóricas\ncategorical_cols = df.select_dtypes(include='object').columns\ndf_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)\n\n# Separação de Variáveis (X e y)\nX = df_encoded.drop('price', axis=1)\ny = df_encoded['price']\n\n# Normalização/Escalonamento de Variáveis Numéricas\nnumeric_cols = X.select_dtypes(include=np.number).columns\nscaler = MinMaxScaler()\nX[numeric_cols] = scaler.fit_transform(X[numeric_cols])\n\n# Divisão em Conjuntos de Treino e Teste\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)\n\n# Salvando os dados pré-processados para a próxima etapa\nnp.savez_compressed('data/processed_data.npz', \n                     X_train=X_train.values, X_test=X_test.values, \n                     y_train=y_train.values, y_test=y_test.values, \n                     feature_names=X_train.columns.values)\n\nprint("Pré-processamento concluído. Dados de treino e teste salvos em data/processed_data.npz")\n""")
print("Script Python 02_Pre_processamento_e_Features.py salvo para execução.")