In [None]:
# ==============================================================================
# SEÇÃO 1: IMPORTAÇÃO DAS BIBLIOTECAS
# ==============================================================================
# Importando pandas para manipulação de dados
import pandas as pd
# Importando RandomForestRegressor, o nosso modelo de machine learning
from sklearn.ensemble import RandomForestRegressor
# Importando as métricas para avaliar a acurácia do modelo
from sklearn.metrics import mean_absolute_error, mean_squared_error
# Importando numpy para operações matemáticas, como a raiz quadrada (sqrt)
import numpy as np

print("Bibliotecas importadas com sucesso.")

# ==============================================================================
# SEÇÃO 2: CARREGAMENTO DOS DADOS (VERSÃO CORRIGIDA)
# ==============================================================================
print("\nCarregando os datasets (train, test, stores, features)...")
try:
    # Carregando os quatro arquivos CSV do dataset
    df_train = pd.read_csv('train.csv')
    df_test = pd.read_csv('test.csv')
    df_stores = pd.read_csv('stores.csv')
    df_features = pd.read_csv('features.csv')
    print("Datasets carregados com sucesso.")
except FileNotFoundError as e:
    print(f"Erro: Arquivo não encontrado. Verifique se os arquivos CSV estão na mesma pasta que o script. Detalhe: {e}")
    exit()

# ==============================================================================
# SEÇÃO 3: MERGE E PRÉ-PROCESSAMENTO DOS DADOS
# ==============================================================================
print("\nIniciando o pré-processamento e unificação dos dados...")

# --- Processando o DataFrame de TREINO ---
# Juntando stores e features primeiro
df_features_stores = pd.merge(df_features, df_stores, on='Store', how='left')
# Agora juntando com o dataset de treino
df_train_completo = pd.merge(df_train, df_features_stores, on=['Store', 'Date', 'IsHoliday'], how='left')

# --- Processando o DataFrame de TESTE (aplicando os mesmos passos) ---
# Juntando com o dataset de teste
df_test_completo = pd.merge(df_test, df_features_stores, on=['Store', 'Date', 'IsHoliday'], how='left')

# Lidando com valores ausentes em ambos os DataFrames
df_train_completo.fillna(0, inplace=True)
df_test_completo.fillna(0, inplace=True)

print("Merge e tratamento de valores nulos concluídos para ambos os datasets.")

# ==============================================================================
# SEÇÃO 4: ENGENHARIA DE ATRIBUTOS (FEATURE ENGINEERING)
# ==============================================================================
print("\nCriando novas features para ambos os datasets...")

# Função para aplicar a engenharia de atributos em qualquer DataFrame
def criar_features(df):
    # Convertendo a coluna 'Date' para o formato de data
    df['Date'] = pd.to_datetime(df['Date'])
    # Extraindo informações da data
    df['Ano'] = df['Date'].dt.year
    df['Mes'] = df['Date'].dt.month
    df['Dia'] = df['Date'].dt.day
    df['Semana_do_Ano'] = df['Date'].dt.isocalendar().week.astype(int)
    # Convertendo 'IsHoliday' para 0 ou 1
    df['IsHoliday'] = df['IsHoliday'].astype(int)
    return df

# Aplicando a função nos dois datasets
df_train_final = criar_features(df_train_completo)
df_test_final = criar_features(df_test_completo)

# Usando One-Hot Encoding para a coluna 'Type'
# Fazemos isso nos dois datasets juntos para garantir que ambos tenham as mesmas colunas
df_full = pd.concat([df_train_final, df_test_final])
df_full = pd.get_dummies(df_full, columns=['Type'], prefix='Tipo')

# Separando de volta em treino e teste
df_train_final = df_full[df_full['Weekly_Sales'].notna()]
df_test_final = df_full[df_full['Weekly_Sales'].isna()]


print("Novas features criadas com sucesso.")
print("Amostra do DataFrame de treino final:")
print(df_train_final.head())

# ==============================================================================
# SEÇÃO 5: CRIANDO UM CONJUNTO DE VALIDAÇÃO
# ==============================================================================
# Para avaliar nosso modelo, vamos separar os últimos meses do conjunto de TREINO
# para usar como um conjunto de VALIDAÇÃO.
data_corte_validacao = '2012-01-01'
print(f"\nDividindo o dataset de treino em treino e validação (corte em {data_corte_validacao}).")

# Dados para treinar o modelo de fato
train_set = df_train_final[df_train_final['Date'] < data_corte_validacao]
# Dados para validar a performance do modelo
validation_set = df_train_final[df_train_final['Date'] >= data_corte_validacao]

# Definindo as features e o alvo
target = 'Weekly_Sales'
# Removemos o alvo e a coluna de data original das features
features = [col for col in df_train_final.columns if col not in [target, 'Date']]

X_train = train_set[features]
y_train = train_set[target]

X_val = validation_set[features]
y_val = validation_set[target]

print(f"Tamanho do conjunto de treino: {len(X_train)} linhas")
print(f"Tamanho do conjunto de validação: {len(X_val)} linhas")

# ==============================================================================
# SEÇÃO 6: TREINAMENTO DO MODELO RANDOM FOREST
# ==============================================================================
print("\nIniciando o treinamento do modelo Random Forest...")

# Instanciando o modelo
model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1, min_samples_leaf=2)

# Treinando o modelo com o conjunto de treino
model.fit(X_train, y_train)

print("Modelo treinado com sucesso.")

# ==============================================================================
# SEÇÃO 7: PREVISÕES E AVALIAÇÃO DO MODELO NO CONJUNTO DE VALIDAÇÃO
# ==============================================================================
print("\nRealizando previsões no conjunto de validação...")

# Usando o modelo treinado para prever no conjunto de validação
predictions = model.predict(X_val)

print("Avaliando a acurácia do modelo...")

# Calculando as métricas de erro
mae = mean_absolute_error(y_val, predictions)
mse = mean_squared_error(y_val, predictions)
rmse = np.sqrt(mse)

print("\n--- MÉTRICAS DE AVALIAÇÃO (no conjunto de validação) ---")
print(f"Erro Absoluto Médio (MAE): ${mae:,.2f}")
print("-> Em média, as previsões do modelo erraram em +/- este valor.\n")

print(f"Erro Quadrático Médio (MSE): {mse:,.2f}")
print("-> Métrica que penaliza mais os erros grandes.\n")

print(f"Raiz do Erro Quadrático Médio (RMSE): ${rmse:,.2f}")
print("-> Similar ao MAE, mas mais sensível a erros grandes.\n")