# 1. Import de Bibliotecas e de Algoritmos

In [1]:
import pandas as pd
import numpy as np
from datetime import date
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import os
import json


# Importar modelos
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor
import xgboost as xgb

# 2. FEATURE ENGINEERING - Extracao e Limpeza de Dados 

In [None]:
def feature_engeneering(df):
    df_eng = df.copy()

    # --- LIMPEZA E EXTRA√á√ÉO ---
    # Extrair n√∫meros
    df_eng['hp'] = df['engine'].str.extract(r'(\d+\.?\d*)HP', expand=False).astype(float)
    df_eng['liters'] = df['engine'].str.extract(r'(\d+\.?\d*)L\s', expand=False).astype(float)
    
    # IMPORTANTE: Preencher Nulos com a Mediana da Coluna (em vez de 0)
    # 0 HP ou 0 Litros destr√≥i a l√≥gica do modelo
    df_eng['hp'] = df_eng['hp'].fillna(df_eng['hp'].median())
    df_eng['liters'] = df_eng['liters'].fillna(df_eng['liters'].median())

    # --- Idade ---
    var_ano_atual = date.today().year
    df_eng['car_age'] = var_ano_atual - df_eng['model_year']
    
    # --- Features de Texto (Simples) ---
    df_eng['is_turbo'] = df['engine'].str.contains(r'(?i)turbo', na=False).astype(int)
    
    # Transmission Mapping Simples
    def clean_transmission(val):
        s = str(val).lower()
        if 'automatic' in s or 'a/t' in s or 'cvt' in s: return 'Automatico'
        if 'manual' in s or 'm/t' in s: return 'Manual'
        return 'Outro'
    df_eng['transmission_type'] = df_eng['transmission'].apply(clean_transmission)

    # Fuel Mapping Simples
    def clean_fuel(val):
        s = str(val).lower()
        if 'hybrid' in s: return 'Hybrid'
        if 'electric' in s: return 'EV'
        return 'Gasoline' # Simplificar ao m√°ximo para evitar categorias raras
    df_eng['fuel_type'] = df_eng['fuel_type'].apply(clean_fuel)

    return df_eng

# 3. PREPARA√á√ÉO DE DADOS

In [None]:
def preparar_dados(df_treino, df_teste):
    # 1. Feature Engineering Base
    df_treino_eng = feature_engeneering(df_treino)
    df_teste_eng = feature_engeneering(df_teste)

    # 2. Separar Target e aplicar LOG (Fundamental para pre√ßos)
    y = np.log1p(df_treino_eng['price']) # Treinar sempre no LOG do pre√ßo
    X = df_treino_eng.drop(['price'], axis=1)
    X_test = df_teste_eng.copy()

    # 3. Target Encoding Manual (Crucial!)
    # Para cada coluna categ√≥rica, substitu√≠mos o texto pela m√©dia de pre√ßo desse texto no treino
    cols_para_encode = ['brand', 'model', 'transmission_type', 'fuel_type', 'int_col', 'ext_col']
    
    # Dicion√°rio para guardar os mapas (para usar no teste depois)
    mapas_encoding = {}

    for col in cols_para_encode:
        # Calcular a m√©dia do LOG price por categoria
        # Usamos o X junto com o y temporariamente para calcular
        temp_df = pd.concat([X, y], axis=1)
        media_categoria = temp_df.groupby(col)['price'].mean()
        
        # Guardar mapa (se uma categoria nova aparecer no teste, usamos a m√©dia global)
        media_global = y.mean()
        
        # Aplicar no Treino
        X[col + '_target'] = X[col].map(media_categoria)
        X[col + '_target'] = X[col + '_target'].fillna(media_global) # Preencher vazios
        
        # Aplicar no Teste (Usando as m√©dias do TREINO - para n√£o vazar dados)
        X_test[col + '_target'] = X_test[col].map(media_categoria)
        X_test[col + '_target'] = X_test[col + '_target'].fillna(media_global)

    # 4. Selecionar apenas colunas num√©ricas para o modelo
    cols_finais = ['model_year', 'hp', 'liters', 'car_age', 'is_turbo'] + [c + '_target' for c in cols_para_encode]
    
    return X[cols_finais], y, X_test[cols_finais], None

# 4. DEFINI√á√ÉO DE MODELOS

In [4]:
def obter_modelos():
    """Retorna dicion√°rio com todos os modelos dispon√≠veis"""

    modelos = {
        # Regress√£o Linear
        #'Linear Regression': LinearRegression(),

        # K-Nearest Neighbors
        #'#KNN': KNeighborsRegressor(n_neighbors=5),

        # √Årvores de Decis√£o
        #'Decision Tree': DecisionTreeRegressor(max_depth=10, random_state=42),

        # Random Forest e variantes
        #'Random Forest': RandomForestRegressor(n_estimators=100, max_depth=15, 
                                               #random_state=42, n_jobs=-1),

        'XGBoost': xgb.XGBRegressor(n_estimators=100, learning_rate=0.1, 
                                    max_depth=7, random_state=42, n_jobs=-1),

        # Support Vector Machines
        #'SVR Linear': SVR(kernel='linear', C=1.0),
        #SVR RBF': SVR(kernel='rbf', C=1.0, gamma='scale'),

        # Redes Neuronais
        #'MLP Small': MLPRegressor(hidden_layer_sizes=(100,), max_iter=500, 
                                  #random_state=42, early_stopping=True),

        #'MLP Deep': MLPRegressor(hidden_layer_sizes=(100, 50, 25), max_iter=500, 
                                 #random_state=42, early_stopping=True)
    }

    return modelos

# 5. GridSearchCV - Grid Search com Cross Validation

In [5]:
# 5. GridSearchCV - Otimiza√ß√£o de Hiperpar√¢metros
def obter_params_grid(nome_modelo):
    """
    Retorna o dicion√°rio de hiperpar√¢metros para testar
    baseado no nome do modelo.
    """
    grids = {
        'Random Forest': {
            'n_estimators': [100, 200, 300],
            'max_depth': [10, 20, None],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 2, 4]
        },
        'XGBoost': {
            'n_estimators': [100, 500, 1000],
            'learning_rate': [0.01, 0.05, 0.1],
            'max_depth': [3, 5, 7],
            'subsample': [0.7, 0.9, 1.0],
            'colsample_bytree': [0.7, 0.9, 1.0]
        },
        'KNN': {
            'n_neighbors': [3, 5, 7, 11],
            'weights': ['uniform', 'distance'],
            'p': [1, 2] # 1=Manhattan, 2=Euclidean
        },
        'MLP Deep': {
            'hidden_layer_sizes': [(50,50,50), (100,50), (100,)],
            'activation': ['tanh', 'relu'],
            'alpha': [0.0001, 0.05],
        },
        'SVR RBF': {
            'C': [0.1, 1, 10, 100],
            'gamma': ['scale', 'auto', 0.1, 0.01],
            'epsilon': [0.1, 0.2, 0.5]
        }
    }
    return grids.get(nome_modelo, {})

def executar_grid_search(modelo, nome_modelo, X, y, usar_scaled=False):
    """
    Executa o GridSearch para encontrar os melhores hiperpar√¢metros.
    """
    print(f"\nüîç Iniciando GridSearch para: {nome_modelo}")

    # 1. Obter a grelha de par√¢metros
    param_grid = obter_params_grid(nome_modelo)

    if not param_grid:
        print(f"‚ö†Ô∏è Nenhuma grid definida para {nome_modelo}. Retornando modelo base.")
        return modelo

    # 2. Configurar o GridSearch
    # cv=3 ou 5 (Cross Validation)
    # scoring='neg_root_mean_squared_error' para minimizar o RMSE
    grid_search = GridSearchCV(
        estimator=modelo,
        param_grid=param_grid,
        cv=3, 
        scoring='neg_root_mean_squared_error',
        verbose=1,
        n_jobs=-1  # Usa todos os processadores
    )

    # 3. Treinar
    grid_search.fit(X, y)

    # 4. Resultados
    print(f"‚úÖ Melhores Par√¢metros: {grid_search.best_params_}")
    print(f"   Melhor RMSE (CV): {-grid_search.best_score_:,.2f}")
    return grid_search.best_estimator_


# 6. AVALIA√á√ÉO DE MODELOS

In [6]:
def avaliar_modelo(modelo, X_train, y_train, X_val, y_val, nome_modelo):
    """Treina e avalia um modelo"""

    print(f"\n{'='*60}")
    print(f"Treinando: {nome_modelo}")
    print(f"{'='*60}")

    # Treinar
    modelo.fit(X_train, y_train)

    # Predi√ß√µes
    y_train_pred = modelo.predict(X_train)
    y_val_pred = modelo.predict(X_val)

    # M√©tricas de treino
    train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
    train_r2 = r2_score(y_train, y_train_pred)
    train_mae = mean_absolute_error(y_train, y_train_pred)

    # M√©tricas de valida√ß√£o
    val_rmse = np.sqrt(mean_squared_error(y_val, y_val_pred))
    val_r2 = r2_score(y_val, y_val_pred)
    val_mae = mean_absolute_error(y_val, y_val_pred)

    # Exibir resultados
    print(f"\nüìä M√âTRICAS DE TREINO:")
    print(f"  RMSE: ${train_rmse:,.2f}")
    print(f"  R¬≤: {train_r2:.4f}")
    print(f"  MAE: ${train_mae:,.2f}")

    print(f"\nüìä M√âTRICAS DE VALIDA√á√ÉO:")
    print(f"  RMSE: ${val_rmse:,.2f}")
    print(f"  R¬≤: {val_r2:.4f}")
    print(f"  MAE: ${val_mae:,.2f}")

    # Verificar overfitting
    overfit = train_r2 - val_r2
    if overfit > 0.1:
        print(f"\n‚ö†Ô∏è  Poss√≠vel overfitting detectado (diferen√ßa R¬≤: {overfit:.4f})")

    return {
        'modelo': nome_modelo,
        'train_rmse': train_rmse,
        'train_r2': train_r2,
        'train_mae': train_mae,
        'val_rmse': val_rmse,
        'val_r2': val_r2,
        'val_mae': val_mae,
        'modelo_treinado': modelo
    }

# 7. TREINAR MODELOS

In [7]:
def treinar_modelos(df_treino, df_teste, modelos_selecionados=None):
    """
    Treina e compara m√∫ltiplos modelos

    Args:
        df_treino: DataFrame de treino
        df_teste: DataFrame de teste
        modelos_selecionados: Lista com nomes dos modelos a treinar (None = todos)
    """

    print("üîÑ Preparando dados...")
    X, y, X_test, encoders = preparar_dados(df_treino, df_teste)

    # Split treino/valida√ß√£o
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

    # Normalizar dados (importante para KNN, SVM e MLP)
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_val_scaled = scaler.transform(X_val)
    X_test_scaled = scaler.transform(X_test)



    print(f"‚úÖ Dados preparados:")
    print(f"  - Treino: {X_train.shape[0]} amostras")
    print(f"  - Valida√ß√£o: {X_val.shape[0]} amostras")
    print(f"  - Features: {X_train.shape[1]}")

    # Obter modelos
    todos_modelos = obter_modelos()

    # Filtrar modelos se especificado
    if modelos_selecionados:
        modelos = {k: v for k, v in todos_modelos.items() if k in modelos_selecionados}
    else:
        modelos = todos_modelos

    # Treinar modelos
    resultados = []
    modelos_treinados = {}

    for nome, modelo in modelos.items():
        # Decidir se usar dados normalizados
        usar_scaled = nome in ['KNN', 'SVR Linear', 'SVR RBF', 'MLP Small', 'MLP Deep']

        if usar_scaled:
            res = avaliar_modelo(modelo, X_train_scaled, y_train, 
                                X_val_scaled, y_val, nome)
        else:
            res = avaliar_modelo(modelo, X_train, y_train, 
                                X_val, y_val, nome)

        resultados.append(res)
        modelos_treinados[nome] = {
            'modelo': res['modelo_treinado'],
            'usar_scaled': usar_scaled
        }

    # Compara√ß√£o final
    print(f"\n\n{'='*80}")
    print("üìà COMPARA√á√ÉO DE MODELOS (ordenados por R¬≤ de valida√ß√£o)")
    print(f"{'='*80}\n")

    df_resultados = pd.DataFrame(resultados)
    df_resultados = df_resultados.sort_values('val_r2', ascending=False)

    print(df_resultados[['modelo', 'val_rmse', 'val_r2', 'val_mae']].to_string(index=False))

    # Melhor modelo
    melhor = df_resultados.iloc[0]
    print(f"\n\nüèÜ MELHOR MODELO: {melhor['modelo']}")
    print(f"  R¬≤ Valida√ß√£o: {melhor['val_r2']:.4f}")
    print(f"  RMSE Valida√ß√£o: ${melhor['val_rmse']:,.2f}")

    return df_resultados, modelos_treinados, scaler, (X_test, X_test_scaled)

# 8. Guardar Hiperparametros 

In [8]:
def salvar_submissao_log(df_sub, modelo_treinado, nome_modelo, metricas):
    """
    Salva CSV e JSON incrementando o ID com base no maior n√∫mero encontrado.
    """
    pasta = 'submissoes'
    os.makedirs(pasta, exist_ok=True)

    # 1. Listar arquivos e encontrar o maior ID existente
    arquivos = os.listdir(pasta)
    ids_existentes = []

    for f in arquivos:
        # Verifica se o arquivo segue o padr√£o 'submission_X.csv'
        if f.startswith('submission_') and f.endswith('.csv'):
            try:
                # Extrai apenas o n√∫mero do nome do arquivo
                # Ex: 'submission_12.csv' -> '12'
                numero_str = f.replace('submission_', '').replace('.csv', '')
                ids_existentes.append(int(numero_str))
            except ValueError:
                continue # Pula arquivos que n√£o tenham n√∫mero v√°lido

    # Se a lista estiver vazia, come√ßa do 1. Se n√£o, pega o maior + 1
    if not ids_existentes:
        next_id = 1
    else:
        next_id = max(ids_existentes) + 1

    # 2. Definir nomes dos arquivos
    filename_csv = f"{pasta}/submission_{next_id}.csv"
    filename_json = f"{pasta}/submission_{next_id}_params.json"

    # 3. Salvar CSV
    df_sub.to_csv(filename_csv, index=False)

    # 4. Extrair Hiperpar√¢metros
    try:
        params = modelo_treinado.get_params()
    except:
        params = {"info": "N√£o foi poss√≠vel extrair params"}

    # 5. Metadata
    metadata = {
        "id": next_id,
        "modelo": nome_modelo,
        "performance_validacao": metricas,
        "hiperparametros": params
    }

    # 6. Salvar JSON
    with open(filename_json, 'w', encoding='utf-8') as f:
        json.dump(metadata, f, indent=4, default=str)

    print(f"\n‚úÖ Submiss√£o #{next_id} salva com sucesso!")
    print(f"   üìÇ {filename_csv}")

# Fim - Execucao do Main

In [None]:
if __name__ == "__main__":
    print("üöÄ Iniciando Otimiza√ß√£o V2 (Target Encoding + Tuned XGB)...")
    
    # 1. Carregar
    df_treino = pd.read_csv('dados/train.csv', index_col='id')
    df_teste = pd.read_csv('dados/test.csv', index_col='id')

    # 2. Preparar (J√° devolve o Y em Log e com Target Encoding)
    X, y_log, X_test, _ = preparar_dados(df_treino, df_teste)

    # 3. Split de Valida√ß√£o
    X_train, X_val, y_train, y_val = train_test_split(X, y_log, test_size=0.2, random_state=42)

    # 4. Modelo XGBoost Tunado
    # Adicionei regulariza√ß√£o (reg_alpha, reg_lambda) para o modelo ser mais est√°vel
    model = xgb.XGBRegressor(
        n_estimators=2000,       # Mais √°rvores
        learning_rate=0.01,      # Aprender mais devagar (melhor precis√£o)
        max_depth=6,
        subsample=0.7,           # Usar 70% das linhas por √°rvore (evita overfitting)
        colsample_bytree=0.7,    # Usar 70% das colunas por √°rvore
        reg_alpha=0.1,           # Regulariza√ß√£o L1
        reg_lambda=1.5,          # Regulariza√ß√£o L2
        n_jobs=-1,
        random_state=42,
        early_stopping_rounds=100 # Para se deixar de melhorar
    )

    print("‚öôÔ∏è Treinando modelo com Early Stopping...")
    # O eval_set ajuda o modelo a parar no momento perfeito
    model.fit(
        X_train, y_train,
        eval_set=[(X_val, y_val)],
        verbose=100
    )

    # 5. Avaliar na Valida√ß√£o
    val_preds_log = model.predict(X_val)
    rmse = np.sqrt(mean_squared_error(np.expm1(y_val), np.expm1(val_preds_log)))
    print(f"\n‚úÖ RMSE Valida√ß√£o (D√≥lares Reais): ${rmse:,.2f}")

    # 6. TREINO FINAL (Full Data)
    # Como usamos early stopping, o ideal √© retreinar com o n√∫mero √≥timo de √°rvores
    best_iter = model.best_iteration
    print(f"üîÑ Retreinando em tudo com {best_iter} √°rvores...")
    
    model_final = xgb.XGBRegressor(
        n_estimators=best_iter,
        learning_rate=0.01,
        max_depth=6,
        subsample=0.7,
        colsample_bytree=0.7,
        reg_alpha=0.1,
        reg_lambda=1.5,
        n_jobs=-1,
        random_state=42
    )
    model_final.fit(X, y_log)

    # 7. Submiss√£o
    preds_test_log = model_final.predict(X_test)
    preds_final = np.expm1(preds_test_log) # Inverter Log

    df_sub = pd.DataFrame({'id': df_teste.index, 'price': preds_final})
    df_sub.to_csv('submission_xgboost_v2.csv', index=False)
    print("üìÇ Submiss√£o salva: submission_xgboost_v2.csv")

üìÇ Carregando dados...
üîÑ Preparando dados...

üöÄ Iniciando Treino de Ensemble com 3 modelos...

‚öôÔ∏è Processando: XGBoost
   RMSE Valida√ß√£o Interna: $68,588.68
   üîÑ Re-treinando em 100% dos dados...

‚öôÔ∏è Processando: GradientBoosting
   RMSE Valida√ß√£o Interna: $68,792.49
   üîÑ Re-treinando em 100% dos dados...

‚öôÔ∏è Processando: RandomForest
   RMSE Valida√ß√£o Interna: $68,677.83
   üîÑ Re-treinando em 100% dos dados...

üèÜ Gerando submiss√£o Ensemble...

‚úÖ Submiss√£o #6 salva com sucesso!
   üìÇ submissoes/submission_6.csv
