In [1]:
import pandas as pd
import numpy as np
from datetime import date
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import os
import json


# Importar modelos
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor
import xgboost as xgb

<center><img src="ml_lfcl.png"></center>


In [2]:
import pandas as pd
import numpy as np
from datetime import date
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import os
import json


# Importar modelos
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor
import xgboost as xgb

---
# 1. Data collection, Data Cleaning & Feature Engineering

### Método de **Feature Engeneering** e **Limpeza de Dados**

In [3]:
def feature_engeneering(df):
    df_eng = df.copy()

    # --- LIMPEZA INICIAL ---
    df_eng = df_eng.drop_duplicates()
    df_eng['hp'] = df['engine'].str.extract(r'(\d+\.?\d*)HP', expand=False).astype(float)
    df_eng['liters'] = df['engine'].str.extract(r'(\d+\.?\d*)L\s', expand=False).astype(float)

    # --- Idade e Uso ---
    var_ano_atual = date.today().year
    df_eng['car_age'] = var_ano_atual - df_eng['model_year']
    df_eng['car_age'] = df_eng['car_age'].replace(0, 1)

    # --- Cilindrada ---
    df_eng['cylinders'] = df['engine'].str.extract(r'(\d+)\s+Cylinder', expand=False)
    df_eng['cylinders'] = df_eng['cylinders'].fillna(df['engine'].str.extract(r'V(\d+)', expand=False))
    df_eng['cylinders'] = df_eng['cylinders'].astype(float)

    # --- Tecnologias de Motor ---
    df_eng['is_turbo'] = df['engine'].str.contains(r'(?i)turbo', na=False).astype(int)
    df_eng['turbo_type'] = df['engine'].str.extract(r'(Twin Turbo|Turbo)', expand=False)
    df_eng['valve_train'] = df['engine'].str.extract(r'(DOHC|OHV|SOHC)', expand=False) 
    df_eng['fuel_injection'] = df['engine'].str.extract(r'(PDI|GDI|MPFI)', expand=False)

    # Miles per year
    df_eng['miles_p_year'] = df_eng['milage'] / df_eng['car_age']

    # --- FUEL TYPE ---
    def clean_fuel(val):
        s = str(val).lower()
        if 'hybrid' in s:
            return 'Hybrid'
        elif 'not supported' in s:
            return 'EV'
        else:
            return val
    df_eng['fuel_type'] = df_eng['fuel_type'].apply(clean_fuel)

    # --- TRANSMISSION TYPE ---
    def clean_transmission(val):
        s = str(val).lower()
        if 'automatic' in s or 'a/t' in s or 'cvt' in s:
            return 'Automatico'
        elif 'manual' in s or 'm/t' in s:
            return 'Manual'
        else:
            return 'Outro'
    df_eng['transmission_type'] = df_eng['transmission'].apply(clean_transmission)

    # --- Cores ---
    top_ext_colors = df_eng['ext_col'].value_counts().nlargest(10).index
    def simplificar_cor_ext(cor):
        return cor if cor in top_ext_colors else 'Other'
    df_eng['ext_col_simple'] = df_eng['ext_col'].apply(simplificar_cor_ext)

    top_int_colors = df_eng['int_col'].value_counts().nlargest(10).index
    def simplificar_cor_int(cor):
        return cor if cor in top_int_colors else 'Other'
    df_eng['int_col_simple'] = df_eng['int_col'].apply(simplificar_cor_int)

    # --- Tratamento de Nulos ---
    cols_texto = df_eng.select_dtypes(include=['object']).columns
    df_eng[cols_texto] = df_eng[cols_texto].replace('-', 'Unknown').fillna('Unknown')
    df_eng['clean_title'] = df_eng['clean_title'].replace('Unknown', 'No')

    # --- Acidente ---
    def verificar_acidente(valor):
        return 0 if 'None' in str(valor) else 1
    df_eng['accident_clean'] = df_eng['accident'].apply(verificar_acidente)

    # 1. Eficiência do motor
    # Evitar divisão por zero somando um valor ínfimo
    df_eng['hp_per_liter'] = df_eng['hp'] / (df_eng['liters'] + 0.001)

    # 2. Rácio de Potência por Cilindro
    df_eng['hp_per_cylinder'] = df_eng['hp'] / (df_eng['cylinders'] + 0.001)

    # 3. Quilometragem (Milage)
    # A milage tem uma distribuição muito "cauda longa". O Log ajuda o modelo a ver melhor as diferenças.
    df_eng['milage_log'] = np.log1p(df_eng['milage'])

    return df_eng

In [4]:
# Recolha os Dados
df_treino = pd.read_csv('dados/train.csv', index_col='id')
df_teste = pd.read_csv('dados/test.csv', index_col='id')

print("✓ Dados lidos com Sucesso!")

✓ Dados lidos com Sucesso!


In [5]:
# Aplicar feature engineering e Limpeza de dados
df_treino_eng = feature_engeneering(df_treino)
df_teste_eng = feature_engeneering(df_teste)

print("✓ Feature Engineering Aplicado com Sucesso!")

✓ Feature Engineering Aplicado com Sucesso!


In [10]:
unique_names = df_treino_eng['brand'].unique()
print(f"Unique brands:{unique_names}")
print(f"Nr:{unique_names.size}")

Unique brands:['MINI' 'Lincoln' 'Chevrolet' 'Genesis' 'Mercedes-Benz' 'Audi' 'Ford'
 'BMW' 'Tesla' 'Cadillac' 'Land' 'GMC' 'Toyota' 'Hyundai' 'Volvo'
 'Volkswagen' 'Buick' 'Rivian' 'RAM' 'Hummer' 'Alfa' 'INFINITI' 'Jeep'
 'Porsche' 'McLaren' 'Honda' 'Lexus' 'Dodge' 'Nissan' 'Jaguar' 'Acura'
 'Kia' 'Mitsubishi' 'Rolls-Royce' 'Maserati' 'Pontiac' 'Saturn' 'Bentley'
 'Mazda' 'Subaru' 'Ferrari' 'Aston' 'Lamborghini' 'Chrysler' 'Lucid'
 'Lotus' 'Scion' 'smart' 'Karma' 'Plymouth' 'Suzuki' 'FIAT' 'Saab'
 'Bugatti' 'Mercury' 'Polestar' 'Maybach']
Nr:57


In [6]:
# Separar target
y = np.log1p(df_treino_eng['price'])
X = df_treino_eng
X_test = df_teste_eng.copy()

# Tipos de Features Relevantes para Previsao
features_numericas = ['hp', 'liters', 'car_age', 'cylinders', 'miles_p_year','milage', 'model_year', 'is_turbo']

features_categoricas = ['brand', 'model', 'fuel_type', 'transmission_type', 
                           'ext_col_simple', 'int_col_simple', 'clean_title', 
                           'turbo_type', 'valve_train', 'fuel_injection']

# Criar dataset numérico
X_num = X[features_numericas].fillna(0)
X_test_num = X_test[features_numericas].fillna(0)

# Encondificar features categoricas | (Ordinal Enconding) Transform each category into a number
X_cat = X[features_categoricas].copy()
X_test_cat = X_test[features_categoricas].copy()

for col in features_categoricas:
    le = LabelEncoder()
    # Fit no treino
    X_cat[col] = X_cat[col].astype(str)
    le.fit(X_cat[col])
    X_cat[col] = le.transform(X_cat[col])

    # Transform no teste (tratando categorias novas)
    X_test_cat[col] = X_test_cat[col].astype(str)
    X_test_cat[col] = X_test_cat[col].apply(
        lambda x: le.transform([x])[0] if x in le.classes_ else -1
    )

# Concatenar features
X_final = pd.concat([X_num, X_cat], axis=1)
X_test_final = pd.concat([X_test_num, X_test_cat], axis=1)

In [7]:
X_final.head(5)

Unnamed: 0_level_0,hp,liters,car_age,cylinders,miles_p_year,milage,model_year,is_turbo,brand,model,fuel_type,transmission_type,ext_col_simple,int_col_simple,clean_title,turbo_type,valve_train,fuel_injection
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
0,172.0,1.6,19,4.0,11210.526316,213000,2007,0,31,495,3,0,7,4,1,2,3,3
1,252.0,3.9,24,8.0,5968.75,143250,2002,0,28,930,3,0,9,0,1,2,3,3
2,320.0,5.3,24,8.0,5697.125,136731,2002,0,9,1575,1,0,1,4,1,2,3,3
3,420.0,5.0,9,8.0,2166.666667,19500,2017,0,16,758,3,2,0,1,1,2,3,3
4,208.0,2.0,5,4.0,1477.6,7388,2021,0,36,1077,3,0,0,0,1,2,3,3


In [8]:
X_test_final.head(5)

Unnamed: 0_level_0,hp,liters,car_age,cylinders,miles_p_year,milage,model_year,is_turbo,brand,model,fuel_type,transmission_type,ext_col_simple,int_col_simple,clean_title,turbo_type,valve_train,fuel_injection
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
188533,240.0,2.0,11,4.0,8909.090909,98000,2015,0,26,1390,3,0,10,0,1,2,3,3
188534,395.0,3.0,6,6.0,1523.666667,9142,2020,0,26,1377,4,0,9,1,1,2,3,3
188535,0.0,3.5,4,6.0,7030.25,28121,2022,1,14,636,3,0,10,3,0,1,0,2
188536,0.0,0.0,10,0.0,6125.8,61258,2016,0,3,182,3,0,7,1,0,2,3,3
188537,252.0,2.0,8,4.0,7375.0,59000,2018,0,3,181,3,0,4,1,1,2,3,3


---
# 2. Model Training & Evaluation

### Método de **Definição dos Modelos** - Dicionário com objetos dos modelos de previsão.

In [9]:
def obter_modelos():
    modelos = {
        'Linear Regression': LinearRegression(),

        'KNN': KNeighborsRegressor(),

        'Decision Tree': DecisionTreeRegressor(random_state=42),

        'Random Forest': RandomForestRegressor(random_state=42, n_jobs=-1),

        'XGBoost': xgb.XGBRegressor(random_state=42, n_jobs=-1),

        'SVR Linear': SVR(kernel='linear'),

        'MLP Small': MLPRegressor(random_state=42, early_stopping=True),
    }

    return modelos

### Métodos para **"GridSearchCV"** - Otimização de Hipérparametrso

In [10]:
def obter_params_grid(nome_modelo):
    grids = {
        'Linear Regression': {
            'fit_intercept': [True, False],
            'positive': [True, False]
        },
        'KNN': {
            'n_neighbors': [3, 5, 7, 11],
            'weights': ['uniform', 'distance'],
            'p': [1, 2] # 1=Manhattan, 2=Euclidean
        },
        'Decision Tree': {
            'max_depth': [5, 10, 20, None],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 2, 4],
            'criterion': ['squared_error', 'absolute_error']
        },
        'Random Forest': {
            'n_estimators': [100, 200, 300],
            'max_depth': [10, 20, None],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 2, 4]
        },
        'XGBoost': {
            'n_estimators': [100, 500, 1000],
            'learning_rate': [0.01, 0.05, 0.1],
            'max_depth': [3, 5, 7],
            'subsample': [0.7, 0.9, 1.0],
            'colsample_bytree': [0.7, 0.9, 1.0]
        },
        'SVR Linear': {
            'C': [0.1, 1, 10, 100],
            'epsilon': [0.01, 0.1, 0.5]
        },
        'MLP Small': {
            'hidden_layer_sizes': [(50,50,50), (100,50), (100,)],
            'activation': ['tanh', 'relu'],
            'alpha': [0.0001, 0.05],
        }
    }
    return grids.get(nome_modelo, {})

A **Otimização de Hiperparâmetros, ou Hyperparameter Tuning em ingles**, é o processo de encontrar as melhores configurações para um modelo de Machine Learning, ajustando-as sistematicamente para otimizar o seu desempenho, precisão e capacidade de generalização. Os hiperparâmetros são definidos externamente antes da aprendizagem começar, servindo como o "manual de instruções" que molda o comportamento do algoritmo.

Para cada modelo, é definida uma grelha de valores para os hiperparâmetros pretendidos e, posteriormente, com a ajuda de Cross Validation (Validação Cruzada), o modelo é testado em diferentes subconjuntos de dados. No caso do GridSearchCV, o sistema executa uma pesquisa exaustiva, realizando todas as combinações possíveis da grelha para identificar qual delas maximiza uma métrica de desempenho específica, neste caso o RMSE (Root Mean Squared Error).

### Explicação dos Hiperparâmetros por Modelo

#### 1. Regressão Linear (Linear Regression)
A Regressão Linear tenta encontrar a melhor linha reta que minimiza a diferença quadrática entre os valores reais e as previsões.

* **`fit_intercept` [True, False]**:
    * **Porquê estes valores?** Determina se o modelo deve calcular o ponto onde a reta cruza o eixo Y. Na quase totalidade dos casos práticos, os dados não passam pela origem $(0,0)$, pelo que `True` é o padrão. Testa-se `False` apenas se os dados já tiverem sido centralizados.
    * **Como se encaixa:** Controla a flexibilidade vertical da reta de regressão.

* **`positive` [True, False]**:
    * **Porquê estes valores?** Força todos os coeficientes a serem maiores ou iguais a zero.
    * **Como se encaixa:** É uma restrição física ou de negócio. Se soubermos que as variáveis independentes apenas podem contribuir positivamente para o resultado, ativar esta opção evita coeficientes negativos espúrios causados por ruído.

---

#### 2. KNN (K-Nearest Neighbors)
O KNN baseia as suas previsões na média dos valores dos $K$ pontos mais próximos no espaço de características.

* **`n_neighbors` [3, 5, 7, 11]**:
    * **Porquê estes valores?** Valores ímpares são usados para evitar empates. Começamos com um valor baixo (3) para capturar padrões locais e subimos até 11 para suavizar a previsão e reduzir a sensibilidade a *outliers*.
    * **Como se encaixa:** Controla o equilíbrio entre viés e variância. $K$ pequeno pode levar a *overfitting*; $K$ grande pode levar a *underfitting*.

* **`weights` ['uniform', 'distance']**:
    * **Porquê estes valores?** 'Uniform' dá o mesmo peso a todos os vizinhos. 'Distance' dá mais importância aos vizinhos que estão realmente mais perto.
    * **Como se encaixa:** Permite que o modelo seja mais refinado, dando mais "voto" a quem está geograficamente mais próximo do ponto a prever.

* **`p` [1, 2]**:
    * **Como se encaixa:** Define a métrica de distância. $p=1$ é a distância de Manhattan (movimentos em grelha); $p=2$ é a Euclidiana (distância em linha reta). A escolha depende da escala e da relação entre as variáveis.


---

#### 3. Árvore de Decisão (Decision Tree)
Divide os dados em ramificações baseadas em regras lógicas de "maior que" ou "menor que".

* **`max_depth` [5, 10, 20, None]**:
    * **Porquê estes valores?** Limitamos a profundidade para evitar que a árvore cresça infinitamente e decore o ruído dos dados. `None` permite o crescimento total, servindo como ponto de comparação.
    * **Como se encaixa:** É o principal controlador de complexidade. Árvores muito profundas são propensas a *overfitting*.

* **`min_samples_split` [2, 5, 10]** e **`min_samples_leaf` [1, 2, 4]**:
    * **Porquê estes valores?** Impedem a criação de nós ou folhas com pouquíssimas amostras. 
    * **Como se encaixa:** Funcionam como regularizadores. Forçam a árvore a basear as suas decisões em grupos de dados estatisticamente mais significativos.

* **`criterion` ['squared_error', 'absolute_error']**:
    * **Como se encaixa:** Define a função de perda. O `squared_error` foca-se na média, enquanto o `absolute_error` foca-se na mediana, sendo este último muito mais robusto contra dados que contenham valores aberrantes (*outliers*).


---

#### 4. Random Forest
Um modelo de *ensemble* que cria centenas de árvores independentes e faz a média dos seus resultados.

* **`n_estimators` [100, 200, 300]**:
    * **Porquê estes valores?** 100 é a base recomendada. Aumentar para 300 ajuda a estabilizar a variância do modelo, embora aumente o tempo de treino.
    * **Como se encaixa:** Mais árvores geralmente significam um modelo mais robusto, até se atingir um ponto de retorno decrescente onde o tempo de processamento não compensa o ganho de precisão.

* **Parâmetros de Árvore (`max_depth`, etc.)**:
    * Seguem a mesma lógica da Árvore de Decisão, mas como o Random Forest usa amostragem aleatória, podemos permitir árvores ligeiramente mais complexas do que no modelo individual.

---

#### 5. XGBoost
Um modelo de *Gradient Boosting* onde as árvores são construídas sequencialmente para corrigir os erros das anteriores.

* **`learning_rate` [0.01, 0.05, 0.1]**:
    * **Como se encaixa:** Controla o impacto de cada nova árvore. Um valor baixo (0.01) significa que o modelo aprende lentamente, o que requer mais árvores mas resulta numa generalização muito superior.
* **`n_estimators` [100, 500, 1000]**:
    * **Porquê estes valores?** Como as árvores no XGBoost são "aprendizes fracos", precisamos de muitas iterações (especialmente com um `learning_rate` baixo) para convergir para uma boa solução.
* **`subsample`** e **`colsample_bytree` [0.7, 0.9, 1.0]**:
    * **Como se encaixa:** Introduzem aleatoriedade ao usar apenas uma fração dos dados ou das colunas em cada passo. Isto impede que o modelo fique "viciado" em certas características e ajuda imenso a prevenir o *overfitting*.

---

#### 6. SVR Linear (Support Vector Regression)
Procura um hiperplano que mantenha o máximo de pontos dentro de uma margem de erro permitida ($\epsilon$).

* **`C` [0.1, 1, 10, 100]**:
    * **Como se encaixa:** É o parâmetro de penalização. Um `C` baixo prioriza uma margem larga e um modelo simples. Um `C` alto penaliza severamente qualquer erro, tentando ajustar-se perfeitamente aos dados de treino.
* **`epsilon` [0.01, 0.1, 0.5]**:
    * **Porquê estes valores?** Define o "tubo" de tolerância. Se o erro for menor que $\epsilon$, o modelo ignora-o. Valores como 0.5 tornam o modelo muito mais tolerante a ruído.


---

#### 7. MLP (Multi-Layer Perceptron)
Uma rede neural que aprende representações complexas através de camadas de neurónios.

* **`hidden_layer_sizes` [(50,50,50), (100,50), (100,)]**:
    * **Porquê estes valores?** Testamos três arquiteturas: uma profunda com três camadas `(50,50,50)`, uma piramidal `(100,50)` e uma simples `(100,)`. Isto permite avaliar se o problema é linearmente separável ou se exige abstrações profundas.
* **`activation` ['tanh', 'relu']**:
    * **Como se encaixa:** `relu` é a mais eficiente computacionalmente; `tanh` pode ser útil em dados normalizados para capturar curvaturas mais suaves.
* **`alpha` [0.0001, 0.05]**:
    * **Como se encaixa:** Parâmetro de regularização L2 (weight decay). Valores como 0.05 ajudam a "encolher" os pesos da rede, evitando que neurónios específicos dominem a previsão e causem instabilidade.

In [11]:
def executar_grid_search(modelo, nome_modelo, X, y, usar_scaled=False):
    print(f"\nA iniciar GridSearch no modelo:'{nome_modelo}' ")

    # 1. Obter o grid de parâmetros
    param_grid = obter_params_grid(nome_modelo)

    if not param_grid:
        print(f"‼ ATENÇÃO - Nenhum grid de hiperparametros definido para {nome_modelo} !!")
        return modelo

    # 2. Configurar o GridSearch
    # cv -> número de folds no Cross Validation ("Mais folds = Mais tempo de execução")
    grid_search = GridSearchCV(
        estimator=modelo,
        param_grid=param_grid,
        cv=3, 
        scoring='neg_root_mean_squared_error',
        verbose=3,
        n_jobs=-1  # Usa todos os processadores
    )

    # 3. Treinar
    grid_search.fit(X, y)

    # 4. Resultados
    print(f"✓ Melhores Parâmetros: {grid_search.best_params_}")
    print(f"  Melhor RMSE (CV): {-grid_search.best_score_:,.2f}")
    return grid_search.best_estimator_

### Método de **Avaliação de Modelo**

In [12]:
def avaliar_modelo(modelo, X_train, y_train, X_val, y_val, nome_modelo):

    
    print(f"\n{'='*60}")
    print(f"A Treinar o modelo: '{nome_modelo}'")
    print(f"{'='*60}")

    # Treinar
    modelo.fit(X_train, y_train)

    # Previsoes
    y_train_pred = modelo.predict(X_train)
    y_val_pred = modelo.predict(X_val)

    # Métricas de treino
    train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))

    # Métricas de validação
    val_rmse = np.sqrt(mean_squared_error(y_val, y_val_pred))

    # Exibir resultados
    print(f"\n▶ MÉTRICAS DE TREINO:")
    print(f"  RMSE: {train_rmse:,.2f}")

    print(f"\n▶ MÉTRICAS DE VALIDAÇÃO:")
    print(f"  RMSE: {val_rmse:,.2f}")

    return {
        'modelo': nome_modelo,
        'train_rmse': train_rmse,
        'val_rmse': val_rmse,
        'modelo_treinado': modelo
    }

---

In [13]:
X_train, X_val, y_train, y_val = train_test_split(X_final, y, test_size=0.2, random_state=42)

In [14]:
# Normalizar dados (importante para KNN, SVM e MLP) | Permite que todas as features contribuam equilibradamente para o modelo
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Alinhar as colunas do conjunto de teste com as colunas usadas no treino
# (mesma ordem; preencher colunas em falta com 0)
X_test_aligned = X_test_final.reindex(columns=X_train.columns, fill_value=0)

X_test_scaled = scaler.transform(X_test_aligned)


In [15]:
print(f"✓ Dados preparados:")
print(f"  - Treino: {X_train.shape[0]} amostras")
print(f"  - Validação: {X_val.shape[0]} amostras")
print(f"  - Features: {X_train.shape[1]}")

✓ Dados preparados:
  - Treino: 150826 amostras
  - Validação: 37707 amostras
  - Features: 18


In [16]:
modelos = obter_modelos()

#Treinar os modelos e Avaliar
resultados = []
modelos_treinados = {}

for nome, modelo in modelos.items():
    # Decidir se usar dados normalizados
    usar_scaled = nome in ['KNN', 'SVR Linear', 'MLP Small']

    # Executar Grid Search para tuning
    if usar_scaled:
        modelo = executar_grid_search(modelo, nome, X_train_scaled, y_train)
        res = avaliar_modelo(modelo, X_train_scaled, y_train, X_val_scaled, y_val, nome)
    else:
        modelo = executar_grid_search(modelo, nome, X_train, y_train)
        res = avaliar_modelo(modelo, X_train, y_train, X_val, y_val, nome)

    resultados.append(res)
    modelos_treinados[nome] = {
        'modelo': res['modelo_treinado'],
        'usar_scaled': usar_scaled
    }



A iniciar GridSearch no modelo:'Linear Regression' 
Fitting 3 folds for each of 4 candidates, totalling 12 fits
✓ Melhores Parâmetros: {'fit_intercept': True, 'positive': False}
  Melhor RMSE (CV): 0.54

A Treinar o modelo: 'Linear Regression'

▶ MÉTRICAS DE TREINO:
  RMSE: 0.54

▶ MÉTRICAS DE VALIDAÇÃO:
  RMSE: 0.54

A iniciar GridSearch no modelo:'KNN' 
Fitting 3 folds for each of 16 candidates, totalling 48 fits
✓ Melhores Parâmetros: {'n_neighbors': 11, 'p': 1, 'weights': 'uniform'}
  Melhor RMSE (CV): 0.52

A Treinar o modelo: 'KNN'

▶ MÉTRICAS DE TREINO:
  RMSE: 0.47

▶ MÉTRICAS DE VALIDAÇÃO:
  RMSE: 0.52

A iniciar GridSearch no modelo:'Decision Tree' 
Fitting 3 folds for each of 72 candidates, totalling 216 fits
✓ Melhores Parâmetros: {'criterion': 'absolute_error', 'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 10}
  Melhor RMSE (CV): 0.51

A Treinar o modelo: 'Decision Tree'

▶ MÉTRICAS DE TREINO:
  RMSE: 0.50

▶ MÉTRICAS DE VALIDAÇÃO:
  RMSE: 0.52

A iniciar G

KeyboardInterrupt: 

In [None]:
import matplotlib.pyplot as plt

# Criar subplots para todos os modelos
n_modelos = len(modelos_treinados)
n_cols = 2
n_rows = (n_modelos + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))

# Garantir que axes seja sempre um array 1D
if n_rows == 1 and n_cols == 1:
    axes = np.array([axes])
elif n_rows == 1:
    axes = axes  # Já é 1D quando n_rows=1
else:
    axes = axes.flatten()

for idx, (nome_modelo, info_modelo) in enumerate(modelos_treinados.items()):
    modelo_obj = info_modelo['modelo']
    usar_scaled_viz = info_modelo['usar_scaled']
    
    # Fazer previsões no conjunto de validação
    if usar_scaled_viz:
        y_pred = modelo_obj.predict(X_val_scaled)
    else:
        y_pred = modelo_obj.predict(X_val)
    
    ax = axes[idx]
    
    # Plotar previsões vs real
    ax.plot(y_val, y_pred, c='b', marker='o', linestyle='', alpha=0.6, markersize=4)
    ax.plot(y_val, y_val, c='r', linestyle='--', linewidth=2)
    
    ax.set_xlabel('Valor Real (log)', fontsize=10)
    ax.set_ylabel('Valor Predito (log)', fontsize=10)
    ax.set_title(f'Previsões vs Real - {nome_modelo}', fontsize=12, fontweight='bold')
    ax.legend(['Validação', 'Perfect Regressor'], loc='upper left', fontsize=8)
    ax.grid(True, alpha=0.3)

# Remover subplots vazios se houver
for idx in range(n_modelos, len(axes)):
    fig.delaxes(axes[idx])

plt.tight_layout()
plt.show()

In [None]:
# Comparação final
print(f"\n\n{'='*80}")
print(" ■ COMPARAÇÃO DE MODELOS (ordenados por RMSE de validação)")
print(f"{'='*80}\n")

df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values('val_rmse', ascending=True)

print(df_resultados[['modelo', 'val_rmse']].to_string(index=False))

# Melhor modelo
melhor_resultado = df_resultados.iloc[0]
print(f"\n\n ▶ MELHOR MODELO: {melhor_resultado['modelo']}")
print(f"  RMSE Validação: {melhor_resultado['val_rmse']:,.2f}")

---
# 3. Salvar Submissão & Fazer Log do Modelo

### Método para **guardar log das configurações do modelo**

In [None]:
def salvar_submissao_log(df_sub, modelo_treinado, nome_modelo, metricas):
    pasta = 'submissoes'
    os.makedirs(pasta, exist_ok=True)

    # 1. Listar ficheiros e encontrar o maior ID existente
    ficheiros = os.listdir(pasta)
    ids_existentes = []

    for f in ficheiros:
        # Verifica se o arquivo segue o padrão 'submission_X.csv'
        if f.startswith('submission_') and f.endswith('.csv'):
            try:
                # Extrai apenas o número do nome do arquivo
                # Ex: 'submission_12.csv' -> '12'
                numero_str = f.replace('submission_', '').replace('.csv', '')
                ids_existentes.append(int(numero_str))
            except ValueError:
                continue # Salta ficheiros que não tenham número válido

    # Se a lista estiver vazia, começa do 1. Se não, pega o maior + 1
    if not ids_existentes:
        next_id = 1
    else:
        next_id = max(ids_existentes) + 1

    # 2. Definir nomes dos ficheiros
    filename_csv = f"{pasta}/submission_{next_id}.csv"
    filename_json = f"{pasta}/submission_{next_id}_params.json"

    # 3. Salvar CSV
    df_sub.to_csv(filename_csv, index=False)

    # 4. Extrair Hiperparâmetros
    try:
        params = modelo_treinado.get_params()
    except:
        params = {"info": "Não foi possível extrair params"}

    # 5. Metadados
    metadados = {
        "id": next_id,
        "modelo": nome_modelo,
        "performance_validacao": metricas,
        "hiperparametros": params
    }

    # 6. Salvar JSON
    with open(filename_json, 'w', encoding='utf-8') as f:
        json.dump(metadados, f, indent=4, default=str)

    print(f"\n✓ Submissão #{next_id} salva com sucesso!")
    print(f" ▱ {filename_csv}")

In [None]:
melhor_modelo_nome = melhor_resultado['modelo']

melhor_modelo = modelos_treinados[melhor_modelo_nome]['modelo']

usar_scaled = modelos_treinados[melhor_modelo_nome]['usar_scaled']


if usar_scaled:
    X_test_usar = X_test_scaled

else:
    X_test_usar = X_test_aligned

pred_log = melhor_modelo.predict(X_test_usar)

pred_reais = np.expm1(pred_log)

# Submissão
df_submissao = pd.DataFrame({

    'id': df_teste.index,

    'price': pred_reais

})

salvar_submissao_log(df_submissao, melhor_modelo, melhor_modelo_nome, melhor_resultado.to_dict())