# **√Årboles de Decisi√≥n y Random Forest**

En este notebook se entrena un modelo de **√°rbol de regresi√≥n (de Decisi√≥n y Random Forest)** para predecir la esperanza de vida a partir del dataset procesado (en el notebook `EDA_processed.ipynb`).

En este notebook vamos a trabajar con **modelos basados en √°rboles**:

- **√Årbol de Decisi√≥n (Decision Tree Regressor)**: sencillo de interpretar, pero propenso al sobreajuste.  
- **Random Forest Regressor**: un ensamblado de √°rboles mediante bagging que reduce la varianza y mejora la generalizaci√≥n.  

Adem√°s, exploraremos el concepto de **overfitting** con estos modelos.

Del EDA_processed.ipynb exportamos dos datasets:

- features_no_scaling.csv ‚Üí para √°rboles, Random Forest, XGBoost.

- features_scaled.csv ‚Üí para modelos sensibles a la escala (Regresi√≥n Lineal, KNN, SVM...).
Adem√°s del target_y.csv.

Aqu√≠ usaremos el no escalado `features_no_scaling.csv`. 


## **Paso 1. Importar librer√≠as y cargar datasets procesados**

En este bloque cargamos las librer√≠as necesarias:

- **pandas** ‚Üí manejo de datos.  
- **scikit-learn** ‚Üí para la divisi√≥n del dataset (`train_test_split`), construcci√≥n de modelos de regresi√≥n (`DecisionTreeRegressor`, `RandomForestRegressor`) y c√°lculo de m√©tricas (`MAE`, `RMSE`, `R¬≤`).  
- **plot_tree** ‚Üí permite visualizar gr√°ficamente un √°rbol de decisi√≥n entrenado.  
- **matplotlib / seaborn / numpy** ‚Üí apoyo para gr√°ficos y c√°lculos num√©ricos.

Con estas herramientas podremos entrenar, evaluar y visualizar el comportamiento de los modelos basados en √°rboles.

En este paso tambi√©n importamos los datasets que ya preparamos en el notebook **EDA_processed**:

- `features_no_scaling.csv` ‚Üí variables predictoras sin escalar (adecuadas para modelos basados en √°rboles).
- `target_y.csv` ‚Üí variable objetivo (esperanza de vida).

Aqu√≠ **no usamos el dataset escalado**, ya que √°rboles y Random Forest no necesitan normalizaci√≥n de variables.  
Al final imprimimos las dimensiones de `X` e `y` para confirmar que todo est√° alineado.



In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


# ===================================
# 2. Cargar datasets procesados no escalados 
# ===================================
X_ns = pd.read_csv("../data/processed/features_no_scaling.csv")
y = pd.read_csv("../data/processed/target_y.csv").squeeze()  # lo convertimos a Serie




## **Paso 2. Divisi√≥n en entrenamiento y validaci√≥n**

En este bloque:

- Separamos el dataset en **conjunto de entrenamiento (80%)** y **conjunto de validaci√≥n (20%)**.  
Esto nos permite entrenar el modelo con una parte de los datos y luego evaluar su rendimiento en datos que no ha visto antes.


De esta manera, podremos comparar los algoritmos de forma justa y evitar errores de entrenamiento.

- x = todas las columnas salvo la variable objetivo.
- y = la variable objetivo.
- train_test_split divide los datos en:
  - x_train, y_train (80%) ‚Üí para entrenar el modelo.
  - x_valid, y_valid (20%) ‚Üí para validar el modelo. 
  - random_state=42 ‚Üí asegura que la divisi√≥n sea reproducible.

Este paso es obligatorio para aseguramos consistencia y poder comparar con en el resto de modelos.


In [None]:
# ===================================
# 2. Divisi√≥n train / validaci√≥n
# ===================================
X_train, X_valid, y_train, y_valid = train_test_split(
    X_ns, y, test_size=0.2, random_state=42
)

print("Tama√±o entrenamiento:", X_train.shape, y_train.shape)
print("Tama√±o validaci√≥n:", X_valid.shape, y_valid.shape)


## **Paso 3. √Årbol de Decisi√≥n baseline**

En este paso entrenamos un **√Årbol de Decisi√≥n** con los par√°metros por defecto y evaluamos las m√©tricas.

Un √°rbol de decisi√≥n divide los datos en nodos seg√∫n la variable que mejor reduce la **impureza** (en regresi√≥n, normalmente el **MSE** dentro de cada nodo).  
Este baseline nos sirve como punto de partida para comparar con modelos m√°s complejos como **Random Forest** o **XGBoost**.

M√©tricas que calculamos:
- **RMSE (Root Mean Squared Error):** penaliza m√°s los errores grandes.  
- **MAE (Mean Absolute Error):** error promedio en unidades originales (a√±os de esperanza de vida).  
- **R¬≤:** proporci√≥n de varianza explicada (0 a 1 ‚Üí cuanto m√°s alto, mejor).



In [None]:
# ===================================
# 3. √Årbol de Decisi√≥n (baseline)
# ===================================

tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)

preds_tree = tree.predict(X_valid)

rmse = np.sqrt(mean_squared_error(y_valid, preds_tree))
mae = mean_absolute_error(y_valid, preds_tree)
r2 = r2_score(y_valid, preds_tree)

print("üìä Decision Tree (baseline)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 4. Overfitting en √Årboles de Decisi√≥n: curva de aprendizaje con max_depth**


Los **√°rboles de decisi√≥n** tienden a crecer hasta memorizar los datos de entrenamiento, lo que provoca **overfitting**.  

Para analizarlo, variamos la **profundidad m√°xima (`max_depth`)** del √°rbol y graficamos los errores (RMSE) en:  
- **Train (l√≠nea azul):** error sobre los datos de entrenamiento.  
- **Valid (l√≠nea naranja):** error sobre datos no vistos (validaci√≥n).  


### üìä Interpretaci√≥n de la curva de validaci√≥n (Decision Tree)


En este gr√°fico vemos dos curvas:  
- **Train RMSE** ‚Üí error en los datos de entrenamiento.  
- **Valid RMSE** ‚Üí error en los datos de validaci√≥n. 


üîé **Qu√© significa la separaci√≥n de las curvas:**
- Si **Train RMSE ‚â™ Valid RMSE**, el modelo est√° sobreajustando (overfitting).  
- Si **ambos errores son altos**, el modelo est√° infraajustando (underfitting).  
- El punto ideal es cuando **las curvas est√°n lo m√°s cercanas posible una de otra** y en un nivel bajo de error.  

Esto indica un buen equilibrio entre **sesgo (bias)** y **varianza (variance)**.

 
‚öôÔ∏è **Efecto de los hiperpar√°metros**:
- **`max_depth ‚Üë`** o **aumenta** ‚Üí el √°rbol crece m√°s ‚Üí memoriza mejor el train (‚Üì error en train) pero aumenta el overfitting. El error en train baja mucho, pero en validaci√≥n empieza a subir a partir de cierto punto (signo de **sobreajuste**). 
- **`max_depth ‚Üì`** o es **muy bajo** ‚Üí el √°rbol o el modelo es demasiado simple (**underfitting**) ‚Üí puede aumentar el error en train (errores altos), pero mejora la generalizaci√≥n.  


Lo que buscamos es un **compromiso entre complejidad y generalizaci√≥n**. 


In [None]:
# ===================================
# 4. Overfitting en √Årboles de Decisi√≥n
# ===================================

train_errors, valid_errors = [], []
depths = range(1, 21)

for d in depths:
    model = DecisionTreeRegressor(max_depth=d, random_state=42)
    model.fit(X_train, y_train)
    preds_train = model.predict(X_train)
    preds_valid = model.predict(X_valid)
    
    train_errors.append(np.sqrt(mean_squared_error(y_train, preds_train)))
    valid_errors.append(np.sqrt(mean_squared_error(y_valid, preds_valid)))

plt.figure(figsize=(8,5))
plt.plot(depths, train_errors, label="Train RMSE", marker="o")
plt.plot(depths, valid_errors, label="Valid RMSE", marker="o")
plt.xlabel("Profundidad del √°rbol (max_depth)")
plt.ylabel("RMSE")
plt.title("Overfitting en Decision Tree")
plt.legend()
plt.show()


## **Paso 5. Random Forest (baseline)**

Ahora entrenamos un Random Forest y evaluamos sus m√©tricas.  
Este modelo combina muchos √°rboles entrenados sobre subconjuntos aleatorios de los datos, lo que reduce la varianza.


Un **Random Forest** es un ensamble de √°rboles de decisi√≥n, entrena **muchos √°rboles de decisi√≥n** en paralelo, cada uno con:
- Un subconjunto aleatorio de observaciones.  
- Un subconjunto aleatorio de variables.  

Esto introduce **diversidad en los √°rboles** y permite que, al promediar sus resultados, el modelo:
- Reduzca la varianza (menos overfitting que un solo √°rbol).  
- Generalice mejor en validaci√≥n.

- Cada √°rbol se entrena sobre un subconjunto aleatorio de datos y de variables (**bagging**).  
- Al combinar muchos √°rboles, se reducen los problemas de **overfitting** que vimos en el √°rbol simple.  
- Es m√°s robusto y suele mejorar las m√©tricas de validaci√≥n.



‚öôÔ∏è El hiperpar√°metro clave es `n_estimators`:
- **Si `n_estimators ‚Üë`** ‚Üí m√°s √°rboles ‚Üí resultados m√°s estables pero mayor tiempo de c√≥mputo.  
- **Si `n_estimators ‚Üì`** ‚Üí menos √°rboles ‚Üí m√°s r√°pido, pero menos robusto.  



En este baseline usamos `n_estimators=200` √°rboles con par√°metros por defecto.  


In [None]:

# ===================================
# 5. Random Forest (baseline)
# ===================================

rf = RandomForestRegressor(random_state=42, n_estimators=200)
rf.fit(X_train, y_train)

preds_rf = rf.predict(X_valid)

rmse = np.sqrt(mean_squared_error(y_valid, preds_rf))
mae = mean_absolute_error(y_valid, preds_rf)
r2 = r2_score(y_valid, preds_rf)

print("üìä Random Forest (baseline)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 6. Importancia de Variables**

Los modelos basados en √°rboles permiten calcular la **importancia de las variables**:  
permiten medir qu√© tan importante es cada variable, cu√°nto contribuye cada predictor a reducir el error en los nodos de decisi√≥n. 

Una ventaja de los modelos basados en √°rboles es que permiten calcular la **importancia de las variables**.  

En el caso de **Random Forest**, la importancia se calcula promediando las reducciones de impureza de todos los √°rboles del ensamble.  

- Una **importancia alta** indica que esa variable es muy influyente en las predicciones.  
- Una **importancia baja** significa que la variable apenas aporta informaci√≥n.  


üí° Recordatorio:  
- El hiperpar√°metro `n_estimators` indica **cu√°ntos √°rboles de decisi√≥n** se entrenan en el Random Forest.  
- A m√°s √°rboles, el modelo suele ser m√°s robusto y estable, aunque tambi√©n m√°s costoso en tiempo de entrenamiento.  
- Un valor t√≠pico es 100‚Äì500 √°rboles, y aqu√≠ usamos `n_estimators=200`.  

En este gr√°fico mostramos el **Top 20**.  
Esto nos ayuda a:
- Entender mejor el dataset.  
- Posibles reducciones de dimensionalidad (quedarnos con las m√°s influyentes).  
- Interpretar el modelo y explicar los resultados.  

In [None]:
# ===================================
# 6. Importancia de Variables
# ===================================

importances = pd.DataFrame({
    "Variable": X_train.columns,
    "Importancia": rf.feature_importances_
}).sort_values(by="Importancia", ascending=False)

plt.figure(figsize=(8,10))
sns.barplot(
    x="Importancia", 
    y="Variable", 
    data=importances.head(20), 
    hue="Variable",          
    dodge=False, 
    legend=False,            # ocultamos la leyenda
    palette="Blues_r"
)
plt.title("Top 20 variables m√°s importantes (Random Forest)")
plt.xlabel("Importancia")
plt.ylabel("Variable")
plt.show()

importances.head(20)


## **Paso 7. Ajuste de hiperpar√°metros en Random Forest**


Hasta ahora hemos usado un **Random Forest baseline** con par√°metros por defecto (`n_estimators=200`).  
Aunque este modelo ya mejora claramente al √°rbol de decisi√≥n simple, podemos explorar c√≥mo afecta variar algunos par√°metros clave:

- **`n_estimators`**: n√∫mero de √°rboles en el ensamble. M√°s √°rboles reducen la varianza, pero aumentan el coste computacional.  
- **`max_depth`**: profundidad m√°xima de los √°rboles. Controla la complejidad del modelo y previene overfitting.  
- **`min_samples_split`**: n√∫mero m√≠nimo de muestras necesarias para dividir un nodo. Valores m√°s altos hacen que los √°rboles sean m√°s simples.  

En este paso vamos a hacer una **b√∫squeda manual** variando `n_estimators` y observando c√≥mo cambia el RMSE en train y validaci√≥n.  

üìä **Qu√© esperamos ver en el gr√°fico**:  
- A medida que aumenta `n_estimators`, el error de validaci√≥n deber√≠a estabilizarse.  
- Si las curvas de train y validaci√≥n est√°n cercanas y planas, significa que el modelo generaliza bien.  
- Si hay una gran diferencia (train mucho mejor que validaci√≥n), significa que a√∫n hay cierto overfitting.  




In [None]:
# ===================================
# 7. Ajuste de hiperpar√°metros en Random Forest
# ===================================
train_errors, valid_errors = [], []
n_estimators_range = range(10, 310, 20)  # probamos de 10 a 300 √°rboles
## n_estimators_range = [50, 100, 200, 300, 500]

for n in n_estimators_range:
    rf_model = RandomForestRegressor(random_state=42, n_estimators=n)
    rf_model.fit(X_train, y_train)
    
    preds_train = rf_model.predict(X_train)
    preds_valid = rf_model.predict(X_valid)
    
    train_errors.append(np.sqrt(mean_squared_error(y_train, preds_train)))
    valid_errors.append(np.sqrt(mean_squared_error(y_valid, preds_valid)))

# Gr√°fico de curva de aprendizaje en funci√≥n de n_estimators
plt.figure(figsize=(8,5))
plt.plot(n_estimators_range, train_errors, label="Train RMSE", marker="o")
plt.plot(n_estimators_range, valid_errors, label="Valid RMSE", marker="o")
plt.xlabel("N√∫mero de √°rboles (n_estimators)")
plt.ylabel("RMSE")
plt.title("Curva de validaci√≥n - Random Forest")
plt.legend()
plt.show()


## **Paso 8. GridSearchCV para optimizaci√≥n de Random Forest**

Hasta ahora usamos hiperpar√°metros por defecto.  
Con **GridSearchCV** buscamos la mejor combinaci√≥n de par√°metros mediante validaci√≥n cruzada.  

‚öôÔ∏è Principales hiperpar√°metros:
- **`max_depth`**  
  - ‚Üë profundidad ‚Üí m√°s complejo, riesgo de overfitting.  
  - ‚Üì profundidad ‚Üí m√°s simple, riesgo de underfitting.  

- **`min_samples_split`**  
  - ‚Üë valor ‚Üí obliga a que los nodos tengan m√°s datos para dividirse ‚Üí √°rbol m√°s simple.  
  - ‚Üì valor ‚Üí m√°s divisiones ‚Üí riesgo de overfitting.  

- **`min_samples_leaf`**  
  - ‚Üë valor ‚Üí hojas m√°s grandes ‚Üí √°rbol m√°s suave y general.  
  - ‚Üì valor ‚Üí hojas con muy pocos datos ‚Üí riesgo de memorizar.  

- **`n_estimators`**  
  - ‚Üë m√°s √°rboles ‚Üí modelo m√°s robusto, pero m√°s lento.  
  - ‚Üì menos √°rboles ‚Üí m√°s r√°pido, pero m√°s inestable.  

üëâ El objetivo es **acercar las curvas de train y validaci√≥n** y reducir el RMSE. 

üìñ Explicaci√≥n de loq ue hacemos con GridSearchCV:

  - GridSearchCV prueba todas las combinaciones de hiperpar√°metros en param_grid.
  - Usa validaci√≥n cruzada (cv=5) para evaluar el rendimiento medio y reducir el riesgo de overfitting.
  - El mejor modelo (best_estimator_) se reentrena con los mejores par√°metros encontrados.
  - Luego lo evaluamos en nuestro conjunto de validaci√≥n independiente (hold-out) para confirmar.

üí° Esto nos permite justificar mejor frente a XGBoost + Optuna:

  - GridSearchCV = b√∫squeda exhaustiva (m√°s lento).
  - Optuna = b√∫squeda inteligente con optimizaci√≥n bayesiana (m√°s r√°pido y escalable).


In [None]:
# ===================================
# 8. Optimizaci√≥n de Random Forest con GridSearchCV
# ===================================
from sklearn.model_selection import GridSearchCV

# Definimos el modelo base
rf = RandomForestRegressor(random_state=42)

# Definimos la rejilla de hiperpar√°metros a explorar
param_grid = {
    "n_estimators": [100, 200, 300],
    "max_depth": [None, 10, 20],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4]
}

# Configuramos GridSearchCV
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    scoring="neg_root_mean_squared_error",  # usamos RMSE
    cv=5,                                  # validaci√≥n cruzada 5-fold
    n_jobs=-1,                             # usar todos los n√∫cleos
    verbose=2
)

# Entrenamos
grid_search.fit(X_train, y_train)

print("‚úÖ Mejores hiperpar√°metros encontrados:")
print(grid_search.best_params_)

print("\nüìä Mejor score (RMSE validaci√≥n):")
print(-grid_search.best_score_)

# Evaluaci√≥n final en nuestro conjunto de validaci√≥n hold-out
best_rf = grid_search.best_estimator_
preds_best_rf = best_rf.predict(X_valid)

rmse = np.sqrt(mean_squared_error(y_valid, preds_best_rf))
mae = mean_absolute_error(y_valid, preds_best_rf)
r2 = r2_score(y_valid, preds_best_rf)

print("\nüìä Random Forest Optimizado (validaci√≥n hold-out)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 9. Heatmap de resultados de GridSearchCV**

Visualizaci√≥n de resultados de GridSearchCV con un heatmap.


üí° Este heatmap muestra c√≥mo cambian los errores medios de validaci√≥n cruzada (RMSE) en funci√≥n de dos hiperpar√°metros clave:

- `n_estimators` = n√∫mero de √°rboles.
- `max_depth` = profundidad m√°xima de cada √°rbol.
- colores m√°s claros ‚Üí menor error ‚Üí mejor combinaci√≥n.

In [None]:
# ===================================
# 9. Visualizaci√≥n de resultados de GridSearchCV
# ===================================
results = pd.DataFrame(grid_search.cv_results_)

# Extraemos solo los par√°metros y la media de la m√©trica (neg RMSE)
pivot_table = results.pivot_table(
    values="mean_test_score",
    index="param_max_depth",
    columns="param_n_estimators"
)

plt.figure(figsize=(8,6))
sns.heatmap(
    -pivot_table,  # convertimos de "neg RMSE" a RMSE positivo
    annot=True, fmt=".3f", cmap="Blues"
)
plt.title("Heatmap RMSE promedio (GridSearchCV - Random Forest)")
plt.xlabel("n_estimators")
plt.ylabel("max_depth")
plt.show()


## **Paso 10. Conclusiones √Årboles de Decisi√≥n vs. Random Forest Regressor**

- **√Årbol de Decisi√≥n (baseline):**
  - Modelo muy interpretable y r√°pido de entrenar.
  - Sin embargo, tiende a **sobreajustar** cuando la profundidad aumenta.
  - Vimos en la curva de validaci√≥n c√≥mo el error en train bajaba mucho, pero el de validaci√≥n empezaba a subir ‚Üí overfitting.

- **Random Forest (baseline):**
  - Combina muchos √°rboles entrenados en subconjuntos de datos (t√©cnica de **bagging**).
  - Esto reduce la varianza y mejora la generalizaci√≥n.
  - M√©tricas mejores que el √°rbol simple en validaci√≥n.

- **Random Forest optimizado con GridSearchCV:**
  - Ajustamos autom√°ticamente varios hiperpar√°metros:
    - `n_estimators`: n√∫mero de √°rboles.
    - `max_depth`: controla la complejidad.
    - `min_samples_split` y `min_samples_leaf`: evitan nodos demasiado peque√±os.
  - GridSearchCV hace una **b√∫squeda exhaustiva** de combinaciones y selecciona la mejor mediante validaci√≥n cruzada.
  - El heatmap nos permiti√≥ ver c√≥mo ciertas combinaciones (`n_estimators` altos + `max_depth` medio) ofrecen los mejores resultados.
  - Resultado: mejora del RMSE y R¬≤ respecto al baseline.

üëâ Conclusi√≥n final: **Random Forest optimizado** ofrece un mejor equilibrio entre precisi√≥n y robustez frente a sobreajuste, siendo superior al √°rbol de decisi√≥n simple.


## **Comparativa de modelos:** 
### √Årbol de Decisi√≥n, Random Forest baseline y Random Forest optimizado


In [None]:
# ===================================
# Comparativa final de m√©tricas
# ===================================

# Guardamos las m√©tricas en un diccionario
results = {
    "Decision Tree": {
        "RMSE": np.sqrt(mean_squared_error(y_valid, preds_tree)),
        "MAE": mean_absolute_error(y_valid, preds_tree),
        "R¬≤": r2_score(y_valid, preds_tree)
    },
    "Random Forest (baseline)": {
        "RMSE": np.sqrt(mean_squared_error(y_valid, preds_rf)),
        "MAE": mean_absolute_error(y_valid, preds_rf),
        "R¬≤": r2_score(y_valid, preds_rf)
    },
    "Random Forest (optimizado)": {
        "RMSE": np.sqrt(mean_squared_error(y_valid, grid_search.best_estimator_.predict(X_valid))),
        "MAE": mean_absolute_error(y_valid, grid_search.best_estimator_.predict(X_valid)),
        "R¬≤": r2_score(y_valid, grid_search.best_estimator_.predict(X_valid))
    }
}


# Convertimos a DataFrame
results_df = pd.DataFrame(results).T

# --- Gr√°fico comparativo ---
plt.figure(figsize=(10,6))
results_df[["RMSE","MAE"]].plot(kind="bar", figsize=(10,6))
plt.title("Comparaci√≥n de RMSE y MAE entre modelos")
plt.ylabel("Error")
plt.xticks(rotation=0)
plt.legend(title="M√©trica")
plt.show()

# --- Gr√°fico R¬≤ ---
plt.figure(figsize=(8,5))
sns.barplot(
    x=results_df.index, 
    y=results_df["R¬≤"], 
    hue=results_df.index,   # usamos la variable del eje como hue
    palette="Blues_r", 
    dodge=False, 
    legend=False
)
plt.title("Comparaci√≥n de R¬≤ entre modelos")
plt.ylabel("R¬≤")
plt.ylim(0,1)
plt.show()

results_df

# ===================================
# Guardar resultados en CSV
# ===================================

# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])


    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results



# Guardar cada modelo por separado

# ===================================
# Guardar m√©tricas en CSV para comparativa global
# ===================================

# Decision Tree
results_tree = pd.DataFrame([{
    "Modelo": "Decision Tree",
    "RMSE": np.sqrt(mean_squared_error(y_valid, preds_tree)),
    "MAE": mean_absolute_error(y_valid, preds_tree),
    "R¬≤": r2_score(y_valid, preds_tree)
}])
results_tree.to_csv("../data/results_tree.csv", index=False)
print("‚úÖ Resultados Decision Tree guardados en data/results_tree.csv")

# Random Forest (baseline)
results_rf_base = pd.DataFrame([{
    "Modelo": "Random Forest (baseline)",
    "RMSE": np.sqrt(mean_squared_error(y_valid, preds_rf)),
    "MAE": mean_absolute_error(y_valid, preds_rf),
    "R¬≤": r2_score(y_valid, preds_rf)
}])
results_rf_base.to_csv("../data/results_rf_baseline.csv", index=False)
print("‚úÖ Resultados Random Forest (baseline) guardados en data/results_rf_baseline.csv")

# Random Forest (optimizado con GridSearchCV)
preds_rf_opt = grid_search.best_estimator_.predict(X_valid)
results_rf_opt = pd.DataFrame([{
    "Modelo": "Random Forest (optimizado)",
    "RMSE": np.sqrt(mean_squared_error(y_valid, preds_rf_opt)),
    "MAE": mean_absolute_error(y_valid, preds_rf_opt),
    "R¬≤": r2_score(y_valid, preds_rf_opt)
}])
results_rf_opt.to_csv("../data/results_rf_optimized.csv", index=False)
print("‚úÖ Resultados Random Forest (optimizado) guardados en data/results_rf_optimized.csv")

