# üìä Comparaci√≥n de Modelos de Regresi√≥n

En este notebook realizamos una **comparativa final** entre todos los modelos entrenados:  

- **Regresi√≥n Lineal**  
- **√Årbol de Decisi√≥n**  
- **Random Forest**  
- **XGBoost (con Optuna)**  
- **Ridge, Lasso y Elastic Net**  
- **KNN Regressor**

La comparaci√≥n se realiza con las m√©tricas:  
- **RMSE (Root Mean Squared Error):** penaliza m√°s los errores grandes.  
- **MAE (Mean Absolute Error):** mide el error medio absoluto, m√°s robusto a outliers.  
- **R¬≤ (Coeficiente de determinaci√≥n):** proporci√≥n de la varianza explicada.  

Finalmente, representamos gr√°ficamente las m√©tricas para evaluar qu√© modelo es m√°s adecuado para predecir la **Esperanza de Vida**.


## **Paso 1. Importar librer√≠as y cargar resultados**

Cargamos los datos de las m√©tricas calculadas para cada algoritmo en su correspondiente notebook:

Los rachivos son los siguientes de cada modelo:

- df_lr = pd.read_csv("../data/results_linear.csv")
- df_trees = pd.read_csv("../data/results_trees_all.csv")
- df_xgb_base = pd.read_csv("../data/results_xgboost_baseline.csv")
- df_xgb_optuna = pd.read_csv("../data/results_xgboost_optuna.csv")
- df_xgb_comp = pd.read_csv("../data/results_xgboost_comparison.csv")  # opcional si quieres baseline vs - optimizado
- df_ridge_lasso_en = pd.read_csv("../data/results_ridge_lasso_elasticnet.csv")
- df_knn = pd.read_csv("../data/results_knn.csv")



In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import glob

# ===================================
# 2. Cargar todos los resultados de cada modelo autom√°ticamente
# ===================================
files = glob.glob("../data/results_*.csv")

# Concatenamos todos los resultados en un √∫nico DataFrame
comparison = pd.concat([pd.read_csv(f) for f in files], ignore_index=True)

# Ordenamos por RMSE (menor es mejor)
comparison = comparison.sort_values(by="RMSE").reset_index(drop=True)

print("üìä Resultados comparativos consolidados:")
display(comparison)

#df_lr = pd.read_csv("../data/results_linear.csv")
#df_trees = pd.read_csv("../data/results_trees_all.csv")
#df_xgb_base = pd.read_csv("../data/results_xgboost_baseline.csv")
#df_xgb_optuna = pd.read_csv("../data/results_xgboost_optuna.csv")
#df_xgb_comp = pd.read_csv("../data/results_xgboost_comparison.csv")  # opcional si quieres baseline vs optimizado
#df_ridge_lasso_en = pd.read_csv("../data/results_ridge_lasso_elasticnet.csv")
#df_knn = pd.read_csv("../data/results_knn.csv")




## **Paso 2. Visualizaci√≥n comparativa

Los siguientes gr√°ficos muestran la comparaci√≥n entre modelos:  

1. **RMSE y MAE:** menor valor = mejor ajuste.  
2. **R¬≤:** m√°s cercano a 1 = mejor capacidad explicativa.  

Esto nos ayuda a ver r√°pidamente qu√© modelos destacan sobre el resto.


In [None]:

# ===================================
# 3. Comparaci√≥n visual de RMSE y MAE
# ===================================
plt.figure(figsize=(12,6))
comparison.set_index("Modelo")[["RMSE","MAE"]].plot(kind="bar", figsize=(12,6))
plt.title("Comparaci√≥n de errores (RMSE y MAE) entre modelos")
plt.ylabel("Error")
plt.xticks(rotation=45, ha="right")
plt.legend(title="M√©trica")
plt.show()

# ===================================
# 4. Comparaci√≥n visual de R¬≤
# ===================================
plt.figure(figsize=(10,5))
sns.barplot(
    x="Modelo", 
    y="R¬≤", 
    data=comparison, 
    palette="Blues_r", 
    hue="Modelo", 
    legend=False
)
plt.title("Comparaci√≥n de R¬≤ entre modelos")
plt.ylabel("R¬≤")
plt.ylim(0,1)
plt.xticks(rotation=45, ha="right")
plt.show()



## **Paso 3. üìä Comparaci√≥n final de modelos**

En este bloque consolidamos todos los resultados de los diferentes algoritmos probados:

- **Linear Regression**
- **Decision Tree**
- **Random Forest** (baseline y optimizado)
- **XGBoost** (baseline y optimizado con Optuna)
- **Ridge, Lasso y Elastic Net**
- **KNN Regressor**

**Gr√°ficos:**
- El primer gr√°fico compara los errores **RMSE** y **MAE** ‚Üí cuanto m√°s bajos, mejor.  
- El segundo gr√°fico muestra el **R¬≤** ‚Üí cuanto m√°s alto y m√°s cercano a 1, mejor es la capacidad explicativa del modelo.  

Esto nos permite identificar cu√°l modelo tiene mejor desempe√±o global y si hay compromisos (ejemplo: menor error, pero mayor complejidad).  


## **Ranking por m√©trica**

In [None]:
# ===================================
# 6. Ranking por m√©trica
# ===================================

# Ranking de los tres mejores modelos por cada m√©trica
ranking = pd.DataFrame({
    "Top 10: Mejor RMSE": comparison.sort_values("RMSE").head(10)["Modelo"].values,
    "Top 10: Mejor MAE": comparison.sort_values("MAE").head(10)["Modelo"].values,
    "Top 10: Mejor R¬≤": comparison.sort_values("R¬≤", ascending=False).head(10)["Modelo"].values
})

print("üèÜ Ranking de los tres mejores modelos por m√©trica:")
display(ranking)


## **Paso 4. ‚úÖ Conclusiones**

- **XGBoost** y **Random Forest** suelen ser los modelos m√°s s√≥lidos para datos tabulares no lineales.  
- **Regresi√≥n Lineal** y **Ridge/Lasso/ElasticNet** capturan bien relaciones lineales, pero no modelan interacciones complejas.  
- **KNN Regressor** funciona razonablemente, pero es sensible a la escala y a valores at√≠picos.  
- La m√©trica m√°s estable y robusta es **MAE**, ya que RMSE penaliza demasiado los outliers.  

üìå En este dataset, el modelo que logra el mejor equilibrio entre error bajo (RMSE/MAE) y capacidad explicativa (R¬≤) es **XGBoost**.  

Este ser√° el modelo elegido para nuestro **Producto M√≠nimo Viable (PMV)**.
