# 📊 Comparación de Modelos de Regresión

En este notebook realizamos una **comparativa final** entre todos los modelos entrenados:  

- **Regresión Lineal**  
- **Árbol de Decisión**  
- **Random Forest**  
- **XGBoost (con Optuna)**  
- **Ridge, Lasso y Elastic Net**  
- **KNN Regressor**

La comparación se realiza con las métricas:  
- **RMSE (Root Mean Squared Error):** penaliza más los errores grandes.  
- **MAE (Mean Absolute Error):** mide el error medio absoluto, más robusto a outliers.  
- **R² (Coeficiente de determinación):** proporción de la varianza explicada.  

Finalmente, representamos gráficamente las métricas para evaluar qué modelo es más adecuado para predecir la **Esperanza de Vida**.


## **Paso 1. Importar librerías y cargar resultados**

Cargamos los datos de las métricas calculadas para cada algoritmo en su correspondiente notebook:

Los rachivos son los siguientes de cada modelo:

- df_lr = pd.read_csv("../data/results_linear.csv")
- df_trees = pd.read_csv("../data/results_trees_all.csv")
- df_xgb_base = pd.read_csv("../data/results_xgboost_baseline.csv")
- df_xgb_optuna = pd.read_csv("../data/results_xgboost_optuna.csv")
- df_xgb_comp = pd.read_csv("../data/results_xgboost_comparison.csv")  # opcional si quieres baseline vs - optimizado
- df_ridge_lasso_en = pd.read_csv("../data/results_ridge_lasso_elasticnet.csv")
- df_knn = pd.read_csv("../data/results_knn.csv")



In [None]:
# ===================================
# 1. Importar librerías
# ===================================
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import glob

# ===================================
# 2. Cargar todos los resultados de cada modelo automáticamente
# ===================================
files = glob.glob("../data/results_*.csv")

# Concatenamos todos los resultados en un único DataFrame
comparison = pd.concat([pd.read_csv(f) for f in files], ignore_index=True)

# Ordenamos por RMSE (menor es mejor)
comparison = comparison.sort_values(by="RMSE").reset_index(drop=True)

print("📊 Resultados comparativos consolidados:")
display(comparison)

#df_lr = pd.read_csv("../data/results_linear.csv")
#df_trees = pd.read_csv("../data/results_trees_all.csv")
#df_xgb_base = pd.read_csv("../data/results_xgboost_baseline.csv")
#df_xgb_optuna = pd.read_csv("../data/results_xgboost_optuna.csv")
#df_xgb_comp = pd.read_csv("../data/results_xgboost_comparison.csv")  # opcional si quieres baseline vs optimizado
#df_ridge_lasso_en = pd.read_csv("../data/results_ridge_lasso_elasticnet.csv")
#df_knn = pd.read_csv("../data/results_knn.csv")




## **Paso 2. Visualización comparativa

Los siguientes gráficos muestran la comparación entre modelos:  

1. **RMSE y MAE:** menor valor = mejor ajuste.  
2. **R²:** más cercano a 1 = mejor capacidad explicativa.  

Esto nos ayuda a ver rápidamente qué modelos destacan sobre el resto.


In [None]:

# ===================================
# 3. Comparación visual de RMSE y MAE
# ===================================
plt.figure(figsize=(12,6))
comparison.set_index("Modelo")[["RMSE","MAE"]].plot(kind="bar", figsize=(12,6))
plt.title("Comparación de errores (RMSE y MAE) entre modelos")
plt.ylabel("Error")
plt.xticks(rotation=45, ha="right")
plt.legend(title="Métrica")
plt.show()

# ===================================
# 4. Comparación visual de R²
# ===================================
plt.figure(figsize=(10,5))
sns.barplot(
    x="Modelo", 
    y="R²", 
    data=comparison, 
    palette="Blues_r", 
    hue="Modelo", 
    legend=False
)
plt.title("Comparación de R² entre modelos")
plt.ylabel("R²")
plt.ylim(0,1)
plt.xticks(rotation=45, ha="right")
plt.show()



## **Paso 3. 📊 Comparación final de modelos**

En este bloque consolidamos todos los resultados de los diferentes algoritmos probados:

- **Linear Regression**
- **Decision Tree**
- **Random Forest** (baseline y optimizado)
- **XGBoost** (baseline y optimizado con Optuna)
- **Ridge, Lasso y Elastic Net**
- **KNN Regressor**

**Gráficos:**
- El primer gráfico compara los errores **RMSE** y **MAE** → cuanto más bajos, mejor.  
- El segundo gráfico muestra el **R²** → cuanto más alto y más cercano a 1, mejor es la capacidad explicativa del modelo.  

Esto nos permite identificar cuál modelo tiene mejor desempeño global y si hay compromisos (ejemplo: menor error, pero mayor complejidad).  


## **Ranking por métrica**

In [None]:
# ===================================
# 6. Ranking por métrica
# ===================================

# Ranking de los tres mejores modelos por cada métrica
ranking = pd.DataFrame({
    "Top 10: Mejor RMSE": comparison.sort_values("RMSE").head(10)["Modelo"].values,
    "Top 10: Mejor MAE": comparison.sort_values("MAE").head(10)["Modelo"].values,
    "Top 10: Mejor R²": comparison.sort_values("R²", ascending=False).head(10)["Modelo"].values
})

print("🏆 Ranking de los tres mejores modelos por métrica:")
display(ranking)


## **Paso 4. ✅ Conclusiones**

- **XGBoost** y **Random Forest** suelen ser los modelos más sólidos para datos tabulares no lineales.  
- **Regresión Lineal** y **Ridge/Lasso/ElasticNet** capturan bien relaciones lineales, pero no modelan interacciones complejas.  
- **KNN Regressor** funciona razonablemente, pero es sensible a la escala y a valores atípicos.  
- La métrica más estable y robusta es **MAE**, ya que RMSE penaliza demasiado los outliers.  

📌 En este dataset, el modelo que logra el mejor equilibrio entre error bajo (RMSE/MAE) y capacidad explicativa (R²) es **XGBoost**.  

Este será el modelo elegido para nuestro **Producto Mínimo Viable (PMV)**.
