# **XGBoost Regressor**

Este notebook tiene como objetivo entrenar, analizar y optimizar un modelo de **XGBoost Regressor** aplicado al dataset de **Esperanza de Vida**.

**¬øPor qu√© XGBoost?**  
- Es un algoritmo basado en **√°rboles de decisi√≥n** que utiliza la t√©cnica de **boosting** (aprendizaje secuencial), lo que lo hace muy potente para datos tabulares.  
- Suele obtener mejores resultados que modelos m√°s simples (como Regresi√≥n Lineal o √Årboles de Decisi√≥n) y maneja bien relaciones no lineales y variables con distintas escalas.  
- Incluye regularizaci√≥n para evitar **overfitting**, algo que puede ser un problema en Decision Trees simples.  

**Qu√© haremos en este notebook:**  
1. Importar librer√≠as y cargar los datasets procesados.  
2. Entrenar un modelo **baseline** de XGBoost y evaluar m√©tricas (RMSE, MAE, R¬≤).  
3. Analizar **overfitting** mediante curvas de validaci√≥n.  
4. Visualizar la **importancia de variables** en el modelo.  
5. Optimizar hiperpar√°metros con **Optuna** para mejorar el rendimiento.  
6. Comparar el modelo baseline con el optimizado.  
7. Concluir sobre la utilidad de XGBoost en este problema y compararlo brevemente con Decision Tree y Random Forest.  

Este notebook complementa al de **DecisionTree_RandomForest.ipynb**, profundizando en el uso de un algoritmo de boosting m√°s avanzado.


## **Paso 1. Importar librer√≠as**

En este bloque importamos todas las librer√≠as necesarias:  

- **pandas** para manipulaci√≥n de datos.  
- **train_test_split** para dividir el dataset en entrenamiento y validaci√≥n.  
- **XGBRegressor** de `xgboost` como modelo principal.  
- **m√©tricas de sklearn** para evaluar el rendimiento (RMSE, MAE, R¬≤).  
- **matplotlib** y **seaborn** para visualizaciones.  
- **numpy** para operaciones matem√°ticas.  

Dejamos preparado tambi√©n el entorno para trabajar con **Optuna**, que utilizaremos m√°s adelante en la optimizaci√≥n de hiperpar√°metros.


In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns
import plotly

# Modelo principal
from xgboost import XGBRegressor, plot_importance

# Para optimizaci√≥n
import optuna
from optuna.visualization import plot_optimization_history, plot_param_importances, plot_parallel_coordinate


## **Paso 2. Carga de datos procesados y no escalados**

En este bloque importamos las librer√≠as necesarias para entrenar el modelo **XGBoost** 
y cargamos los datasets procesados.

üëâ Usaremos los datos **no escalados**, ya que XGBoost (al igual que Random Forest) 
no requiere que las variables est√©n normalizadas o estandarizadas.  
El dataset ya est√° limpio y preprocesado en el notebook `EDA_processed.ipynb`.  

Tambi√©n dividimos los datos en **train** y **validaci√≥n** para evaluar el modelo.


In [None]:
# ===================================
# 2. Cargar datos procesados y no escalados
# ===================================

# --- Cargar datasets procesados ---
X_ns = pd.read_csv("../data/processed/features_no_scaling.csv")
y = pd.read_csv("../data/processed/target_y.csv").squeeze()  # lo convertimos a Serie

# Divisi√≥n train / validaci√≥n
X_train, X_valid, y_train, y_valid = train_test_split(
    X_ns, y, test_size=0.2, random_state=42
)

print("Tama√±o entrenamiento:", X_train.shape, y_train.shape)
print("Tama√±o validaci√≥n:", X_valid.shape, y_valid.shape)


## **Paso 3. Entrenamiento y evaluaci√≥n del modelo XGBoost (baseline)**

En este bloque entrenamos un **XGBoost Regressor** con par√°metros por defecto.  
Este modelo pertenece a la familia de **boosting**, es decir, combina √°rboles de decisi√≥n de forma secuencial, donde cada √°rbol corrige los errores del anterior.  

Evaluamos las m√©tricas principales:  

- **RMSE (Root Mean Squared Error):** mide el error promedio penalizando m√°s los errores grandes.  
- **MAE (Mean Absolute Error):** mide el error promedio sin penalizar tanto los valores extremos.  
- **R¬≤ (Coeficiente de determinaci√≥n):** indica cu√°nto del comportamiento de la variable objetivo es explicado por el modelo (1 = perfecto, 0 = no explica nada).  

Estos valores nos dar√°n una primera referencia de qu√© tan bien se comporta el modelo **sin ajustar hiperpar√°metros**.

### üìä Visualizaci√≥n: valores reales vs. predichos (XGBoost baseline)

En este gr√°fico comparamos los **valores reales de la esperanza de vida** (eje X) frente a los **valores predichos por el modelo** (eje Y).

- La **l√≠nea diagonal en rojo** representa la situaci√≥n ideal: todas las predicciones coinciden exactamente con los valores reales.
- Los **puntos azules** son las predicciones reales del modelo.

üëâ Interpretaci√≥n:
- Cuanto m√°s cerca est√©n los puntos de la l√≠nea roja, mejor est√° funcionando el modelo.
- Si los puntos se dispersan mucho lejos de la l√≠nea, significa que el modelo est√° cometiendo errores grandes en esas observaciones.


In [None]:
# ===================================
# 3. Entrenar y evaluar modelo (baseline)
# ===================================
from xgboost import XGBRegressor

# Modelo baseline con par√°metros por defecto
xgb = XGBRegressor(
    random_state=42,
    n_estimators=100,   # n√∫mero de √°rboles (default suele ser 100)
    learning_rate=0.1,  # tasa de aprendizaje
    max_depth=3         # profundidad m√°xima de cada √°rbol
)

xgb.fit(X_train, y_train)

# Predicciones
preds_xgb = xgb.predict(X_valid)

# M√©tricas
rmse = np.sqrt(mean_squared_error(y_valid, preds_xgb))
mae = mean_absolute_error(y_valid, preds_xgb)
r2 = r2_score(y_valid, preds_xgb)

print("üìä XGBoost (baseline)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")

# ===================================
# Visualizaci√≥n: valores reales vs. predichos
# ===================================

plt.figure(figsize=(6,6))
sns.scatterplot(x=y_valid, y=preds_xgb, alpha=0.6)
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], color="red", lw=2)
plt.xlabel("Valores reales")
plt.ylabel("Valores predichos")
plt.title("XGBoost - Valores reales vs. predichos")
plt.show()



## **Paso 4. Diagn√≥stico de residuos**

Antes de evaluar posibles problemas de sobreajuste, analizamos los **residuos del modelo**:

- Los **residuos** son las diferencias entre los valores reales (`y_valid`) y las predicciones del modelo (`preds`).
- Un buen modelo deber√≠a mostrar residuos **centrados en 0** y sin patrones claros.

üëâ En este bloque:
1. Graficamos un **Histograma de residuos:** nos muestra c√≥mo se distribuyen los errores.  
  - Lo ideal es que los residuos est√©n centrados en 0 y tengan una forma sim√©trica.  
  - Una gran asimetr√≠a o colas largas pueden indicar que el modelo falla en ciertos rangos.  

2. Graficamos **Dispersi√≥n `y_valid vs. predicciones`:** permite ver si hay **patrones en los errores**, comprobamos si las predicciones siguen bien la diagonal ideal.
  - Si los puntos est√°n alineados en torno a la diagonal, significa que el modelo predice bien.  
  - Si vemos un patr√≥n en forma de curva o zonas donde el modelo sistem√°ticamente se equivoca (ej. subestima en valores altos), puede haber sesgos o falta de complejidad.  

A diferencia de la regresi√≥n lineal, aqu√≠ **no buscamos una relaci√≥n perfectamente lineal**, sino que el modelo capture adecuadamente las variaciones sin dejar patrones evidentes en los residuos.
 
### Interpretaci√≥n:
- Si los residuos se concentran alrededor de 0 ‚Üí el modelo generaliza bien.
- Si hay colas largas o muchos residuos grandes ‚Üí el modelo est√° fallando en algunos casos.
- Si los residuos muestran un patr√≥n (ej. tendencia en forma de curva) ‚Üí puede que falte complejidad o que el modelo est√© sesgado.


In [None]:
# ===================================
# 4. Diagn√≥stico de residuos (XGBoost)
# ===================================

# C√°lculo de residuos
residuos = y_valid - preds_xgb

# --- Gr√°fico 1: valores reales (y_valid) vs predicciones ---
plt.figure(figsize=(7,5))
sns.scatterplot(x=y_valid, y=preds_xgb, alpha=0.6)
plt.plot([y_valid.min(), y_valid.max()],
         [y_valid.min(), y_valid.max()],
         color="red", linestyle="--")
plt.xlabel("Valores reales (y_valid)")
plt.ylabel("Predicciones")
plt.title("Predicciones vs. Valores reales (XGBoost)")
plt.show()

# --- Gr√°fico 2: Residuos vs predicciones ---
plt.figure(figsize=(7,5))
sns.scatterplot(x=preds_xgb, y=residuos, alpha=0.6)
plt.axhline(0, color="red", linestyle="--")
plt.xlabel("Predicciones")
plt.ylabel("Residuos")
plt.title("Residuos vs. Predicciones (XGBoost)")
plt.show()

# --- Gr√°fico 3: Distribuci√≥n de residuos ---
plt.figure(figsize=(7,5))
sns.histplot(residuos, bins=30, kde=True, color="steelblue")
plt.axvline(0, color="red", linestyle="--")
plt.xlabel("Residuos: Error (y_valid - predicci√≥n)")
plt.ylabel("Frecuencia")
plt.title("Distribuci√≥n de residuos (XGBoost)")
plt.show()


## **Paso 5. Overfitting en XGBoost: curva de aprendizaje con max_depth**

XGBoost, al igual que los √°rboles de decisi√≥n y Random Forest, puede sobreajustar f√°cilmente si los √°rboles son muy profundos.

En este bloque:
- Variamos el hiperpar√°metro `max_depth` (profundidad m√°xima de cada √°rbol).
- Calculamos el **RMSE en entrenamiento y validaci√≥n** para cada valor.
- Graficamos ambas curvas para ver la diferencia.

- **Entrenamiento (RMSE Train):** mide qu√© tan bien el modelo memoriza los datos vistos.  
- **Validaci√≥n (RMSE Valid):** mide qu√© tan bien generaliza el modelo en datos no vistos.  

üìä Interpretaci√≥n:
- Si el error de **train** es muy bajo (baja mucho la curva de **entrenamiento**) y el de **validaci√≥n** empeora o dja de mejorar (es muy alto) ‚Üí hay **overfitting**.  
- Si ambos errores (o curvas) son altos ‚Üí el modelo est√° **underfitting** (falta de complejidad).  
- Lo ideal, el punto √≥ptimo, est√° en encontrar un punto intermedio donde los dos errores (o las dos curvas) sean bajos y cercanos.



In [None]:
# ===================================
# Paso 5. Overfitting en XGBoost
# Curva de aprendizaje con max_depth
# ===================================

from xgboost import XGBRegressor

train_errors, valid_errors = [], []
depths = range(1, 16)  # probamos de profundidad 1 a 16

for d in depths:
    model = XGBRegressor(
        random_state=42,
        n_estimators=200,     # n√∫mero de √°rboles
        learning_rate=0.1,    # tama√±o del paso
        max_depth=d,
        n_jobs=-1          # usar todos los n√∫cleos disponibles
    )
    model.fit(X_train, y_train)
    
    preds_train = model.predict(X_train)
    preds_valid = model.predict(X_valid)
    
    train_rmse = np.sqrt(mean_squared_error(y_train, preds_train))
    valid_rmse = np.sqrt(mean_squared_error(y_valid, preds_valid))
    
    train_errors.append(train_rmse)
    valid_errors.append(valid_rmse)

plt.figure(figsize=(8,5))
plt.plot(depths, train_errors, label="Train RMSE", marker="o")
plt.plot(depths, valid_errors, label="Valid RMSE", marker="o")
plt.xlabel("Profundidad del √°rbol (max_depth)")
plt.ylabel("RMSE")
plt.title("Curva de aprendizaje - Overfitting en XGBoost")
plt.legend()
plt.show()


## **Paso 6. Optimizaci√≥n de hiperpar√°metros con Optuna**

Hasta ahora hemos probado XGBoost con par√°metros por defecto y variando solo `max_depth`.  
Pero este modelo tiene **muchos hiperpar√°metros clave** que afectan al rendimiento y al riesgo de **overfitting**.  

Algunos de los m√°s importantes:  
- `n_estimators`: n√∫mero de √°rboles que se entrenan (bagging).  
- `max_depth`: profundidad m√°xima de cada √°rbol.  
- `learning_rate`: tasa de aprendizaje para cada actualizaci√≥n de boosting.  
- `subsample`: fracci√≥n de filas que se muestrean al entrenar cada √°rbol.  
- `colsample_bytree`: fracci√≥n de columnas (features) que se usan por √°rbol.  
- `gamma`: regularizaci√≥n de la divisi√≥n de nodos (controla la complejidad).  
- `reg_lambda`: regularizaci√≥n L2 para evitar overfitting.  

üëâ Buscar manualmente todos estos par√°metros ser√≠a muy costoso.  
Por eso usamos **Optuna**, una librer√≠a de optimizaci√≥n autom√°tica, que explora el espacio de par√°metros y encuentra las combinaciones que minimizan el error de validaci√≥n (aqu√≠ usaremos **RMSE**).  

Este paso nos permitir√° obtener un XGBoost mucho m√°s competitivo y comparar con Random Forest de forma justa.


In [None]:
# ===================================
# 6. Optuna: optimizaci√≥n de hiperpar√°metros
# ===================================
import optuna
from xgboost import XGBRegressor

def objective(trial):
    params = {
        "n_estimators": trial.suggest_int("n_estimators", 100, 500),
        "max_depth": trial.suggest_int("max_depth", 3, 10),
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.3, log=True),
        "subsample": trial.suggest_float("subsample", 0.6, 1.0),
        "colsample_bytree": trial.suggest_float("colsample_bytree", 0.6, 1.0),
        "gamma": trial.suggest_float("gamma", 0, 5),
        "reg_lambda": trial.suggest_float("reg_lambda", 1e-3, 10.0, log=True),
        "random_state": 42,
        "eval_metric": "rmse"   # 
    }
    
    model = XGBRegressor(**params)
    model.fit(X_train, y_train, eval_set=[(X_valid, y_valid)], verbose=False)
    
    preds = model.predict(X_valid)
    rmse = np.sqrt(mean_squared_error(y_valid, preds))
    return rmse

# Crear estudio de optimizaci√≥n
study = optuna.create_study(direction="minimize")
study.optimize(objective, n_trials=30)  # n√∫mero de iteraciones (aumentar si tienes tiempo)

print("üìä Mejores par√°metros encontrados:")
print(study.best_params)
print(f"Mejor RMSE validaci√≥n: {study.best_value:.3f}")


## **Paso 7. Evaluaci√≥n tras la optimizaci√≥n**

Evaluaci√≥n del mejor modelo con los par√°metros encontrador por Optuna.

Aunque Optuna se ha encargado de **minimizar RMSE**, no nos quedamos solo con esa m√©trica.  
Una vez obtenido el mejor conjunto de hiperpar√°metros, volvemos a entrenar el modelo y lo evaluamos con **RMSE, MAE y R¬≤**:

- **RMSE**: penaliza m√°s los errores grandes, √∫til para medir precisi√≥n global.  
- **MAE**: mide el error medio absoluto, m√°s robusto frente a valores at√≠picos.  
- **R¬≤**: proporci√≥n de la varianza de la variable objetivo explicada por el modelo.  

Esto nos permite comparar con el resto de algoritmos bajo un mismo criterio.



In [None]:
# ===================================
# 7. Evaluaci√≥n del mejor modelo Optuna
# ===================================

best_params = study.best_params
best_model = XGBRegressor(**best_params)
best_model.fit(X_train, y_train)

# Predicciones
preds_optuna = best_model.predict(X_valid)

# M√©tricas
rmse = np.sqrt(mean_squared_error(y_valid, preds_optuna))
mae = mean_absolute_error(y_valid, preds_optuna)
r2 = r2_score(y_valid, preds_optuna)

print("üìä XGBoost optimizado con Optuna")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


## **Paso 8. Convergencia de Optuna**

Optuna permite visualizar c√≥mo evoluciona la m√©trica objetivo (en este caso, **RMSE**) a lo largo de los *trials*.

üëâ Si la curva desciende r√°pidamente y luego se estabiliza, significa que el algoritmo encontr√≥ buenos hiperpar√°metros pronto y despu√©s solo afina ligeramente.

üëâ Si la curva sigue bajando mucho trial tras trial, quiz√° convendr√≠a aumentar el n√∫mero de *trials*.

Este gr√°fico nos ayuda a diagnosticar:
- **Rapidez de convergencia** del proceso de optimizaci√≥n.  
- Si los par√°metros √≥ptimos encontrados son estables o podr√≠an mejorar con m√°s iteraciones.





In [None]:
# ===================================
# 8. Visualizaci√≥n de convergencia de Optuna
# ===================================


fig = plot_optimization_history(study)
fig.show()


## **Interpretaci√≥n del gr√°fico de convergencia de Optuna**

El gr√°fico de **convergencia de Optuna** nos muestra c√≥mo evoluciona el error del modelo (RMSE en validaci√≥n) a medida que se prueban diferentes combinaciones de hiperpar√°metros.



###  ¬øQu√© representa?
- **Eje X (iteraciones / trials):** cada prueba realizada con un conjunto distinto de hiperpar√°metros.  
- **Eje Y (RMSE en validaci√≥n):** el valor de la m√©trica que tratamos de minimizar en cada trial.  
- **Puntos / l√≠nea azul:** error alcanzado en cada prueba.  
- **L√≠nea roja (si aparece):** el mejor valor encontrado hasta ese momento (incumbent curve).  


###  C√≥mo interpretarlo
1. **Descenso r√°pido inicial** ‚Üí significa que Optuna encontr√≥ enseguida par√°metros mucho mejores que los iniciales.  
2. **Meseta despu√©s de varios trials** ‚Üí indica que el modelo ya alcanz√≥ un buen rendimiento y no mejora con m√°s pruebas.  
3. **Picos hacia arriba en algunos trials** ‚Üí normales, Optuna explora combinaciones que a veces rinden peor.  



###  Qu√© nos dice sobre nuestro modelo
- Si la curva converge r√°pido ‚Üí el modelo es **estable y f√°cil de ajustar**.  
- Si mejora poco a poco tras muchos trials ‚Üí puede valer la pena aumentar `n_trials`.  
- Si la curva nunca baja mucho ‚Üí el modelo tiene limitaciones estructurales (no basta con ajustar par√°metros).  

En nuestro caso, Optuna alcanz√≥ un **RMSE ‚âà 1.565**, lo que indica un buen ajuste de hiperpar√°metros. 


## **Paso 9. Importancia de hiperpar√°metros con Optuna**

Adem√°s de encontrar los mejores valores, Optuna nos permite analizar **qu√© hiperpar√°metros fueron m√°s relevantes** para reducir el error del modelo.  

- Esta visualizaci√≥n muestra **la contribuci√≥n relativa de cada hiperpar√°metro** en el rendimiento (RMSE).  
- Cuanto m√°s alta sea la importancia, m√°s influy√≥ ese par√°metro en el resultado.  
- Esto nos ayuda a entender **qu√© par√°metros merecen m√°s atenci√≥n** en futuros ajustes.  


**Significado de los principales hiperpar√°metros de XGBoost**

Optuna busc√≥ los mejores valores para los siguientes hiperpar√°metros:

- **n_estimators** ‚Üí n√∫mero de √°rboles en el ensemble.  
  - Valores altos aumentan la capacidad del modelo, pero tambi√©n el tiempo de entrenamiento y riesgo de sobreajuste.  

- **max_depth** ‚Üí profundidad m√°xima de cada √°rbol.  
  - √Årboles m√°s profundos capturan interacciones complejas, pero pueden sobreajustar.  

- **learning_rate (eta)** ‚Üí cu√°nto se corrige cada nuevo √°rbol respecto al error anterior.  
  - Valores bajos hacen que el modelo aprenda m√°s despacio pero de forma m√°s estable.  

- **subsample** ‚Üí fracci√≥n de muestras que usa cada √°rbol al entrenarse.  
  - Reduce sobreajuste al introducir aleatoriedad (ejemplo: 0.8 = usa el 80% de los datos en cada √°rbol).  

- **colsample_bytree** ‚Üí fracci√≥n de variables que se usan en cada √°rbol.  
  - Similar al subsample, pero a nivel de columnas (features).  

- **gamma** ‚Üí penalizaci√≥n m√≠nima de reducci√≥n de p√©rdida para hacer una partici√≥n.  
  - Valores altos generan √°rboles m√°s conservadores (menos divisiones).  

- **reg_lambda (L2 regularization)** ‚Üí fuerza de la regularizaci√≥n en los pesos de los √°rboles.  
  - Ayuda a reducir sobreajuste y estabilizar el modelo.



In [None]:
# ===================================
# 9. Importancia de hiperpar√°metros con Optuna
# ===================================
from optuna.visualization import plot_param_importances

fig = plot_param_importances(study)
fig.show()


## **Paso 10. Importancia de las variables en XGBoost**

Al igual que Random Forest, XGBoost nos permite medir **qu√© variables aportan m√°s informaci√≥n para reducir el error**.  
Esto se calcula a partir de la frecuencia e impacto con que una variable aparece en los nodos de decisi√≥n.

El gr√°fico mostrar√° las **20 variables m√°s influyentes** en la predicci√≥n de la esperanza de vida.


## üìä Interpretaci√≥n del gr√°fico de importancia de variables  

El gr√°fico muestra las **20 variables m√°s influyentes** en el modelo XGBoost:  

- **Eje Y** ‚Üí nombre de las variables predictoras.  
- **Eje X** ‚Üí valor de importancia asignado por el modelo.  
- **Barras m√°s largas** ‚Üí indican que esa variable contribuy√≥ m√°s a reducir el error en los √°rboles.  

**C√≥mo leerlo:**  
1. Las primeras variables del ranking son las que el modelo us√≥ con m√°s frecuencia y mayor efecto en las divisiones.  
2. Variables con barras cortas tuvieron un impacto mucho menor en las predicciones.  
3. La comparaci√≥n permite identificar cu√°les son los **principales factores asociados a la esperanza de vida** en este dataset.  

**Qu√© nos dice:**  
- Permite detectar patrones: por ejemplo, si ‚ÄúAdult Mortality‚Äù o ‚ÄúGDP‚Äù aparecen arriba, sabemos que son variables determinantes.  
- Ofrece informaci√≥n **explicable y accionable**, √∫til para responsables de pol√≠ticas de salud o an√°lisis econ√≥mico.  


## üîé Diferencias en la importancia de variables entre XGBoost y Random Forest

Aunque ambos modelos est√°n basados en **√°rboles de decisi√≥n**, el c√°lculo de la importancia de las variables no es id√©ntico:

1. **Random Forest (bagging):**  
   - Promedia muchos √°rboles independientes entrenados sobre subconjuntos aleatorios de datos y variables.  
   - La importancia se calcula seg√∫n cu√°nto reduce la **impureza (varianza)** en los nodos a lo largo de todos los √°rboles.  
   - Tiende a repartir importancia entre variables correlacionadas.

2. **XGBoost (boosting):**  
   - Construye los √°rboles de forma **secuencial**, corrigiendo errores de predicciones anteriores.  
   - Da m√°s importancia a las variables que ayudan a mejorar el ajuste en cada iteraci√≥n.  
   - Puede concentrar la relevancia en unas pocas variables clave y dejar otras con menor peso.

üìä **Por qu√© no coinciden las top 20 variables:**  
- Cada modelo detecta y prioriza relaciones distintas.  
- Con variables correlacionadas, Random Forest reparte importancia, mientras que XGBoost selecciona la m√°s eficaz para reducir error.  
- Esto no significa que uno sea ‚Äúmejor‚Äù que otro, sino que reflejan estrategias distintas.

üí° **Conclusi√≥n:**  
Las diferencias en las variables m√°s importantes son **normales**. Ambos modelos coinciden en gran parte en las variables clave, pero difieren en el orden y en c√≥mo asignan la importancia.  
Esto refleja la naturaleza distinta de los m√©todos de **bagging (Random Forest)** y **boosting (XGBoost)**.



In [None]:
# ===================================
# 10. Importancia de variables en XGBoost (agrupadas)
# ===================================

def clean_feature_name(name):
    """Agrupa dummies de Country y Status en sus variables originales"""
    if name.startswith("Country_"):
        return "Country"
    if name.startswith("Status_"):
        return "Status"
    return name

# DataFrame de importancias
importances = pd.DataFrame({
    "Variable": X_train.columns,
    "Importancia": model.feature_importances_
})

# Reagrupar importancias
importances["Variable_grouped"] = importances["Variable"].apply(clean_feature_name)
grouped = (
    importances.groupby("Variable_grouped")["Importancia"]
    .sum()
    .reset_index()
    .sort_values(by="Importancia", ascending=False)
)

# Visualizaci√≥n top 20
plt.figure(figsize=(8,10))
sns.barplot(
    x="Importancia", 
    y="Variable_grouped", 
    data=grouped.head(20),
    hue="Importancia", 
    dodge=False, 
    legend=False, 
    palette="Blues_r"
)
plt.title("Top 20 variables m√°s importantes (XGBoost agrupado)")
plt.xlabel("Importancia")
plt.ylabel("Variable")
plt.show()

# Mostrar tabla
display(grouped.head(20))

# Convertir top 10 a lista
top_features = grouped.head(10)["Variable_grouped"].tolist()
print("Top 10 variables agrupadas:", top_features)


## **Paso 11. Comparaci√≥n: baseline vs. modelo optimizado**

Ya tenemos dos versiones del modelo:

1. **XGBoost baseline** ‚Üí Entrenado con hiperpar√°metros por defecto.  
2. **XGBoost optimizado** ‚Üí Ajustado con Optuna para minimizar el RMSE.  

Aqu√≠ comparamos ambas versiones en las tres m√©tricas (RMSE, MAE y R¬≤) para ver si la optimizaci√≥n realmente mejor√≥ el rendimiento.  


In [None]:
# ===================================
# 11. Comparaci√≥n baseline vs. optimizado
# ===================================

# --- Baseline ---
xgb_base = XGBRegressor(random_state=42)
xgb_base.fit(X_train, y_train)
preds_base = xgb_base.predict(X_valid)

baseline_results = {
    "RMSE": np.sqrt(mean_squared_error(y_valid, preds_base)),
    "MAE": mean_absolute_error(y_valid, preds_base),
    "R2": r2_score(y_valid, preds_base)
}

# --- Optimizado con Optuna ---
xgb_best = XGBRegressor(**study.best_params, random_state=42)
xgb_best.fit(X_train, y_train)
preds_best = xgb_best.predict(X_valid)

optimized_results = {
    "RMSE": np.sqrt(mean_squared_error(y_valid, preds_best)),
    "MAE": mean_absolute_error(y_valid, preds_best),
    "R2": r2_score(y_valid, preds_best)
}

# --- Comparaci√≥n ---
comparison_df = pd.DataFrame([baseline_results, optimized_results], 
                             index=["Baseline", "Optimizado"])

print("üìä Comparaci√≥n de XGBoost baseline vs. optimizado:\n")
display(comparison_df.style.format({"RMSE": "{:.3f}", "MAE": "{:.3f}", "R2": "{:.3f}"})
        .background_gradient(cmap="Blues"))


# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])

    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results


# ===================================
# Guardar resultados en CSV
# ===================================

# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])

    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results



# ===================================
# Guardar m√©tricas XGBoost (baseline)
# ===================================
results_xgb_base = pd.DataFrame([{
    "Modelo": "XGBoost (baseline)",
    "RMSE": baseline_results["RMSE"],
    "MAE": baseline_results["MAE"],
    "R¬≤": baseline_results["R2"]
}])

results_xgb_base.to_csv("../data/results_xgboost_baseline.csv", index=False)

print("üìä XGBoost (baseline)")
print(f"RMSE: {baseline_results['RMSE']:.3f}")
print(f"MAE: {baseline_results['MAE']:.3f}")
print(f"R¬≤: {baseline_results['R2']:.3f}")
print("‚úÖ Resultados guardados en data/results_xgboost_baseline.csv")


# ===================================
# Guardar m√©tricas XGBoost (Optuna / optimizado)
# ===================================
results_xgb_optuna = pd.DataFrame([{
    "Modelo": "XGBoost (optuna)",
    "RMSE": optimized_results["RMSE"],
    "MAE": optimized_results["MAE"],
    "R¬≤": optimized_results["R2"]
}])

results_xgb_optuna.to_csv("../data/results_xgboost_optuna.csv", index=False)

print("üìä XGBoost (optuna)")
print(f"RMSE: {optimized_results['RMSE']:.3f}")
print(f"MAE: {optimized_results['MAE']:.3f}")
print(f"R¬≤: {optimized_results['R2']:.3f}")
print("‚úÖ Resultados guardados en data/results_xgboost_optuna.csv")



## **Paso 12. Conclusiones finales sobre XGBoost**

Tras entrenar y evaluar XGBoost en este dataset de esperanza de vida, podemos resumir:

- **Baseline**: el modelo ya ofrece un rendimiento s√≥lido gracias a su naturaleza de boosting, que combina m√∫ltiples √°rboles secuenciales.  
- **Optimizaci√≥n con Optuna**: los hiperpar√°metros ajustados permitieron reducir el error (RMSE y MAE) y mejorar el R¬≤.  
  - Esto significa que el modelo se adapta mejor a la complejidad de los datos sin sobreajustarse.  
- **Interpretaci√≥n del gr√°fico de convergencia**: observamos que el RMSE fue descendiendo en las sucesivas pruebas de Optuna hasta estabilizarse en un valor cercano al m√≠nimo. Esto nos confirma que la b√∫squeda fue efectiva.  
- **Comparaci√≥n global**:  
  - XGBoost supera a un √°rbol de decisi√≥n simple, que tiende a sobreajustar.  
  - Tambi√©n mejora a Random Forest en este dataset, ya que el boosting maneja mejor las interacciones complejas y reduce el sesgo.  
  - Frente a modelos lineales (como Regresi√≥n Lineal o Ridge), XGBoost tiene ventaja porque los datos no siguen relaciones puramente lineales.

‚úÖ **Conclusi√≥n principal**:  
XGBoost optimizado es el modelo m√°s robusto y preciso en este proyecto, y se justifica usarlo como **modelo final para el PMV**.  


In [None]:
print("üìå Conclusiones:")
print("- Baseline XGBoost ya era competitivo, pero tras optimizaci√≥n baj√≥ el RMSE y subi√≥ el R¬≤.")
print("- Optuna encontr√≥ hiperpar√°metros que reducen sobreajuste y capturan mejor la relaci√≥n entre variables.")
print("- Frente a Decision Tree y Random Forest, XGBoost se adapta mejor a la complejidad del dataset.")
print("- Frente a modelos lineales, maneja relaciones no lineales y m√∫ltiples interacciones de forma m√°s eficaz.")
print("üëâ Modelo final recomendado: XGBoost optimizado.")
