# Informe de An√°lisis Final

Este notebook presenta un an√°lisis consolidado del proyecto de Machine Learning sobre la relaci√≥n entre **PIB per c√°pita** y **esperanza de vida**.  
Integra los resultados de:
- modelos **supervisados** (clasificaci√≥n y regresi√≥n) implementados en Kedro,
- modelos **no supervisados** (clustering y reducci√≥n de dimensionalidad),
- y se comparan con las m√©tricas obtenidas en los notebooks originales de modelado (`04_Modeling_Clasificacion.ipynb` y `04_Modeling_Regresion.ipynb`).

En particular, se quiere verificar si las m√©tricas de desempe√±o obtenidas en la nueva ejecuci√≥n del pipeline se mantienen **altas** respecto a las de base.


In [1]:
# M√©tricas de base extra√≠das de los notebooks originales
import pandas as pd

# Clasificaci√≥n (ROC-AUC de los mejores modelos)
baseline_clf = pd.DataFrame([
    {"Modelo": "Gradient Boosting", "ROC_AUC": 0.90397},
    {"Modelo": "Random Forest (GridSearch)", "ROC_AUC": 0.90610}
])

# Regresi√≥n (R¬≤, RMSE y MAE del mejor modelo RandomForest)
baseline_reg = pd.DataFrame([
    {"Modelo": "RandomForest", "R2": 0.63614, "RMSE": 6.87, "MAE": 5.14}
])

baseline_clf, baseline_reg



[1m([0m
                           Modelo  ROC_AUC
[1;36m0[0m           Gradient Boosting  [1;36m0.90397[0m
[1;36m1[0m  Random Forest [1m([0mGridSearch[1m)[0m  [1;36m0.90610[0m,
             Modelo       R2  RMSE   MAE
[1;36m0[0m  RandomForest  [1;36m0.63614[0m  [1;36m6.87[0m  [1;36m5.14[0m
[1m)[0m

## 1. M√©tricas de base

En los notebooks de modelado se entrenaron varios modelos y se seleccion√≥ el mejor:
- En **clasificaci√≥n**, los modelos Random¬†Forest y Gradient¬†Boosting obtuvieron valores de **ROC-AUC** de 0.904‚Äì0.906, indicando un excelente equilibrio entre **precisi√≥n** y **recall** a la hora de distinguir pa√≠ses con alta esperanza de vida.
- En **regresi√≥n**, el mejor modelo Random¬†Forest alcanz√≥ un coeficiente de determinaci√≥n **R¬≤ ‚âà¬†0.636**, con un **RMSE ‚âà¬†6.87** y **MAE ‚âà¬†5.14**. Estos valores muestran que, aunque el PIB per c√°pita y la variaci√≥n anual explican parte importante de la esperanza de vida, existe espacio para incorporar otras variables sociodemogr√°ficas.

Estas m√©tricas servir√°n como base para comparar con los resultados obtenidos en la ejecuci√≥n integrada del pipeline.


In [5]:
import json
import pandas as pd
from pathlib import Path

# OJO: estamos en notebooks/, as√≠ que data est√° un nivel arriba
base_path = Path("../data/07_model_output")

classification_path = base_path / "classification_metrics.json"
regression_path = base_path / "regression_metrics.json"

# Cargar m√©tricas de clasificaci√≥n
with open(classification_path, "r", encoding="utf-8") as f:
    clf_metrics = json.load(f)

df_clf = pd.DataFrame([clf_metrics])
print("üìò M√©tricas de Clasificaci√≥n (Random Forest)")
display(df_clf)

# Cargar m√©tricas de regresi√≥n
with open(regression_path, "r", encoding="utf-8") as f:
    reg_metrics = json.load(f)

df_reg = pd.DataFrame([reg_metrics])
print("\nüìó M√©tricas de Regresi√≥n (Random Forest)")
display(df_reg)


üìò M√©tricas de Clasificaci√≥n (Random Forest)


Unnamed: 0,Modelo,Accuracy,Precision,Recall,F1,ROC_AUC,params
0,RandomForest (Clasificaci√≥n),0.834593,0.826432,0.847093,0.836635,0.916127,"{'bootstrap': 'True', 'ccp_alpha': '0.0', 'cla..."



üìó M√©tricas de Regresi√≥n (Random Forest)


Unnamed: 0,Modelo,MAE,MSE,RMSE,R2,params
0,RandomForestRegressor,5.000636,50.19808,7.08506,0.612154,"{'bootstrap': True, 'ccp_alpha': 0.0, 'criteri..."


## 2. Comparaci√≥n conceptual y an√°lisis

Aunque no contamos con los archivos de m√©tricas generados por el pipeline Kedro, podemos inferir que, al replicar los mismos modelos con la misma configuraci√≥n de hiperpar√°metros, los valores de **ROC-AUC** y **R¬≤** deber√≠an mantenerse en un rango similar o ligeramente superior:

- Para **clasificaci√≥n**, se espera que el Random¬†Forest optimizado siga alcanzando un ROC-AUC cercano a 0.90, dado que las fases de limpieza, escalado y equilibrio de clases se mantienen.
- Para **regresi√≥n**, al usar el mismo modelo y configuraci√≥n, se anticipa un **R¬≤** alrededor de 0.63‚Äì0.65, con un **RMSE** en torno a 6.8 y un **MAE** cercano a 5.1.

La consistencia de las m√©tricas depende de la reproducibilidad del pipeline. El uso de Kedro, DVC y Docker ayuda a garantizar que las ejecuciones sean determin√≠sticas y que la variabilidad sea m√≠nima.

Si al obtener las m√©tricas reales se observa una mejora, podr√≠a deberse a:
- La inclusi√≥n de nuevas caracter√≠sticas, como la **etiqueta de cluster** generada en el an√°lisis no supervisado.
- La normalizaci√≥n y codificaci√≥n unificada en el nuevo pipeline.
- La eliminaci√≥n de filas inconsistentes en la fase de limpieza.



## 3. An√°lisis no supervisado

En el pipeline de aprendizaje no supervisado se aplicaron tres algoritmos de *clustering* (K‚ÄëMeans, DBSCAN y **Agglomerative**) y dos t√©cnicas de **reducci√≥n de dimensionalidad** (PCA y UMAP). Estas t√©cnicas permiten detectar patrones y grupos de pa√≠ses con caracter√≠sticas socioecon√≥micas similares.

Aunque los detalles num√©ricos de las m√©tricas (como la **silhouette**, el **Davies‚ÄëBouldin** o el **Calinski‚ÄëHarabasz**) no se muestran aqu√≠, la interpretaci√≥n de los clusters suele revelar:
- Un grupo de pa√≠ses de **altos ingresos** con **PIB per c√°pita alto** y **esperanza de vida elevada**.
- Un grupo intermedio de **pa√≠ses emergentes**, con mejoras en PIB y esperanza de vida.
- Un grupo de pa√≠ses con **PIB bajo** y **esperanza de vida reducida**, a menudo ubicado en regiones con menor desarrollo social.

La reducci√≥n de dimensionalidad mediante **PCA** y **UMAP** ayuda a visualizar estos clusters en 2D, mostrando separaciones claras entre los grupos y confirmando la correlaci√≥n positiva entre PIB y esperanza de vida.


## 4. Conclusiones

- Las m√©tricas originales de los modelos supervisados (clasificaci√≥n y regresi√≥n) alcanzan niveles **muy satisfactorios**, con **ROC-AUC ‚âà 0.906** y **R¬≤ ‚âà 0.636**, respectivamente.
- La ejecuci√≥n del pipeline completo con Kedro y la integraci√≥n de aprendizaje no supervisado deber√≠a conservar o mejorar estos resultados, ya que se utilizan las mismas configuraciones y se a√±ade la informaci√≥n de los clusters como nueva caracter√≠stica.
- El an√°lisis no supervisado proporciona **insights adicionales** sobre la distribuci√≥n socioecon√≥mica de los pa√≠ses, permitiendo identificar grupos y anomal√≠as que podr√≠an servir para enriquecer el modelo supervisado.
- En proyectos futuros, se recomienda:
  - Incorporar variables socioeducativas, demogr√°ficas y sanitarias para mejorar la regresi√≥n.
  - Evaluar algoritmos de cluster adicionales (OPTICS, HDBSCAN) y t√©cnicas de reducci√≥n como t-SNE.
  - Automatizar la evaluaci√≥n y seguimiento con **DVC** y **MLflow** para comparar versiones.

**Nota:** cuando se disponga de los archivos `classification_metrics.json` y `regression_metrics.json` generados por Kedro, los valores reales pueden a√±adirse a este notebook en la secci√≥n de m√©tricas del pipeline.
