# 	INTELIGENCIA ARTIFICIAL (1INF24) 2024-2


## Laboratorio 4: Algoritmos de Regresión

## Indicaciones generales:

Indicaciones generales:

- Duración: **120 minutos (2 horas)**.
- **Las respuestas deben ser precisas**, no se considerará puntaje a respuestas que no contesten a lo solicitado.
- Subir el cuadernillo con el nombre **Lab4_código.ipynb**, donde **código** es su código PUCP de 8 dígitos.  
- Se tomará en cuenta en la calificación el uso de comentarios relevantes.
- Se puede hacer uso del **material del curso**.
- Cualquier indicio de **plagio** o uso de **IA** resultará en la anulación de la prueba.

## Objetivos:
- Evaluar y comparar el desempeño de diferentes algoritmos de regresión.

# Explicación del caso

Usted recibe un conjunto de datos que incluye características demográficas, económicas y sanitarias de diferentes países desde el año 2000 hasta el 2015.

El objetivo de este laboratorio es evaluar modelos de regresión para predecir la esperanza de vida de personas de un pais dado,  descrito por sus características listadas en la tabla de abajo. <font color='blue'>El modelo debe poder ser aplicanle incluso en paises que no son parte del conjunto de  entrenamiento</font>

VARIABLE | DESCRIPCIÓN | TIPO
---------|-------------|-----
**Country** | País | Categórica
**Year** | Año del registro | Numérica
**Status** | Estado del país (Desarrollado o en desarrollo) | Categórica
**Life expectancy** | Esperanza de vida en años | Numérica
**Adult Mortality** | Probabilidad de morir entre 15 y 60 años por cada 1,000 habitantes | Numérica
**under-one deaths** | Muertes de menores de 1 año por cada 1,000 habitantes | Numérica
**Alcohol** | Consumo de alcohol per cápita (litros de alcohol puro) | Numérica
**Percentage expenditure** | Gasto en salud como % del PIB per cápita | Numérica
**Hepatitis B** | Cobertura de inmunización contra la hepatitis B (% en niños de 1 año) | Numérica
**Measles** | Casos de sarampión por cada 1,000 habitantes | Numérica
**BMI** | Índice de masa corporal promedio | Numérica
**Under-five deaths** | Muertes de menores de 5 años por cada 1,000 habitantes | Numérica
**Polio** | Cobertura de inmunización contra la polio (% en niños de 1 año) | Numérica
**Total expenditure** | Gasto gubernamental total en salud como % del gasto total | Numérica
**Diphtheria** | Cobertura de inmunización DTP3 (% en niños de 1 año) | Numérica
**HIV/AIDS** | Muertes por VIH/SIDA por cada 1,000 nacidos vivos (0–4 años) | Numérica
**GDP** | Producto Interno Bruto per cápita en USD | Numérica
**Population** | Población total del país | Numérica
**Thinness 10-19 years** | Prevalencia de delgadez en niños/adolescentes de 10 a 19 años (%) | Numérica
**Thinness 5-9 years** | Prevalencia de delgadez en niños de 5 a 9 años (%) | Numérica
**Income composition of resources** | Índice de desarrollo humano por composición de ingresos (0 a 1) | Numérica
**Schooling** | Años promedio de escolaridad | Numérica


In [None]:
# Importación de librerías
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

from sklearn.linear_model import LinearRegression   # para modelos de regresion lineal
from sklearn.linear_model import Ridge   # Ridge regression
from sklearn.linear_model import Lasso   # Lasso regression
from sklearn.linear_model import ElasticNet  # ElasticNet regression
from sklearn.neighbors import KNeighborsRegressor  # Knn regression
from sklearn.tree import DecisionTreeRegressor   # Decision Trees regression

from sklearn.model_selection import train_test_split  # para partir los datos en conjuntos de entrenamiento y validacion
from sklearn.model_selection import KFold  # para partir la data en k-folds
from sklearn.model_selection import cross_val_score   # para evaluar algoritmos en cross validacion

from sklearn.metrics import mean_squared_error, mean_absolute_error   # para manejar metricas de desempeño
from sklearn.metrics import explained_variance_score  # para hacer reportes de resultados de clasificacion
from sklearn.metrics import r2_score  # para manejar matrices de confusion

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import RobustScaler

from sklearn.pipeline import make_pipeline

warnings.filterwarnings("ignore")

# Parte 1: Preparación de la data, separación en train y test (6 puntos)

Importar la base de datos y mostrar las 5 primeras filas. Adicionalmente, verificar los tipos de datos y datos faltantes de cada variable.

In [None]:
# Lectura del dataset
df = pd.read_csv('Life Expectancy Data.csv')
df.head()

In [None]:
# Mostrar todas las columnas, el tipo de dato de cada columna y sus datos faltantes
resumen = pd.DataFrame({
    'columna': df.columns,
    'tipo_dato': df.dtypes.values,
    'nulos (%)': df.isnull().sum().values / len(df) * 100,
})

print(resumen)

**1)** Analizar y explicar lo que realiza el siguiente bloque de código. (1 punto)

In [None]:
threshold = 0.25
missing_fraction = df.isnull().mean()
cols_to_drop = missing_fraction[missing_fraction > threshold].index
df = df.drop(columns=cols_to_drop)
print(f">{threshold*100}%: {list(cols_to_drop)}")

**Análisis:** #COMPLETAR

**2)** Realice el análisis de correlación entre las variables numéricas. Si dos
variables tienen una correlación de más de 0.92, mantenga solo una y justifique su elección (1 punto)

In [None]:
# No necesita modificar esta celda
correlation_matrix = df.corr(numeric_only=True)
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap="coolwarm", center=0)
plt.title("Matriz de correlación entre variables numéricas")
plt.tight_layout()
plt.show()

In [None]:
# Realice la selección de las columnas que crea conveniente
# COMPLETAR

**Análisis:** #COMPLETAR

**3)** Analice las columnas que contienen valores faltantes.

In [None]:
# No necesita modificar esta celda
missing_values = df.isna().sum()[df.isnull().sum() > 0]
missing_percent = (missing_values / len(df)) * 100
print(missing_percent)

**3.1)** Dropee los nulos de la variable objetivo y responda. ¿Por qué se tomó esta decisión? (1 punto)

In [None]:
# Realizar la eliminación de registros con nulos en la variable target
# COMPLETAR

**Análisis:** #COMPLETAR

**3.2)** Ahora, impute el resto de variables con valores faltantes y justifique su elección de método de imputación (1 punto)

In [None]:
# Realizar la imputación de nulos
# COMPLETAR

**Análisis:** #COMPLETAR

**4)** Analice el código de la siguiente celda y responda. ¿Por qué se está eliminando la columna? (1 punto)

**Tip**: Considere que el objetivo del modelo es predecir la esperanza de vida de cualquier país dado, descrito por sus atributos

In [None]:
# No modifique esta celda
df = df.drop(['Country'], axis=1)

**Análisis:** #COMPLETAR

**5)** Realice la codificación de la variable Status y justifique su elección. (0.5 puntos)

In [None]:
# Realizar la codificación la variable Status
# COMPLETAR

**6)** Ahora debe realice el split en test y train (Use random_state=42, test_size=0.2) e imprimir los resultados. (0.5 ptos)

In [None]:
# Separación  del dataset en atributos (X)  y  target (y)
y = df['Life expectancy']   #extrae la variable target
X = df.drop(['Life expectancy'], axis=1)  # extrae las variables de entrada (sin target)

#Realizar la división de los datos en subconjuntos
x_train,x_test,y_train,y_test = # COMPLETAR

# Impresión el tamaño del dataset de entrenamiento y de prueba
print("Tamaño del conjunto de entrenamiento:", ?) # COMPLETAR
print("Tamaño del conjunto de prueba:", ?) # COMPLETAR

# Parte 2: Entrenamiento de algoritmos de regresión y análisis de resultados (7.5 puntos)

In [None]:
# Definimos el pool de algoritmos de ML a evaluar
algos = []

algos.append(('LinearReg', LinearRegression()))
algos.append(('Ridge', Ridge()))
algos.append(('Lasso', Lasso()))
algos.append(('ElasticNet', ElasticNet()))
algos.append(('KNN_5', KNeighborsRegressor(n_neighbors=5)))
algos.append(('KNN_10', KNeighborsRegressor(n_neighbors=10)))
algos.append(('RegTrees', DecisionTreeRegressor()))
algos.append(('RegTrees_10', DecisionTreeRegressor(max_depth=10)))

**8)** Entrene los modelos almacenados en la lista de algoritmos usando cross validation. Use CV con 10 folds, random_state=42 y scoring='neg_mean_squared_error'. (0.5 puntos)

In [None]:
# COMPLETAR

# Evaluamos cada algoritmo de ML en estrategia de 10-fold-CV
results = []
names = []

# genera el particionamiento de 10 folds que seran usados en cada evaluacion
seed = ? # COMPLETAR
kfold = KFold(n_splits=?, random_state=seed, shuffle= True)  # especifica el particionador de datos a 10-folds CV

## Evalua cada algoritmo
for algoname, algo in algos:
    cv_results = cross_val_score(algo, ?, ?, cv=?, scoring=?) # COMPLETAR
    results.append(cv_results)
    names.append(algoname)
    print("{}: {} ({})".format(algoname, cv_results.mean(), cv_results.std()))

**9)** Observe los boxplots de las metricas evaluadas de los algoritmos en cuestion.

In [None]:
# No necesita modificar esta celda
fig = plt.figure()
fig.suptitle('neg_mean_squared_error  obtenidas en 10-fold-CV')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(names)
plt.show()

**9.1)** Interprete la gráfica de desempeño (boxplots), ¿qué se puede decir sobre los modelos con mejor desempeño y conjunto de datos trabajado?. Responda considerando el tamaño de los bigotes y la mediana del error cuadrático medio. (2 puntos)

**Respuesta**: COMPLETAR

**9.2)** Interprete la gráfica de desempeño (boxplots), ¿a qué puede deber se puede deber el bajo desempeño de algunos modelos?. Considere las características del conjunto de datos y su preprocesamiento (2 puntos)

**Respuesta**: COMPLETAR

**10)** Entrene un modelo final con toda la data de train con el algoritmo elegido. Muestre las metricas obtenidas en el conjunto de test (Mean squared error, Mean absolute error, Explained variance, R2 score). Comente los resultados (1.5 puntos)

In [None]:
# COMPLETAR

# Reentrena modelo con todos los datos de entrenamiento y lo prueba en el conjunto de test
model = ? # COMPLETAR
? # COMPLETAR
y_predicted = ? # COMPLETAR

print("Mean squared error:", mean_squared_error(y_test, y_predicted))
print("Mean absolute error:", mean_absolute_error(y_test, y_predicted))
print("Explained variance score:",explained_variance_score(y_test, y_predicted) )
print("R2 score:", r2_score(y_test, y_predicted))

**Respuesta**: COMPLETAR

**11)** Analice el scatter plot comparando  los valores reales vs predichos de forma grafica y responda. (1.5 puntos)

In [None]:
# No necesita modificar esta celda
fig, ax = plt.subplots( figsize=[7,7])
ax.scatter(y_test, y_predicted, edgecolors=(0, 0, 0))
ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4)
ax.set_xlabel('Real')
ax.set_ylabel('Predicted')
plt.show()

* Observando el gráfico de dispersión, ¿consideras que el modelo proporciona buenas predicciones? ¿Hay alguna tendencia o patrón particular que notes en la dispersión de los puntos?

**Respuesta**: COMPLETAR

# Parte 3: Uso de pipelines y escaladores para mejorar el modelo (6.5 puntos)

Ahora se realizará el entrenamiento de los modelos anteriores utilizando pipelines con un escalador.

In [None]:
# Definimos el pool de pipleines de ML (escalador + algoritmo de ML) a evaluar
pipelines = []

pipelines.append(('LinearReg', make_pipeline(MinMaxScaler(), LinearRegression())))
pipelines.append(('Ridge', make_pipeline(MinMaxScaler(), Ridge())))
pipelines.append(('Lasso', make_pipeline(MinMaxScaler(), Lasso())))
pipelines.append(('ElasticNet', make_pipeline(MinMaxScaler(), ElasticNet())))
pipelines.append(('KNN_5', make_pipeline(MinMaxScaler(), KNeighborsRegressor(n_neighbors=5))))
pipelines.append(('KNN_10', make_pipeline(MinMaxScaler(), KNeighborsRegressor(n_neighbors=10))))
pipelines.append(('RegTrees', make_pipeline(MinMaxScaler(), DecisionTreeRegressor())))
pipelines.append(('RegTrees_10', make_pipeline(MinMaxScaler(), DecisionTreeRegressor(max_depth=10))))

**12)** Entrene los modelos en los pipelines usando cross validation. Use CV con 10 folds, random_state=42 y scoring='neg_mean_squared_error'. (0.5 puntos)

In [None]:
# COMPLETAR

# Evaluamos cada algoritmo de ML en estrategia de 10-fold-CV
results = []
names = []

# genera el particionamiento de 10 folds que seran usados en cada evaluacion
seed = ? # COMPLETAR
kfold = KFold(n_splits=?, random_state=seed, shuffle= True)  # especifica el particionador de datos a 10-folds CV

## Evalua cada algoritmo
for pipelinename, pipeline in pipelines:
    cv_results = cross_val_score(algo, ?, ?, cv=?, scoring=?) # COMPLETAR
    results.append(cv_results)
    names.append(pipelinename)
    print("{}: {} ({})".format(pipelinename, cv_results.mean(), cv_results.std()))

**13)** Observe los boxplots de las metricas evaluadas de los algoritmos en cuestion.

In [None]:
# No necesita modificar esta celda
fig = plt.figure()
fig.suptitle('neg_mean_squared_error  obtenidas en 10-fold-CV')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(names)
plt.show()

* Interprete la gráfica de desempeño (boxplots) y compare con los resultados de la parte 2, ¿qué se puede decir sobre los escaladores y conjunto de datos trabajado?, ¿cómo ha afectado el escalador a los resultados obtenidos por los modelos? (2 puntos)

**Respuesta**: COMPLETAR

**14)** Entrene un modelo  final con toda la data de train con el pipeline elegido. Observe las metricas obtenidas en el conjunto de test (Mean squared error, Mean absolute error, Explained variance, R2 score). (0.5 puntos)

In [None]:
# COMPLETAR

# Reentrena modelo con todos los datos de entrenamiento y lo prueba en el conjunto de test
pipeline = make_pipeline(?) # COMPLETAR
? # COMPLETAR

y_predicted = ? # COMPLETAR

print("Mean squared error:", mean_squared_error(y_test, y_predicted))
print("Mean absolute error:", mean_absolute_error(y_test, y_predicted))
print("Explained variance score:",explained_variance_score(y_test, y_predicted) )
print("R2 score:", r2_score(y_test, y_predicted))

**15)** Observe el gráfico de dispersión que compara los valores reales vs predichos.

In [None]:
# No necesita modificar esta celda
fig, ax = plt.subplots(figsize=[7,7])
ax.scatter(y_test, y_predicted, edgecolors=(0, 0, 0))
ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4)
ax.set_xlabel('Real')
ax.set_ylabel('Predicted')
plt.show()

* Comente las diferencias en el resultados respecto a la parte 2. ¿Cuál modelo seleccionaría? (1.5 puntos)

**Respuesta**: COMPLETAR

**16)** Sugiera **dos** mejoras que podría realizar (en procesamiento y/o algoritmos) para mejorar las predicciones de los modelos y sustente sus elecciones (2 puntos)

**Respuesta**: COMPLETAR