# Modelo Aditivo Generalizado (GAM) en el Problema de Viviendas de Boston

Este notebook ajusta un **GAM** para predecir **MEDV** (valor mediano de la vivienda) a partir de dos predictores:
- **LSTAT** — % de población de estatus socioeconómico bajo
- **RM** — número promedio de habitaciones por vivienda

Utilizamos `pygam` para el modelo y lo comparamos con una regresión lineal simple.

> ⚠️ **Disponibilidad del dataset**: El dataset original de Boston está deprecado/eliminado de algunos cargadores.  
> El código a continuación prueba varias opciones. Si ninguna está disponible en tu entorno, generará un pequeño dataset **sintético similar al de Boston** para que puedas ejecutar el flujo de trabajo.

In [None]:
# Si pygam no está disponible, mostrar un mensaje útil
try:
    from pygam import LinearGAM, s
except ImportError as e:
    raise ImportError(
        "pygam no está instalado. Instalar con:\n"
        "  pip install pygam\n"
        "Luego ejecuta esta celda nuevamente."
    ) from e

# TODO: Importar las librerías necesarias
# - numpy as np
# - pandas as pd
# - matplotlib.pyplot as plt
# - train_test_split from sklearn.model_selection
# - r2_score, mean_absolute_error from sklearn.metrics

In [None]:
# TODO: Cargar el dataset BostonHousing.csv desde la carpeta data
# df = pd.read_csv('...')
# df.head()

## División entrenamiento/prueba y ajuste de un GAM: `MEDV ~ s(LSTAT) + s(RM)`

In [None]:
# TODO: Preparar las variables X e y
# X debe contener las columnas 'LSTAT' y 'RM'
# y debe contener la columna 'MEDV'
# X = df[['LSTAT','RM']].values
# y = df['MEDV'].values

# TODO: Dividir en conjuntos de entrenamiento y prueba
# Usar test_size=0.25 y random_state=42
# X_train, X_test, y_train, y_test = train_test_split(...)

# TODO: Ajustar un GAM con términos suaves para cada característica
# Usar LinearGAM con s(0) + s(1) y aplicar gridsearch
# gam = LinearGAM(...).gridsearch(...)

# TODO: Mostrar los parámetros de suavizado seleccionados
# print("Parámetros de suavizado seleccionados (lambdas):", gam.lam)

## Evaluación

In [None]:
# TODO: Realizar predicciones con el modelo GAM
# y_pred = gam.predict(...)

# TODO: Calcular y mostrar las métricas de evaluación
# R^2 y MAE en el conjunto de prueba
# print("GAM — R^2 de prueba:", round(r2_score(...), 3))
# print("GAM — MAE de prueba:", round(mean_absolute_error(...), 3))

## Dependencia parcial (funciones suaves)

In [None]:
# Pre-relleno: Código para visualizar las dependencias parciales
fig, axes = plt.subplots(1, 2, figsize=(10, 4))
for i, ax in enumerate(axes):
    XX = gam.generate_X_grid(term=i)
    ax.plot(XX[:, i], gam.partial_dependence(term=i, X=XX))
    ax.plot(XX[:, i], gam.partial_dependence(term=i, X=XX, width=0.95)[1], linestyle='--')
    ax.set_xlabel(['LSTAT','RM'][i])
    ax.set_ylabel('Efecto parcial en MEDV')
    ax.set_title(f'Dependencia Parcial de {["LSTAT","RM"][i]}')
plt.tight_layout()
plt.show()

## Comparativa con la regresión lineal

In [None]:
# TODO: Importar LinearRegression
# from sklearn.linear_model import LinearRegression

# TODO: Ajustar un modelo de regresión lineal
# lr = LinearRegression().fit(...)

# TODO: Realizar predicciones con el modelo lineal
# lr_pred = lr.predict(...)

# TODO: Calcular y mostrar las métricas para el modelo lineal
# print("Regresión Lineal — R^2 de prueba:", round(r2_score(...), 3))
# print("Regresión Lineal — MAE de prueba:", round(mean_absolute_error(...), 3))

### Preguntas para reflexionar

1. **Interpretación de las funciones suaves:**
   - ¿Qué patrones observas en la dependencia parcial de LSTAT?
   - ¿Cómo se comporta la función suave para RM?
   - ¿Son estos patrones lineales o no lineales?

2. **Comparación de modelos:**
   - ¿Cuál modelo tiene mejor rendimiento según R² y MAE?
   - ¿Qué ventajas ofrece GAM sobre la regresión lineal?
   - ¿En qué situaciones preferirías usar GAM?

3. **Interpretabilidad:**
   - ¿Cómo mantiene GAM la interpretabilidad aditiva?
   - ¿Qué información adicional proporcionan las gráficas de dependencia parcial?

### Notas adicionales
- La función suave para **LSTAT** a menudo muestra una **disminución no lineal** en `MEDV` a medida que `LSTAT` aumenta.
- La función suave para **RM** típicamente muestra un **aumento no lineal** con posible saturación.
- GAM mantiene la **interpretabilidad aditiva** (puedes discutir el efecto de cada característica por separado) mientras captura la no linealidad.