<h1><center>Laboratorio 9: Optimización de modelos 💯</center></h1>

<center><strong>MDS7202: Laboratorio de Programación Científica para Ciencia de Datos</strong></center>

### Cuerpo Docente:

- Profesor: Ignacio Meza, Gabriel Iturra
- Auxiliar: Sebastián Tinoco
- Ayudante: Arturo Lazcano, Angelo Muñoz

### Equipo: SUPER IMPORTANTE - notebooks sin nombre no serán revisados

- Nombre de alumno 1: Sebastián Ojeda G.


## Temas a tratar

- Predicción de demanda usando `xgboost`
- Búsqueda del modelo óptimo de clasificación usando `optuna`
- Uso de pipelines.

## Reglas:

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer material del curso que estimen conveniente.

### Objetivos principales del laboratorio

- Optimizar modelos usando `optuna`
- Recurrir a técnicas de *prunning*
- Forzar el aprendizaje de relaciones entre variables mediante *constraints*
- Fijar un pipeline con un modelo base que luego se irá optimizando.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre DataFrames.

### **Link de repositorio de GitHub:** `https://github.com/sebajedi23/MDS7202`

# Importamos librerias útiles

In [1]:
!pip install -qq xgboost optuna

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m409.6/409.6 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m226.8/226.8 kB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.6/78.6 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
#Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.metrics import make_scorer
from sklearn.preprocessing import FunctionTransformer, OneHotEncoder, StandardScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.dummy import DummyRegressor

#Optuna
import optuna
from optuna.integration import XGBoostPruningCallback
from optuna.visualization import plot_optimization_history, plot_parallel_coordinate, plot_param_importances

#Otros
import pandas as pd
import numpy as np
from datetime import datetime
from xgboost import XGBRegressor
import pickle

In [3]:
# Si usted está utilizando Colabolatory le puede ser útil este código para cargar los archivos.
try:
    from google.colab import drive
    drive.mount("/content/drive")
    path = '/content/drive/MyDrive/Colab Notebooks/Laboratorio de programación científica para ciencia de datos/Lab 9/'
except:
    print('Ignorando conexión drive-colab')

Mounted at /content/drive


# 1. El emprendimiento de Fiu

Tras liderar de manera exitosa la implementación de un proyecto de ciencia de datos para caracterizar los datos generados en Santiago 2023, el misterioso corpóreo **Fiu** se anima y decide levantar su propio negocio de consultoría en machine learning. Tras varias e intensas negociaciones, Fiu logra encontrar su *primera chamba*: predecir la demanda (cantidad de venta) de una famosa productora de bebidas de calibre mundial. Como usted tuvo un rendimiento sobresaliente en el proyecto de caracterización de datos, Fiu lo contrata como *data scientist* de su emprendimiento.

Para este laboratorio deben trabajar con los datos `sales.csv` subidos a u-cursos, el cual contiene una muestra de ventas de la empresa para diferentes productos en un determinado tiempo.

Para comenzar, cargue el dataset señalado y visualice a través de un `.head` los atributos que posee el dataset.

<i><p align="center">Fiu siendo felicitado por su excelente desempeño en el proyecto de caracterización de datos</p></i>
<p align="center">
  <img src="https://media-front.elmostrador.cl/2023/09/A_UNO_1506411_2440e.jpg">
</p>

In [4]:
#Creamos un DataFrame a partir de los datos
df = pd.read_csv(path + 'sales.csv')
df['date'] = pd.to_datetime(df['date'])

df.head()

Unnamed: 0,id,date,city,lat,long,pop,shop,brand,container,capacity,price,quantity
0,0,2012-01-31,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,glass,500ml,0.96,13280
1,1,2012-01-31,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,plastic,1.5lt,2.86,6727
2,2,2012-01-31,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,can,330ml,0.87,9848
3,3,2012-01-31,Athens,37.97945,23.71622,672130,shop_1,adult-cola,glass,500ml,1.0,20050
4,4,2012-01-31,Athens,37.97945,23.71622,672130,shop_1,adult-cola,can,330ml,0.39,25696


## 1.1 Generando un Baseline (0.5 puntos)

<p align="center">
  <img src="https://media.tenor.com/O-lan6TkadUAAAAC/what-i-wnna-do-after-a-baseline.gif">
</p>

Antes de entrenar un algoritmo, usted recuerda los apuntes de su magíster en ciencia de datos y recuerda que debe seguir una serie de *buenas prácticas* para entrenar correcta y debidamente su modelo. Después de un par de vueltas, llega a las siguientes tareas:

1. Separe los datos en conjuntos de train (70%), validation (20%) y test (10%). Fije una semilla para controlar la aleatoriedad.
2. Implemente un `FunctionTransformer` para extraer el día, mes y año de la variable `date`. Guarde estas variables en el formato categorical de pandas.
3. Implemente un `ColumnTransformer` para procesar de manera adecuada los datos numéricos y categóricos. Use `OneHotEncoder` para las variables categóricas.
4. Guarde los pasos anteriores en un `Pipeline`, dejando como último paso el regresor `DummyRegressor` para generar predicciones en base a promedios.
5. Entrene el pipeline anterior y reporte la métrica `mean_absolute_error` sobre los datos de validación. ¿Cómo se interpreta esta métrica para el contexto del negocio?
6. Finalmente, vuelva a entrenar el `Pipeline` pero esta vez usando `XGBRegressor` como modelo **utilizando los parámetros por default**. ¿Cómo cambia el MAE al implementar este algoritmo? ¿Es mejor o peor que el `DummyRegressor`?
7. Guarde ambos modelos en un archivo .pkl (uno cada uno)

In [5]:
#1. Separamos los datos en conjuntos de train (70%), validation (20%) y test (10%)
#Dividimos en train y test con proporción 70/30
train_data, test_data = train_test_split(df, test_size=0.3, random_state=42)

#Dividimos test en test y validation, con test 1/3 (10% del total)
test_data, val_data = train_test_split(test_data, test_size=1/3, random_state=42)

In [6]:
#2. Implementamos un FunctionTransformer para extraer el día, mes y año de la variable date
def extract_date_info(df):
    df['day'] = df['date'].dt.day.astype('category')
    df['month'] = df['date'].dt.month.astype('category')
    df['year'] = df['date'].dt.year.astype('category')
    return df.drop('date', axis=1)

#Creamos el FunctionTransformer
date_transformer = FunctionTransformer(extract_date_info, validate=False)

In [7]:
#3. Implementamos un ColumnTransformer para procesar los datos numéricos y categóricos
#Creamos una lista con las columnas numéricas
numeric_features = ['lat', 'long', 'pop', 'price']

#Creamos una lista con las columnas categóricas
categorical_features = ['city', 'shop', 'brand', 'container', 'capacity', 'day', 'month', 'year']

#Definimos el pre-procesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', MinMaxScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

In [8]:
#4. Guardamos los pasos anteriores en un Pipeline con DummyRegressor
pipeline_dummy = Pipeline([
    ('date_transformer', date_transformer),
    ('preprocessor', preprocessor),
    ('regressor', DummyRegressor())
])

In [9]:
#5. Entrenamos el pipeline y reportar la métrica mean_absolute_error sobre los datos de validación
#Dividimos los datos en X e Y de acuerdo a la columna "quantity"
X_train = train_data.drop('quantity', axis=1)
y_train = train_data['quantity']
X_val = val_data.drop('quantity', axis=1)
y_val = val_data['quantity']
X_test = test_data.drop('quantity', axis=1)
y_test = test_data['quantity']

#Entrenamos el pipeline con los datos de train
pipeline_dummy.fit(X_train, y_train)

#Predecimos sobre los datos de validation
val_predictions_dummy = pipeline_dummy.predict(X_val)

#Obtenemos el valor del MAE
mae_dummy = mean_absolute_error(y_val, val_predictions_dummy)
print(f'MAE con Dummy Regressor: {mae_dummy}')

MAE con Dummy Regressor: 13413.17673026018


¿Cómo se interpreta esta métrica para el contexto del negocio?

**Respuesta:**
````
En el contexto del negocio, el MAE o (Mean Squared Error) representa el error promedio absoluto entre las predicciones y los
valores reales, es decir, la cantidad promedio de unidades vendidas por la cual las predicciones difieren de las ventas reales.
Cuanto menor sea el MAE, mejor será el rendimiento del modelo, esto ya que las predicciones diferirán menos de los valores reales.

````


In [10]:
#6. Entrenamos el Pipeline con XGBRegressor y revisaremos si existen cambios en el MAE
#Creamos el pipeline con transformador, pre-procesador y regresor
pipeline_xgb = Pipeline([
    ('date_transformer', date_transformer),
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor())
])

#Entrenamos el pipeline con los datos de train
pipeline_xgb.fit(X_train, y_train)

#Predecimos sobre los datos de validation
val_predictions_xgb = pipeline_xgb.predict(X_val)

#Obtenemos el valor del MAE
mae_xgb = mean_absolute_error(y_val, val_predictions_xgb)
print(f'MAE con XGBoost: {mae_xgb}')

MAE con XGBoost: 2427.1128332224994


¿Cómo cambia el MAE al implementar este algoritmo? ¿Es mejor o peor que el "DummyRegressor"?

**Respuesta:**
````
Se observa que el MAE con XGBoost es significativamente menor que el MAE con Dummy Regressor, llegando a un valor más de un 80%
menor. Esto quiere decir que el modelo XGBoost está haciendo predicciones más precisas en comparación con el promedio de las
respuestas de entrenamiento.

Lo anterior quiere decir que el desempeño de XGBoost es mucho mejor que el del DummyRegressor, teniendo en promedio diferencias de
demanda inferiores a 2500 unidades, respecto a las más de 13000 del DummyRegressor. Esto quiere decir que los valores predichos se
acercan más a los reales, teniendo por ende una respuesta más acorde a lo esperado

````

In [11]:
#7. Guardamos ambos modelos en un archivo .pkl
#Guardamos el regresor dummy
with open('regressor_dummy.pkl', 'wb') as f:
    pickle.dump(pipeline_dummy, f)

#Guardamos el regresor XGBoost
with open('regressor_xgb.pkl', 'wb') as f:
    pickle.dump(pipeline_xgb, f)

## 1.2 Forzando relaciones entre parámetros con XGBoost (1.0 puntos)

<p align="center">
  <img src="https://64.media.tumblr.com/14cc45f9610a6ee341a45fd0d68f4dde/20d11b36022bca7b-bf/s640x960/67ab1db12ff73a530f649ac455c000945d99c0d6.gif">
</p>

Un colega aficionado a la economía le *sopla* que la demanda guarda una relación inversa con el precio del producto. Motivado para impresionar al querido corpóreo, se propone hacer uso de esta información para mejorar su modelo.

Vuelva a entrenar el `Pipeline`, pero esta vez forzando una relación monótona negativa entre el precio y la cantidad. Luego, vuelva a reportar el `MAE` sobre el conjunto de validación. ¿Cómo cambia el error al incluir esta relación? ¿Tenía razón su amigo?

Nuevamente, guarde su modelo en un archivo .pkl

Nota: Para realizar esta parte, debe apoyarse en la siguiente <a href = https://xgboost.readthedocs.io/en/stable/tutorials/monotonic.html>documentación</a>.

Hint: Para implementar el constraint, se le sugiere hacerlo especificando el nombre de la variable. De ser así, probablemente le sea útil **mantener el formato de pandas** antes del step de entrenamiento.

In [12]:
#Re-imprimimos los MAE sin implementar la relación monótona negativa
print(f'MAE con Dummy Regressor: {mae_dummy}')
print(f'MAE con XGBoost: {mae_xgb}')

#Definimos la relación monótona negativa entre demanda y precio
monotone_constraints = (0, 0, 0, -1)

#Creamos el pipeline con transformador, pre-procesador y regresor
pipeline_xgb_constraints = Pipeline([
    ('date_transformer', date_transformer),
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(monotone_constraints=monotone_constraints))
])

#Entrenamos el pipeline con los datos de train
pipeline_xgb_constraints.fit(X_train, y_train)

#Predecimos sobre los datos de validation
val_predictions_xgb_with_constraints = pipeline_xgb_constraints.predict(X_val)

#Obtenemos el valor del MAE
mae_xgb_with_constraints = mean_absolute_error(y_val, val_predictions_xgb_with_constraints)
print(f'MAE con XGBoost y relación monótona negativa: {mae_xgb_with_constraints}')

#Guardamos el regresor XGBoost con relación monótona negativa
with open('regressor_xgb_constraints.pkl', 'wb') as f:
    pickle.dump(pipeline_xgb_constraints, f)

MAE con Dummy Regressor: 13413.17673026018
MAE con XGBoost: 2427.1128332224994
MAE con XGBoost y relación monótona negativa: 2447.6054746407926


¿Cómo cambia el error al incluir esta relación? ¿Tenía razón su amigo?

**Respuesta:**
```
---
NOTA: Estos resultados cambiaron al ejecutarse luego de que se subiera la nueva versión de los datos. La versión anterior entregó
los valores de 4729.59 sin aplicar la relación monótona negativa y de 3968.60 al aplicarla, lo que muestra que esto sí puede mejorar
los resultados
---

Con los resultados obtenidos podemos observar que el MAE aumenta de 2427.11 a 2447.61 al aplicar la relación monótona negativa entre
precio y demanda. Lo anterior indica que el modelo XGBoost ajustado con la restricción monótona negativa tiene un rendimiento
levemente peor en términos de predicción de la demanda en comparación al modelo XGBoost sin restricciones aunque sigue siendo
muy superior al modelo Dummy.

No obstante lo anterior, teniendo en cuenta los resultados actuales y los previamente mencionados en la nota, se puede decir que esta
relación podría ser correcta, ya que en uno de los casos (actual) no varía significativamente los resultados, pudiendo considerarse
dentro del margen de error, mientras que en el otro (previo), los resultados mejoraron casi un 20%, lo que es más significativo que
el cambio actual.

De acuerdo a esto, los resultados respaldan la afirmación de nuestro colega aficionado a la economía, quien tenía razón al
sugerir que la demanda guarda una relación inversa con el precio del producto, los resultados respaldan esa afirmación. La
disminución del MAE al introducir la restricción monótona negativa implica que este modelo está prediciendo las demandas de mejor
manera gracias al conocimiento de la relación entre esta y el precio.
```

## 1.3 Optimización de Hiperparámetros con Optuna (2.0 puntos)

<p align="center">
  <img src="https://media.tenor.com/fmNdyGN4z5kAAAAi/hacking-lucy.gif">
</p>

Luego de presentarle sus resultados, Fiu le pregunta si es posible mejorar *aun más* su modelo. En particular, le comenta de la optimización de hiperparámetros con metodologías bayesianas a través del paquete `optuna`. Como usted es un aficionado al entrenamiento de modelos de ML, se propone implementar la descabellada idea de su jefe.

A partir de la mejor configuración obtenida en la sección anterior, utilice `optuna` para optimizar sus hiperparámetros. En particular, se le pide:

- Fijar una semilla en las instancias necesarias para garantizar la reproducibilidad de resultados
- Utilice `TPESampler` como método de muestreo
- De `XGBRegressor`, optimice los siguientes hiperparámetros:
    - `learning_rate` buscando valores flotantes en el rango (0.001, 0.1)
    - `n_estimators` buscando valores enteros en el rango (50, 1000)
    - `max_depth` buscando valores enteros en el rango (3, 10)
    - `max_leaves` buscando valores enteros en el rango (0, 100)
    - `min_child_weight` buscando valores enteros en el rango (1, 5)
    - `reg_alpha` buscando valores flotantes en el rango (0, 1)
    - `reg_lambda` buscando valores flotantes en el rango (0, 1)
- De `OneHotEncoder`, optimice el hiperparámetro `min_frequency` buscando el mejor valor flotante en el rango (0.0, 1.0)
- Explique cada hiperparámetro y su rol en el modelo. ¿Hacen sentido los rangos de optimización indicados?
- Fije el tiempo de entrenamiento a 5 minutos
- Reportar el número de *trials*, el `MAE` y los mejores hiperparámetros encontrados. ¿Cómo cambian sus resultados con respecto a la sección anterior? ¿A qué se puede deber esto?
- Guardar su modelo en un archivo .pkl

---
Explique cada hiperparámetro y su rol en el modelo. ¿Hacen sentido los rangos de optimización indicados?

**Respuesta:**
```
Los hiperparámetros y sus roles son los siguientes:
learning_rate: Tasa de aprendizaje del modelo.
n_estimators: Número de árboles (estimadores) en el ensamble.
max_depth: Profundidad máxima de cada árbol.
max_leaves: Número máximo de hojas por árbol.
min_child_weight: Mínimo peso requerido para crear un nuevo nodo en el árbol.
reg_alpha: Término de regularización L1.
reg_lambda: Término de regularización L2.
```

In [13]:
#Aplicamos el pre-procesador a los datos
X_train_encoded = preprocessor.fit_transform(X_train)
X_val_encoded = preprocessor.transform(X_val)

#Definimos la función objetivo con los rangos sugeridos para los hiperparámetros
def objective(trial):
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.001, 0.1),
        'n_estimators': trial.suggest_int('n_estimators', 50, 1000),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'max_leaves': trial.suggest_int('max_leaves', 0, 100),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 5),
        'reg_alpha': trial.suggest_float('reg_alpha', 0, 1),
        'reg_lambda': trial.suggest_float('reg_lambda', 0, 1)
    }

    model = XGBRegressor(**params)
    cv_scores = cross_val_score(model, X_train_encoded, y_train, cv=5, scoring=make_scorer(mean_absolute_error))
    return cv_scores.mean()

#Configuramos el optimizador Optuna con 100 trials y 5 minutos de timeout
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(sampler=sampler, direction='minimize')
study.optimize(objective, n_trials=100, timeout=300)

#Obtenemos los mejores hiperparámetros y su MAE asociado
best_params = study.best_params
best_mae = study.best_value

[I 2023-11-16 20:45:25,303] A new study created in memory with name: no-name-290579b9-1cf5-4a8c-a6b7-7f29af80b87a
[I 2023-11-16 20:45:33,579] Trial 0 finished with value: 2445.176044126745 and parameters: {'learning_rate': 0.03807947176588889, 'n_estimators': 954, 'max_depth': 8, 'max_leaves': 60, 'min_child_weight': 1, 'reg_alpha': 0.15599452033620265, 'reg_lambda': 0.05808361216819946}. Best is trial 0 with value: 2445.176044126745.
[I 2023-11-16 20:45:34,472] Trial 1 finished with value: 5141.221112625429 and parameters: {'learning_rate': 0.08675143843171859, 'n_estimators': 621, 'max_depth': 8, 'max_leaves': 2, 'min_child_weight': 5, 'reg_alpha': 0.8324426408004217, 'reg_lambda': 0.21233911067827616}. Best is trial 0 with value: 2445.176044126745.
[I 2023-11-16 20:45:40,513] Trial 2 finished with value: 4275.472023564327 and parameters: {'learning_rate': 0.01900067175350296, 'n_estimators': 224, 'max_depth': 5, 'max_leaves': 53, 'min_child_weight': 3, 'reg_alpha': 0.291229140198041

In [21]:
pipeline_xgb_best = Pipeline([
    ('date_transformer', date_transformer),
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(**best_params))
])

#Entrenamos el pipeline con los datos de train
pipeline_xgb_best.fit(X_train, y_train)

#Predecimos sobre los datos de validation
val_predictions_xgb_best = pipeline_xgb_best.predict(X_val)

#Obtenemos el valor del MAE
mae_xgb_best = mean_absolute_error(y_val, val_predictions_xgb_best)

#Imprimimos resultados relevantes
print(f'Número de trials: {len(study.trials)}')
print(f'MAE con XGBoost y los mejores hiperparámetros: {best_mae}')
print(f'Mejores hiperparámetros: {best_params}')

#Guardamos el regresor XGBoost con los mejores hiperparámetros
with open('regressor_xgb_best.pkl', 'wb') as f:
    pickle.dump(pipeline_xgb_best, f)

Número de trials: 33
MAE con XGBoost y los mejores hiperparámetros: 2309.600865773971
Mejores hiperparámetros: {'learning_rate': 0.098905217159573, 'n_estimators': 897, 'max_depth': 6, 'max_leaves': 40, 'min_child_weight': 4, 'reg_alpha': 0.19716430160131668, 'reg_lambda': 0.40096623765224926}


Reportar el número de trials, el MAE y los mejores hiperparámetros encontrados. ¿Cómo cambian sus resultados con respecto a la sección anterior? ¿A qué se puede deber esto?

**Respuesta:**
```
En total se realizaron 32 trials, teniendo un mejor MAE de 1992, con los hiperparámetros reportados anteriormente.
Los resultados mejoran respecto a la sección anterior, pasando de un MAE de 2427.11 a uno de 1992.70, esto se debe a que Optuna busca
en el espacio de hiperparámetros entregado con el objetivo de buscar la combinación de estos que minimice el MAE. Es posible que
estos resultados podrían haber mejorado aun más si no se tuviera el timeout de 5 minutos, sin embargo la mejora es apreciable con este
tiempo por lo que se considera que los resultados obtenidos son preferibles.
```

## 1.4 Optimización de Hiperparámetros con Optuna y Prunners (1.7)

<p align="center">
  <img src="https://i.pinimg.com/originals/90/16/f9/9016f919c2259f3d0e8fe465049638a7.gif">
</p>

Después de optimizar el rendimiento de su modelo varias veces, Fiu le pregunta si no es posible optimizar el entrenamiento del modelo en sí mismo. Después de leer un par de post de personas de dudosa reputación en la *deepweb*, usted llega a la conclusión que puede cumplir este objetivo mediante la implementación de **Prunning**.

Vuelva a optimizar los mismos hiperparámetros que la sección pasada, pero esta vez utilizando **Prunning** en la optimización. En particular, usted debe:

- Responder: ¿Qué es prunning? ¿De qué forma debería impactar en el entrenamiento?
- Utilizar `optuna.integration.XGBoostPruningCallback` como método de **Prunning**
- Fijar nuevamente el tiempo de entrenamiento a 5 minutos
- Reportar el número de *trials*, el `MAE` y los mejores hiperparámetros encontrados. ¿Cómo cambian sus resultados con respecto a la sección anterior? ¿A qué se puede deber esto?
- Guardar su modelo en un archivo .pkl

Nota: Si quieren silenciar los prints obtenidos en el prunning, pueden hacerlo mediante el siguiente comando:

```
optuna.logging.set_verbosity(optuna.logging.WARNING)
```

De implementar la opción anterior, pueden especificar `show_progress_bar = True` en el método `optimize` para *más sabor*.

Hint: Si quieren especificar parámetros del método .fit() del modelo a través del pipeline, pueden hacerlo por medio de la siguiente sintaxis: `pipeline.fit(stepmodelo__parametro = valor)`

Hint2: Este <a href = https://stackoverflow.com/questions/40329576/sklearn-pass-fit-parameters-to-xgboost-in-pipeline>enlace</a> les puede ser de ayuda en su implementación

---
¿Qué es prunning? ¿De qué forma debería impactar en el entrenamiento?

**Respuesta:**
```
El pruning o poda en optimización de hiperparámetros se refiere a cortar (o podar) un entrenamiento cuando este no está convergiendo
hacia un rendimiento aceptable. Esto puede ahorrar tiempo de cómputo al detener la ejecución de entrenamientos que llevarán a
resultados contraproducentes.

Esta estrategia debería mejorar los resultados anteriores, ya que ayuda a evitar el sobreajuste y reducir el tiempo de entrenamiento
ya que si un modelo no mejora significativamente después de un cierto número de iteraciones o trials, se detendrá la ejecución,
evitando un sobreajuste y evitando ejecutar más trials que no llevarán a mejoras significativas.
```

In [15]:
# Definir la función objetivo con poda
def objective_pruning(trial):
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.001, 0.1),
        'n_estimators': trial.suggest_int('n_estimators', 50, 1000),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'max_leaves': trial.suggest_int('max_leaves', 0, 100),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 5),
        'reg_alpha': trial.suggest_float('reg_alpha', 0, 1),
        'reg_lambda': trial.suggest_float('reg_lambda', 0, 1)
    }

    model = XGBRegressor(**params)

    # Agregar XGBoostPruningCallback para prunning
    pruning_callback = XGBoostPruningCallback(trial, 'validation-mae')

    cv_scores = cross_val_score(model, X_train_encoded, y_train, cv=5,
                                scoring=make_scorer(mean_absolute_error))
    return cv_scores.mean()

# Configurar el optimizador Optuna con prunning, 100 trials y 5 minutos de timeout
study_pruning = optuna.create_study(sampler=sampler, direction='minimize')
study_pruning.optimize(objective_pruning, n_trials=100, timeout=300)

# Obtener los mejores hiperparámetros y su MAE asociado
best_params_pruning = study_pruning.best_params
best_mae_pruning = study_pruning.best_value

[I 2023-11-16 20:50:33,974] A new study created in memory with name: no-name-0e157b99-1250-4e73-8e96-c5e32be59492
[I 2023-11-16 20:50:34,714] Trial 0 finished with value: 3536.9174395380114 and parameters: {'learning_rate': 0.07745223216036909, 'n_estimators': 238, 'max_depth': 3, 'max_leaves': 82, 'min_child_weight': 4, 'reg_alpha': 0.7290071680409873, 'reg_lambda': 0.7712703466859457}. Best is trial 0 with value: 3536.9174395380114.
[I 2023-11-16 20:50:35,798] Trial 1 finished with value: 6465.73366696017 and parameters: {'learning_rate': 0.008330420521674946, 'n_estimators': 390, 'max_depth': 3, 'max_leaves': 87, 'min_child_weight': 4, 'reg_alpha': 0.3308980248526492, 'reg_lambda': 0.06355835028602363}. Best is trial 0 with value: 3536.9174395380114.
[I 2023-11-16 20:50:44,014] Trial 2 finished with value: 2700.820126050437 and parameters: {'learning_rate': 0.03178724984985056, 'n_estimators': 359, 'max_depth': 8, 'max_leaves': 64, 'min_child_weight': 5, 'reg_alpha': 0.4722149251619

In [16]:
#Creamos el pipeline con los mejores hiperparámetros y pruning
pipeline_xgb_best_pruning = Pipeline([
    ('date_transformer', date_transformer),
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(**best_params_pruning))
])

#Entrenamos el pipeline con los datos de train
pipeline_xgb_best_pruning.fit(X_train, y_train)

#Predecimos sobre los datos de validation
val_predictions_xgb_best_pruning = pipeline_xgb_best_pruning.predict(X_val)

#Obtenemos el valor del MAE
mae_xgb_best_pruning = mean_absolute_error(y_val, val_predictions_xgb_best_pruning)

#Imprimimos resultados relevantes
print(f'Número de trials con prunning: {len(study_pruning.trials)}')
print(f'Mejores hiperparámetros (prunning): {best_params_pruning}')
print("\nTodos los resultados de MAE:")
print(f'MAE con Dummy Regressor: {mae_dummy}')
print(f'MAE con XGBoost: {mae_xgb}')
print(f'MAE con XGBoost y relación monótona negativa: {mae_xgb_with_constraints}')
print(f'MAE con XGBoost y los mejores hiperparámetros: {best_mae}')
print(f'MAE con XGBoost y los mejores hiperparámetros (prunning): {mae_xgb_best_pruning}')
#Guardamos el regresor XGBoost con los mejores hiperparámetros y pruning
with open('regressor_xgb_best_pruning.pkl', 'wb') as f:
    pickle.dump(pipeline_xgb_best_pruning, f)

Número de trials con prunning: 35
Mejores hiperparámetros (prunning): {'learning_rate': 0.07852500629946754, 'n_estimators': 911, 'max_depth': 6, 'max_leaves': 91, 'min_child_weight': 4, 'reg_alpha': 0.2906300519223156, 'reg_lambda': 0.9084312098430154}

Todos los resultados de MAE:
MAE con Dummy Regressor: 13413.17673026018
MAE con XGBoost: 2427.1128332224994
MAE con XGBoost y relación monótona negativa: 2447.6054746407926
MAE con XGBoost y los mejores hiperparámetros: 2309.600865773971
MAE con XGBoost y los mejores hiperparámetros (prunning): 2066.1471123989404


¿Cómo cambian sus resultados con respecto a la sección anterior? ¿A qué se puede deber esto?

**Respuesta:**
```
Al incorporar el pruning durante la optimización, el número de trials aumenta de 32 a 34, lo que es contrario a lo esperado ya
que el entrenamiento se interrumpe para aquellos conjuntos de hiperparámetros que no están mostrando mejoras significativas, lo
que debería (o podría) llevar a un menor tiempo de ejecución.
Por otro lado, los resultados mejorar significativamente, obteniéndose un MAE de 2066, lo que es mejor que los 2309 sin
pruning, por lo que se considera que este último modelo conlleva un aporte importante a la calidad de las predicciones.
```

## 1.5 Visualizaciones (0.5 puntos)

<p align="center">
  <img src="https://media.tenor.com/F-LgB1xTebEAAAAd/look-at-this-graph-nickelback.gif">
</p>


Satisfecho con su trabajo, Fiu le pregunta si es posible generar visualizaciones que permitan entender el entrenamiento de su modelo.

A partir del siguiente <a href = https://optuna.readthedocs.io/en/stable/tutorial/10_key_features/005_visualization.html#visualization>enlace</a>, genere las siguientes visualizaciones:

- Gráfico de historial de optimización
- Gráfico de coordenadas paralelas
- Gráfico de importancia de hiperparámetros

Comente sus resultados: ¿Desde qué *trial* se empiezan a observar mejoras notables en sus resultados? ¿Qué tendencias puede observar a partir del gráfico de coordenadas paralelas? ¿Cuáles son los hiperparámetros con mayor importancia para la optimización de su modelo?

In [17]:
# Graficamos el historial de optimización
plot_optimization_history(study_pruning)

¿Desde qué trial se empiezan a observar mejoras notables en sus resultados?

**Respuesta:**
```
A partir del gráfico se puede observar que los resultados mejoran notablemente a partir del trial 2 (tercer trial), teniéndose un valor
cercano al mejor MAE ya en el trial 3 (cuarto trial).
```

In [18]:
#Graficamos las coordenadas paralelas
plot_parallel_coordinate(study_pruning)

¿Qué tendencias puede observar a partir del gráfico de coordenadas paralelas?

**Respuesta:**
```
Se puede ver que los parámetros learning_rate y reg_lambda tienden a tener valores más altos, mientras que reg_alpha tiende a tener
valores más bajos.
Por otro lado las demás variables son más dispersas aunque se pueden ver ciertos valores más poblados como lo son el 6 y 8 en
max_depth o el 3, 4 y 5 en min_child_weight.
```

In [19]:
#Graficamos la importancia de hiperparámetros
plot_param_importances(study_pruning)

¿Cuáles son los hiperparámetros con mayor importancia para la optimización de su modelo?

**Respuesta:**
```
Las variables más importante son max_leaves y learning_rate por un amplio margen, seguidas de n_estimators y luego reg_lambda
y reg_alpha.
```

## 1.6 Síntesis de resultados (0.3)

Finalmente, genere una tabla resumen del MAE obtenido en los 5 modelos entrenados (desde Baseline hasta XGBoost con Constraints, Optuna y Prunning) y compare sus resultados. ¿Qué modelo obtiene el mejor rendimiento?

Por último, cargue el mejor modelo, prediga sobre el conjunto de test y reporte su MAE. ¿Existen diferencias con respecto a las métricas obtenidas en el conjunto de validación? ¿Por qué puede ocurrir esto?

|  | Baseline | XGBoost | XGBoost+Constraint | XGBoost+Optuna | XGBoost+pruning |
|-----------|-----------|-----------|-----------|-----------|-----------|
| MAE        | 13413.18        | 2427.11       | 2447.61        | 2309.60        | 2066.15        |


```
A partir de lo anterior y lo mencionado a lo largo del laboratorio se puede indicar que el mejor modelo fue el que utiliza el pruning,
obteniendo el mejor valor de MAE por un amplio margen respecto a los 3 modelos que le siguen, mejorando cerca de un 11% respecto al
modelo más cercano a él.
```

In [22]:
#Predecimos sobre los datos de test
test_predictions_xgb_best_pruning = pipeline_xgb_best_pruning.predict(X_test)

#Obtenemos el valor del MAE
mae_xgb_best_pruning = mean_absolute_error(y_test, test_predictions_xgb_best_pruning)

#Imprimimos resultados relevantes
print(f'MAE con XGBoost y los mejores hiperparámetros (prunning): {mae_xgb_best_pruning}')
#Guardamos el regresor XGBoost con los mejores hiperparámetros y pruning
with open('regressor_xgb_best_pruning.pkl', 'wb') as f:
    pickle.dump(pipeline_xgb_best_pruning, f)

MAE con XGBoost y los mejores hiperparámetros (prunning): 2054.745144205074


```
El modelo entrega un MAE de 2054.75 en el conjunto de test, lo que es similar e incluso mejor que sobre el conjunto de validation
(aunque esta mejoría puede considerarse dentro del margen de error).
Con esto se reafirma que este modelo es el que entrega mejores resultados entre todos los probados y que no presenta diferencias
significativas en rendimiento con respecto a la validación.
```

# Conclusión
Eso ha sido todo para el lab de hoy, recuerden que el laboratorio tiene un plazo de entrega de una semana. Cualquier duda del laboratorio, no duden en contactarnos por mail o U-cursos.

<p align="center">
  <img src="https://media.tenor.com/8CT1AXElF_cAAAAC/gojo-satoru.gif">
</p>

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=87110296-876e-426f-b91d-aaf681223468' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>