<h1><center>Laboratorio 9: Optimizaci√≥n de modelos üíØ</center></h1>

<center><strong>MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos - Primavera 2024</strong></center>

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebasti√°n Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicol√°s Ojeda, Melanie Pe√±a, Valentina Rojas

### Equipo: SUPER IMPORTANTE - notebooks sin nombre no ser√°n revisados

- Nombre de alumno 1: Fabrizzio Pezzolla
- Nombre de alumno 2: Rodrigo Molina


### **Link de repositorio de GitHub:** [Link](https://github.com/frpezzolla/lab_mds.git)

### Temas a tratar

- Predicci√≥n de demanda usando `xgboost`
- B√∫squeda del modelo √≥ptimo de clasificaci√≥n usando `optuna`
- Uso de pipelines.

### Reglas:

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente ser√°n respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.
- C√≥digo que no se pueda ejecutar, no ser√° revisado.

### Objetivos principales del laboratorio

- Optimizar modelos usando `optuna`
- Recurrir a t√©cnicas de *prunning*
- Forzar el aprendizaje de relaciones entre variables mediante *constraints*
- Fijar un pipeline con un modelo base que luego se ir√° optimizando.

El laboratorio deber√° ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al m√°ximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante m√°s eficientes que los iteradores nativos sobre DataFrames.

# Importamos librerias √∫tiles

In [1]:
!pip install -qq xgboost optuna

# El emprendimiento de Fiu

Tras liderar de manera exitosa la implementaci√≥n de un proyecto de ciencia de datos para caracterizar los datos generados en Santiago 2023, el misterioso corp√≥reo **Fiu** se anima y decide levantar su propio negocio de consultor√≠a en machine learning. Tras varias e intensas negociaciones, Fiu logra encontrar su *primera chamba*: predecir la demanda (cantidad de venta) de una famosa productora de bebidas de calibre mundial. Al ver el gran potencial y talento que usted ha demostrado en el campo de la ciencia de datos, Fiu lo contrata como data scientist para que forme parte de su nuevo emprendimiento.

Para este laboratorio deben trabajar con los datos `sales.csv` subidos a u-cursos, el cual contiene una muestra de ventas de la empresa para diferentes productos en un determinado tiempo.

Para comenzar, cargue el dataset se√±alado y visualice a trav√©s de un `.head` los atributos que posee el dataset.

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime

df = pd.read_csv('./sales.csv')

df.head()

Unnamed: 0,id,date,city,lat,long,pop,shop,brand,container,capacity,price,quantity
0,0,31/01/12,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,glass,500ml,0.96,13280
1,1,31/01/12,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,plastic,1.5lt,2.86,6727
2,2,31/01/12,Athens,37.97945,23.71622,672130,shop_1,kinder-cola,can,330ml,0.87,9848
3,3,31/01/12,Athens,37.97945,23.71622,672130,shop_1,adult-cola,glass,500ml,1.0,20050
4,4,31/01/12,Athens,37.97945,23.71622,672130,shop_1,adult-cola,can,330ml,0.39,25696


In [3]:
df['date'].head()

0    31/01/12
1    31/01/12
2    31/01/12
3    31/01/12
4    31/01/12
Name: date, dtype: object

## 1 Generando un Baseline (5 puntos)

Antes de entrenar un algoritmo, usted recuerda los apuntes de su mag√≠ster en ciencia de datos y recuerda que debe seguir una serie de *buenas pr√°cticas* para entrenar correcta y debidamente su modelo. Despu√©s de un par de vueltas, llega a las siguientes tareas:

1. Separe los datos en conjuntos de train (70%), validation (20%) y test (10%). Fije una semilla para controlar la aleatoriedad. [0.5 puntos]
2. Implemente un `FunctionTransformer` para extraer el d√≠a, mes y a√±o de la variable `date`. Guarde estas variables en el formato categorical de pandas. [1 punto]
3. Implemente un `ColumnTransformer` para procesar de manera adecuada los datos num√©ricos y categ√≥ricos. Use `OneHotEncoder` para las variables categ√≥ricas. `Nota:` Utilice el m√©todo `.set_output(transform='pandas')` para obtener un DataFrame como salida del `ColumnTransformer` [1 punto]
4. Guarde los pasos anteriores en un `Pipeline`, dejando como √∫ltimo paso el regresor `DummyRegressor` para generar predicciones en base a promedios. [0.5 punto]
5. Entrene el pipeline anterior y reporte la m√©trica `mean_absolute_error` sobre los datos de validaci√≥n. ¬øC√≥mo se interpreta esta m√©trica para el contexto del negocio? [0.5 puntos]
6. Finalmente, vuelva a entrenar el `Pipeline` pero esta vez usando `XGBRegressor` como modelo **utilizando los par√°metros por default**. ¬øC√≥mo cambia el MAE al implementar este algoritmo? ¬øEs mejor o peor que el `DummyRegressor`? [1 punto]
7. Guarde ambos modelos en un archivo .pkl (uno cada uno) [0.5 puntos]

**1.1.** Separar los datos:

In [4]:
from sklearn import set_config
from sklearn.model_selection import train_test_split

set_config(transform_output="pandas")

# split all into train and test+dev
train_data, temp_data = train_test_split(df, test_size=0.3, random_state=42)
# split test and dev
dev_data, test_data = train_test_split(temp_data, test_size=1/3, random_state=42)

def split_X_y(data, target='quantity'):
    X_ = data.drop(columns=target)
    y_ = data[target]
    return X_,y_

X_train, y_train = split_X_y(train_data)
X_test, y_test = split_X_y(test_data)
X_dev, y_dev = split_X_y(dev_data)

**1.2.** FuncTransformer:

In [5]:
from sklearn.preprocessing import FunctionTransformer

def date_splitter(X):
    X = pd.to_datetime(X['date'], format='%d/%m/%y')
    return pd.DataFrame({
        'day': X.dt.day.astype('category'),
        'month': X.dt.month.astype('category'),
        'year': X.dt.year.astype('category')
    })

date_transformer = FunctionTransformer(date_splitter)

**1.3.** ColumnTransformer:

In [6]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

col_transformer = ColumnTransformer(
    transformers=[
        ('date', date_transformer, ['date']),
        ('onehot', OneHotEncoder(sparse_output=False), ['city', 'shop', 'brand', 'container', 'capacity']),
        ('scaler', StandardScaler(), ['lat', 'long', 'pop', 'price'])
    ],
    remainder='passthrough'
)

# col_transformer.set_output(transform='pandas')

**1.4.** DummyRegressor:

In [25]:
from sklearn.pipeline import Pipeline
from sklearn.dummy import DummyRegressor

pipe_dummy = Pipeline([
    ('preprocessor', col_transformer),
    ('regressor', DummyRegressor(strategy='mean'))
])

**1.5.** Entrenar y obtener MAE:

In [8]:
pipe_dummy.fit(X_train, y_train)

from sklearn.metrics import mean_absolute_error

y_pred_dev = pipe_dummy.predict(X_dev)
mae = mean_absolute_error(y_dev, y_pred_dev)
mae

13298.497767341096

**1.6.** XGBRegressor:

In [26]:
from xgboost import XGBRegressor
import warnings

try:

    pipe_xgbreg = Pipeline([
        ('preprocessor', col_transformer),
        ('regressor', XGBRegressor(enable_categorical=False))
    ])

    pipe_xgbreg.fit(X = X_train, y = y_train)

except ValueError:
    warnings.warn("Can't use default arguments!")

    pipe_xgbreg = Pipeline([
    ('preprocessor', col_transformer),
    ('regressor', XGBRegressor(
        enable_categorical=True,
        random_state=42
        ))
    ])

    pipe_xgbreg.fit(X = X_train, y = y_train)
    



In [10]:
y_pred_dev = pipe_xgbreg.predict(X_dev)
mae = mean_absolute_error(y_dev, y_pred_dev)
mae

2400.27751240516

**1.7.** pickle:

In [11]:
import pickle

model_dict = {'dummy': pipe_dummy,
              'xgbreg': pipe_xgbreg}

for model_name, model_pipe in model_dict.items():
    with open(f'./pickle_1_7_{model_name}.pkl', 'wb') as pkl_file:
        pickle.dump(model_pipe, pkl_file)

## 2. Forzando relaciones entre par√°metros con XGBoost (10 puntos)

Un colega aficionado a la econom√≠a le *sopla* que la demanda guarda una relaci√≥n inversa con el precio del producto. Motivado para impresionar al querido corp√≥reo, se propone hacer uso de esta informaci√≥n para mejorar su modelo realizando las siguientes tareas:

1. Vuelva a entrenar el `Pipeline` con `XGBRegressor`, pero esta vez forzando una relaci√≥n mon√≥tona negativa entre el precio y la cantidad. Para aplicar esta restricci√≥n ap√≥yese en la siguiente <a href = https://xgboost.readthedocs.io/en/stable/tutorials/monotonic.html>documentaci√≥n</a>. [6 puntos]

>Hint 1: Para implementar el constraint se le sugiere hacerlo especificando el nombre de la variable. De ser as√≠, probablemente le sea √∫til **mantener el formato de pandas** antes del step de entrenamiento.

>Hint 2: Puede obtener el nombre de las columnas en el paso anterior al modelo regresor mediante el m√©todo `.get_feature_names_out()`

2. Luego, vuelva a reportar el `MAE` sobre el conjunto de validaci√≥n. [1 puntos]

3. ¬øC√≥mo cambia el error al incluir esta relaci√≥n? ¬øTen√≠a raz√≥n su amigo? [2 puntos]

4. Guarde su modelo en un archivo .pkl [1 punto]

In [23]:
df_ = col_transformer.fit_transform(X_train)
df_.head()

Unnamed: 0,date__day,date__month,date__year,onehot__city_Athens,onehot__city_Irakleion,onehot__city_Larisa,onehot__city_Patra,onehot__city_Thessaloniki,onehot__shop_shop_1,onehot__shop_shop_2,...,onehot__container_glass,onehot__container_plastic,onehot__capacity_1.5lt,onehot__capacity_330ml,onehot__capacity_500ml,scaler__lat,scaler__long,scaler__pop,scaler__price,remainder__id
292,30,4,2012,0.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,1.0,1.0,0.0,0.0,-0.041439,-1.403508,-0.815231,1.659156,300
3366,28,2,2015,1.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,1.0,1.0,0.0,0.0,-0.201218,0.416377,1.362723,-0.594186,3416
3685,30,6,2015,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,-0.211468,0.389617,1.362723,-0.655752,3741
2404,30,4,2014,1.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,0.0,-0.201218,0.416377,1.366906,-1.099033,2441
2855,30,9,2014,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,-1.800022,1.726977,-0.93668,-0.778886,2898


In [27]:
pipe_xgbreg_restricted = Pipeline([
    ('preprocessor', col_transformer),
    ('regressor', XGBRegressor(
        enable_categorical=True,
        monotone_constraints={'scaler__price':-1},
        random_state=42
        ))
])

pipe_xgbreg_restricted.fit(X_train,y_train)

**2.2.** MAE:

In [14]:
y_pred_dev = pipe_xgbreg_restricted.predict(X_dev)
mae = mean_absolute_error(y_dev, y_pred_dev)
mae

2602.15612350863

**2.3.**

**2.4.**

In [15]:
with open(f'./pickle_2_4_xgbreg_const.pkl', 'wb') as pkl_file:
    pickle.dump(pipe_xgbreg_restricted, pkl_file)

# 3. Optimizaci√≥n de Hiperpar√°metros con Optuna (20 puntos)

Luego de presentarle sus resultados, Fiu le pregunta si es posible mejorar *aun m√°s* su modelo. En particular, le comenta de la optimizaci√≥n de hiperpar√°metros con metodolog√≠as bayesianas a trav√©s del paquete `optuna`. Como usted es un aficionado al entrenamiento de modelos de ML, se propone implementar la descabellada idea de su jefe.

A partir de la mejor configuraci√≥n obtenida en la secci√≥n anterior, utilice `optuna` para optimizar sus hiperpar√°metros. En particular, se pide que su optimizaci√≥n considere lo siguiente:

- Fijar una semilla en las instancias necesarias para garantizar la reproducibilidad de resultados
- Utilice `TPESampler` como m√©todo de muestreo
- De `XGBRegressor`, optimice los siguientes hiperpar√°metros:
    - `learning_rate` buscando valores flotantes en el rango (0.001, 0.1)
    - `n_estimators` buscando valores enteros en el rango (50, 1000)
    - `max_depth` buscando valores enteros en el rango (3, 10)
    - `max_leaves` buscando valores enteros en el rango (0, 100)
    - `min_child_weight` buscando valores enteros en el rango (1, 5)
    - `reg_alpha` buscando valores flotantes en el rango (0, 1)
    - `reg_lambda` buscando valores flotantes en el rango (0, 1)
- De `OneHotEncoder`, optimice el hiperpar√°metro `min_frequency` buscando el mejor valor flotante en el rango (0.0, 1.0)

Para ello se pide los siguientes pasos:
1. Implemente una funci√≥n `objective()` que permita minimizar el `MAE` en el conjunto de validaci√≥n. Use el m√©todo `.set_user_attr()` para almacenar el mejor pipeline entrenado. [10 puntos]
2. Fije el tiempo de entrenamiento a 5 minutos. [1 punto]
3. Optimizar el modelo y reportar el n√∫mero de *trials*, el `MAE` y los mejores hiperpar√°metros encontrados. ¬øC√≥mo cambian sus resultados con respecto a la secci√≥n anterior? ¬øA qu√© se puede deber esto? [3 puntos]
4. Explique cada hiperpar√°metro y su rol en el modelo. ¬øHacen sentido los rangos de optimizaci√≥n indicados? [5 puntos]
5. Guardar su modelo en un archivo .pkl [1 punto]

In [16]:
import optuna
from optuna.samplers import TPESampler
optuna.logging.set_verbosity(optuna.logging.WARNING)
# Inserte su c√≥digo ac√°

def objective(trial):
    # Inserte su c√≥digo ac√°
    pass

## 4. Optimizaci√≥n de Hiperpar√°metros con Optuna y Prunners (17 puntos)

Despu√©s de optimizar el rendimiento de su modelo varias veces, Fiu le pregunta si no es posible optimizar el entrenamiento del modelo en s√≠ mismo. Despu√©s de leer un par de post de personas de dudosa reputaci√≥n en la *deepweb*, usted llega a la conclusi√≥n que puede cumplir este objetivo mediante la implementaci√≥n de **Prunning**.

Vuelva a optimizar los mismos hiperpar√°metros que la secci√≥n pasada, pero esta vez utilizando **Prunning** en la optimizaci√≥n. En particular, usted debe:

- Responder: ¬øQu√© es prunning? ¬øDe qu√© forma deber√≠a impactar en el entrenamiento? [2 puntos]
- Redefinir la funci√≥n `objective()` utilizando `optuna.integration.XGBoostPruningCallback` como m√©todo de **Prunning** [10 puntos]
- Fijar nuevamente el tiempo de entrenamiento a 5 minutos [1 punto]
- Reportar el n√∫mero de *trials*, el `MAE` y los mejores hiperpar√°metros encontrados. ¬øC√≥mo cambian sus resultados con respecto a la secci√≥n anterior? ¬øA qu√© se puede deber esto? [3 puntos]
- Guardar su modelo en un archivo .pkl [1 punto]

Nota: Si quieren silenciar los prints obtenidos en el prunning, pueden hacerlo mediante el siguiente comando:

```
optuna.logging.set_verbosity(optuna.logging.WARNING)
```

De implementar la opci√≥n anterior, pueden especificar `show_progress_bar = True` en el m√©todo `optimize` para *m√°s sabor*.

Hint: Si quieren especificar par√°metros del m√©todo .fit() del modelo a trav√©s del pipeline, pueden hacerlo por medio de la siguiente sintaxis: `pipeline.fit(stepmodelo__parametro = valor)`

Hint2: Este <a href = https://stackoverflow.com/questions/40329576/sklearn-pass-fit-parameters-to-xgboost-in-pipeline>enlace</a> les puede ser de ayuda en su implementaci√≥n

In [17]:
#!pip install optuna-integration[xgboost]

In [18]:
# Inserte su c√≥digo ac√°

## 5. Visualizaciones (5 puntos)

Satisfecho con su trabajo, Fiu le pregunta si es posible generar visualizaciones que permitan entender el entrenamiento de su modelo.

A partir del siguiente <a href = https://optuna.readthedocs.io/en/stable/tutorial/10_key_features/005_visualization.html#visualization>enlace</a>, genere las siguientes visualizaciones:

1. Gr√°fico de historial de optimizaci√≥n [1 punto]
2. Gr√°fico de coordenadas paralelas [1 punto]
3. Gr√°fico de importancia de hiperpar√°metros [1 punto]

Comente sus resultados:

4. ¬øDesde qu√© *trial* se empiezan a observar mejoras notables en sus resultados? [0.5 puntos]
5. ¬øQu√© tendencias puede observar a partir del gr√°fico de coordenadas paralelas? [1 punto]
6. ¬øCu√°les son los hiperpar√°metros con mayor importancia para la optimizaci√≥n de su modelo? [0.5 puntos]

In [19]:
# Inserte su c√≥digo ac√°

## 6. S√≠ntesis de resultados (3 puntos)

Finalmente:

1. Genere una tabla resumen del MAE en el conjunto de validaci√≥n obtenido en los 5 modelos entrenados desde Baseline hasta XGBoost con Constraints, Optuna y Prunning. [1 punto]
2. Compare los resultados de la tabla y responda, ¬øqu√© modelo obtiene el mejor rendimiento? [0.5 puntos]
3. Cargue el mejor modelo, prediga sobre el conjunto de **test** y reporte su MAE. [0.5 puntos]
4. ¬øExisten diferencias con respecto a las m√©tricas obtenidas en el conjunto de validaci√≥n? ¬øPorqu√© puede ocurrir esto? [1 punto]

In [20]:
# Inserte su c√≥digo ac√°

# Conclusi√≥n
Eso ha sido todo para el lab de hoy, recuerden que el laboratorio tiene un plazo de entrega de una semana. Cualquier duda del laboratorio, no duden en contactarnos por mail o U-cursos.