# Clase 09: Gradient boosting Machines (GBM)


**MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos**

**Objetivos**:
- Entender el funcionamiento de **Gradient Boosting Machines** y sus ventajas/desventajas
- Aprender a incorporar restricciones de modelo, como monoticidad y restricciones de interacci√≥n
- Introducir el concepto de features importances
- Reconocer y solucionar overfitting por medio de *Early Stopping*

## Contexto: Decision Trees

Para esta clase, necesitaremos tener un m√≠nimo entendimiento del funcionamiento de **√Årboles de Decisi√≥n** pues servir√°n como la unidad b√°sica sobre la cual se construye el algoritmo **Gradient Boosting**.

Pueden encontrar una buena explicaci√≥n a este algoritmo en el siguiente enlace:
[Medium](https://towardsdatascience.com/decision-tree-classifier-explained-a-visual-guide-with-code-examples-for-beginners-7c863f06a71e/).

<center>
<img src='https://towardsdatascience.com/wp-content/uploads/2024/08/1-kVbTztm62HThXb6oy8arg-768x470.png' width=500 />
</center>



## Gradient boosting Machines (GBM)

Las GBM son algoritmos que se volvieron muy populares con la aparici√≥n de XGBoost en el 2016 para las tareas de clasificaci√≥n y regresi√≥n. En t√©rminos de funcionamiento, estos algoritmos utilizan m√∫ltiples **weak-learners** con los que a trav√©s de m√∫ltiples iteraciones corrigen los errores que presentan sus regresores/clasificadores en etapas anteriores.

		‚ùì Pregunta: ¬øQu√© caracter√≠sticas tienen los "weak-learners"?

1. El objetivo no es crear clasificadores potentes con ellos, si no como su nombre lo dice queremos generar "aprendices d√©biles" que se potencian con otros.
2. En general se utilizan como weak learners √°rboles de decisi√≥n por su simpleza y versatilidad que nos ofrecen para regresi√≥n y clasificaci√≥n.
3. Pueden ser entrenados con una muestra de la totalidad para obtener entrenamientos r√°pidos sobre ellos.
4. Su uso en un algoritmo implica la comprensi√≥n de estos elementos, ya que se heredan sus problemas en una estructura m√°s compleja.

‚ùì Pregunta: ¬øQu√© problemas ten√≠an los √°rboles de decisi√≥n?

<center>
<img src='https://miro.medium.com/v2/resize:fit:1702/1*KbRVJC5B0EgO8YAyeCrLkA.png' width=500 />
</center>

Recordar que los √°rboles de decisi√≥n son elementos que tienen una alta facilidad de sobre-ajustarse si aumentamos la profundidad o n√∫mero de hijos por nodo. Esto puede causar problemas en un algoritmo de GBM y por ello, este debe ser un valor que debemos controlar de forma directa o indirectamente.

Adentr√°ndonos m√°s en detalles en el algoritmo de gradient boosting, estos forman parte de los algoritmos de **ensemble**, es decir, algoritmos que **combinan m√∫ltiples modelos para el proceso de predicci√≥n**. Una forma de esto es a trav√©s de **modelos aditivos**, donde entrenando m√∫ltiples algoritmos simples de forma independiente, utilizamos la suma de sus salidas para generar un modelo m√°s potente para la regresi√≥n/clasificaci√≥n:
$$F_M(x) = f_1(x)+...+f_M(x)=\sum_{m=1}^M f_m(x)$$

<center>
<img src='https://machinelearningmastery.com/wp-content/uploads/2020/07/Example-of-Combining-Decision-Boundaries-Using-an-Ensemble.png' width=500 />
</center>


### GBM: Regresi√≥n

La idea detr√°s de los GBM es realizar **descenso por gradiente en el espacio de funciones** para encontrar una funci√≥n $\hat{f}(x)$ que minimice lo m√°s posible una funci√≥n de p√©rdida $L$. Formalmente, buscamos:

$$
\hat{f} = \arg \min_f \sum_{i=1}^N L(y_i, f(x_i))
$$

donde en el caso de la regresi√≥n, es usual fijar $\mathcal{L} = \frac{1}{2} (y - f(x_i))^2$.

> **‚ùì Pregunta:** ¬øQu√© funci√≥n de p√©rdida es esta? ¬øDe donde viene el 1/2?

El algoritmo se inicializa con una predicci√≥n **base y constante** $f_0(x)$ que minimiza la funci√≥n de p√©rdida con respecto a los datos:

$$\arg \min_F \sum_{i=1}^N L(y_i, F(x_i))$$

donde en la pr√°ctica se puede demostrar que este valor es el **promedio** de los valores $y$.

Luego, agregaremos $m$ √°rboles de decisi√≥n o weak learners (donde $m$ es un par√°metro definido por el usuario) repitiendo los siguientes pasos:

- Primero, calcularemos los pseudo residuos $r_{im}$ con respecto al modelo actual:

$$
r_{im} = -\left[\dfrac{\partial \mathcal{L}(y_i, f(x_i))}{\partial f(x_i)}\right]_{f = f_{m-1}}
$$

Remplazando el error cuadr√°tico medio en la expresi√≥n anterior, obtenemos

$$
r_{im} = y - f(x_i)
$$

- Luego, se entrena el weak learner para predecir los residuos $r_{im}$:

$$\arg \min_F \sum_{i=1}^N L(r_{im}, F(x_i))$$
$$F_m = \arg \min_F \sum_{i=1}^N \frac{1}{2}(r_{im}-F(x_i))^2$$

Notar que $F(x_i)$ es un weak learner que se entrena en cada una de las iteraciones de nuestro algoritmo de GBM.

- Por √∫ltimo, se agrega el weak learner $F_m$ al modelo:

$$f_m = f_{m-1} + \nu F_{m}$$
Donde $\nu$ se define como el largo del paso en la correcci√≥n. Visto de otra forma, podemos interpretar este valor como una **tasa de aprendizaje** que podremos fijar o optimizar en la funci√≥n, se√±alando cu√°nta correcci√≥n aplicaremos del proceso anterior en el proceso actual.

Finalmente el algoritmo se ver√≠a como:

![](https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/21_Ensamblaje/Pasted%20image%2020230527153450.png?raw=true)


### GBM: Clasificaci√≥n

		‚ùì Pregunta: ¬øDeber√≠a ser diferente la clasificaci√≥n a la regresi√≥n?

La respuesta directa a esto es "s√≠". Los cambios que presenta la clasificaci√≥n respecto a la regresi√≥n se dan netamente en la **elecci√≥n de la funci√≥n de p√©rdida** ($\mathcal{L}$) y algunas consideraciones que se toman para las salidas de los nodos.

Respecto a las funciones de p√©rdida, esto se debe a c√≥mo se define el problema de clasificaci√≥n supervisada, donde nuestro inter√©s no ser√° la reducci√≥n del error que tenemos del valor estimado respecto a un valor continuo. En su reemplazo son utilizadas **funciones de p√©rdida para clasificaci√≥n**, quienes tienen como principal objetivo disminuir el error al predecir una etiqueta. Una de las funciones de p√©rdidas m√°s conocidas/utilizadas para el problema de clasificaci√≥n se encuentra la **logistic-loss**/**cross-entropy**:
$$\mathcal{L}_i = -(y_i log(p_i) + (1-y_i)log(1-p_i))$$
	‚ùì Pregunta:  ¬øC√≥mo podemos interpretar esta funci√≥n de p√©rdida?

Donde su derivada es:
$$\dfrac{\partial \mathcal{L}_i}{\partial \hat{y}}=p_i-y_i$$
El segundo punto a considerar es que la estimaci√≥n de $y$ ser√° igual a:
$$\hat{y}=log(odds)=log(\dfrac{p}{1-p})$$
		‚ùì Pregunta:  ¬øPor qu√© usamos odds?

B√°sicamente debido a que los modelos de clasificaci√≥n con GBM son modelos de regresi√≥n, por lo que sus salidas no pueden ser consideradas como probabilidades, sino como scores que debemos transformar y normalizar.

Finalmente para calcular las probabilidades de las salidas de nuestro GBM tendremos que calcular la funci√≥n softmax de $\hat{y}$, la que viene dada por:
$$\text{softmax}(\hat{y})=\dfrac{1}{1+e^{-\hat{y}}}$$

In [None]:
import math

# Ejemplo de funci√≥n de p√©rdida: Caso con score alejado de la etiqueta
p = 0.99 # salida del modelo
y = 0 # etiqueta real
-(y*math.log(p)+(1-y)*math.log(1-p))

In [None]:
# Ejemplo de funci√≥n de p√©rdida: Caso con score cercano a la etiqueta
p = 0.9 # salida del modelo
y = 1 # etiqueta real
-(y* math.log(p) + (1-y)*math.log(1-p))

In [None]:
# Ejemplo de funci√≥n de p√©rdida: Caso con score cercano a la etiqueta (etiqueta 0)
p = 0.3 # salida del modelo
y = 0 # etiqueta real
-(y* math.log(p) + (1-y)*math.log(1-p))

Podemos graficar el comportamiento de la loss function para diferentes valores de $p$

In [None]:
lis1, prob = [], []
for p in range(1, 10):
    y = 1
    lis1.append(-(y* math.log(p/10) + (1-y)*math.log(1-p/10)))
    prob.append(p/10)

import plotly.express as px

px.line(x=prob, y=lis1, title=f'Loss with different predictions: y={y}')

### Retrospectiva

		‚ùì Pregunta: ¬øPero c√≥mo podr√≠amos simplificar estas definiciones que acabamos de dar?

Si visualizamos GBM en un juego de golf, tendr√≠amos un jugador que comienza con un tiro $f_0$, el cual a medida que va realizando cada tiro va aplicando una **correcci√≥n** $\Delta_m$ en cada una de sus jugadas. Con esto, si el jugador corrige sus errores a trav√©s de una funci√≥n MSE, tendremos que el jugador ir√° optimizando esta funci√≥n hasta meter la pelota en el agujero (m√≠nimo de la funci√≥n de p√©rdida).

$\text{MSE LOSS} = \mathcal{L}(y, F_M(X))=\dfrac{1}{N} \sum_{i=1}^N (y_i - F_M(x_i))^2$

<center>
<img src='https://explained.ai/gradient-boosting/images/golf-MSE.png' width=500 />
</center>

		‚ùì ¬øC√≥mo podr√≠a el golfista corregir de mejor forma sus tiros? ¬øExiste alguna forma?.

<center>
<img src='https://explained.ai/gradient-boosting/images/1d-vectors.png' width=500 />
</center>

Como vimos durante el entrenamiento de GBM, este proceso considera un $\nu$ conocido como shrinkage rate o **learning rate**. Este valor nos permitir√° realizar correcciones en las actualizaciones de nuestras funciones $f_m$, ya que podr√≠a darse el caso que el gradiente obtenido durante la optimizaci√≥n sea muy alto y nos permita obtener un m√≠nimo adecuado para el problema. De esta forma:
$$f_m(x) = f_{m-1}(x) + \nu F_m(x)$$
Otra forma podr√≠a ser **cambiando la funci√≥n de p√©rdida** que definimos en el problema. Dependiendo si es un problema de clasificaci√≥n o regresi√≥n existen m√∫ltiples funciones de p√©rdida con diferentes interpretaciones que pueden mejorar significativamente el problema que deseamos resolver. Algunas de estas son:

| Nombre         | Loss                         | Derivada           |  
| -------------- | ---------------------------- | ------------------ |
| Squared Error | $\dfrac{1}{2}(y_i-f(x_i))^2$ | $y_i -f(x_i)$      |
| Absolute Error | $y_i - f(x_i)$               | $sgn(y_i -f(x_i))$ |
| Binary Logloss                | $log(1+e^{-y_if_i})$  | $y-\sigma(2f(x_i))$    |

En tercer lugar tenemos la adici√≥n de un **regularizador** a nuestra funci√≥n de p√©rdida, de esta forma podremos disminuir el sobreajuste de nuestro modelo, generando peque√±as modificaciones en los √°rboles que vamos generando.
$$\mathcal{L}(f) = \sum_{i=1}^Nl(y_i,f(x))+\Omega(f))$$
donde $\Omega$:
$$\Omega(f)= \gamma J+\dfrac{1}{2}\lambda \sum_{j=1}^J w^2_j$$

### Ventajas & Desventajas de GBM

**Ventajas**:

- Capacidad para manejar tanto problemas de regresi√≥n como de clasificaci√≥n.
- Puede capturar relaciones no lineales y caracter√≠sticas complejas en los datos.
- Adaptabilidad a diferentes tipos de predictores, incluyendo variables num√©ricas y categ√≥ricas.
- Robustez ante valores at√≠picos y datos ruidosos.
- Capacidad para manejar grandes conjuntos de datos y escalabilidad.
- Flexibilidad en la elecci√≥n de funciones de p√©rdida y m√©tricas de evaluaci√≥n.
- Capacidad para manejar caracter√≠sticas faltantes y utilizar todas las observaciones disponibles.
- Puede generar importancia de variables para ayudar en la interpretaci√≥n y selecci√≥n de caracter√≠sticas.

**Desventajas**:

- Mayor complejidad y tiempo de entrenamiento en comparaci√≥n con algoritmos m√°s simples.
- Puede ser propenso a sobreajuste si no se controlan los hiperpar√°metros adecuadamente.
- Requiere una configuraci√≥n cuidadosa de los hiperpar√°metros para obtener el mejor rendimiento.
- Interpretaci√≥n m√°s dif√≠cil debido a la naturaleza de combinaci√≥n de m√∫ltiples √°rboles.
- Sensible a datos desequilibrados, donde las clases minoritarias pueden no recibir suficiente atenci√≥n.
- La importancia de las variables puede verse sesgada hacia las variables num√©ricas o con mayor cardinalidad.
- No es adecuado para problemas con alta dimensionalidad o con muchos predictores.
- Mayor consumo de recursos computacionales en comparaci√≥n con algoritmos m√°s simples.


## Ejemplo a Mano ü§®

Como ya sabemos como funciona por detr√°s un algoritmo simple de Gradient Boosting, veamos un ejemplo para ejecutar un peque√±o GBM a mano. Para esto consideremos los siguientes datos:

| index | $feature_1$ | $feature_2$ | y     |  
| ----- | ----- | ----- | ----- |
| 1     | 1.12  | 1.4   | 1     |   
| 2     | 5.45  | 3.1   | 0     |   
| 3     | 3.54  | 1.2   | 1     |   

Considerando los datos construir un modelo de GBM con 2 weak learners y un $\nu$ igual a $0.1$.

**Desarrollo:**
Con la tabla anterior, comenzamos realizando nuestra primera iteraci√≥n (m=1), para ello se considera que todos los datos se encuentran en el mismo nodo. De esta forma, calcularemos nuestra predicci√≥n base a trav√©s de odds y los log(odds)::

$$odds = \dfrac{\text{cantidad de casos exitosos (y=1)}}{\text{cantidad de casos fallidos (y=0)}}$$

$$odds = 2/1 = 2$$
Luego para los $log_n(odds)$:
$$log_n(odds)=log_n(2)=0.693$$
Notar que debido a que todos los valores est√°n en el mismo nodo, todos los valores poseer√°n el mismo $log_n(odds)$, y por lo tanto, la misma predicci√≥n inicial:
$$p=\dfrac{1}{1+e^{-\hat{y}}}=\dfrac{1}{1+e^{-0.693}}=0.67$$
Con este valor, calculamos los pseudo residuos para cada observaci√≥n:
$$r_{10}=y-p_1=1-0.67=0.33$$
$$r_{20}=y-p_2=0-0.67=-0.67$$
$$r_{30}=y-p_3=1-0.67=0.33$$
Tenemos nuestro primer estimador calculado, ahora el siguiente paso es generar un nuevo √°rbol. Para esto vamos a generar un √°rbol donde el nodo padre tiene la regla $feature_2>2$.

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/21_Ensamblaje/Flowchart%20Template.jpg?raw=true' width=400 />
</center>
    
Considerando los resultados obtenidos en la iteraci√≥n anterior, podemos calcular las predicciones del √°rbol $\gamma_i$:

$$\gamma_{i}=\dfrac{\sum_i y_i-p_{i}}{\sum_i p_{i}(1-p_{i})}$$

donde el √≠ndice $i \in (1, 2)$ representa la hoja del √°rbol.

Reemplazando cada valor:
$$\gamma_{1}=\dfrac{0.33+0.33}{2*(0.67(1-0.67))}=1.49$$

$$\gamma_{2}=\dfrac{-0.67}{0.67(1-0.67)}=-3.03$$

Finalmente, con los valores obtenidos calculamos el $f_m$ resultante de las 2 iteraciones para cada una de las hojas:

$$f_1(x)=f_{0}(x)+\nu \cdot \gamma_{1}$$

Reemplazamos para cada uno de los valores que tenemos por fila:

$$\hat{y_1}=f_1(x_1)=0.69+0.1*1.49=0.839$$
$$\hat{y_2}=f_1(x_2)=0.69+0.1*(-3.03)=0.387$$
$$\hat{y_3}=f_1(x_3)=0.69+0.1*1.49=0.839$$

Como podemos ver, estos valores solamente representan un score que no nos indica la probabilidad, para esto aplicamos una softmax para normalizar las salidas:

$$p_1=\dfrac{1}{1+e^{-\hat{y}}}=0.698$$
$$p_2=0.595$$
$$p_3=0.698$$
Finalmente los residuales de cada una de las salidas es:

$$r_{12} = r_{32} = 0.302$$
$$r_{22} = -0.595$$

Noten como el error de cada observaci√≥n disminuye :)

## Ejemplo con C√≥digo üßê

Como ya comprendimos que es un algoritmo de GBM de forma te√≥rica y como este se calcula a mano, el √∫ltimo paso es visualizar como funciona el entrenamiento a trav√©s de c√≥digo. Para realizar este ejercicio modificaremos desde 0 el algoritmo de GBM utilizando los `DecisionTreeClassifier` de scikit-learn.

**Objetivo:** Codificar cada una de las partes que contiene un algoritmo de GBM en una clase de python.

<center>
<img src='https://i0.wp.com/neptune.ai/wp-content/uploads/2022/10/Gradient-boosting-LightGBM-vs-XGBoost.png?resize=591%2C431&ssl=1' width=500 />
</center>
    
Comenzamos definiendo el inicializador de nuestra clase `GBMClassifier`, para esto definimos los siguientes valores:
- `n_estimators` = N√∫mero de √°rboles que vamos a entrenar en el entrenamiento secuencial e iterativo.
- `max_depth` = M√°xima profundidad de los arboles que vamos a entrenar.
- `lr` = Tasa de aprendizaje de nuestro GBM.
- `loss` = Definimos la funci√≥n de p√©rdida que vamos a utilizar para el problema.

```python
class GBMClassifier:
    def __init__(self, n_trees, learning_rate=0.1, max_depth=1, loss_function=None):
        self.n_trees=n_trees
        self.learning_rate=learning_rate
        self.max_depth=max_depth
        self.loss_function = loss_function
```

En segundo lugar debemos definir el m√©todo que entrenar√° a nuestro modelo GBM. Para la construcci√≥n consideramos los siguientes pasos:  
1. Generamos una **lista donde almacenaremos nuestros √°rboles** en cada una de las iteraciones, para esto generamos un atributo donde ser√° almacenado.
2. En segundo lugar es necesario **obtener la predicci√≥n base** de la primera etapa de nuestro modelo utilizando la funci√≥n que calcula los gradientes de la funci√≥n de p√©rdida.
3. Generamos un **loop en el que entrenaremos los $n$ √°rbole**s que definimos al inicializar la GBM y realizamos los siguientes pasos.
	1. **Obtener los gradientes ($\gamma$)** de cada una de las etapas.
	2. **Entrenamos los √°rboles** con los gradientes obtenidos en 1.
	3. **Actualizamos las predicciones** realizadas por nuestros √°rboles.
	4. **Obtenemos $F_M$ utilizando las predicciones** y el learning rate.
	5. **Guardamos el √°rbol entrenado** en esta etapa en nuestra lista de √°rboles.

```python
def fit(self):
    self.trees = []
    self.base_prediction = self._argmin_fun(y=y)
    current_predictions = self.base_prediction * np.ones(shape=y.shape)
    for _ in range(self.n_trees):
        pseudo_residuals = self.loss_function.negative_gradient(y, current_predictions)
        tree = DecisionTreeRegressor(max_depth=self.max_depth)
        tree.fit(X, pseudo_residuals)
        self._update_terminal_nodes(tree, X, y, current_predictions)
        current_predictions += self.learning_rate * tree.predict(X)
        self.trees.append(tree)
```

Para calcular los gradientes de nuestra funci√≥n utilizaremos una funci√≥n de minimizaci√≥n, de esta forma no nos preocupamos de las derivadas. En la definici√≥n de este m√©todo tendremos dos casos: el caso base, cuando no se tiene un $\hat{y}$ y un segundo cuando se tiene las predicciones de un estimador.

```python
def _argmin_fun(self, y, y_hat=None):
    if np.array(y_hat).all() == None:
        fun = lambda c: self.loss_function.loss(y, c)
    else:
        fun = lambda c: self.loss_function.loss(y, y_hat+c)
    c0 = y.mean()
    return minimize(fun=fun, x0=c0).x[0]
```

Finalmente tenemos la actualizaci√≥n de los nodos del √°rbol entrenado, para esto comenzamos obtenido las `ids` de los nodos que contienen las predicciones y los recorremos en un loop:

1. Dentro del loop encontramos todos los valores que est√©n la misma hoja y seleccionamos los `y` e $\hat{y}$ que poseen estos valores.
2. Calculamos el $\gamma$ de estos valores y los reemplazamos en los √°rboles.

```python
def _update_terminal_nodes(self, tree, X, y, current_predictions):
    leaf_nodes = np.nonzero(tree.tree_.children_left == -1)[0]
    leaf_node_for_each_sample = tree.apply(X)
    for leaf in leaf_nodes:
        samples_in_this_leaf = np.where(leaf_node_for_each_sample == leaf)[0]
        y_in_leaf = y.take(samples_in_this_leaf, axis=0)
        preds_in_leaf = current_predictions.take(samples_in_this_leaf, axis=0)
        val = self._argmin_fun(y=y_in_leaf, y_hat=preds_in_leaf)
        tree.tree_.value[leaf, 0, 0] = val
```

### Definamos la clase que creamos

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from scipy.optimize import minimize

class GradientBoostingMachine():
    def __init__(self, n_trees, learning_rate=0.1, max_depth=1, loss_function=None):
        self.n_trees = n_trees
        self.learning_rate = learning_rate
        self.max_depth = max_depth
        self.loss_function = loss_function

    def fit(self, X, y):
        '''Funci√≥n para entrenar GBM'''
        self.trees = []
        self.base_prediction = self._argmin_fun(y=y)  # obtener predicci√≥n base
        current_predictions = self.base_prediction * np.ones_like(y)

        for _ in range(self.n_trees):  # iterar para cada √°rbol a agregar
            pseudo_residuals = self.loss_function.negative_gradient(y, current_predictions)
            tree = DecisionTreeRegressor(max_depth=self.max_depth)
            tree.fit(X, pseudo_residuals)
            self._update_terminal_nodes(tree, X, y, current_predictions)
            current_predictions += self.learning_rate * tree.predict(X)
            self.trees.append(tree)

    def _argmin_fun(self, y, y_hat=None):
        '''Encuentra el mejor valor constante que minimiza la p√©rdida'''
        if y_hat is None:
            fun = lambda c: self.loss_function.loss(y, c * np.ones_like(y))
        else:
            fun = lambda c: self.loss_function.loss(y, y_hat + c)
        c0 = np.array([y.mean()])
        return minimize(fun=fun, x0=c0).x[0]

    def _update_terminal_nodes(self, tree, X, y, current_predictions):
        '''Actualiza los nodos terminales del √°rbol'''
        leaf_nodes = np.nonzero(tree.tree_.children_left == -1)[0]
        leaf_node_for_each_sample = tree.apply(X)
        for leaf in leaf_nodes:
            samples_in_this_leaf = np.where(leaf_node_for_each_sample == leaf)[0]
            if len(samples_in_this_leaf) == 0:
                continue
            y_in_leaf = y[samples_in_this_leaf]
            preds_in_leaf = current_predictions[samples_in_this_leaf]
            val = self._argmin_fun(y=y_in_leaf, y_hat=preds_in_leaf)
            tree.tree_.value[leaf, 0, 0] = val

    def predict(self, X):
        '''Genera predicci√≥n para un nuevo conjunto de datos X'''
        return (self.base_prediction +
                self.learning_rate *
                np.sum([tree.predict(X) for tree in self.trees], axis=0))

#### Probemos!

In [None]:
import numpy.random as rng

from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier

# test data
def make_test_data(n, noise_scale):
    x = np.linspace(0, 10, 500).reshape(-1,1)
    y = (np.where(x < 5, x, 5) + rng.normal(0, noise_scale, size=x.shape)).ravel()
    return x, y

# print model loss scores
def print_model_loss_scores(obj, y, preds, sk_preds):
    print(f'From Scratch Loss = {obj.loss(y, pred):0.4}')
    print(f'Scikit-Learn Loss = {obj.loss(y, sk_pred):0.4}')

Comenzamos generando unos datos con cierto grado de relaci√≥n para generar una regresi√≥n simple:

In [None]:
import plotly.express as px

x, y = make_test_data(500, 0.4)
px.scatter(x, y, title='Datos de Prueba',template='simple_white')

Donde nuestra funci√≥n de perdida viene dada por:

In [None]:
class MSELoss():
    '''User-Defined Squared Error Loss'''

    @staticmethod
    def loss(y, preds):
        return np.mean((y - preds)**2)

    @staticmethod
    def negative_gradient(y, preds):
        return y - preds


gbm = GradientBoostingMachine(n_trees=100,
                              learning_rate=0.5,
                              max_depth=1,
                              loss_function=MSELoss(),
                              )
gbm.fit(x, y)
pred = gbm.predict(x)

Con los datos generamos un loop para visualizar como es el impacto que los estimadores dentro de la regresi√≥n, con esto obtenemos los siguientes gr√°ficos:

In [None]:
import matplotlib.pyplot as plt

def plot_regresion(x, y, y_pred, name="Datos con regresi√≥n", color='r'):
    plt.scatter(x, y)
    plt.plot(x, pred, color='r')
    plt.title(name)
    plt.show()

for i in range(1, 11):
    gbm = GradientBoostingMachine(n_trees=i,
                                  learning_rate=0.5,
                                  max_depth=1,
                                  loss_function=MSELoss()
                                 )
    gbm.fit(x, y)
    pred = gbm.predict(x)
    name_plot = f"Datos con regresi√≥n con {i} estimadores"
    plot_regresion(x, y, pred, name=name_plot)

Comprobemos si esto tiene sentido con el clasificador de boosting que viene en sklearn:

In [None]:
sk_gbm = GradientBoostingRegressor(n_estimators=10,
                                   learning_rate=0.5,
                                   max_depth=1)
sk_gbm.fit(x, y)
sk_pred = sk_gbm.predict(x)

In [None]:
print_model_loss_scores(MSELoss(), y, pred, sk_pred)

De los resultados se observa que a medida que aumentamos el n√∫mero de estimadores es posible generar una regresi√≥n m√°s similar a la tendencia que se√±alan los datos, por lo que la adici√≥n de weak-learners a nuestro modelo fue efectiva!

## Retrospectiva

		‚ùì Pregunta: ¬øa√±adir muchos estimadores que puede provocar?
		‚ùì Pregunta: Sabemos que los √°rboles son interpretables, ¬øque sucede con los algoritmos de ensemble?
		‚ùì Pregunta: ¬øCom√≥ podemos medir el sobre ajuste de estos modelos si son multiples √°rboles?
		‚ùì Pregunta: ¬øA nivel general son buenos estimadores los GBM?


Links de inter√©s:
https://explained.ai/gradient-boosting/descent.html
https://www.cienciadedatos.net/documentos/py09_gradient_boosting_python.html
https://explained.ai/gradient-boosting/L2-loss.html

## Restricciones

<center>
<img src='https://media0.giphy.com/media/xT5LMQSg7kWT4zqsVy/200w.gif?cid=6c09b952x4akl84fpyhlm0306y58pyc5ju6yarl6ifo7h0ev&ep=v1_internal_gif_by_id&rid=200w.gif&ct=g' width=350 />

### Qu√© es una funci√≥n Monot√≥na?

Diferentes variaciones entre una caracter√≠stica X e Y se reconocen como una funci√≥n no mon√≥tona, y podemos representar esto de la siguiente manera:

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915081517.png?raw=true' width=350 />

Por otro lado, si la relaci√≥n aumenta, tenemos una funci√≥n mon√≥tonamente creciente:

$$f(x_{1}, x_{2}, x, \dots, x_{n}) \geq f(x_{1}, x_{2}, x', \dots, x_{n})$$

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915081603.png?raw=true' width=350 />

Finalmente, otro caso es la funci√≥n mon√≥tonamente decreciente, dada por una relaci√≥n decreciente entre X e Y:

$$f(x_{1}, x_{2}, x, \dots, x_{n}) \leq f(x_{1}, x_{2}, x', \dots, x_{n})$$
    
<centering>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915081659.png?raw=true' width=350 />
</centering>


Matem√°ticamente, si podemos establecer **restricciones que nos permitan generar una salida positiva o negativa para cada variable**, esto nos permitir√° **generar un mejor modelo** para el negocio.

Estas son las ideas b√°sicas que necesitamos comprender para saber c√≥mo utilizar esto. El siguiente paso es definir c√≥mo podemos obtener o visualizar el comportamiento mon√≥tono entre las variables (si no tenemos una idea clara de la relaci√≥n). La mejor manera de hacerlo es mediante el uso de Gr√°ficos de Dependencia Parcial (PDP).

### Monoticidad en Modelos
#### Motivaci√≥n

**Si conocemos la relaci√≥n entre dos variables y el objetivo** (por ejemplo, desde un punto de vista te√≥rico), **deber√≠amos generar o ayudar al modelo a generar un modelo con este comportamiento**. Agregar restricciones al modelo nos permitir√° obtener **modelos mejores y con menos sesgo** en sus decisiones. Recuerda, si podemos corregir el sesgo en un modelo, podremos tomar decisiones mejores en el futuro.

Por ejemplo: Supongamos que tenemos pocos datos para una variable $X_1$ que sabemos tiene un comportamiento mon√≥tonamente negativo con el objetivo Y. Sin embargo, el comportamiento en el conjunto de datos de entrenamiento nos muestra una historia diferente (por ejemplo, por pocos datos). Si observ√°ramos la relaci√≥n entre el objetivo y la caracter√≠stica, ver√≠amos una tendencia mon√≥tonamente positiva. ¬øC√≥mo podemos resolver esto?... mediante la imposici√≥n de restricciones de monoton√≠a en el modelo.

![image4](https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915093309.png?raw=true)

¬øQu√© logramos al aplicar estas restricciones a nuestro modelo? B√°sicamente, resolvimos 3 puntos durante el modelado: **Equidad**, **consistencia** y **confiabilidad**.

![](https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915095556.png?raw=true)

#### Dependencias Parciales

¬øQu√© es un **Gr√°fico de Dependencias Parciales**? B√°sicamente, es un **gr√°fico que nos ayuda a comprender el comportamiento de una variable en relaci√≥n con la variable objetivo**. Estos gr√°ficos nos permiten ver el **comportamiento esperado (promedio**) de la variable con respecto al objetivo y se representan como un gr√°fico de l√≠neas donde X es la variable que deseamos analizar e Y es la variable objetivo.

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915082448.png?raw=true' width=800 />
</center>
    
#### ¬øC√≥mo se implementa esto?

La funci√≥n parcial $\hat{f}_S$ se estima calculando promedios en los datos de entrenamiento, tambi√©n conocido como **m√©todo de Monte Carlo**:

$$\hat{f}_S(x_S) = \frac{1}{n} \sum_{i=1}^n \hat{f} (x_S, x_C^{(i)})$$

La funci√≥n parcial nos dice cu√°l es el **efecto marginal promedio** en la predicci√≥n para un valor dado (o valores) de las caracter√≠sticas S. En esta f√≥rmula, $x_C^{(i)}$ son los valores reales de las caracter√≠sticas del conjunto de datos para las caracter√≠sticas en las que no estamos interesados, y n es el n√∫mero de instancias en el conjunto de datos. Se asume en el PDP que las caracter√≠sticas en C no est√°n correlacionadas con las caracter√≠sticas en S.

#### ¬øPor qu√© es relevante?

Una comparaci√≥n de gr√°ficos de dependencias parciales puede proporcionar una visi√≥n importante, por ejemplo, revelar la estabilidad de la predicci√≥n del modelo. Algunas otras caracter√≠sticas que estos modelos permiten son:

1. Se **pueden crear perfiles para todas las observaciones en el conjunto**, as√≠ como para la divisi√≥n en relaci√≥n con otras variables. Por ejemplo, podemos ver c√≥mo se comporta una variable espec√≠fica cuando se diferencia por g√©nero, raza u otros factores.
2. Podemos **detectar algunas relaciones complicadas entre variables**. Por ejemplo, tenemos perfiles de dependencia parcial para dos modelos y podemos ver que uno de los modelos simples (regresi√≥n lineal) no detecta ninguna dependencia, mientras que el perfil de un modelo de caja negra (bosque aleatorio) nota una diferencia.

### Restricciones de Interacci√≥n

Otro **problema** que puede surgir en los modelos que generamos es la **creaci√≥n de modelos sesgados**. Estos casos pueden ocurrir cuando observamos(por ejemplo, con SHAP) que **nuestro modelo relaciona variables que no deber√≠an estar relacionadas**, generando problemas de **discriminaci√≥n** en el camino. Por ejemplo, la figura a continuaci√≥n muestra c√≥mo la raza interact√∫a m√°s intensamente con la duraci√≥n de la estancia, el grupo de edad y los antecedentes por a√±o. Estas interacciones desaparecer√≠an una vez que eliminamos la raza. Sin embargo, dada esta observaci√≥n, se debe prestar especial atenci√≥n si estas caracter√≠sticas no tienen **sesgo racial incorporado**. La investigaci√≥n respalda la necesidad del grupo de edad y los antecedentes por a√±o, lo que deja la duraci√≥n de la estancia como candidata para un escrutinio.

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915100939.png?raw=true' width=500 />
</center>
    
Cuando la profundidad del √°rbol es mayor que uno, muchas variables interact√∫an √∫nicamente con el fin de minimizar la p√©rdida de entrenamiento, y el √°rbol de decisi√≥n resultante puede capturar una relaci√≥n espuria (ruido) en lugar de una relaci√≥n leg√≠tima que generalice en diferentes conjuntos de datos. Las **restricciones de interacci√≥n de caracter√≠sticas** permiten a los usuarios decidir qu√© variables pueden interactuar y cu√°les no.

<center>
<img src='https://xgboost.readthedocs.io/en/stable/_images/feature_interaction_illustration1.svg' width=500 />
</center>
    
Ajustando las restricciones de interacci√≥n en el conjunto de datos anterior y evitando la relaci√≥n entre las variables raciales y el resto de los datos, podemos obtener los siguientes resultados.

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-02/bosting/Pasted%20image%2020230915101644.png?raw=true' width=500 />
</center>
    
Los posibles beneficios incluyen:
- **Mejor rendimiento predictivo** al centrarse en las interacciones que funcionan.
- Menos ruido en las predicciones -> **mejor generalizaci√≥n**.
- Mayor **control para el usuario** sobre lo que el modelo puede ajustar.

## Modelos de Boosting m√°s conocidos?

<center>
<img src='https://media1.tenor.com/m/X2uSWnvzEIoAAAAC/simpsons-monkey-knife-fight.gif' width=350 />

**XGBoost**, **LightGBM** y **CatBoost** son algoritmos de aprendizaje supervisado que utilizan t√©cnicas de boosting con √°rboles de decisi√≥n como weak learners. Son populares debido a su eficiencia en el manejo de grandes cantidades de datos y su capacidad para manejar diversas formas de datos tabulares.

Aunque la idea y el rendimiento son bastante similares entre estos modelos, es crucial entender ciertos aspectos fundamentales que los caracterizan. Por esta raz√≥n, a continuaci√≥n exploraremos algunos de los supuestos clave que definen a cada uno:

### XGBoost (Xtreme Gradient Boosting)

- **Descripci√≥n**: XGBoost es un algoritmo de optimizaci√≥n basado en gradientes que utiliza modelos de √°rboles de decisi√≥n ensamblados. Es conocido por su rendimiento y velocidad.
- **Caracter√≠sticas**:
  - Manejo eficiente de los valores faltantes (los desvia hac√≠a una de las ramas por defecto).
  - Soporte para regularizaci√≥n (L1 y L2) que previene el sobreajuste.
  - Alta flexibilidad, permite definir objetivos de optimizaci√≥n personalizados y funciones de evaluaci√≥n.

### LightGBM (Light Gradient Boosting Machine)
- **Descripci√≥n**: LightGBM es un framework de boosting que utiliza √°rboles de decisi√≥n basados en gradientes. Es similar a XGBoost pero optimizado para ser m√°s r√°pido y eficiente en memoria.
- **Caracter√≠sticas**:
  - Utiliza un algoritmo basado en el histograma para la construcci√≥n de √°rboles, lo que reduce el consumo de memoria y aumenta la velocidad.
  - Soporta el crecimiento del √°rbol por hoja (leaf-wise) que tiende a ser m√°s eficiente para conjuntos de datos grandes.

<center>
<img src='https://www.oreilly.com/api/v2/epubs/9781789346411/files/assets/1da830ed-b89a-4437-83bb-373cdfac49fb.png' width=500 />

> **Nota**: En el contexto de los algoritmos de √°rboles de decisi√≥n, la **forma en que se expanden los √°rboles durante el entrenamiento puede tener un impacto significativo en el rendimiento** y la eficiencia del modelo. Existen dos m√©todos principales para expandir √°rboles: el **crecimiento por mejor primero** (leaf-wise) y el **crecimiento por profundidad primero** (level-wise). Aunque ambos m√©todos pueden resultar en la construcci√≥n del mismo √°rbol si se permite que el √°rbol crezca hasta su m√°xima profundidad, las diferencias en el orden de expansi√≥n del √°rbol son cruciales, especialmente en escenarios pr√°cticos donde no se suele permitir este crecimiento completo debido a la implementaci√≥n de criterios de *early-stopping* y m√©todos de *prunning*.

### CatBoost
- **Descripci√≥n**: CatBoost es un algoritmo de boosting tambi√©n basado en √°rboles de decisi√≥n que maneja muy bien las variables categ√≥ricas sin necesidad de preprocesamiento extenso.
- **Caracter√≠sticas**:
  - Procesamiento autom√°tico de variables categ√≥ricas.
  - Menos sensible a los par√°metros de configuraci√≥n, lo que facilita la puesta en marcha.
  - Utiliza simetrizaci√≥n de √°rboles para reducir el sobreajuste.

> **Nota**: La simetrizaci√≥n en CatBoost implica que durante la creaci√≥n de los √°rboles, el algoritmo utiliza un **enfoque que garantiza que las decisiones tomadas en las etapas tempranas del √°rbol no se basen demasiado en caracter√≠sticas espec√≠ficas**, ayudando a que el modelo sea m√°s general y menos propenso a ajustarse excesivamente a los datos de entrenamiento.

### Diferencias Principales
- **Manejo de datos**: CatBoost maneja autom√°ticamente las variables categ√≥ricas, mientras que en XGBoost y LightGBM se necesita un preprocesamiento previo (a la fecha esto ya fue implementado por los otros algoritmos).
- **Velocidad y uso de memoria**: LightGBM es generalmente m√°s r√°pido y utiliza menos memoria que XGBoost debido a su algoritmo basado en histogramas.CatBoost, aunque eficiente, puede ser m√°s lento que los otros dos debido a su tratamiento de las variables categ√≥ricas.
- **Facilidad de uso**: CatBoost es menos sensible a la configuraci√≥n de par√°metros, lo que lo hace m√°s f√°cil de usar para principiantes.

### Ejemplo B√°sico de Uso con Scikit-Learn
A continuaci√≥n, un peque√±o ejemplo de c√≥mo se usa cada uno de estos algoritmos con los wrappers de clasificaci√≥n en Python:

In [None]:
!pip install -q -U xgboost
!pip install -q -U lightgbm
!pip install -q -U catboost

**XGBoost**:

In [None]:
from xgboost import XGBClassifier
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

model = XGBClassifier()
model.fit(X_train, y_train)
print(model.score(X_test, y_test))

**LGBM**:

In [None]:
from lightgbm import LGBMClassifier

model = LGBMClassifier(verbose=-1) # `verbose=-1` para no mostrar mensajes de entrenamiento
model.fit(X_train, y_train)
print(model.score(X_test, y_test))

**CatBoost**:

In [None]:
from catboost import CatBoostClassifier

model = CatBoostClassifier(verbose=0)  # `verbose=0` para no mostrar mensajes de entrenamiento
model.fit(X_train, y_train)
print(model.score(X_test, y_test))

## Importancia de Features

<center>
<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2025-01/gbm/feature_importances.png?raw=true' width=750 />
</center>

Como sabemos, los algoritmos basados en √°rboles eval√∫an la relevancia de sus caracter√≠sticas observando c√≥mo sus variables contribuyen a la divisi√≥n de los nodos. Por esta raz√≥n, algoritmos como XGBoost tambi√©n incluyen m√©todos para determinar la importancia de las caracter√≠sticas. Una manera de visualizar la relevancia de las features en XGBoost es la siguiente:

In [None]:
import xgboost as xgb
import matplotlib.pyplot as plt
import pandas as pd

def plot_importance(model, importance_type='weight'):
    # Obtener las importancias de las caracter√≠sticas
    importance_dict = model.get_booster().get_score(importance_type=importance_type)

    # Convertir las importancias a un DataFrame para facilitar la visualizaci√≥n
    importance_df = pd.DataFrame({
        'Feature': importance_dict.keys(),
        'Importance': importance_dict.values()
    }).sort_values(by='Importance', ascending=False)

    # Graficar las importancias
    plt.figure(figsize=(10, 6))
    plt.barh(importance_df['Feature'], importance_df['Importance'])
    plt.xlabel('Importance')
    plt.ylabel('Features')
    plt.title('Feature Importance')
    plt.gca().invert_yaxis()  # Invertir el eje y para tener la caracter√≠stica m√°s importante en la parte superior
    plt.show()

# Asumiendo que X_train, y_train est√°n predefinidos y son adecuados para el modelo
model = xgb.XGBClassifier()
model.fit(X_train, y_train)

plot_importance(model, importance_type='weight')

ok, pero qu√© sucede si ploteamos otra importancia?

In [None]:
plot_importance(model, importance_type='gain')

## ¬øC√≥mo se ve el overfitting en estos modelos?

<center>
<img src='https://media.tenor.com/dtWcrQzDfsAAAAAM/the-simpsons-homer-simpson.gif' width=350 />
</center>

Debido a que estos modelos se basan en la iteraci√≥n tras iteraci√≥n, consisten en una acumulaci√≥n de estimadores d√©biles que se van a√±adiendo en cada ciclo. Este enfoque puede llevar a un considerable punto de controversia, ya que agregar **demasiados estimadores podr√≠a provocar un sobreajuste del modelo**.
Aunque en la clase anterior observamos c√≥mo identificar sobreajustes mediante curvas de aprendizaje, el **entrenamiento por iteraciones** facilita la visualizaci√≥n por etapas, lo que hace m√°s intuitivos los problemas durante el entrenamiento.

In [None]:
import plotly.graph_objects as go
from sklearn.metrics import accuracy_score

def plot_training(model, X_test, y_test):
    y_pred = model.predict(X_test)
    predictions = [round(value, 2) for value in y_pred]

    # Evaluamos los modelos
    accuracy = accuracy_score(y_test, predictions)
    print("Accuracy: %.2f%%" % (accuracy * 100.0))

    results = model.evals_result()
    epochs = len(results['validation_0']['merror'])

    # Log Loss Plot
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=list(range(epochs)), y=results['validation_0']['mlogloss'],
                             mode='lines', name='Train Log Loss'))
    fig.add_trace(go.Scatter(x=list(range(epochs)), y=results['validation_1']['mlogloss'],
                             mode='lines', name='Test Log Loss'))
    fig.update_layout(title='XGBoost Log Loss Over Epochs',
                      template='simple_white',
                      xaxis_title='Epoch',
                      yaxis_title='Log Loss',
                      legend_title='Dataset')
    fig.show()

    # Classification Error Plot
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=list(range(epochs)), y=results['validation_0']['merror'],
                             mode='lines', name='Train Error'))
    fig.add_trace(go.Scatter(x=list(range(epochs)), y=results['validation_1']['merror'],
                             mode='lines', name='Test Error'))
    fig.update_layout(title='XGBoost Classification Error Over Epochs',
                      template='simple_white',
                      xaxis_title='Epoch',
                      yaxis_title='Classification Error',
                      legend_title='Dataset')
    fig.show()



In [None]:
model = XGBClassifier(eval_metric=["merror", "mlogloss"])
eval_set = [(X_train, y_train), (X_test, y_test)]
model.fit(
    X_train, y_train,
    eval_set=eval_set,
    verbose=False
)

In [None]:
plot_training(model, X_test, y_test)

### Early-Stopping

El *early stopping* en XGBoost es una t√©cnica muy √∫til para **prevenir el sobreajuste** y mejorar la eficiencia del entrenamiento. Este m√©todo permite **detener el proceso de entrenamiento de manera anticipada si no se observan mejoras en la m√©trica de evaluaci√≥n despu√©s de un n√∫mero espec√≠fico de rondas consecutivas**.

Cuando configuras XGBoost para utilizar *early stopping*, debes **especificar una m√©trica de evaluaci√≥n**, como la tasa de error o log-loss para clasificaci√≥n, y RMSE para regresi√≥n. Tambi√©n debes **definir el n√∫mero de rondas sin mejora** despu√©s de las cuales el entrenamiento se detendr√°. Este n√∫mero se conoce como el par√°metro `early_stopping_rounds`.

Por ejemplo, si estableces `early_stopping_rounds=10`, XGBoost evaluar√° la m√©trica seleccionada en un conjunto de validaci√≥n despu√©s de cada ronda de entrenamiento. Si la m√©trica no mejora despu√©s de 10 rondas consecutivas, XGBoost detiene el entrenamiento. Esto no solo previene el sobreajuste, sino que tambi√©n ahorra tiempo y recursos computacionales.

Adem√°s, **XGBoost permite continuar el entrenamiento desde la √∫ltima iteraci√≥n guardada** si se desea ajustar a√∫n m√°s el modelo. Esto es √∫til en casos donde las condiciones iniciales de *early stopping* fueron demasiado conservadoras. Utilizar *early stopping* es una pr√°ctica recomendada cuando se utilizan modelos avanzados de boosting como XGBoost, especialmente en competencias de modelado predictivo donde el rendimiento √≥ptimo del modelo es crucial.

In [None]:
model = XGBClassifier(early_stopping_rounds=1, eval_metric=["merror", "mlogloss"])
eval_set = [(X_train, y_train), (X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_set, verbose=False)
plot_training(model, X_test, y_test)