# Modelos Ensamblados - Boosting
- Autor: Michael Larico
- Módulo 5: Modelos Ensamblados

## ÍNDICE

1. Introducción a los Modelos Aditivos
2. Introducción al Boosting de Regresión
3. Intuición sobre el Gradient Boosting
4. Ejemplo básico del Gradient Boosting de Regresión
5. Medida del rendimiento del Modelo
6. Tuning de Hiperparámetros
7. Variantes: XGBoost, Adaboost, LightGBM, Catboost

## 1. Introducción a los Modelos Aditivos

Antes de entrar en detalle sobre los modelos del tipo **Boosting**, veamos un ejemplo de los modelos aditivos debido a que son la base del Boosting. 

La idea es bastante simple: **Vamos a combinar un conjunto de términos simples para crear una expresión más complicada**. En el mundo de **Machine Learning**, esa expresión (**función**) representa un modelo que correlaciona (o mapea) la característica de alguna observación, x, con un valor objetivo escalar, y.

Es una técnica realmente útil porque a menudo podemos interpretar y construir los términos simples más fácilmente que descifrar la función general de una sola vez.

Considere la siguiente curva que muestra **y** como alguna función desconocida pero no trivial de x.

<img src="images/L2-loss_additive_2.svg" width="500" style="margin: 20px auto;">

Supongamos que la función se compone de varios términos simples, por lo que vamos a intentar adivinar cuáles son. Para ello, vamos a agregar cada término y evaluaremos la diferencia entre la función combinada actual y la función objetivo deseada de tal forma que podamos determinar el siguiente término a agregar.

Nuestra primera aproximación podría ser la recta horizontal **y = 30** porque podemos ver que la interesección con el eje y (en x=0) es 30. Miremos la primera gráfica en la siguiente secuencia gráfica. Naturalmente, la pendiente es incorrecta, por lo que deberíamos sumarle la recta de 45 grados (con pendiente igual a 1) obteniendo como resultado la segunda gráfica. Además, resulta que la parte ondulada viene de la función **y = sin(x)** por lo que sumandole obtendremos la gráfica de nuestra función objetivo.

<br>
<img src="images/L2-loss_additive_3.svg" width="1200" style="margin: 20px auto;">


Descomponer una función complicada en subfunciones más simples no es más que aplicar la estrategia **"Divide y vencerás"** que usamos todo el tiempo cuando queremos resolver un problema complejo. En este caso, estamos dividiendo una función potencialmente muy complicada en subfunciones más simples y manejables:

$$F(x) = f_{1}(x) + f_{2}(x) + f_{3}(x)$$, donde:

$$f_{1}(x) = 30$$
$$f_{2}(x) = x$$
$$f_{3}(x) = sin(x)$$

De manera más general, los matemáticos describen la descomposición de una función en la adición de una serie de M subfunciones:

$$F_{M}(x) = f_{1}(x) + ... + f_{M}(x) = \sum_{m=1}^{M}f_{m}(x)$$

En el mundo de Machine Learning, tenemos un conjunto de datos que utilizaremos para crear una función que dibuje una curva que se ajuste a los puntos. Llamamos a esta función un modelo que asigna un valor y a un conjunto de datos X, de tal forma que hace predicciones dadas algunas observaciones x desconocidas. Agregar un conjunto de subfunciones para crear una función compuesta que modele algunos puntos de datos se denomina **modelo aditivo**.

Los modelos de Gradient Boosting usan el modelado aditivo para empujar gradualmente un modelo aproximado hacia un modelo realmento bueno, agregando submodelos simples.

## 2. Introducción al Boosting de Regresión

Boosting es una estrategia poco definida que combina múltiples modelos simples en un solo modelo compuesto. La idea es que, a medida que introducimos modelos más simples, el modelo resultante se convierta en un predictor más fuerte. En la terminología del boosting, los modelos simples se llaman **weak models** o **weak learners**.

En el contexto de una regresión, tenemos que hacer predicciones de valores continuos tal como el precio de un alquiler, basados en cierta información tal como el área del inmueble. Para simplicar las cosas, en esta demostración trabajaremos con una sola variable o característica pero, en general, cada observación tiene un vector de características.

El entrenamiento de un modelo de regresión es una cuestión de ajustar una función a través de los puntos de datos lo mejor que podamos. Dado un único vector de características y un valor de objetivo escalar **y** para un sola observación, podemos xpresar un modelo compuesto que predice (aproxima) como la adición de M módelos débiles:

$$\hat{y} = \sum_{m=1}^{M}f_{m}(x)$$


Los matemáticos representan los modelos débiles y compuestos como funciones, pero en la práctica los modelos pueden ser cualquier modelo tal como los K-vecinos más cercanos o árboles de decisión. Como todos usan árboles para Boosting, nos enfocaremos en las implementaciones que usan árboles de regresión para modelos débiles, lo que también simplifica en gran medida las matemáticas.

Más adelante, utilizaremos un vector de N características como filas en una matriz:
$$X = [x_{1},x_{2},...,x_{N}]$$

y N targets en un vector:
$$y = [y_{1},y_{2},...,y_{N}]$$
para N observaciones.

A menudo ocurre que un modelo aditivo puede construir los términos individuales de forma independiente y en paralelo (bagging), pero ese no es el caso del Boosting. Boosting construye y agrega modelos débiles de forma escalonada, uno después del otro, cada uno elegido para mejorar el rendimiento general del modelo. La estrategia del Boosting es codiciosa en el sentido de que la elección nunca altera las funcionas previas. Podríamos elegir dejar de agregar modelos débiles cuando el rendimiento sea lo suficientemente bueno o cuando no agregue nada. En la práctica, elegimos el número de etapas M como un hiperparámetro del modelo general. Permitir que M crezca arbitrariamente aumenta el riesgo de **overfitting**.

Debido a que las estrategias codiciosas eligen un modelo débil a la vez, a menudo verás los modelos Boosting expresados usando esta formulación recursiva equivalente:

$$F_{m}(x) = F_{m-1}(x) + F_{m}(x)$$

Lo que quiere decir esto es que debemos modificar el modelo anterior para obtener el próximo modelo.

Boosting por sí mismo no especifica como elegir a los weak models. Boosting ni siquiera especifica la forma de los modelos, pero la forma del modelo débil dicta la forma del meta-modelo. Por ejemplo, si todos los modelos débiles son modelos lineales, entonces el metamodelo resultante es un modelo lineal simple. Si utilizamos pequeños árboles de regresión como modelos débiles, el resultado es un bosque de árboles cuyas predicciones se suman.

Veamos si podemos diseñar una estrategia para elegir modelos débiles para crear nuestro propio algoritmo de Boosting para una sola observación. Entonces, podemos extenderlo para trabajar en las múltiples observaciones que encontraríamos en la práctica.

# 3. Intuición sobre el Gradient Boosting

Para construir un modelo Boosting de regresión, comencemos creando un modelo malo, $$f_{0}(x),$$que prediga una aproximación inicial de **y** dado un vector de características. Luego, empujemos gradualmente el modelo general $$F_{m}(x)$$ hacia el valor objetivo conocido "y" agregando uno o más ajustes, $$\triangle_{m}(x):$$

$$\hat{y} = f_{0}(x) + \triangle_{1}(x) + \triangle_{2}(x) + ... + + \triangle_{M}(x)$$
$$\hat{y} = f_{0}(x) + \sum_{m=1}^{M}\triangle_{m}(x)$$
$$\hat{y} = F_{M}(x)$$

O, usando una relación de recurrencia:

$$F_{0}(x) = f_{0}(x)$$
$$F_{m}(x) = F_{m-1}(x) + \triangle_{m}(x)$$

Podría ser útil pensar en este enfoque de Boosting como un golfista que golpea inicialmente una pelota de golf hacia el hoyo **y** pero llega muy lejos como $$f_{0}(x).$$ Luego, el golfista golpea repetidamente la pelota más suavemente, tratando de acercar la pelota hacia el hoyo, luego de volver a evaluar la dirección y la distancia hacia el hoyo en cada etapa. El siguiente diagrama ilustra los 5 golpes:

In [3]:
from comet_ml import Experiment

In [5]:
exp = Experiment(api_key="ULkatyRghlUtgkfrkIHaFVIsa", project_name="general", workspace="mlaricobar")

jupyter comet_ml enable 
COMET INFO: Experiment is live on comet.ml https://www.comet.ml/mlaricobar/general/c1fb21a5e8704b7bb63b751a7e79f96f



In [6]:

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix
random_state = 42

cancer = load_breast_cancer()
print("cancer.keys(): {}".format(cancer.keys()))
print("Shape of cancer data: {}\n".format(cancer.data.shape))
print("Sample counts per class:\n{}".format(
      {n: v for n, v in zip(cancer.target_names, np.bincount(cancer.target))}))
print("\nFeature names:\n{}".format(cancer.feature_names))

X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,
    cancer.target,
    stratify=cancer.target,
    random_state=random_state)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

logreg = LogisticRegression()

param_grid = {'C':[0.001,0.01,0.1,1,5,10,20,50,100]}

clf = GridSearchCV(logreg,
                    param_grid=param_grid,
                    cv=10,
                    n_jobs=-1)

clf.fit(X_train_scaled, y_train)

y_pred = clf.predict(X_test_scaled)

print("\nResults\nConfusion matrix \n {}".format(confusion_matrix(y_test, y_pred)))

f1 = f1_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

print("F1 score is {:6.3f}".format(f1))
print("Precision score is {:6.3f}".format(precision))
print("Recall score is {:6.3f}".format(recall))

#these will be logged to your sklearn-demos project on Comet.ml
params={"random_state":random_state,
        "model_type":"logreg",
        "scaler":"standard scaler",
        "param_grid":str(param_grid),
        "stratify":True
}

metrics = {"f1":f1,
"recall":recall,
"precision":precision
}

exp.log_dataset_hash(X_train_scaled)
exp.log_multiple_params(params)
exp.log_multiple_metrics(metrics)

cancer.keys(): dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
Shape of cancer data: (569, 30)

Sample counts per class:
{'malignant': 212, 'benign': 357}

Feature names:
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']

Results
Confusion matrix 
 [[52  1]
 [ 1 89]]
F1 score is  0.989
Precision score is  0.989
Recall score is  0.989


In [7]:
X_train_scaled

array([[ 1.65909581,  0.21720545,  1.6106199 , ...,  0.70183483,
        -0.55608415,  0.38878074],
       [-0.33816539, -1.38996798, -0.40166719, ..., -0.90060625,
        -0.92364564, -0.79723299],
       [ 0.87445748, -0.65165862,  1.01036969, ...,  2.09675055,
         1.76721075,  1.16521656],
       ...,
       [ 0.39511479,  1.04780348,  0.50533158, ...,  1.52062207,
         0.15453473,  1.20793655],
       [ 0.84877841, -0.04840585,  0.90273861, ...,  2.08632962,
         0.30155932,  0.34873075],
       [-1.22637597, -0.51885297, -1.20434661, ..., -0.9053701 ,
        -0.58058825,  0.03206882]])

In [None]:
from traitlets.config.manager import BaseJSONConfigManager
path = "C:\\Users\\S73984\\AppData\\Local\\Continuum\\anaconda3\\Library\\envs\\base\\etc\\jupyter\\nbconfig"
cm = BaseJSONConfigManager(config_dir=path)
cm.update("livereveal", {
              "theme": "sky",
              "transition": "zoom",
              "start_slideshow_at": "selected",
})