# Boosting

Desde una perspectiva general, un ensamble de modelos base puede verse como un **modelo aditivo de funciones base adaptativas:**
$$f(\boldsymbol{x};\boldsymbol{\theta})%
=\sum_{m=1}^M \beta_m\,F_m(\boldsymbol{x};\boldsymbol{\theta}_m)$$
donde $F_m$ es un aproximador de funciones, no necesariamente árbol, y nuestro objetivo es minimizar la pérdida empírica (con regularizador)
$$\mathcal{L}(f)=\sum_{i=1}^N\ell(y_i,f(\boldsymbol{x}_i))$$

**Boosting (potenciación)** ajusta secuencialmente modelos aditivos de clasificadores binarios, $F_m\in\{-1, +1\}$. Primero ajusta $F_1$ a los datos y se ponderan con más peso los errores. Luego ajusta $F_2$ a los datos ponderados en el paso anterior. El proceso sigue hasta llegar a $M$ componentes.

Si la precisión de cada **weak learner** $F_m$ es mejor que el azar ($50\%$), la del **strong learner** $f$ será mejor que la de sus componentes.

En comparación con bagging y bosques, boosting suele ofrecer mejores resultados pues reduce el sesgo del aprendiz fuerte ajustando árboles que dependen unos de otros; bagging y bosques, sin embargo, se limitan a reducir la varianza ajustando árboles independientes.

Boosting se propuso en el marco de la teoría de aprendizaje PAC, para clasificación binaria y con pérdida específica. Actualmente se plantea bajo una perspectiva estadística más general, con funciones de pérdida arbitrarias para extender su aplicación a regresión, clasificación multi-clase, ranking, etc.

**Ejemplo:** clasificación de correos en spam y no-spam

In [1]:
import pandas as pd
import numpy as np
from catboost import CatBoostClassifier
from sklearn.metrics import accuracy_score

df = pd.read_csv("https://github.com/empathy87/The-Elements-of-Statistical-Learning-Python-Notebooks/blob/master/data/Spam.txt?raw=True")
is_test = df.test.values; y = df.spam.values; X = df.drop(['test','spam'], axis=1).to_numpy(copy=True)
X_train, X_test = X[is_test == 0], X[is_test == 1]
y_train, y_test = y[is_test == 0], y[is_test == 1]
ntrees_list = [10, 50, 100, 200, 300, 400, 500]
for ntrees in ntrees_list:
    clf = CatBoostClassifier(iterations=ntrees, random_state=10, learning_rate=0.2, verbose=False).fit(X_train, y_train)
    y_test_hat = clf.predict(X_test)
    acc = accuracy_score(y_test, y_test_hat)
    print(f'Boosting {ntrees} trees, test err {1 - acc:.1%}')

Boosting 10 trees, test err 6.2%
Boosting 50 trees, test err 5.4%
Boosting 100 trees, test err 4.7%
Boosting 200 trees, test err 4.6%
Boosting 300 trees, test err 4.8%
Boosting 400 trees, test err 4.6%
Boosting 500 trees, test err 4.4%
