# Big Data & Machine Learning (UBA) 2025
## Tutorial 18 - Métodos de ensambles II: Boosting


### Motivación
Vimos el método de Árboles para clasificación o regresión, que se basaba en partir el espacio de atributos en 'rectángulos' o regiones.

Si bien este método tenía algunas ventajas como que es fácil de ilustrar y explicar, suele tener menos capacidad predictiva que otros métodos y suele ser poco robusto.

Entonces...

### ¿Qué son los métodos de Ensamble?
Son métodos que tienen como objetivo mejorar el rendimiento predictivo de un modelo dado. El principio general de los métodos de ensamble es construir una combinación lineal de otros modelos, en lugar de utilizar un único modelo que por si solo tenga bajo poder predictivo (a estos se le llama *weak learners*). Por ejemplo, hay ensambles que combinan varios árboles de decisión para producir una mejor predicción que un solo árbol de decisión. El ensemble ayuda a reducir la varianza y/o el sesgo.

### [Ensambles](https://scikit-learn.org/stable/modules/ensemble.html) 
El objetivo de los algoritmos de *ensemble* es combinar las predicciones de varios estimadores base construidos con un algoritmo de aprendizaje dado para mejorar la generalización / robustez sobre un solo estimador.

#### Hay dos familias de métodos de ensamble que generalmente se distinguen:

**Métodos de promedio:** el principio impulsor es construir varios estimadores de forma independiente y luego promediar sus predicciones. En promedio, el estimador combinado suele ser mejor que cualquiera de los estimadores de base única porque su varianza es menor y ayuda a evitar el sobreajuste. **Ejemplos:** *Bootstrap Aggregation (Bagging)*, *Random Forest*.

**Métodos de Boosting:** los estimadores base se construyen secuencialmente y se intenta reducir el sesgo del estimador combinado. Esto puede causar sobreajuste. Para evitarlo, el ajuste de parámetros juega un papel importante en la mejora de estos algoritmos. La motivación es combinar varios modelos débiles para producir un modelo más robusto. 
**Ejemplos:** *AdaBoost*, *Gradient Tree Boosting*, *GBM*, *XGBM*.

#### Ventajas del ensamble
- Los ensambles mejoran la precisión del modelo y funcionan en la mayoría de los casos.
- Los ensambles hacen que el modelo sea más robusto y estable, lo que garantiza un rendimiento decente en los casos de prueba en la mayoría de los escenarios.
- Los ensambles se pueden utilizar para capturar relaciones lineales, simples y complejas, así como no lineales en los datos. Esto se puede hacer usando dos modelos diferentes y formando un ensamble con ellos.

#### Desventajas del ensamble
- Los ensambles reducen la interpretabilidad del modelo y hacen que sea difícil comunicar los resultados.
- Llevan más tiempo y, por lo tanto, podría no ser la mejor idea para aplicaciones en tiempo real.
- La selección de modelos para crear un ensamble es un arte realmente difícil de dominar.

#### Técnicas básicas de ensambles
- *Majority Vote*: es una de las formas más simples de combinar predicciones de múltiples algoritmos de aprendizaje automático. Cada modelo base hace una predicción y vota para cada muestra. Para cada una de las observaciones, la clase con más votos se considera la clase predictiva final. Se utiliza principalmente para problemas de clasificación.
- *Promedio*: el promedio generalmente se usa para problemas de regresión (pero se puede utilizar al estimar las probabilidades en las tareas de clasificación). Las predicciones se extraen de varios modelos y se utiliza un promedio de las predicciones para hacer la predicción final.
- *Promedio ponderado*: al igual que el promedio, el promedio ponderado también se usa para tareas de regresión. Alternativamente, se puede utilizar al estimar probabilidades en problemas de clasificación. A los modelos de base se les asignan diferentes ponderaciones, que representan la importancia de cada modelo en la predicción.


In [4]:
import pandas as pd 
import numpy as np 
import seaborn as sns
from ISLP import load_data
import matplotlib.pyplot as plt

from sklearn import metrics 
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.utils import resample
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split 
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor 

### Ejercicio práctico con la base de Boston Housing 

En este ejemplo vamos a usar la base de datos de [Boston](https://islp.readthedocs.io/en/latest/datasets/Boston.html) con datos de casas.

**Variables in database:**
- CRIM:     per capita crime rate by town
- ZN:    proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS:   proportion of non-retail business acres per town
- CHAS:  Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX: nitric oxides concentration (parts per 10 million)
- RM: average number of rooms per dwelling
- AGE:      proportion of owner-occupied units built prior to 1940
- DIS:      weighted distances to five Boston employment centres
- RAD:      index of accessibility to radial highways
- TAX:      full-value property-tax rate per USD10,000
- PTRATIO:  pupil-teacher ratio by town
- LSTAT:    % lower status of the population
- MEDV:     Median value of owner-occupied homes in USD1000's

In [6]:
dataset = load_data('Boston')
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   crim     506 non-null    float64
 1   zn       506 non-null    float64
 2   indus    506 non-null    float64
 3   chas     506 non-null    int64  
 4   nox      506 non-null    float64
 5   rm       506 non-null    float64
 6   age      506 non-null    float64
 7   dis      506 non-null    float64
 8   rad      506 non-null    int64  
 9   tax      506 non-null    int64  
 10  ptratio  506 non-null    float64
 11  lstat    506 non-null    float64
 12  medv     506 non-null    float64
dtypes: float64(10), int64(3)
memory usage: 51.5 KB


In [8]:
print(dataset.shape)
dataset.head() 

(506, 13)


Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,5.33,36.2


In [10]:
dataset.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
crim,506.0,3.61,8.6,0.01,0.08,0.26,3.68,88.98
zn,506.0,11.36,23.32,0.0,0.0,0.0,12.5,100.0
indus,506.0,11.14,6.86,0.46,5.19,9.69,18.1,27.74
chas,506.0,0.07,0.25,0.0,0.0,0.0,0.0,1.0
nox,506.0,0.55,0.12,0.38,0.45,0.54,0.62,0.87
rm,506.0,6.28,0.7,3.56,5.89,6.21,6.62,8.78
age,506.0,68.57,28.15,2.9,45.02,77.5,94.07,100.0
dis,506.0,3.8,2.11,1.13,2.1,3.21,5.19,12.13
rad,506.0,9.55,8.71,1.0,4.0,5.0,24.0,24.0
tax,506.0,408.24,168.54,187.0,279.0,330.0,666.0,711.0


#### Preparación de datos para entrenamiento

En primer lugar, dividiremos los datos en conjuntos de "atributos" (X) y "etiquetas" (y). El resultado luego se dividirá en conjuntos de entrenamiento y prueba.

En segundo lugar, notarán que los valores de la base de datos no están muy bien escalados. El campo TAX tiene valores en el rango de las centenas, mientras que RAD por ejemplo tiene valores en el rango de unidades. Será mejor si escalamos los datos. Usaremos la clase StandardScaler de Scikit-Learn para hacerlo.

In [12]:
X = dataset.iloc[:, 0:12]
y = dataset.iloc[:, 12].values
X.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,lstat
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,4.98
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,4.03
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,2.94
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,5.33


In [14]:
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [16]:
sc = StandardScaler() 
X_train = sc.fit_transform(X_train) 
X_test = sc.transform(X_test)

### AdaBoost
Un regresor AdaBoost es un metaestimador que comienza ajustando un regresor en el conjunto de datos original y luego ajusta copias adicionales del regresor en el mismo conjunto de datos, pero donde los pesos de las instancias se ajustan según el error de la predicción actual. Como tal, los regresores posteriores se enfocan más en casos difíciles.

Para utilizar AdaBoost Regressor con Scikit-Learn tenemos [AdaBoostRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostRegressor.html?highlight=adaboost#sklearn.ensemble.AdaBoostRegressor) y [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html?highlight=adaboost#sklearn.ensemble.AdaBoostClassifier). En este caso usaremos AdaBoostRegressor dado que queremos predecir el valor de las viviendas


![Ada.png](attachment:Ada.png)

In [20]:
regressor = AdaBoostRegressor(n_estimators=35, random_state=1)
# estimator=None    DecisionTreeRegressor initialized with max_depth=3.
regressor.fit(X_train, Y_train) 
y_pred = regressor.predict(X_test)
mse_test_adaBoo = metrics.mean_squared_error(Y_test, y_pred)
print('MSE testeo:', round(mse_test_adaBoo,2))

MSE testeo: 25.41


#### Ajustando el parametro de penalidad $\lambda$

In [22]:
regressor = AdaBoostRegressor(n_estimators=35, learning_rate=0.001, random_state=1)
# learning_rate penalizacion de ajuste (lambda en las slides). Default es 1
regressor.fit(X_train, Y_train) 
y_pred = regressor.predict(X_test)
mse_test_adaBoo2 = metrics.mean_squared_error(Y_test, y_pred)

In [24]:
regressor = AdaBoostRegressor(n_estimators=35, learning_rate=0.01, random_state=1)
regressor.fit(X_train, Y_train) 
y_pred = regressor.predict(X_test)
mse_test_adaBoo3 = metrics.mean_squared_error(Y_test, y_pred)

In [26]:
regressor = AdaBoostRegressor(n_estimators=35, learning_rate=5, random_state=1)
regressor.fit(X_train, Y_train) 
y_pred = regressor.predict(X_test)
mse_test_adaBoo4 = metrics.mean_squared_error(Y_test, y_pred)

In [32]:
print('MSE test de:', 
      '\n lambda=1 (default) :', round(mse_test_adaBoo,2),
      '\n lambda=0.001 :', round(mse_test_adaBoo2,2), 
      '\n lambda=0.01 :', round(mse_test_adaBoo3,2),
      '\n lambda=5 :', round(mse_test_adaBoo4,2))

MSE test de: 
 lambda=1 (default) : 25.41 
 lambda=0.001 : 26.91 
 lambda=0.01 : 27.12 
 lambda=5 : 38.38


#### Usando cross-validation para elegir los hiperparámetros en AdaBoosting

In [34]:
params_grid_ab = {
    'n_estimators': [25, 50, 75, 100],
    'learning_rate': [0.001, 0.01, 0.1, 1, 1.5, 5]   
}

cv = KFold(n_splits=5, random_state=100, shuffle=True)
adaB = AdaBoostRegressor(random_state=1)
grid_adb = GridSearchCV(estimator=adaB, param_grid=params_grid_ab, cv=cv, verbose=2)
grid_adb.fit(X_train, Y_train)

Fitting 5 folds for each of 24 candidates, totalling 120 fits
[CV] END ...............learning_rate=0.001, n_estimators=25; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=25; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=25; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=25; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=25; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=50; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=50; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=50; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=50; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=50; total time=   0.0s
[CV] END ...............learning_rate=0.001, n_estimators=75; total time=   0.1s
[CV] END ...............learning_rate=0.001, n_

In [36]:
grid_adb.best_estimator_

In [40]:
# Evaluamos el modelo en base de entrenamiento
regressor = AdaBoostRegressor(n_estimators=100, learning_rate=1.5, random_state=1) 
regressor.fit(X_train, Y_train) 
y_pred_adb = regressor.predict(X_test)
mse_test_adb = metrics.mean_squared_error(Y_test, y_pred_adb)
print('MSE test', round(mse_test_adb,2))

MSE test 26.95


### Gradient Boosting for regression
GB construye un modelo aditivo de manera progresiva por etapas; es un método de aprendizaje lento donde los sucesivos modelos de árboles de decisión son entrenados para predecir los residuales del árbol antecesor permitiendo que los resultados de los modelos subsiguientes sean agregados y corrijan los errores promediando las predicciones.

Para determinar los parámetros que tendrán cada uno de los árboles de decisión agregados al modelo se utiliza un procedimiento descenso por gradiente que minimizará la función de pérdida. De esta forma se van agregando árboles con distintos parámetros de forma tal que la combinación de ellos minimiza la pérdida del modelo y mejora la predicción.

La diferencia con adaboost es que **ya no pesamos cada punto independientemente**, sino que proponemos una **función de error** cuyo gradiente tenemos que minimizar. El hiperparámetro de **Learning Rate ($\eta$)** es un escalar entre $\eta$ > 0 (aunque se recomienda que sea chiquito $<1$) que multiplica los residuales para asegurar convergencia. A medida que se reduce el valor de $\eta$ es recomendable aumentar el número de estimadores N.
La predicción del modelo final estará luego conformada de la siguiente manera:

$y_{pred} = y_1 + \eta r_1 + ... +  \eta r_N$

Para utilizar Gradient Boosting Regressor con Scikit-Learn tenemos [GradientBoostingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html?highlight=randomforestregression) y [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html?highlight=gradientboostingclassifier#sklearn.ensemble.GradientBoostingClassifier). En este caso usaremos GradientBoostingRegressor dado que queremos predecir el valor de las viviendas


### Gradient Boosting for regression 
GB construye un modelo aditivo de manera progresiva por etapas; permite la optimización de funciones de pérdida diferenciables arbitrarias. En cada etapa se ajusta un árbol de regresión sobre el gradiente negativo de la función de pérdida dada.

Para utilizar Gradient Boosting Regressor con Scikit-Learn tenemos [GradientBoostingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html?highlight=randomforestregression) y [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html?highlight=gradientboostingclassifier#sklearn.ensemble.GradientBoostingClassifier). En este caso usaremos GradientBoostingRegressor dado que queremos predecir el valor de las viviendas


In [46]:
regressor = GradientBoostingRegressor(n_estimators=25, learning_rate=0.1, random_state=1) 
# learning_rate=0.1 es el default pero lo escribimos para visualizarlo
regressor.fit(X_train, Y_train) 
y_pred = regressor.predict(X_test)
mse_test_gradb = metrics.mean_squared_error(Y_test, y_pred)
print('MSE test:', round(mse_test_gradb,2))

MSE test: 20.93


In [48]:
# Como predice con un arbol menos profundo que el deafult?
regressor = GradientBoostingRegressor(n_estimators=25, max_depth=2, learning_rate=0.1, random_state=1) 
# max_depth=3 es el default de profundidad del arbol en cada iteracion
regressor.fit(X_train, Y_train) 
y_pred2 = regressor.predict(X_test)
mse_test_gradb2 = metrics.mean_squared_error(Y_test, y_pred2)

In [50]:
# Como predice con un arbol más profundo que el deafult?
regressor = GradientBoostingRegressor(n_estimators=25, max_depth=4, learning_rate=0.1, random_state=1) 
regressor.fit(X_train, Y_train) 
y_pred3 = regressor.predict(X_test)
mse_test_gradb3 = metrics.mean_squared_error(Y_test, y_pred3)

In [52]:
# Como predice con mayor penalidad de ajuste (learning_rate) que el deafult?
regressor = GradientBoostingRegressor(n_estimators=25, max_depth=4, learning_rate=0.5, random_state=1) 
regressor.fit(X_train, Y_train) 
y_pred4 = regressor.predict(X_test)
mse_test_gradb4 = metrics.mean_squared_error(Y_test, y_pred4)

In [54]:
print('MSE test de:', 
      '\n learning_rate=0.1 & max_depth=3 (default) :', round(mse_test_adaBoo,2),
      '\n learning_rate=0.1 & max_depth=2  :',round(mse_test_adaBoo2,2), 
      '\n learning_rate=0.1 & max_depth=4 :', round(mse_test_adaBoo3,2),
      '\n learning_rate=0.5 & max_depth=4 :', round(mse_test_adaBoo4,2))

MSE test de: 
 learning_rate=0.1 & max_depth=3 (default) : 25.41 
 learning_rate=0.1 & max_depth=2  : 26.91 
 learning_rate=0.1 & max_depth=4 : 27.12 
 learning_rate=0.5 & max_depth=4 : 38.38


#### Usando cross-validation para elegir los hiperparámetros en AdaBoosting

In [56]:
params_grid_gradb = {
    'n_estimators': [25, 50, 75, 100],
    'learning_rate': [0.001, 0.01, 0.1, 0.5, 0.75],
    'max_depth': [None, 1, 2, 3, 4, 5]
}

cv = KFold(n_splits=5, random_state=100, shuffle=True)
gradb = GradientBoostingRegressor(random_state=1)
grid_gradb = GridSearchCV(estimator=gradb, param_grid=params_grid_gradb, cv=cv, verbose=2)
grid_gradb.fit(X_train, Y_train)

Fitting 5 folds for each of 120 candidates, totalling 600 fits
[CV] END learning_rate=0.001, max_depth=None, n_estimators=25; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=25; total time=   0.0s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=25; total time=   0.0s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=25; total time=   0.0s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=25; total time=   0.0s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=50; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=50; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=50; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=50; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=50; total time=   0.1s
[CV] END learning_rate=0.001, max_depth=None, n_estimators=75; total time=   0.1s
[CV] END learning_rate=0.001, max_d

In [58]:
grid_gradb.best_estimator_

In [60]:
params_gradb = grid_gradb.best_params_
params_gradb

{'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}

En este caso, los *parametros de tunning por default* son los *mejores hiperparametros*!

In [64]:
y_pred_gradb = grid_gradb.best_estimator_.predict(X_test)
mse_test_best_gradb = metrics.mean_squared_error(Y_test, y_pred_gradb)
print('MSE de testeo', round(mse_test_best_gradb,2))

MSE de testeo 18.02


### Comparamos los modelos de ensamble con mejores hiperparametros por CV

In [68]:
print('MSE test de:',
      '\nAdaBoost:', round(mse_test_adb,2), 
      '\nGradientBoosting:', round(mse_test_best_gradb,2))

MSE test de: 
AdaBoost: 26.95 
GradientBoosting: 18.02
