# AdaBoost y Gradient boosting con árboles en un dataset de detección de spam

Árboles de decisión y todos los ensembles propuestos funcionan en la práctica muy bien en datos tabulares como puede ser el problema de reconocimiento de spam en mails.

Se propone pues emplear el dataset id=44 de openml de detección de Spam. Son un total de 4601 muestras con 57 características.

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

## Descarga del dataset Spam
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)



(4601, 57)


  warn(


## AdaBoost

Probemos el clasificador de AdaBoost

In [34]:
from sklearn.ensemble import AdaBoostClassifier

ab = AdaBoostClassifier()

acc=ab.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')


Precisión: 93.8%


**Ejercicio** Teniendo en cuenta la documentación [AdaBoost](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) prueba mediante grid search a encontrar mejores parámetros.

In [35]:
## Solución

from sklearn.model_selection import GridSearchCV

G = {"n_estimators":[50,100,150,200,400],"learning_rate":[0.01,0.1,0.2]}

GS = GridSearchCV(AdaBoostClassifier(), G, scoring='accuracy', refit=True, cv=5, verbose=10)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Fitting 5 folds for each of 15 candidates, totalling 75 fits
[CV 1/5; 1/15] START learning_rate=0.01, n_estimators=50........................
[CV 1/5; 1/15] END learning_rate=0.01, n_estimators=50;, score=0.844 total time=   0.8s
[CV 2/5; 1/15] START learning_rate=0.01, n_estimators=50........................
[CV 2/5; 1/15] END learning_rate=0.01, n_estimators=50;, score=0.827 total time=   0.7s
[CV 3/5; 1/15] START learning_rate=0.01, n_estimators=50........................
[CV 3/5; 1/15] END learning_rate=0.01, n_estimators=50;, score=0.870 total time=   0.8s
[CV 4/5; 1/15] START learning_rate=0.01, n_estimators=50........................
[CV 4/5; 1/15] END learning_rate=0.01, n_estimators=50;, score=0.838 total time=   0.8s
[CV 5/5; 1/15] START learning_rate=0.01, n_estimators=50........................
[CV 5/5; 1/15] END learning_rate=0.01, n_estimators=50;, score=0.834 total time=   0.8s
[CV 1/5; 2/15] START learning_rate=0.01, n_estimators=100.......................
[CV 1/5; 2/15

## GradientBoostingClassifier

Probemos el clasificador Gradient Boosting

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier()

acc=gb.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')


Precisión: 95.2%


Los principales parámetros del GradientBoosting son:
* n_estimators (100)
* max_depth (3)
* max_features

**Ejercicio** prueba diferentes valores (lógicos) de estos parámetros mediante GridSearch.

In [None]:
## Solución, ATENCION puede tardar (>5-10 min) dependiendo de la máquina

from sklearn.model_selection import GridSearchCV

G = {"max_depth": [1,2,3,4],"n_estimators":[50,100,150,200],"max_features":[10,20,30,40,57]}

GS = GridSearchCV(GradientBoostingClassifier(), G, scoring='accuracy', refit=True, cv=5, verbose=10)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')


Fitting 5 folds for each of 80 candidates, totalling 400 fits
[CV 1/5; 1/80] START max_depth=1, max_features=10, n_estimators=50..............
[CV 1/5; 1/80] END max_depth=1, max_features=10, n_estimators=50;, score=0.920 total time=   0.1s
[CV 2/5; 1/80] START max_depth=1, max_features=10, n_estimators=50..............
[CV 2/5; 1/80] END max_depth=1, max_features=10, n_estimators=50;, score=0.901 total time=   0.1s
[CV 3/5; 1/80] START max_depth=1, max_features=10, n_estimators=50..............
[CV 3/5; 1/80] END max_depth=1, max_features=10, n_estimators=50;, score=0.918 total time=   0.1s
[CV 4/5; 1/80] START max_depth=1, max_features=10, n_estimators=50..............
[CV 4/5; 1/80] END max_depth=1, max_features=10, n_estimators=50;, score=0.909 total time=   0.1s
[CV 5/5; 1/80] START max_depth=1, max_features=10, n_estimators=50..............
[CV 5/5; 1/80] END max_depth=1, max_features=10, n_estimators=50;, score=0.921 total time=   0.1s
[CV 1/5; 2/80] START max_depth=1, max_featu

### Acelerar la búsqueda de parámetros: RandomizedSearch

Un problema recurrente que tenemos en estos experimentos es el coste temporal de encontrar los mejores parámetros mediante GridSearch. Una alternativa que reduce dicho coste temporal es el [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)

**Ejercicio** Implementa la misma búsqueda de valores que has realizado con GridSearch pero ahora con RandomizedSearch con n_iter=10 para limitar el número de pruebas a 10.

In [None]:
## Solución

from sklearn.model_selection import RandomizedSearchCV

G = {"max_depth": [1,2,3,4,5],"n_estimators":[50,100,150,200],"max_features":[10,20,30,40,57]}

# Probar sólo 10 combinaciones de parámetros, n_iter=10
RS = RandomizedSearchCV(GradientBoostingClassifier(), G, scoring='accuracy', n_iter=10, refit=True, cv=5, verbose=10)

acc = RS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {RS.best_params_}')


Fitting 5 folds for each of 10 candidates, totalling 50 fits
[CV 1/5; 1/10] START max_depth=4, max_features=30, n_estimators=200.............
[CV 1/5; 1/10] END max_depth=4, max_features=30, n_estimators=200;, score=0.951 total time=   2.1s
[CV 2/5; 1/10] START max_depth=4, max_features=30, n_estimators=200.............
[CV 2/5; 1/10] END max_depth=4, max_features=30, n_estimators=200;, score=0.950 total time=   2.0s
[CV 3/5; 1/10] START max_depth=4, max_features=30, n_estimators=200.............
[CV 3/5; 1/10] END max_depth=4, max_features=30, n_estimators=200;, score=0.963 total time=   2.0s
[CV 4/5; 1/10] START max_depth=4, max_features=30, n_estimators=200.............
[CV 4/5; 1/10] END max_depth=4, max_features=30, n_estimators=200;, score=0.946 total time=   2.0s
[CV 5/5; 1/10] START max_depth=4, max_features=30, n_estimators=200.............
[CV 5/5; 1/10] END max_depth=4, max_features=30, n_estimators=200;, score=0.958 total time=   2.7s
[CV 1/5; 2/10] START max_depth=4, max_f

### Mejorar la búsqueda de parámetros: BayesianOptimization

Optimización Bayesiana es una técnica avanzada de búsqueda de parámetros. Para poder emplearla hay que instalar la librería scikit-optimize. El uso de dicha técnica es similar a las ya empleadas con la diferencia que el rango de los parámetros hay que definirlos teniendo en cuenta además el tipo de los mismos: real, entero o categórico. Además los valores a probar no se listan explícitamente si no que se especifica un rango dentro del cual el algoritmo escogerá los valores.

La ejecución puede resultar más lenta pero se pueden explorar más parámetros, de hecho se especifica un intervalo en lugar de valores concretos.



In [None]:
!pip install scikit-optimize



In [None]:
from skopt import BayesSearchCV
from skopt.space import Real, Categorical, Integer

# Ponemos rangos (mínimo, máximo)
G = {"max_depth": Integer(1,5),"n_estimators":Integer(50,400),"max_features":Integer(5,57)}

# Probar sólo 10 combinaciones de parámetros, n_iter=10
BS = BayesSearchCV(GradientBoostingClassifier(), G, scoring='accuracy', n_iter=10, refit=True, cv=5, verbose=10)

acc = BS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {BS.best_params_}')


Fitting 5 folds for each of 1 candidates, totalling 5 fits
[CV 1/5; 1/1] START max_depth=4, max_features=45, n_estimators=116..............
[CV 1/5; 1/1] END max_depth=4, max_features=45, n_estimators=116;, score=0.943 total time=   4.9s
[CV 2/5; 1/1] START max_depth=4, max_features=45, n_estimators=116..............
[CV 2/5; 1/1] END max_depth=4, max_features=45, n_estimators=116;, score=0.944 total time=   4.1s
[CV 3/5; 1/1] START max_depth=4, max_features=45, n_estimators=116..............
[CV 3/5; 1/1] END max_depth=4, max_features=45, n_estimators=116;, score=0.958 total time=   2.7s
[CV 4/5; 1/1] START max_depth=4, max_features=45, n_estimators=116..............
[CV 4/5; 1/1] END max_depth=4, max_features=45, n_estimators=116;, score=0.940 total time=   1.6s
[CV 5/5; 1/1] START max_depth=4, max_features=45, n_estimators=116..............
[CV 5/5; 1/1] END max_depth=4, max_features=45, n_estimators=116;, score=0.955 total time=   1.6s
Fitting 5 folds for each of 1 candidates, tota

## HistGradientBoostingClassifier
Un problema del clasificador GradientBoosting implementado en sklearn es su velocidad. Es un clasificador muy lento de entrenar. Por ello sklearn propone otro tipo de algoritmo de GradientBoosting que soporta paralelismo con OMP además de otras mejoras computacionales basadas en la discretización de las componentes mediante un histograma.

Este otro algoritmo se denomina **HistGradientBoostingClassifier**. Su tiempo de ejecución es mucho mejor. Además se pueden obtener mejores resultados.



In [None]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier()

acc=hgb.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')

Precisión: 95.5%


**Ejercicio** Analiza en la documentación [HistGradientBoosting](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html) los parámetros más relevantes y realiza una búsqueda de parámetros para obtener el mejor clasificador. A la hora de establecer los valores de los parámetros sería interesante fijarnos en los valores por defecto que se han empleado en el ejercicio anterior y poder explorar alrededor de dichos valores por defecto para conseguir mejores resultados.



In [None]:
## Solución

G = {"max_iter":Integer(50,400),"max_bins":Integer(10,255)}
# max_depth no está limitado por defecto y es mejor dejarlo así

# Probar sólo 10 combinaciones de parámetros, n_iter=10
BS = BayesSearchCV(HistGradientBoostingClassifier(), G, scoring='accuracy', n_iter=10, refit=True, cv=5, verbose=10)

acc = BS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {BS.best_params_}')

Fitting 5 folds for each of 1 candidates, totalling 5 fits
[CV 1/5; 1/1] START max_bins=49, max_iter=222...................................
[CV 1/5; 1/1] END ....max_bins=49, max_iter=222;, score=0.951 total time=   1.4s
[CV 2/5; 1/1] START max_bins=49, max_iter=222...................................
[CV 2/5; 1/1] END ....max_bins=49, max_iter=222;, score=0.951 total time=   1.3s
[CV 3/5; 1/1] START max_bins=49, max_iter=222...................................
[CV 3/5; 1/1] END ....max_bins=49, max_iter=222;, score=0.973 total time=   3.7s
[CV 4/5; 1/1] START max_bins=49, max_iter=222...................................
[CV 4/5; 1/1] END ....max_bins=49, max_iter=222;, score=0.952 total time=   1.3s
[CV 5/5; 1/1] START max_bins=49, max_iter=222...................................
[CV 5/5; 1/1] END ....max_bins=49, max_iter=222;, score=0.955 total time=   1.3s
Fitting 5 folds for each of 1 candidates, totalling 5 fits
[CV 1/5; 1/1] START max_bins=252, max_iter=386..........................