<a href="https://colab.research.google.com/github/JaimeRosique/ComputerScience/blob/main/AdaBoost_Gradient.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# AdaBoost y Gradient boosting con árboles en un dataset de detección de spam

Árboles de decisión y todos los ensembles propuestos funcionan en la práctica muy bien en datos tabulares como puede ser el problema de reconocimiento de spam en mails.

Se propone pues emplear el dataset id=44 de openml de detección de Spam. Son un total de 4601 muestras con 57 características.

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

## Descarga del dataset Spam
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)



  warn(


(4601, 57)


## AdaBoost

Probemos el clasificador de AdaBoost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

ab = AdaBoostClassifier()

acc=ab.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')


Precisión: 93.8%


**Ejercicio** Teniendo en cuenta la documentación [AdaBoost](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) prueba mediante grid search a encontrar mejores parámetros.

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

## Descarga del dataset Spam
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

#Crea el clasificador Adaboost
ab = AdaBoostClassifier(estimator = DecisionTreeClassifier(random_state=23))

## Grid Search
G = {"n_estimators":[20,30,40,50,100,200],
     "estimator__max_depth":[1,2,4,6,8,10]}

GS = GridSearchCV(ab, G, scoring='accuracy', refit=True, cv=5, verbose=10)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

  warn(


(4601, 57)
Precisión: 95.1% con {'estimator__max_depth': 4, 'n_estimators': 200}


## GradientBoostingClassifier

Probemos el clasificador Gradient Boosting

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier()

acc=gb.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')


Precisión: 95.0%


Los principales parámetros del GradientBoosting son:
* n_estimators (100)
* max_depth (3)
* max_features

**Ejercicio** prueba diferentes valores (lógicos) de estos parámetros mediante GridSearch.

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier

## Descarga del dataset Spam
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

#Crea el clasificador Adaboost
gb = GradientBoostingClassifier()

## Grid Search
G = {"n_estimators":[20,40,60,100],
     "max_depth":[4,6,8,10],
     "max_features":[0.2,0.5,0.8]}

GS = GridSearchCV(gb, G, scoring='accuracy', refit=True, cv=5, verbose=10)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

  warn(


(4601, 57)
Fitting 5 folds for each of 48 candidates, totalling 240 fits
[CV 1/5; 1/48] START max_depth=4, max_features=0.2, n_estimators=20.............
[CV 1/5; 1/48] END max_depth=4, max_features=0.2, n_estimators=20;, score=0.931 total time=   0.1s
[CV 2/5; 1/48] START max_depth=4, max_features=0.2, n_estimators=20.............
[CV 2/5; 1/48] END max_depth=4, max_features=0.2, n_estimators=20;, score=0.921 total time=   0.1s
[CV 3/5; 1/48] START max_depth=4, max_features=0.2, n_estimators=20.............
[CV 3/5; 1/48] END max_depth=4, max_features=0.2, n_estimators=20;, score=0.936 total time=   0.1s
[CV 4/5; 1/48] START max_depth=4, max_features=0.2, n_estimators=20.............
[CV 4/5; 1/48] END max_depth=4, max_features=0.2, n_estimators=20;, score=0.929 total time=   0.1s
[CV 5/5; 1/48] START max_depth=4, max_features=0.2, n_estimators=20.............
[CV 5/5; 1/48] END max_depth=4, max_features=0.2, n_estimators=20;, score=0.928 total time=   0.1s
[CV 1/5; 2/48] START max_de

### Acelerar la búsqueda de parámetros: RandomizedSearch

Un problema recurrente que tenemos en estos experimentos es el coste temporal de encontrar los mejores parámetros mediante GridSearch. Una alternativa que reduce dicho coste temporal es el [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)

**Ejercicio** Implementa la misma búsqueda de valores que has realizado con GridSearch pero ahora con RandomizedSearch con n_iter=10 para limitar el número de pruebas a 10.

In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier

## Descarga del dataset Spam
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

#Crea el clasificador Adaboost
gb = GradientBoostingClassifier()

## Grid Search
G = {"n_estimators":[50,75,100,150],
     "max_depth":[2,4,6,8,10],
     "max_features":[0.25,0.5,1.0]}

RS = RandomizedSearchCV(gb, G, scoring='accuracy',n_iter=15, refit=True, cv=5, verbose=10)

acc = RS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {RS.best_params_}')

  warn(


(4601, 57)
Fitting 5 folds for each of 15 candidates, totalling 75 fits
[CV 1/5; 1/15] START max_depth=2, max_features=1.0, n_estimators=150............
[CV 1/5; 1/15] END max_depth=2, max_features=1.0, n_estimators=150;, score=0.948 total time=   2.8s
[CV 2/5; 1/15] START max_depth=2, max_features=1.0, n_estimators=150............
[CV 2/5; 1/15] END max_depth=2, max_features=1.0, n_estimators=150;, score=0.943 total time=   2.9s
[CV 3/5; 1/15] START max_depth=2, max_features=1.0, n_estimators=150............
[CV 3/5; 1/15] END max_depth=2, max_features=1.0, n_estimators=150;, score=0.955 total time=   1.4s
[CV 4/5; 1/15] START max_depth=2, max_features=1.0, n_estimators=150............
[CV 4/5; 1/15] END max_depth=2, max_features=1.0, n_estimators=150;, score=0.938 total time=   1.3s
[CV 5/5; 1/15] START max_depth=2, max_features=1.0, n_estimators=150............
[CV 5/5; 1/15] END max_depth=2, max_features=1.0, n_estimators=150;, score=0.952 total time=   1.3s
[CV 1/5; 2/15] START ma

### Mejorar la búsqueda de parámetros: BayesianOptimization

Optimización Bayesiana es una técnica avanzada de búsqueda de parámetros. Para poder emplearla hay que instalar la librería scikit-optimize. El uso de dicha técnica es similar a las ya empleadas con la diferencia que el rango de los parámetros hay que definirlos teniendo en cuenta además el tipo de los mismos: real, entero o categórico. Además los valores a probar no se listan explícitamente si no que se especifica un rango dentro del cual el algoritmo escogerá los valores.

La ejecución puede resultar más lenta pero se pueden explorar más parámetros, de hecho se especifica un intervalo en lugar de valores concretos.



In [None]:
!pip install scikit-optimize

Collecting scikit-optimize
  Downloading scikit_optimize-0.10.1-py2.py3-none-any.whl (107 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m107.7/107.7 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Collecting pyaml>=16.9 (from scikit-optimize)
  Downloading pyaml-24.4.0-py3-none-any.whl (24 kB)
Installing collected packages: pyaml, scikit-optimize
Successfully installed pyaml-24.4.0 scikit-optimize-0.10.1


In [None]:
from skopt import BayesSearchCV
from skopt.space import Real, Categorical, Integer
G={"max_depth": Integer(2,10),
   "n_estimators": Integer(50,200),
   "max_features": Real(0.1,1.0)}

BS = BayesSearchCV(GradientBoostingClassifier(), G, scoring='accuracy', n_iter=10, refit=True, cv=5, verbose=10)

acc = BS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {BS.best_params_}')


Fitting 5 folds for each of 1 candidates, totalling 5 fits
[CV 1/5; 1/1] START max_depth=2, max_features=0.5, n_estimators=100.............
[CV 1/5; 1/1] END max_depth=2, max_features=0.5, n_estimators=100;, score=0.943 total time=   1.6s
[CV 2/5; 1/1] START max_depth=2, max_features=0.5, n_estimators=100.............
[CV 2/5; 1/1] END max_depth=2, max_features=0.5, n_estimators=100;, score=0.932 total time=   1.9s
[CV 3/5; 1/1] START max_depth=2, max_features=0.5, n_estimators=100.............
[CV 3/5; 1/1] END max_depth=2, max_features=0.5, n_estimators=100;, score=0.948 total time=   1.1s
[CV 4/5; 1/1] START max_depth=2, max_features=0.5, n_estimators=100.............
[CV 4/5; 1/1] END max_depth=2, max_features=0.5, n_estimators=100;, score=0.929 total time=   0.7s
[CV 5/5; 1/1] START max_depth=2, max_features=0.5, n_estimators=100.............
[CV 5/5; 1/1] END max_depth=2, max_features=0.5, n_estimators=100;, score=0.943 total time=   0.5s
Fitting 5 folds for each of 1 candidates,

## HistGradientBoostingClassifier
Un problema del clasificador GradientBoosting implementado en sklearn es su velocidad. Es un clasificador muy lento de entrenar. Por ello sklearn propone otro tipo de algoritmo de GradientBoosting que soporta paralelismo con OMP además de otras mejoras computacionales basadas en la discretización de las componentes mediante un histograma.

Este otro algoritmo se denomina **HistGradientBoostingClassifier**. Su tiempo de ejecución es mucho mejor. Además se pueden obtener mejores resultados.



In [None]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier()

acc=hgb.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%}')



Precisión: 95.5%


**Ejercicio** Analiza en la documentación [HistGradientBoosting](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html) los parámetros más relevantes y realiza una búsqueda de parámetros para obtener el mejor clasificador. A la hora de establecer los valores de los parámetros sería interesante fijarnos en los valores por defecto que se han empleado en el ejercicio anterior y poder explorar alrededor de dichos valores por defecto para conseguir mejores resultados.



In [None]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from skopt import BayesSearchCV
from skopt.space import Real, Categorical, Integer
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier()

## Grid Search
G = {"learning_rate": Real(0.1,1),
     "max_depth":Integer(10,100),
     "max_iter":Integer(80,200),
     "max_bins":Integer(150,250)}

BS = BayesSearchCV(hgb, G, scoring='accuracy', n_iter=10, refit=True, cv=5, verbose=10)

acc = BS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {BS.best_params_}')


Fitting 5 folds for each of 1 candidates, totalling 5 fits
[CV 1/5; 1/1] START learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107
[CV 1/5; 1/1] END learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107;, score=0.952 total time=   7.6s
[CV 2/5; 1/1] START learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107
[CV 2/5; 1/1] END learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107;, score=0.962 total time=   1.0s
[CV 3/5; 1/1] START learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107
[CV 3/5; 1/1] END learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107;, score=0.974 total time=   1.0s
[CV 4/5; 1/1] START learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107
[CV 4/5; 1/1] END learning_rate=0.1342091171568812, max_bins=236, max_depth=49, max_iter=107;, score=0.954 total time=   0.9s
[CV 5/5; 1/1] START learning_rate=0.1342091171568812, max