# Ensembles de árboles en un dataset de detección de spam

Si bien en anteriores prácticas hemos insistido en emplear los datasets de digits y faces, es bien conocido que para este tipo de datasets que representan imágenes, no es lo habitual emplear árboles de decisión.

Árboles de decisión y todos los ensembles propuestos funcionan en la práctica muy bien en datos tabulares como puede ser el problema de reconocimiento de spam en mails.

Se propone pues emplear el dataset id=44 de openml de detección de Spam. Son un total de 4601 muestras con 57 características.


## Un primer clasificador con un único árbol de decisión

In [1]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from warnings import filterwarnings

## Descarga del dataset Spam
filterwarnings('ignore')
X, y = fetch_openml(data_id=44, as_frame=False, cache=True, return_X_y=True)
print(X.shape)

## Partición train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)


## Grid Search
G = {"max_depth": [2,4,6,8,10], "min_samples_split": [2,3,4]}

GS = GridSearchCV(DecisionTreeClassifier(random_state=23), G, scoring='accuracy', refit=True, cv=5)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

(4601, 57)
Precisión: 93.9% con {'max_depth': 10, 'min_samples_split': 4}


## Bagging

Bagging es una técnica genérica de muestreo con remplanzamiento del conjunto de muestras de entrenamiento. Se puede emplear junto con cualquier clasificador para obtener un ensemble. Los parámetros más importantes son por un lado el estimador que se quiere emplear, en nuestro caso un DecisionTree, y el número de estimadores que se quiere combinar en el ensemble.

In [2]:
from sklearn.ensemble import BaggingClassifier

clf= BaggingClassifier(estimator=DecisionTreeClassifier(random_state=23,max_depth=10,min_samples_split=4),n_estimators=10)

acc = clf.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%}')


Precisión: 94.7%


**Ejercicio:** Encuentra los mejores parámetros mediante grid search. En concreto, n_estimators y max_depth de los árboles de decisión empleados. Se debería poder llegar alrededor de un **94.5% de acierto**.  

In [4]:
from sklearn.model_selection import GridSearchCV

G = {"n_estimators": [2, 5, 10, 20, 50], "estimator__max_depth": [2, 5, 10, 20, 50]}

GS = GridSearchCV(clf, G, scoring='accuracy', refit=True, cv=5)
acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Precisión: 94.5% con {'estimator__max_depth': 50, 'n_estimators': 20}


## RandomForest

RandomForest es otra técnica de ensemble, en este caso no genérica sino particular para árboles de decisión. Cada árbol se construye empleando una selección aleatoria de las características en cada uno de los nodos. El parámetro más importante es "n_estimators", el número de árboles que combino. El parámetro binario "bootstrap" controla también si se realiza bootstrap de las muestras (Bagging) o no.



In [2]:
from sklearn.ensemble import RandomForestClassifier

clf= RandomForestClassifier(n_estimators=10, max_depth=10, min_samples_split=4, bootstrap=False, random_state=23)

acc = clf.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%}')

Precisión: 94.1%


**Ejercicio:** Realiza una búsqueda de parámetros mediande grid search. En concreto para los parámetros: n_estimators, max_depth y bootstrap. Se debería poder llegar alrededor de un **95% de acierto**.  

In [4]:
from sklearn.model_selection import GridSearchCV

G = {"n_estimators": [2, 5, 10, 20, 50], "bootstrap": [True, False], "max_depth": [2, 5, 10, 15, 20]}

GS = GridSearchCV(clf, G, scoring='accuracy', refit=True, cv=5)
acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Precisión: 94.7% con {'bootstrap': False, 'max_depth': 20, 'n_estimators': 20}
