## Introducción al Machine Learning 
### Meta-clasificadores y Optimización de Parámetros


En este ejemplo se muestra el aprendizaje con Random Forest, en el que
realizamos una optimización de parámetros con validación cruzada.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Utilizaremos el dataset del marketing telefonico de productos bancarios.  Por simplicidad haremos un preprocesado 
directo con la función get_dummies.  Para un preprocesado más adecuado consultar el notebook de preprocesado en la
sesión 3

In [None]:
bank_marketing = pd.read_csv('../data/bank.csv', sep=';')

In [None]:
from sklearn import preprocessing

In [None]:
bank_marketing.head()

In [None]:
raw_features = bank_marketing.drop(columns='y')
features = pd.get_dummies(raw_features)
target = bank_marketing.y

In [None]:
features.columns

Para la optimización de parametros haremos una búsqueda grid sobre un 
espacio de parámetros ()Random Forest con validación de parámetros

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, roc_auc_score

In [None]:
train_x, test_x, train_y, test_y = train_test_split(features.values,
                                                    target.values,
                                                    test_size=0.7,
                                                    stratify=target.values,
                                                    random_state=11
                                                    )

construimos el objeto eligiendo el número de árboles. Podemos ver los parámetros disponibles con la función *get_params*

In [None]:
rforest = RandomForestClassifier(n_estimators=20)

In [None]:
rforest.get_params()

Definimos un espacio de parámetros.  Cada prueba consistirá en una combinación de estos parámetros posibles

In [None]:
param_grid = {
    'max_features': [2, 3, 5, 8],
    'n_estimators': [20, 50, 100]
}

In [None]:
grid_cv = GridSearchCV(estimator = rforest, 
                       param_grid = param_grid, 
                       cv = 5, 
                       verbose=3)

In [None]:
grid_cv.fit(train_x, train_y)

Identificamos la mejor combinación de parámetros

In [None]:
grid_cv.best_params_

El mejor modelo se puede extraer de la siguiente forma

In [None]:
best_rf = grid_cv.best_estimator_

Evaluación en el conjunto de test

In [None]:
pred_y = best_rf.predict(test_x)

In [None]:
accuracy_score(test_y, pred_y)

___

### Ejercicio Propuesto

1. Comparar el resultado de test si hubieramos entrenado un Random Forest con sus parámetros por defecto
2. Ampliar el espacio de parámetros, incluyendo por ejemplo la profundidad máxima de los árboles (*max_depth*)