# Ensambles

A lo largo del notebook vamos a trabajar con el siguiente dataset:

https://www.kaggle.com/jsphyg/weather-dataset-rattle-package

que ya conocieron en el notebook clase_25_sesgo_y_varianza

### Carga de datos

Volvemos a cargas las librerías, importar el dataset y limpiarlo.

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

from sklearn.tree import DecisionTreeClassifier

import sklearn.metrics as metrics

from sklearn.model_selection import learning_curve

In [None]:
data = pd.read_csv("Datasets/weatherAUS.csv")
# Columnas con muchos NaNs
columnas_descartables = ['Sunshine','Evaporation','Cloud3pm','Cloud9am','Location','RISK_MM','Date']
data = data.drop(columns=columnas_descartables)
data = data.dropna()

# Columnas con variables categoricas
columnas_descartables = ['WindGustDir','WindDir9am','WindDir3pm','RainToday']
data = data.drop(columns=columnas_descartables)

# Variables correlacionadas
data = data.drop(columns=['Temp3pm', 'Pressure9am'])

# Mapeo
data['RainTomorrow'] = data['RainTomorrow'].map({'Yes':1,'No':0})

Elegimos variables de entrenamiento. Elegir dos o más (si eligen dos no van a ver grandes mejoras en los modelos) y separamos las etiquetas

In [None]:
columnas_entrenamiento = ['MaxTemp', 'Humidity3pm']
X = data[columnas_entrenamiento]
# X = data.drop(columns = 'RainTomorrow')
y = data.RainTomorrow

Y separamos entre train y test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42, stratify = y)

## 1. Bagging

Recuerden que el objetivo de bagging es entrenar distintos modelos, donde cada uno vea distintas porciones del set de entrenamiento. Entonces, vamos a entrenar distintos árboles de decisión y mostrarles distintas porciones del set de datos. Lo vamos a hacer en un `for`.

1. Crear una lista vacía donde guardaremos los modelos entrenados y elegir cuántos modelos entrenar (Empezar por algún valor entre 5 y 10).

In [None]:
lista_de_modelos = COMPLETAR
N_modelos = COMPLETAR

2. Entrenar cada modelo y guardar cada modelo entrenado en una lista. Para hacer el split, usar la función `train_test_split`. ¿Sobre qué conjunto van a hacer el split?¿Hay que fijar el `random_state`? 

In [None]:
for i in range(COMPLETAR):
    X_train_boostrap, _, y_train_boostrap, _ = train_test_split(COMPLETAR, COMPLETAR, test_size=0.5, stratify = COMPLETAR)
    clf = DecisionTreeClassifier(max_depth = None) #Notar que lo dejamos overfitear
    clf.fit(COMPLETAR, COMPLETAR)
    lista_de_modelos.append(clf)

3. Evaluar el accuracy de cada modelo usando el conjunto de held_out

In [None]:
for idx, modelo in enumerate(COMPLETAR):
    y_test_pred = modelo.predict(COMPLETAR)
    print('Accuracy Modelo ', idx, ' es ', metrics.COMPLETAR(y_test, y_test_pred))

Parecen estar un poco overfitteados, que era lo que esperábamos.

5. Evaluar el accuracy de todo el ensamble usando el conjunto de held_out. Vamos a hacerlo usando un promedio de las probabilidades que devuelven cada árbol. Si la probabilidad promedio es mayor a 0.5, clasificamos como positivo. Para ello:
    1. Inicializar un arreglo de probabilidades del tamaño de la cantidad de instancias del conjunto de test en ceros.

In [None]:
probs_test_pred = np.COMPLETAR(COMPLETAR.size)

B. Recorrer la lista de modelos y predecir las probabilidades. Mirar como es el `shape` de ese arreglo predicho. Elegir las probabilidades que correspondan a la clase positiva. Luego, sumarlas al vector que definieron antes.

In [None]:
for modelo in lista_de_modelos:
    probs_test_pred_modelo = modelo.COMPLETAR(X_test)
    print(probs_test_pred_modelo.shape)
    # Cuando esten seguros de lo que quieran sumar, descomentar la linea de abajo y completar
#     probs_test_pred +=probs_test_pred_modelo[COMPLETAR,COMPLETAR]
    

C. Dividir `probs_test_pred` por la cantidad de modelos

In [None]:
probs_test_pred = probs_test_pred/COMPLETAR

D. Crear las clases predichas (0s y 1s) a partir de comparar la probabilidad predicha con la probabilidad umbral (0.5).

In [None]:
y_test_pred = probs_test_pred>COMPLETAR
y_test_pred = y_test_pred.astype(int)

Y evaluar la exactitud de todo el ensamble

In [None]:
print('Accuracy Ensambe ', metrics.accuracy_score(y_test, y_test_pred))

7. Explorar el `BagginClassfier` de scikit-learn y algunas de sus características. Usarlo para predecir sobre el train y test, y medir su desempeño.

In [None]:
from sklearn.ensemble import BaggingClassifier

In [None]:
clf = BaggingClassifier(base_estimator=COMPLETAR, bootstrap = COMPLETAR, bootstrap_features=COMPLETAR, n_estimators = 100, n_jobs = -1)
clf.fit(X_train, y_train)

y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)

print(metrics.accuracy_score(y_train, y_train_pred))
print(metrics.accuracy_score(y_test, y_test_pred))

8. Si usaron dos features, pueden graficar las fronteras de decisión

In [None]:
N = 20 #para no graficar todos los puntos y saturar el grafico

plt.figure(figsize = (8,6))

#Grafico Clasificador Sesgado
ax = sns.scatterplot(X_test[::N].MaxTemp, X_test[::N].Humidity3pm, hue=y_test[::N], palette='Set2')
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
                      np.linspace(*ylim, num=200))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
contours = ax.contourf(xx, yy, Z, alpha=0.3, cmap = 'Set2')

plt.show()

## 3. Random Forest

Random Forest, además de aplicar Bagging, también selecciona features al azar, de esa manera descorrelaciona aún más los distintos modelos de árbol creados.

1. Importar de scikit-learn el modelo `RandomForestClassifier`

In [None]:
from sklearn.COMPLETAR import COMPLETAR

2. Investigar sus parámetros. En particular, `n_estimators`, `max_features` y `oob_score`. Luego, crear y entrenar un modelo en el conjunto de train.

In [None]:
clf = RandomForestClassifier(n_estimators=COMPLETAR, max_features=COMPLETAR, n_jobs=-1, oob_score = True, random_state = 42)
clf.fit(X_train,y_train)


3. Evaluar su desempeño en el conjunto de train y de test.

In [None]:
y_train_pred = clf.COMPLETAR(COMPLETAR)
y_test_pred = clf.COMPLETAR(COMPLETAR)
print(metrics.COMPLETAR(COMPLETAR, COMPLETAR))
print(metrics.COMPLETAR(COMPLETAR, COMPLETAR))

4. ¿Cuál es su `oob_score_`?¿Y que son `feature_importances_`?

In [None]:
clf.oob_score_

In [None]:
clf.feature_importances_

In [None]:
# CORRER ESTA CELDA UNA VEZ QUE HAYAN ESTUDIADO QUE ES OOB_SCORE Y FEATURE_IMPORTANCES

importances = clf.feature_importances_
columns = X_train.columns
indices = np.argsort(importances)[::-1]

plt.figure(figsize = (15,8))
sns.barplot(columns[indices], importances[indices])
plt.show()

5. ¿Qué hay en la propiedad `estimators_`?

In [None]:
clf.estimators_

6. Elegir uno de los `estimators` y evaluar su desempeño sobre train y test.

In [None]:
clf_tree = clf.estimators_[COMPLETAR]
clf_tree.get_params()

In [None]:
y_train_pred = clf_tree.predict(X_train)
y_test_pred = clf_tree.predict(X_test)
print(metrics.accuracy_score(y_train, y_train_pred))
print(metrics.accuracy_score(y_test, y_test_pred))

¿Está overfiteado?¿Por qué la accuracy sobre el conjunto de train no es 1?

7. Hacer y graficar la curva de validación/complejidad para un modelo Random Forest en función del número de estimadores. No usamos CV porque puede llevar bastante tiempo. Si quieren, lo pueden probar después. Además, obtener su oob_score para graficar en la curva de complejidad (No se preocupen por los mensajes de warning).

In [None]:
train_accuracy = []
test_accuracy = []
oob_scores = []

N_estimadores = [1,2,3,4,5,10,25,50,100,250,500,1000]
for estimadores in COMPLETAR:
    print(estimadores)
    clf = RandomForestClassifier(n_estimators=COMPLETAR, n_jobs=-1, oob_score= True, random_state = 42)
    clf.fit(COMPLETAR,COMPLETAR)
    
    y_train_pred = clf.predict(COMPLETAR)
    y_test_pred = clf.predict(COMPLETAR)
    
    train_accuracy.append(COMPLETAR)
    test_accuracy.append(COMPLETAR)
    oob_scores.append(clf.COMPLETAR)
    
train_accuracy = np.array(train_accuracy)
test_accuracy = np.array(test_accuracy)
oob_scores = np.array(oob_scores)

In [None]:
plt.figure(figsize = (8,6))
plt.plot(N_estimadores, COMPLETAR, label = 'Train')
plt.plot(N_estimadores, COMPLETAR, label = 'Test')
plt.plot(N_estimadores, COMPLETAR, label = 'OOB')
plt.xlabel('Numero de estimadores')
plt.ylabel('Accuracy')
plt.legend()
# plt.xlim(0,50)
plt.show()

8. Hacer y graficar la curva de aprendizaje para un modelo con 250 estimadores. Puede llevar bastante tiempo, no se preocupen.

In [None]:
clf = RandomForestClassifier(n_estimators=250, n_jobs=-1, oob_score= True, random_state = 42)

train_sizes, train_scores, valid_scores = learning_curve(COMPLETAR, COMPLETAR, COMPLETAR, 
                                                         train_sizes = np.linspace(0.0001,1,10),
                                                         scoring = 'accuracy', cv=5)

In [None]:
plt.figure(figsize = (8,6))
plt.plot(COMPLETAR, COMPLETAR.mean(axis = COMPLETAR), color = 'r')
plt.plot(COMPLETAR, COMPLETAR.mean(axis = COMPLETAR), color = 'g')

plt.fill_between(COMPLETAR, COMPLETAR,
                     COMPLETAR, alpha=0.25,
                     color="r")
plt.fill_between(COMPLETAR, COMPLETAR,
                     COMPLETAR, alpha=0.25, color="g")

plt.ylim(0.5,1.1)
plt.show()

9. Si usaron dos features, pueden graficar las fronteras de decisión.

In [None]:
N = 20 #para no graficar todos los puntos y saturar el grafico
clf = RandomForestClassifier(n_estimators=250).fit(X_train, y_train)

#COMPLETAR

**Para pensar**: ¿qué otras métricas utilizarían para evaluar estos modelos, dadas las características particulares de este modelo? Comparar con los casos *benchmark* que hicieron.

## 5. Boosting

El objetivo de boosting es generar un modelo fuerte a partir de entrenar sucesivamente modelos débiles y combinar sus resultados. La idea es que cada modelo debil que agrego se enfonque en las instancias que fueron clasificadas erroneamente hasta el momento. Empecemos por decidri sobre que fetures del dataset vamos a trabajar (si trabajan sobre 2, luego podrán visualizar):

In [None]:
# Elegimos sobre que coolumnas queremos trabajar
columnas_entrenamiento = ['MaxTemp', 'Humidity3pm']
X = COMPLETAR
y = COMPLETAR

# Separamos los datos en train y test (held-out) - Utilice un 30% del dataset como test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=COMPLETAR, random_state=42, stratify = y)

Recordemos que este tipo de ensamble se enfoca en mejorar el sesgo de los modelos individuales a partir de los cuales esta construido, por lo cual se suele usar modelos de alto sesgo y baja vatianza.

1) Empiece por importar el clasificador AdaBoostClassifier y el modelos que usaremos como estimador debil, el DecisionTreeClassifier

In [None]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

2) Defina el modelo de manera que utilice 250 árboles de profundidad 2. Luego probaremos que sucede para mayores profundidades.

In [None]:
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=COMPLETAR),algorithm='SAMME', n_estimators=250)
# Entrenamos el modelo
ada_clf.fit(COMPLETAR, COMPLETAR)

3) Calcule el error sobre el training set y sobre el test set. En base a estos resultados, les parece que este ensamble está inclinado hacia el sesgo o hacia la varianza?

In [None]:
y_train_pred = COMPLETAR
y_test_pred = COMPLETAR
print('Accuracy sobre el test set: ',COMPLETAR)
print('Accuracy sobre el train set: ',COMPLETAR)

4) Veamos ahora como es la distribución de los pesos de cada arbol. Para esto vamos a graficar el número del arbol vs el peso que el algoritmo le está dando para la clsificación final. Ademas graficaremos también el accuracy de cada arbol sobre el training set.

In [None]:
# Puede que el algoritmo termine antes de agregar todos los arboles
# Tomamos entonces la cantidad de arboles que realmente tiene el ensamble
numero_arboles = len(ada_clf)

# En la variable estimator_weights_ esta el peso de cada arbol
pesos = ada_clf.estimator_weights_[:numero_arboles]

# Calculamos el accuracy DE CADA ARBOL en el ensamble. En estimator_errors_ esta el error que comete cada uno.
errores_arboles = ada_clf.estimator_errors_[:numero_arboles]
# Como puede calcular el accuracy de cada arbol a partir de saber el error que comete cada uno?
accuracy_arboles = COMPLETAR

# Graficamos
plt.figure(figsize = (12,6))
plt.subplot(121)
# En el eje 'x' ponemos el índice (número) de cada arbol, en el 'y' los pesos
plt.plot(range(1, numero_arboles + 1), COMPLETAR)
plt.ylabel('Peso')
plt.xlabel('Número de árbol')
plt.ylim((0, pesos.max() * 1.1))
plt.xlim((-20, numero_arboles + 20))
plt.subplot(122)
# En el eje 'x' ponemos el índice (número) de cada arbol, en el 'y' el accuracy de cada arbol
plt.plot(range(1, numero_arboles + 1), COMPLETAR)
plt.ylabel('Accuracy en trainin set')
plt.xlabel('Número de árbol')

5) Le parece relevante la contribución de todos los arboles? Como se relaciona el accuracy de cada arbol con el peso que le damos en la clasificación final? (Puede cambiar el rango de 'ylim' para ver en detalle la forma de las curvas).

6) Veamos como cambia el error en el training set y en el test set a medida que agregamos arboles. Para esto vamos a utilizar un metodo llamado "staged_predict", que nos devuelve la predicción del ensamble en cada instancia en que fuimos agregandole un nuevo estimador.

In [None]:
# Definimos listas vacias donde vamos a "appendear" (agregar) los valores
accuracy_test = COMPLETAR
accuracy_train = COMPLETAR

# Calculamos el accuracy sobre el test set
for prediccion_test in ada_clf.staged_predict(X_test):
    accuracy_test.append(metrics.accuracy_score(prediccion_test,COMPLETAR))
    
# Calculamos el accuracy sobre el training set    
for prediccion_train in ada_clf.staged_predict(X_train):  
    accuracy_train.append(metrics.accuracy_score(prediccion_train,COMPLETAR))
    
plt.plot(range(1, len(accuracy_test) + 1), accuracy_test, label = 'Test')
plt.plot(range(1, len(accuracy_test) + 1), accuracy_train, label = 'Train')
plt.legend()
plt.ylabel('Accuracy en el test set')
plt.xlabel('Número de árboles')

7) Grafiquemos la frontera de desición del calsificador

In [None]:
N = 20 #para no graficar todos los puntos y saturar el grafico

plt.figure(figsize = (8,6))

ax = sns.scatterplot(X_test[::N].MaxTemp, X_test[::N].Humidity3pm, hue=y_test[::N], palette='Set2')
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
                      np.linspace(*ylim, num=200))
Z = ada_clf.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
contours = ax.contourf(xx, yy, Z, alpha=0.3, cmap = 'Set2')

plt.show()