**Ejercicio 3:** Utilizando las funciones provistas por Scikit-learn, implememente los métodos de ensambles de clasificadores Bagging y AdaBoost. Compare el desempeño de estos modelos empleando 5 particiones con el conjunto de datos Wine.

#### **Librerías**

In [130]:
import numpy as np 
from tabulate import tabulate                   # Para generar tablas

from sklearn import datasets                    # Módulo para levantar los datos
from sklearn.metrics import accuracy_score      # Medida de precisión
from sklearn.model_selection import KFold       # Modelo de partición

# Clasificadores:
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import AdaBoostClassifier

#### **Inicialización**
Levanto los datos del conjunto Wine con el módulo datasets y, además, genero una función *generar_kfold* para el KFold de 5 particiones, al cual le voy a pasar los datos de entrada y el clasificador. La función *medidas* se encarga de tabular los resultados por partición en cuanto a la precisión del ensamble.

In [131]:
X_digits,y_digits = datasets.load_wine(return_X_y=True) 
datos_tabla = []

def generar_kfold(X_digits,y_digits,clf,n_particiones=5):
    kf = KFold(n_splits=n_particiones)
    ACC = []

    for train_index, test_index in kf.split(X_digits):
        X_train, X_test = X_digits[train_index], X_digits[test_index]
        y_train, y_test = y_digits[train_index], y_digits[test_index]

        clf.fit(X_train, y_train)       # Entreno perceptrón con el conjunto de datos obtenido.
        y_pred = clf.predict(X_test)    # Obtengo salida con datos de prueba
        ACC_aux = accuracy_score(y_test,y_pred)
        ACC.append(ACC_aux)

    return ACC

def medidas(ACC):
    # Medidas globales
    print('Exactitud media:',np.mean(ACC))
    print('Varianza de la exactitud:',np.var(ACC))
    # Medidas tabla
    table_data = [[x,y] for x, y in zip(range(1,len(ACC)+1), ACC)]
    headers = ['N° Partición','Precisión']
    table = tabulate(table_data, headers, tablefmt='simple_grid',stralign='center',numalign='center')
    print(table)

#### **Ensambles de clasificadores**
Para ambos casos hago ensambles de árboles de decisión, modificando la profundidad máxima para ver los resultados en cada caso.

- **Bagging**

In [132]:
# Árbol de decisión con profundidad máxima 1
base_clf = DecisionTreeClassifier(max_depth=1)
clf = BaggingClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Bagging (Decision Tree: max_depth = 1)',np.mean(ACC),np.var(ACC)])

# Árbol de decisión con profundidad máxima 5
base_clf = DecisionTreeClassifier(max_depth=5)
clf = BaggingClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Bagging (Decision Tree: max_depth = 5)',np.mean(ACC),np.var(ACC)])

# Árbol de decisión con profundidad máxima 10
base_clf = DecisionTreeClassifier(max_depth=20)
clf = BaggingClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Bagging (Decision Tree: max_depth = 20)',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.1757142857142857
Varianza de la exactitud: 0.058175762156714536
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │      0      │
├────────────────┼─────────────┤
│       2        │  0.222222   │
├────────────────┼─────────────┤
│       3        │  0.0277778  │
├────────────────┼─────────────┤
│       4        │  0.628571   │
├────────────────┼─────────────┤
│       5        │      0      │
└────────────────┴─────────────┘
Exactitud media: 0.9155555555555555
Varianza de la exactitud: 0.005498765432098762
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │  0.944444   │
├────────────────┼─────────────┤
│       2        │  0.972222   │
├────────────────┼─────────────┤
│       3        │  0.861111   │
├────────────────┼─────────────┤
│       4        │      1      │
├────────────────┼─────────────┤
│       5        │     0.8     │
└────────

- **AdaBoost**

In [133]:
base_clf = DecisionTreeClassifier(max_depth=1)
clf = AdaBoostClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['AdaBoost (Decision Tree: max_depth = 1)',np.mean(ACC),np.var(ACC)])

base_clf = DecisionTreeClassifier(max_depth=5)
clf = AdaBoostClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['AdaBoost (Decision Tree: max_depth = 5)',np.mean(ACC),np.var(ACC)])

base_clf = DecisionTreeClassifier(max_depth=20)
clf = AdaBoostClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['AdaBoost (Decision Tree: max_depth = 20)',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.6636507936507937
Varianza de la exactitud: 0.050525170068027224
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │  0.833333   │
├────────────────┼─────────────┤
│       2        │  0.222222   │
├────────────────┼─────────────┤
│       3        │  0.805556   │
├────────────────┼─────────────┤
│       4        │  0.742857   │
├────────────────┼─────────────┤
│       5        │  0.714286   │
└────────────────┴─────────────┘
Exactitud media: 0.836984126984127
Varianza de la exactitud: 0.004632048374905514
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │  0.916667   │
├────────────────┼─────────────┤
│       2        │  0.805556   │
├────────────────┼─────────────┤
│       3        │  0.805556   │
├────────────────┼─────────────┤
│       4        │  0.742857   │
├────────────────┼─────────────┤
│       5        │  0.914286   │
└─────────

#### **Conclusiones**
Realizamos una tabla que tenga la precisión media y la varianza de precisión para cada ensamble de clasificadores a modo de comparación, y determinamos el de mejor desempeño:

In [134]:
headers = ['Ensamble','Precisión media','Varianza']
table = tabulate(datos_tabla, headers, tablefmt='simple_grid',stralign='center',numalign='center')
print(table)

max_acc = max(datos_tabla, key=lambda x: x[1])
print('El ensamble con una media de precisión más alta es "', max_acc[0],'" con una media de',round(max_acc[1],6))

min_var = min(datos_tabla, key=lambda x: x[2])
print('El ensamble con una varianza de precisión más baja es "',min_var[0],'" con una varianza de',round(min_var[2],6))

┌──────────────────────────────────────────┬───────────────────┬────────────┐
│                 Ensamble                 │  Precisión media  │  Varianza  │
├──────────────────────────────────────────┼───────────────────┼────────────┤
│  Bagging (Decision Tree: max_depth = 1)  │     0.175714      │ 0.0581758  │
├──────────────────────────────────────────┼───────────────────┼────────────┤
│  Bagging (Decision Tree: max_depth = 5)  │     0.915556      │ 0.00549877 │
├──────────────────────────────────────────┼───────────────────┼────────────┤
│ Bagging (Decision Tree: max_depth = 20)  │     0.893175      │ 0.00369604 │
├──────────────────────────────────────────┼───────────────────┼────────────┤
│ AdaBoost (Decision Tree: max_depth = 1)  │     0.663651      │ 0.0505252  │
├──────────────────────────────────────────┼───────────────────┼────────────┤
│ AdaBoost (Decision Tree: max_depth = 5)  │     0.836984      │ 0.00463205 │
├──────────────────────────────────────────┼───────────────────┼