**Ejercicio 3:** Utilizando las funciones provistas por Scikit-learn, implememente los métodos de ensambles de clasificadores Bagging y AdaBoost. Compare el desempeño de estos modelos empleando 5 particiones con el conjunto de datos Wine.

#### **Librerías**

In [50]:
import numpy as np
from tabulate import tabulate                   # Para generar tablas

from sklearn import datasets                    # Módulo para levantar los datos
from sklearn.metrics import accuracy_score      # Medida de precisión
from sklearn.model_selection import KFold       # Modelo de partición

# Clasificadores:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import AdaBoostClassifier

#### **Inicialización**
Levanto los datos del conjunto Wine con el módulo datasets y, además, genero una función para el KFold de 5 particiones, al cual le voy a pasar los datos de entrada y el clasificador. 

In [51]:
X_digits,y_digits = datasets.load_wine(return_X_y=True)  
datos_tabla = []

def generar_kfold(X_digits,y_digits,clf,n_particiones=5):
    kf = KFold(n_splits=n_particiones)
    ACC = []

    for train_index, test_index in kf.split(X_digits):
        X_train, X_test = X_digits[train_index], X_digits[test_index]
        y_train, y_test = y_digits[train_index], y_digits[test_index]

        clf.fit(X_train, y_train)       # Entreno perceptrón con el conjunto de datos obtenido.
        y_pred = clf.predict(X_test)    # Obtengo salida con datos de prueba
        ACC_aux = accuracy_score(y_test,y_pred)
        ACC.append(ACC_aux)

    return ACC

def medidas(ACC):
    # Medidas globales
    print('Exactitud media:',np.mean(ACC))
    print('Varianza de la exactitud:',np.var(ACC))
    # Medidas tabla
    table_data = [[x,y] for x, y in zip(range(1,len(ACC)+1), ACC)]
    headers = ['N° Partición','Precisión']
    table = tabulate(table_data, headers, tablefmt='simple_grid',stralign='center',numalign='center')
    print(table)

#### **Ensambles de clasificadores**
Para ambos casos hago ensambles de árboles de decisión.

- **Bagging**

In [52]:
base_clf = DecisionTreeClassifier()
clf = BaggingClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Bagging',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.9103174603174603
Varianza de la exactitud: 0.003600403124212648
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │  0.944444   │
├────────────────┼─────────────┤
│       2        │  0.916667   │
├────────────────┼─────────────┤
│       3        │  0.833333   │
├────────────────┼─────────────┤
│       4        │      1      │
├────────────────┼─────────────┤
│       5        │  0.857143   │
└────────────────┴─────────────┘


- **AdaBoost**

In [53]:
base_clf = DecisionTreeClassifier()
clf = AdaBoostClassifier(base_clf,n_estimators=100)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['AdaBoost',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.8368253968253969
Varianza de la exactitud: 0.005676140085663892
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       1        │  0.916667   │
├────────────────┼─────────────┤
│       2        │  0.805556   │
├────────────────┼─────────────┤
│       3        │  0.833333   │
├────────────────┼─────────────┤
│       4        │  0.714286   │
├────────────────┼─────────────┤
│       5        │  0.914286   │
└────────────────┴─────────────┘


#### **Conclusiones**
Realizamos una tabla que tenga la precisión media y la varianza de precisión para cada ensamble de clasificadores a modo de comparación, y determinamos el de mejor desempeño:

In [54]:
headers = ['Ensamble','Precisión media','Varianza']
table = tabulate(datos_tabla, headers, tablefmt='simple_grid',stralign='center',numalign='center')
print(table)

max_acc = max(datos_tabla, key=lambda x: x[1])
print('El ensamble con una media de precisión más alta es "', max_acc[0],'" con una media de',round(max_acc[1],6))

min_var = min(datos_tabla, key=lambda x: x[2])
print('El ensamble con una varianza de precisión más baja es "',min_var[0],'" con una varianza de',round(min_var[2],6))

┌────────────────┬───────────────────┬────────────┐
│  Clasificador  │  Precisión media  │  Varianza  │
├────────────────┼───────────────────┼────────────┤
│    Bagging     │     0.910317      │ 0.0036004  │
├────────────────┼───────────────────┼────────────┤
│    AdaBoost    │     0.836825      │ 0.00567614 │
└────────────────┴───────────────────┴────────────┘
El ensamble con una media de precisión más alta es " Bagging " con una media de 0.910317
El ensamble con una varianza de precisión más baja es " Bagging " con una varianza de 0.0036
