**Ejercicio 2:** Mediante el esquema de cinco particiones generadas con KFold, compare el desempeño del perceptrón multicapa con los siguientes clasificadores:

- Naive Bayes,
- Análisis discriminante lineal,
- K vecinos más cercanos,
- Arbol de decisión,
- ́Maquina de soporte vectorial.

#### **Librerías**

In [298]:
import numpy as np
from tabulate import tabulate                   # Para generar tablas

from sklearn import datasets                    # Módulo para levantar los datos
from sklearn.metrics import accuracy_score      # Medida de precisión
from sklearn.model_selection import KFold       # Modelo de partición

# Clasificadores:
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

#### **Inicialización**
Levanto los datos del conjunto Digits con el módulo datasets y, además, genero una función para el KFold de 5 particiones, al cual le voy a pasar los datos de entrada y el clasificador. 

In [299]:
X_digits,y_digits = datasets.load_digits(return_X_y=True)  
datos_tabla = []

def generar_kfold(X_digits,y_digits,clf,n_particiones=5):
    kf = KFold(n_splits=n_particiones)
    ACC = []

    for train_index, test_index in kf.split(X_digits):
        X_train, X_test = X_digits[train_index], X_digits[test_index]
        y_train, y_test = y_digits[train_index], y_digits[test_index]

        clf.fit(X_train, y_train)       # Entreno perceptrón con el conjunto de datos obtenido.
        y_pred = clf.predict(X_test)    # Obtengo salida con datos de prueba
        ACC_aux = accuracy_score(y_test,y_pred)
        ACC.append(ACC_aux)

    return ACC

def medidas(ACC):
    # Medidas globales
    print('Exactitud media:',np.mean(ACC))
    print('Varianza de la exactitud:',np.var(ACC))
    # Medidas tabla
    table_data = [[x,y] for x, y in zip(range(len(ACC)), ACC)]
    headers = ['N° Partición','Precisión']
    table = tabulate(table_data, headers, tablefmt='simple_grid',stralign='center',numalign='center')
    print(table)

#### **Clasificadores**
- **Naive-Bayes**

Para este clasificador podemos cambiar los parámetros *priors* (vector de probabilidades a priori) y *var_smoothing* ( ). Por default, calcula automáticamente las probabilidades en base a la distribución de clases en los datos de entrenamiento y *var_smoothing* es 1e09.

In [300]:
clf = GaussianNB()
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Naive-Bayes',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.8119343856391211
Varianza de la exactitud: 0.0010647964372532005
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.788889   │
├────────────────┼─────────────┤
│       1        │  0.788889   │
├────────────────┼─────────────┤
│       2        │  0.793872   │
├────────────────┼─────────────┤
│       3        │  0.874652   │
├────────────────┼─────────────┤
│       4        │   0.81337   │
└────────────────┴─────────────┘


- **Análisis discriminante lineal**

In [301]:
clf = LinearDiscriminantAnalysis()
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Análisis discriminante lineal',np.mean(ACC),np.var(ACC)])

Exactitud media: 0.9076261219436708
Varianza de la exactitud: 0.000402178605567908
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.936111   │
├────────────────┼─────────────┤
│       1        │    0.875    │
├────────────────┼─────────────┤
│       2        │  0.913649   │
├────────────────┼─────────────┤
│       3        │  0.913649   │
├────────────────┼─────────────┤
│       4        │  0.899721   │
└────────────────┴─────────────┘


- **K vecinos más cercanos**

Para este clasificador podemos cambiar la K, esto es, el número de vecinos. Se probarán distintos valores de K: 1, 3 y 5 (valor por default) para realizar una comparación dentro del método y contra los demás.

In [302]:
print('------------ K = 1 ------------')
clf = KNeighborsClassifier(n_neighbors=1)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['1 vecino más cercano',np.mean(ACC),np.var(ACC)])

print('------------ K = 3 ------------')
clf = KNeighborsClassifier(n_neighbors=3)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['3 vecinos más cercanos',np.mean(ACC),np.var(ACC)])

print('------------ K = 5 ------------')
clf = KNeighborsClassifier(n_neighbors=5)
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['5 vecinos más cercanos',np.mean(ACC),np.var(ACC)])

------------ K = 1 ------------
Exactitud media: 0.9649504797276384
Varianza de la exactitud: 0.00016554467270554172
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.961111   │
├────────────────┼─────────────┤
│       1        │  0.952778   │
├────────────────┼─────────────┤
│       2        │  0.966574   │
├────────────────┼─────────────┤
│       3        │  0.988858   │
├────────────────┼─────────────┤
│       4        │  0.955432   │
└────────────────┴─────────────┘
------------ K = 3 ------------
Exactitud media: 0.9666202414113277
Varianza de la exactitud: 0.00010783744330711395
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.955556   │
├────────────────┼─────────────┤
│       1        │  0.961111   │
├────────────────┼─────────────┤
│       2        │  0.963788   │
├────────────────┼─────────────┤
│       3        │  0.986072   │
├──────

- **Árbol de decisión**

Para este clasificador, podemos elegir el criterio para la división de las dimensiones. En particular, probamos Impureza de Gini y Entropía para comparar dentro del método y contra los otros.

In [303]:
print('------------ Gini ------------')
clf = DecisionTreeClassifier(criterion='gini')
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Árbol de decisión (Gini)',np.mean(ACC),np.var(ACC)])

print('------------ Entropía ------------')
clf = DecisionTreeClassifier(criterion='entropy')
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Árbol de decisión (Entropía)',np.mean(ACC),np.var(ACC)])

------------ Gini ------------
Exactitud media: 0.7874744661095636
Varianza de la exactitud: 0.0020133559276281385
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.763889   │
├────────────────┼─────────────┤
│       1        │  0.719444   │
├────────────────┼─────────────┤
│       2        │   0.81337   │
├────────────────┼─────────────┤
│       3        │  0.852368   │
├────────────────┼─────────────┤
│       4        │  0.788301   │
└────────────────┴─────────────┘
------------ Entropía ------------
Exactitud media: 0.8141411327762302
Varianza de la exactitud: 0.00044499650409637084
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │    0.825    │
├────────────────┼─────────────┤
│       1        │  0.791667   │
├────────────────┼─────────────┤
│       2        │  0.846797   │
├────────────────┼─────────────┤
│       3        │  0.816156   │
├─────

- **Máquina de soporte vectorial**

Para este clasificador, debido a que no es invariante en escala, utilizamos la función StandardScaler() para escalar los datos, estandarizándolos para que tengan media 0 y varianza 1.

Probamos cambiar el kernel entre 4 de los que provee el módulo de sklearn para comparar en el mismo método y con los demás.

In [304]:
print('------------ Linear ------------')
clf = make_pipeline(StandardScaler(),SVC(gamma='auto',kernel='linear'))
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Máquina de soporte vectorial (Linear)',np.mean(ACC),np.var(ACC)])

print('------------ Polynomial Kernel ------------')
clf = make_pipeline(StandardScaler(),SVC(gamma='auto',kernel='poly'))
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Máquina de soporte vectorial (Poly)',np.mean(ACC),np.var(ACC)])

print('------------ Radial Basis Function ------------')
clf = make_pipeline(StandardScaler(),SVC(gamma='auto',kernel='rbf'))
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Máquina de soporte vectorial (RBF)',np.mean(ACC),np.var(ACC)])

print('------------ Sigmoid Kernel ------------')
clf = make_pipeline(StandardScaler(),SVC(gamma='auto',kernel='sigmoid'))
ACC = generar_kfold(X_digits,y_digits,clf)
medidas(ACC)
datos_tabla.append(['Máquina de soporte vectorial (Sigmoid)',np.mean(ACC),np.var(ACC)])

------------ Linear ------------
Exactitud media: 0.9482559579077684
Varianza de la exactitud: 0.00028008245907005277
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.944444   │
├────────────────┼─────────────┤
│       1        │  0.936111   │
├────────────────┼─────────────┤
│       2        │  0.958217   │
├────────────────┼─────────────┤
│       3        │   0.97493   │
├────────────────┼─────────────┤
│       4        │  0.927577   │
└────────────────┴─────────────┘
------------ Polynomial Kernel ------------
Exactitud media: 0.9126663571649644
Varianza de la exactitud: 0.001496741419326336
┌────────────────┬─────────────┐
│  N° Partición  │  Precisión  │
├────────────────┼─────────────┤
│       0        │  0.913889   │
├────────────────┼─────────────┤
│       1        │    0.85     │
├────────────────┼─────────────┤
│       2        │  0.955432   │
├────────────────┼─────────────┤
│       3        │  0.949861 

#### **Conclusiones**
Realizamos una tabla que tenga la precisión media y la varianza de precisión para cada uno de los clasificadores a modo de comparación, y determinamos el de mejor desempeño:

In [305]:
headers = ['Clasificador','Precisión media','Varianza']
table = tabulate(datos_tabla, headers, tablefmt='simple_grid',stralign='center',numalign='center')
print(table)

max_acc = max(datos_tabla, key=lambda x: x[1])
print('El clasificador con una media de precisión más alta es "', max_acc[0],'" con una media de',round(max_acc[1],6))

min_var = min(datos_tabla, key=lambda x: x[2])
print('El clasificador con una varianza de precisión más baja es "',min_var[0],'" con una varianza de',round(min_var[2],6))

┌────────────────────────────────────────┬───────────────────┬─────────────┐
│              Clasificador              │  Precisión media  │  Varianza   │
├────────────────────────────────────────┼───────────────────┼─────────────┤
│              Naive-Bayes               │     0.811934      │  0.0010648  │
├────────────────────────────────────────┼───────────────────┼─────────────┤
│     Análisis discriminante lineal      │     0.907626      │ 0.000402179 │
├────────────────────────────────────────┼───────────────────┼─────────────┤
│          1 vecino más cercano          │      0.96495      │ 0.000165545 │
├────────────────────────────────────────┼───────────────────┼─────────────┤
│         3 vecinos más cercanos         │      0.96662      │ 0.000107837 │
├────────────────────────────────────────┼───────────────────┼─────────────┤
│         5 vecinos más cercanos         │      0.96495      │ 0.000112714 │
├────────────────────────────────────────┼───────────────────┼─────────────┤