### Aprendizaje Automático II - Miguel Angel Ruiz Ortiz

## Notebook de evaluación

Implemente los siguientes clasificadores

1. un Perceptrón multicapa;
2. una Máquina de aprendizaje extremo;
3. una Máquina de aprendizaje con pesos binarios ${-1,1}$;

para clasificar datos que tienen la siguiente representación: $x_i$ una matriz de $n \times n$ enteros (con n=12), $y_i \in \{0,1,2,3,4,5\}$, donde las entradas de cada matriz se pueden interpretar como índices de columnas de otra matriz $E = d \times m$ (d=128, m=256).

### Librerías

In [1]:
import tensorflow as tf
import tensorflow.keras as keras
import numpy as np
from sklearn.metrics import accuracy_score, recall_score, confusion_matrix
from sklearn.preprocessing import StandardScaler

### Carga de datos

In [2]:
X_train = np.load("X_train.npy").astype("float32")
X_train = X_train.reshape(X_train.shape[0], -1)

y_train = np.load("y_train.npy").astype("float32")

X_test = np.load("X_test.npy")
X_test = X_test.reshape(X_test.shape[0], -1)

y_test = np.load("y_test.npy")

Normalizamos los datos

In [3]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [4]:
# labels without one-hot
labels_train = np.argmax(y_train, axis=1)
labels_test = np.argmax(y_test, axis=1)

# label names
label_2_text = {
    0: "anger",
    1: "disgust",
    2: "fear",
    3: "happiness",
    4: "sadness",
    5: "surprise",
    6: "neutral",
}

### Funciones útiles

Función que evalua el modelo dado (model) en los datos de entrenamiento (X_train) y datos de prueba dados (X_test). Imprime la precisión, recall y matriz de confusión en cada dataset

In [5]:
def print_model_info(model, X_train, X_test):
    # predictions - argmax to retrieve label with highest probability
    y_pred_train = tf.argmax(model.predict(X_train), axis=1)
    y_pred_test = tf.argmax(model.predict(X_test), axis=1)

    print("Precisión en datos de entrenamiento:", accuracy_score(labels_train, y_pred_train))
    print("Precisión en datos de prueba:", accuracy_score(labels_test, y_pred_test))
    print("Recall en datos de entrenamiento:", recall_score(labels_train, y_pred_train, average="macro"))
    print("Recall en datos de prueba:", recall_score(labels_test, y_pred_test, average="macro"))
    print("\nMatriz de confusión en datos de entrenamiento:")
    print(confusion_matrix(labels_train, y_pred_train))
    print("\nMatriz de confusión en datos de prueba:")
    print(confusion_matrix(labels_test, y_pred_test))

## Evaluación Perceptrón Multicapa

In [15]:
mlp_model_path = "mlp_model.keras"
mlp_model = keras.models.load_model(mlp_model_path)
print_model_info(mlp_model, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step
Precisión en datos de entrenamiento: 0.9665126050420169
Precisión en datos de prueba: 0.24933333333333332
Recall en datos de entrenamiento: 0.9640258777385846
Recall en datos de prueba: 0.23453810440888753

Matriz de confusión en datos de entrenamiento:
[[3182    0   11   38   35    5   32]
 [   2  359    1    5    5    3    2]
 [  39    2 3218   71   44   25   10]
 [  35    0   11 5824   42    8   27]
 [  12    0   11   52 3904   14   18]
 [  11    0    5   11   10 2605   10]
 [  26    1   14   65   75    9 3911]]

Matriz de confusión en datos de prueba:
[[122   3  63 231 121  45 106]
 [  7  16   3  19  13   6  15]
 [ 89   1 135 240 128  75  85]
 [162   5 116 482 241 106 191]
 [113   1  79 322 223  67 132]
 [ 59   3  30 158  79 172  68]
 [115   0  73 317 177  77 159]]


## Evaluación Extreme Learning Machine

Los modelos que cargamos de EML no tienen la capa *softmax* al final, pero dado que estamos tomando *argmax* al final para predecir la etiqueta no influye en la predicción. Es decir, $\argmax(\vec{x}) = \argmax(softmax(\vec{x}))$.

### Sin regularización

In [7]:
eml_simple_path = "eml_simple.keras"
eml_simple = keras.models.load_model(eml_simple_path)
print_model_info(eml_simple, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 902us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 852us/step
Precisión en datos de entrenamiento: 0.39046218487394957
Precisión en datos de prueba: 0.20742857142857143
Recall en datos de entrenamiento: 0.3181230994918591
Recall en datos de prueba: 0.159195563370842

Matriz de confusión en datos de entrenamiento:
[[ 839    0  319 1168  435  145  397]
 [  28   15   40  138   64   22   70]
 [ 218    0 1015 1145  454  155  422]
 [ 330    0  383 3781  614  228  611]
 [ 271    0  282 1332 1480  157  489]
 [ 157    0  197  893  324  774  307]
 [ 293    0  293 1424  507  195 1389]]

Matriz de confusión en datos de prueba:
[[ 72   0  81 286 101  39 112]
 [  5   2   8  33  14   3  14]
 [ 66   0  89 304 138  62  94]
 [114   0 117 548 212  83 229]
 [ 85   0 101 405 170  38 138]
 [ 56   0  47 245  95  57  69]
 [ 85   0 105 381 144  52 151]]


### Regularización Ridge

In [8]:
eml_ridge_path = "eml_ridge.keras"
eml_ridge = keras.models.load_model(eml_ridge_path)
print_model_info(eml_ridge, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 803us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 826us/step
Precisión en datos de entrenamiento: 0.39046218487394957
Precisión en datos de prueba: 0.20742857142857143
Recall en datos de entrenamiento: 0.3181230994918591
Recall en datos de prueba: 0.159195563370842

Matriz de confusión en datos de entrenamiento:
[[ 839    0  319 1168  435  145  397]
 [  28   15   40  138   64   22   70]
 [ 218    0 1015 1145  454  155  422]
 [ 330    0  383 3781  614  228  611]
 [ 271    0  282 1332 1480  157  489]
 [ 157    0  197  893  324  774  307]
 [ 293    0  293 1424  507  195 1389]]

Matriz de confusión en datos de prueba:
[[ 72   0  81 286 101  39 112]
 [  5   2   8  33  14   3  14]
 [ 66   0  89 304 138  62  94]
 [114   0 117 548 212  83 229]
 [ 85   0 101 405 170  38 138]
 [ 56   0  47 245  95  57  69]
 [ 85   0 105 381 144  52 151]]


### Regularización Lasso

In [9]:
eml_lasso_path = "eml_lasso.keras"
eml_lasso = keras.models.load_model(eml_lasso_path)
print_model_info(eml_lasso, X_train, X_test)


[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 804us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 819us/step
Precisión en datos de entrenamiento: 0.24987394957983194
Precisión en datos de prueba: 0.24819047619047618
Recall en datos de entrenamiento: 0.14285714285714285
Recall en datos de prueba: 0.14285714285714285

Matriz de confusión en datos de entrenamiento:
[[   0    0    0 3303    0    0    0]
 [   0    0    0  377    0    0    0]
 [   0    0    0 3409    0    0    0]
 [   0    0    0 5947    0    0    0]
 [   0    0    0 4011    0    0    0]
 [   0    0    0 2652    0    0    0]
 [   0    0    0 4101    0    0    0]]

Matriz de confusión en datos de prueba:
[[   0    0    0  691    0    0    0]
 [   0    0    0   79    0    0    0]
 [   0    0    0  753    0    0    0]
 [   0    0    0 1303    0    0    0]
 [   0    0    0  937    0    0    0]
 [   0    0    0  569    0    0    0]
 [   0    0    0  918    0    0    0]]


### Regularización Elastic-Net

In [10]:
eml_elasticnet_path = "eml_elasticnet.keras"
eml_elasticnet = keras.models.load_model(eml_elasticnet_path)
print_model_info(eml_elasticnet, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 851us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 757us/step
Precisión en datos de entrenamiento: 0.24987394957983194
Precisión en datos de prueba: 0.24819047619047618
Recall en datos de entrenamiento: 0.14285714285714285
Recall en datos de prueba: 0.14285714285714285

Matriz de confusión en datos de entrenamiento:
[[   0    0    0 3303    0    0    0]
 [   0    0    0  377    0    0    0]
 [   0    0    0 3409    0    0    0]
 [   0    0    0 5947    0    0    0]
 [   0    0    0 4011    0    0    0]
 [   0    0    0 2652    0    0    0]
 [   0    0    0 4101    0    0    0]]

Matriz de confusión en datos de prueba:
[[   0    0    0  691    0    0    0]
 [   0    0    0   79    0    0    0]
 [   0    0    0  753    0    0    0]
 [   0    0    0 1303    0    0    0]
 [   0    0    0  937    0    0    0]
 [   0    0    0  569    0    0    0]
 [   0    0    0  918    0    0    0]]


### Pesos binarios, sin regularización

In [11]:
eml_bin_simple_path = "eml_bin_simple.keras"
eml_bin_simple = keras.models.load_model(eml_bin_simple_path)
print_model_info(eml_bin_simple, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 772us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 780us/step
Precisión en datos de entrenamiento: 0.3923109243697479
Precisión en datos de prueba: 0.2144761904761905
Recall en datos de entrenamiento: 0.3179137343211312
Recall en datos de prueba: 0.16234230880328274

Matriz de confusión en datos de entrenamiento:
[[ 933    0  238 1109  406  178  439]
 [  40    7   45  155   45   18   67]
 [ 265    0  979 1151  403  181  430]
 [ 366    0  399 3759  584  220  619]
 [ 302    0  273 1339 1417  197  483]
 [ 163    0  236  837  311  789  316]
 [ 286    0  320 1339  508  195 1453]]

Matriz de confusión en datos de prueba:
[[ 75   0  63 276 105  59 113]
 [ 10   0  10  29   9   5  16]
 [ 76   0  88 292 100  65 132]
 [127   0 136 562 170  98 210]
 [ 99   0  79 381 177  54 147]
 [ 62   0  66 214  74  70  83]
 [103   0  86 390 127  58 154]]


### Pesos binarios, regularización Ridge

In [12]:
eml_bin_ridge_path = "eml_bin_ridge.keras"
eml_bin_ridge = keras.models.load_model(eml_bin_ridge_path)
print_model_info(eml_bin_ridge, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 738us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 797us/step
Precisión en datos de entrenamiento: 0.39474789915966385
Precisión en datos de prueba: 0.21257142857142858
Recall en datos de entrenamiento: 0.32105438202834496
Recall en datos de prueba: 0.16468803220720618

Matriz de confusión en datos de entrenamiento:
[[ 843    0  261 1155  442  157  445]
 [  27   13   40  142   56   29   70]
 [ 219    0 1023 1178  424  145  420]
 [ 370    0  401 3755  565  198  658]
 [ 261    0  298 1255 1455  191  551]
 [ 156    0  249  834  323  759  331]
 [ 250    0  307 1324  492  181 1547]]

Matriz de confusión en datos de prueba:
[[ 62   0  88 265  85  56 135]
 [ 12   2   6  35  10   2  12]
 [ 60   0 107 288 136  49 113]
 [110   0 130 547 197  84 235]
 [ 84   0 105 363 171  67 147]
 [ 46   0  63 218  75  69  98]
 [ 76   0 103 366 142  73 158]]


### Pesos binarios, regularización Lasso

In [13]:
eml_bin_lasso_path = "eml_bin_lasso.keras"
eml_bin_lasso = keras.models.load_model(eml_bin_lasso_path)
print_model_info(eml_bin_lasso, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 735us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 733us/step
Precisión en datos de entrenamiento: 0.24987394957983194
Precisión en datos de prueba: 0.24819047619047618
Recall en datos de entrenamiento: 0.14285714285714285
Recall en datos de prueba: 0.14285714285714285

Matriz de confusión en datos de entrenamiento:
[[   0    0    0 3303    0    0    0]
 [   0    0    0  377    0    0    0]
 [   0    0    0 3409    0    0    0]
 [   0    0    0 5947    0    0    0]
 [   0    0    0 4011    0    0    0]
 [   0    0    0 2652    0    0    0]
 [   0    0    0 4101    0    0    0]]

Matriz de confusión en datos de prueba:
[[   0    0    0  691    0    0    0]
 [   0    0    0   79    0    0    0]
 [   0    0    0  753    0    0    0]
 [   0    0    0 1303    0    0    0]
 [   0    0    0  937    0    0    0]
 [   0    0    0  569    0    0    0]
 [   0    0    0  918    0    0    0]]


### Pesos binarios, regularización Elastic-Net

In [14]:
eml_bin_elasticnet_path = "eml_bin_elasticnet.keras"
eml_bin_elasticnet = keras.models.load_model(eml_bin_elasticnet_path)
print_model_info(eml_bin_elasticnet, X_train, X_test)

[1m744/744[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 789us/step
[1m165/165[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 771us/step
Precisión en datos de entrenamiento: 0.25
Precisión en datos de prueba: 0.24819047619047618
Recall en datos de entrenamiento: 0.14313856304119463
Recall en datos de prueba: 0.14294594872301866

Matriz de confusión en datos de entrenamiento:
[[   0    0    0 3287    6    0   10]
 [   0    0    0  376    0    0    1]
 [   0    0    0 3394    0    0   15]
 [   0    0    0 5931    3    0   13]
 [   0    0    0 3995    5    0   11]
 [   0    0    0 2641    3    0    8]
 [   0    0    0 4082    5    0   14]]

Matriz de confusión en datos de prueba:
[[   0    0    0  689    1    0    1]
 [   0    0    0   79    0    0    0]
 [   0    0    0  750    1    0    2]
 [   0    0    0 1301    0    0    2]
 [   0    0    0  930    1    0    6]
 [   0    0    0  565    3    0    1]
 [   0    0    0  916    1    0    1]]


## Conclusiones

Primero observamos que al trabajar con las matrices con entradas enteras, los modelos tenían problemas para obtener buena precisión **incluso** en el conjunto de entrenamiento. Es curioso que cuando normalizamos (estandarizamos) los datos, el perceptrón multicapa encontraba más fácil clasificar los datos de entrenamiento, llegando al 96%, pero aún así en el conjunto de validación/prueba no tenía buen rendimiento. 

El bajo rendimiento se encontró en todos los modelos, teniendo un máximo de una precisión del 25% en el conjunto de prueba. Aunque hay que tener cuidado porque hay modelos como el EML con regularización Lasso y Elastic-Net (con pesos binarios y no binarios) que predecían casi siempre la etiqueta *felicidad* (3), la cual es la etiqueta dominante, y con eso ya alcanzaban el 25%. Sin embargo, dichos modelos eran penalizados a través de la métrica *recall* y eran los más bajos en esta métrica. Recordemos que el *recall* es un promedio de la proporción de verdaderos positivos en cada clase. De manera que las clases que no eran felicidad tenían una proporción casi 0 de verdaderos positivos con esos modelos. Es razonable pensar que la regularización Lasso y Elastic-Net no favorece a las EML porque la matriz $\beta$ debe capturar toda la información del modelo y esas regularizaciones hacen que $\beta$ sea esparsa, i.e, menos capacidad de información que puede guardar $\beta$.

A continuación se muestra un resumen en la siguiente tabla con el rendimiento de los modelos en el conjunto de prueba.

| Modelo                           | Precisión | Recall |
|----------------------------------|-----------|--------|
| Perceptrón Multicapa             | 0.249     | 0.234  |
| EML                              | 0.207     | 0.159  |
| EML + Ridge                      | 0.207     | 0.159  |
| EML + Lasso                      | 0.248     | 0.142  |
| EML + Elastic-Net                | 0.248     | 0.142  |
| EML + p. binarios                | 0.214     | 0.162  |
| EML + p. binarios + Ridge        | 0.212     | 0.164  |
| EML + p. binarios + Lasso        | 0.248     | 0.142  |
| EML + p. binarios + Elastic-Net  | 0.248     | 0.142  |

Observemos que el mejor modelo fue el perceptrón multicapa, con un *recall* con casi 10 puntos porcentuales más grande comparado con los demás modelos. Otro comportamiento que cabe resaltar es que los EML con pesos binarios sin regularización y con regularización Ridge son ligeramente mejores que con pesos no binarios (en precisión y en *recall*).


