<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/04%20Deep%20Learning/notebooks/01-MLP-MNIST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

‚úÖ Conectar la notebook en modo GPU

Entorno de ejecuci√≥n ‚Üí Cambiar tipo de entorno de ejecuci√≥n

Algunas consideraciones:

* No dejar la notebook conectada sin actividad ya que Colab penaliza esto al asignar un entorno con GPU.
* No pedir el entorno con GPU si no se va a usar.

Recuerda la simbolog√≠a de las secciones:

* üîΩ Esta secci√≥n no forma parte del proceso usual de Machine Learning. Es una exploraci√≥n did√°ctica de alg√∫n aspecto del funcionamiento del algoritmo.
* ‚ö° Esta secci√≥n incluye t√©cnicas m√°s avanzadas destinadas a optimizar o profundizar en el uso de los algoritmos.
* ‚≠ï Esta secci√≥n contiene un ejercicio o pr√°ctica a realizar. A√∫n si no se establece una fecha de entrega, es muy recomendable realizarla para practicar conceptos clave de cada tema.

# Redes Neuronales MLP para clasificaci√≥n

<img align="center" width="50%" src="https://github.com/DCDPUAEM/DCDP/blob/main/04%20Deep%20Learning/img/mlp.png?raw=1"/>

En esta notebook usaremos una red neuronal de tipo **MultiLayer Perceptron (MLP)** para el problema de clasificaci√≥n en el dataset MNIST.

Veremos que con una red neuronal podremos entrenar un modelo para la clasificaci√≥n de este dataset usando todas las features sin mucho problema.

---

Recordemos el mejor modelo de Machine Learning cl√°sico que hemos obtenido:

<center>
<p><img src="https://drive.google.com/uc?id=1XY3iypQcSR868H7xFBilyxuzsJTzed4g" width="500" /></p>
</center>

Este modelo era dif√≠cil de entrenar en cuesti√≥n de la duraci√≥n del entrenamiento y requiri√≥ una busqueda exhaustiva de par√°metros.

Con PCA (50-60 componentes principales) y SVM estabamos alrededor de 97% en las m√©tricas.

Benchmarks para el dataset MNIST

1. **No Routing Needed Between Capsules**, 2020. *Accuracy: 99.87%*

    Modelo de redes CNN con Homogeneous Vector Capsules (HVCs) que modifican el flujo de datos entre capas. [Art√≠culo](https://arxiv.org/abs/2001.09136), [c√≥digo](https://github.com/AdamByerly/BMCNNwHFCs).

2. **An Ensemble of Simple Convolutional Neural Network Models for MNIST Digit Recognition**, 2020. *Accuracy: 99.87%*

    Modelo de ensamble de redes CNN [Art√≠culo](https://arxiv.org/abs/2008.10400), [c√≥digo](https://github.com/ansh941/MnistSimpleCNN).

## 1. El conjunto de datos

Observar que, ahora s√≠, usamos todo el conjunto de datos completo.

In [None]:
import numpy as np
from keras.datasets import mnist

# Load MNIST handwritten digit data
(X_train, y_train), (X_test, y_test) = mnist.load_data()

print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_test shape: {y_test.shape}")

y_test_original = y_test.copy()  # Hacemos una copia del 'y_test', la usaremos al final

Recordar que tenemos que dividir en tres conjuntos de entrenamiento: train, validation y test.

<center>
<img src="https://drive.google.com/uc?export=view&id=1Ts1ZZlHl1qTdkD_FZ2uvi9wkJtuTNH8M" style="width: 60%">
</center>

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train,
                                                  test_size=0.15,
                                                  stratify=y_train,  # RECORDAR LA ESTRATIFIACI√ìN
                                                  random_state=894)

print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"X_val shape: {X_val.shape}")
print(f"y_val shape: {y_val.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_test shape: {y_test.shape}")

Veamos que esto no afecta a las imagenes:

In [None]:
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Escogemos algunos √≠ndices:
idxs = np.random.choice(range(X_train.shape[0]),size=3,replace=False)

# Hacemos 3 tipos de reescalamiento:
X_minmax = MinMaxScaler().fit_transform(X_train[idxs,:].reshape(-1,28*28))
X_std = StandardScaler().fit_transform(X_train[idxs,:].reshape(-1,28*28))
X_scl = X_train[idxs,:].reshape(-1,28*28)/255.

# T√≠tulos para cada fila
row_titles = [
    "Im√°genes originales",
    "MinMaxScaler (por feature)",
    "StandardScaler (por feature)",
    "Reescalado [0, 1] (x/255)"
]

# Graficamos:
fig, axs = plt.subplots(ncols=3, nrows=4, sharex=False,
                       sharey=True, figsize=(6, 9))
for i, idx in enumerate(idxs):
	# Fila 0: Originales
	axs[0,i].imshow(X_train[idx], cmap='plasma')
	axs[0,i].axis('off')

	# Fila 1: MinMax
	axs[1,i].imshow(X_minmax[i].reshape(28,28), cmap='plasma')
	axs[1,i].axis('off')

	# Fila 2: StandardScaler
	axs[2,i].imshow(X_std[i].reshape(28,28), cmap='plasma')
	axs[2,i].axis('off')

	# Fila 3: Reescalado manual
	axs[3,i].imshow(X_scl[i].reshape(28,28), cmap='plasma')
	axs[3,i].axis('off')
	if i == 1:
		for j in range(4):
			axs[j,i].set_title(row_titles[j],fontsize=10)

fig.show()

üîµ Esto nos da una idea del data leakage

Apliquemos el preprocesamiento para este dataset:

In [None]:
print(f"M√°ximo valor de X_train: {np.max(X_train)}")
print(f"M√≠nimo valor de X_train: {np.min(X_train)}")

X_train = X_train.astype('float32')
X_val = X_val.astype('float32')
X_test = X_test.astype('float32')

X_train /= 255
X_val /= 255
X_test /= 255

print(f"M√°ximo valor de X_train: {np.max(X_train)}")
print(f"M√≠nimo valor de X_train: {np.min(X_train)}")

Visualizamos 6 ejemplos aleatorios, junto con sus etiquetas

In [None]:
import matplotlib.pyplot as plt

# ------ Obtenemos algunos √≠ndices aleatorios:
some_idxs = np.random.choice(list(range(y_train.shape[0])),size=6,replace=False)

fig, axes = plt.subplots(ncols=6, sharex=False,
			 sharey=True, figsize=(10, 4))
for i,idx in enumerate(some_idxs):
	axes[i].set_title(y_train[idx],fontsize=15)
	axes[i].imshow(X_train[idx], cmap='gray')
	axes[i].get_xaxis().set_visible(False)
	axes[i].get_yaxis().set_visible(False)
plt.show()

## Definiendo la red

### Etiqueta de clase vs Vector de clase

**IMPORTANTE‚ùó**

Al usar redes neuronales, usalmente el vector de etiquetas debe estar codificado como vectores **one-hot**. Es decir:

$$1 ‚Üí (1,0,...,0) $$
$$2 ‚Üí (0,1,...,0) $$
$$ ... $$

Entonces, las etiquetas $y$ son matrices de tama√±o $N\times m$ donde

* $N$: n√∫mero de instancias
* $m$: n√∫mero de clases



Hacemos la codificaci√≥n usando la funci√≥n [`to_categorical`](https://www.tensorflow.org/api_docs/python/tf/keras/utils/to_categorical) de [keras](https://www.tensorflow.org/guide/keras).

$$y_j \overset{\text{to_categorical}}{\rightarrow} (0,...,0,\overset{j}{1},0,...,0)$$

$$y_j \overset{\text{numpy.argmax}}{\leftarrow} (0,...,0,\overset{j}{1},0,...,0)$$

‚ö† A lo largo de las versiones, a veces cambia de ubicaci√≥n este tipo de funciones.





In [None]:
from tensorflow.keras.utils import to_categorical

print("---------- Antes de la codificaci√≥n ----------")
print(f"Primeras 5 etiquetas: {y_train[:5]}")
print(f"Shape: {y_train.shape}")

y_train = to_categorical(y_train,num_classes=10)

print("---------- Despu√©s de la codificaci√≥n ----------")
print(f"Primeras 5 etiquetas:\n{y_train[:5]}\n")
print(f"Shape: {y_train.shape}")

y_val = to_categorical(y_val,num_classes=10)
y_test = to_categorical(y_test,num_classes=10)

### Ingredientes de una arquitectura

Hay dos principales maneras de definir modelos en Keras:

<center>
<img src="https://drive.google.com/uc?export=view&id=1lbLQ7D1_QElq_iTscpQ_rjXPWJ2uPke3" width=500>
</center>


* [**Sequential**](https://keras.io/api/models/sequential/): Un modelo es una secuencia lineal de *layers*. Es sencilla de implementar pero no muy flexible.


* [**Model**](https://www.tensorflow.org/api_docs/python/tf/keras/Model): Un modelo se especifica mediante una estructura similar a un *grafo*, indicando conexiones entre *layers*. Es muy flexible.



In [None]:
from keras.models import Sequential

Por ahora, usaremos los siguientes tipos b√°sicos de capas:

* [**Dense**](https://keras.io/api/layers/core_layers/dense/): implementa la operaci√≥n:
$$\text{output} = \text{activation}(\text{input}\cdot\text{weights} + \text{bias})$$
donde `activation` es la funci√≥n de activaci√≥n y bias es un vector de sesgo creado por la capa (s√≥lo aplicable si `use_bias` es True). Es una capa **densa** por lo que cada neurona de esta capa se conecta con cada una de las neuronas de la capa anterior.
* [**Flatten**](https://keras.io/api/layers/reshaping_layers/flatten/): Aplana los datos para tener un arreglo unidimensional.
* [**Input**](https://keras.io/api/layers/core_layers/input/): Define el tensor de entrada de la red con su forma. Es el punto de entrada para los datos en el modelo.

In [None]:
from keras.layers import Dense, Flatten, Input

Definimos ahora la arquitectura de la red neuronal MLP. Observa los siguientes elementos:

* La **funci√≥n de activaci√≥n** de cada capa, [documentaci√≥n](https://keras.io/api/layers/activations/).
* La **funci√≥n de perdida** de la red, es la funci√≥n de costo que mide que tanto error hay en las predicciones. El optimizador minimizar√° est√° funci√≥n, [documentaci√≥n](https://keras.io/api/losses/).
* El **optimizador** es la clase que minimizar√° la funci√≥n de perdida. De su elecci√≥n depende qu√© tan r√°pido converjamos a una soluci√≥n, [documentaci√≥n](https://keras.io/api/optimizers/)
* La(s) **m√©trica(s) de desempe√±o** a monitorear durante el entrenamiento, tanto en el conjunto de entrenamiento como en el de validaci√≥n. Adem√°s, podemos evaluar las m√©tricas usuales al generar las predicciones. [Documentaci√≥n](https://keras.io/api/metrics/)

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Flatten, Input

model = Sequential()
model.add(Input(shape=(28,28)))
model.add(Flatten()) # Tenemos que aplanar las matrices representando a cada imagen, las capas densas s√≥lo funcionan con vectores de entrada
model.add(Dense(8, activation='relu'))
model.add(Dense(10, activation='softmax'))  # Cuando se trata de tareas de clasificaci√≥n multiclase, ponemos una activaci√≥n softmax en la capa de salida

In [None]:
model.summary()

El m√©todo `summary()` de un modelo de Keras (ya sea `Sequential` o `Model`) imprime informaci√≥n importante del modelo. [Documentaci√≥n](https://keras.io/api/models/model/).

El siguiente paso es compilar el modelo. Esto lo hacemos con el m√©todo [`compile`](https://www.tensorflow.org/api_docs/python/tf/keras/Model#compile).

---

Una gu√≠a general sobre funciones de perdida y m√©tricas

| Aplicaci√≥n                     | Funci√≥n de P√©rdida (Loss)          | M√©trica usual           | √öltima capa (output layer)          |
|---------------------------------|------------------------------------|-------------------------|-------------------------------------|
| Clasificaci√≥n binaria          | `binary_crossentropy`              | `accuracy`              | `Dense(1, activation='sigmoid')`    |
| Clasificaci√≥n multiclase       | `categorical_crossentropy`         | `accuracy`              | `Dense(num_clases, activation='softmax')` |
| Regresi√≥n (un valor)           | `mean_squared_error` (MSE)         | `mse` o `mae`           | `Dense(1, activation='linear')`     |
| Regresi√≥n (m√∫ltiples valores)  | `mean_squared_error` (MSE)         | `mse` o `mae`           | `Dense(num_valores, activation='linear')` |

Una gu√≠a general sobre optimizadores:

| Optimizador  | Ventajas                             | Casos de Uso T√≠picos         | Par√°metros Clave               |
|--------------|--------------------------------------|------------------------------|--------------------------------|
| **Adam**     | Convergencia r√°pida, adaptable      | Default para MLPs, CNN, RNN  | `lr`  |
| **SGD**      | Mayor control, estable con momentum | Problemas convexos, fine-tuning | `lr`, `momentum`      |
| **RMSprop**  | Bueno para datos ruidosos           | RNNs, problemas inestables    | `lr`, `rho`          |

---

‚ö† ‚ùó **IMPORTANTE** Antes de volver a entrenar un modelo, **debes recompilarlo** con el m√©todo `compile()`. Esto reinicializa los pesos aleatoriamente y evita que el entrenamiento contin√∫e desde los pesos previamente aprendidos.  

In [None]:
model.compile(loss='categorical_crossentropy',
	      optimizer='adam',
	      metrics=['acc']
		  )

## ‚ö° Visualizando la arquitectura de la red

A continuaci√≥n se presentan dos maneras adicionales de visualizar la arquitectura de la red. Hay estrategias que producen efectos m√°s atractivos, puedes buscar por tu cuenta.

### Usando [`plot_model`](https://keras.io/api/utils/model_plotting_utils/) de keras

El `None` en el shape de las entradas y salidas se refiere a que no tiene esa informaci√≥n, son los ejemplos que pasan al *mismo tiempo*. Aqu√≠ se muestra la informaci√≥n relativa a los *batches*

In [None]:
from keras.utils import plot_model

plot_model(model, to_file='model_architecture.png', show_shapes=True,
           show_layer_names=True, dpi=100)

### Usando visualkeras

In [None]:
!pip install -qq visualkeras

In [None]:
from visualkeras import layered_view

layered_view(model,
            legend=True,draw_funnel=False,
            draw_volume=True,spacing=30)

Podemos agregar m√°s detalles, como los colores

In [None]:
from collections import defaultdict

color_map = defaultdict(dict)
color_map[Dense]['fill'] = '#5b56b7'
color_map[Flatten]['fill'] = '#0fbe0b'
layered_view(model, legend=True,color_map=color_map)

## Entrenando la red

Entrenamos la red con el m√©todo [`fit`](https://www.tensorflow.org/api_docs/python/tf/keras/Model#fit), la m√©canica es la misma que en los m√©todos de ML cl√°sico.

Algunas diferencias son:

* Especificar el n√∫mero de √©pocas. Entre m√°s √©pocas, m√°s puede aprender el m√≥delo, aunque hay m√°s riesgo de overfitting.

* Especificar el conjunto de validaci√≥n, adem√°s del conjunto de entrenamiento. Este sirve para proporcionar un indicador no sesgado del desempe√±o del modelo. Se puede hacer especificamente, o como una fracci√≥n del conjunto de entrenamiento.




Observa las m√©tricas y p√©rdida en el conjunto de entrenamiento y validaci√≥n.

El entrenamiento regresa un objeto de tipo `History`. Su atributo History.history es un registro de valores de p√©rdidas de entrenamiento y valores de m√©tricas en √©pocas sucesivas, as√≠ como valores de p√©rdidas de validaci√≥n y valores de m√©tricas de validaci√≥n (si procede).

In [None]:
n_epocas = 8

history = model.fit(X_train, y_train, epochs=n_epocas, validation_data=(X_val,y_val))

Graficamos la funci√≥n de perdida en cada √©poca, tanto en el conjunto de entrenamiento, como en el de validaci√≥n.

Estas se llaman **gr√°ficas de entrenamiento**. Son muy importantes para evaluar si hay overfitting, entre otras cosas.

Observa que los registros *hist√≥ricos* del entrenamiento (perdidas y m√©tricas) se encuentran en el diccionario `history.history` especificado anteriormente.

In [None]:
loss_train = history.history['loss']
loss_val = history.history['val_loss']
acc_train = history.history['acc']
acc_val = history.history['val_acc']

epochs = range(1,n_epocas+1)

fig, axs = plt.subplots(1,2,figsize=(12,5))
axs[0].plot(epochs, loss_train, 'g', label='Training loss')
axs[0].plot(epochs, loss_val, 'b', label='validation loss')
axs[0].title.set_text('Loss')
axs[0].set(xlabel="√âpoca", ylabel="Loss")
axs[0].legend()
axs[1].plot(epochs, acc_train, 'g', label='Training accuracy')
axs[1].plot(epochs, acc_val, 'b', label='validation accuracy')
axs[1].title.set_text('Accuracy')
axs[1].set(xlabel="√âpoca", ylabel="Accuracy")
axs[1].legend()

fig.show()

üîµ ¬øHay se√±ales de overfitting? ¬øunderfitting?

‚ö° De la siguiente forma podemos acceder a la matriz de pesos y sesgos en cada capa. Las guardamos como arreglos de numpy.

In [None]:
first_layer_weights = model.layers[1].get_weights()[0]
first_layer_biases  = model.layers[1].get_weights()[1]

np.save("mnist_weights1.npy",first_layer_weights)
np.save("mnist_biases1.npy",first_layer_biases)

In [None]:
second_layer_weights = model.layers[2].get_weights()[0]
second_layer_biases  = model.layers[2].get_weights()[1]

np.save("mnist_weights2.npy",second_layer_weights)
np.save("mnist_biases2.npy",second_layer_biases)

## Predicciones y rendimiento

üîΩ ¬øC√≥mo se ven las predicciones?

In [None]:
from seaborn import heatmap
import numpy as np
import matplotlib.pyplot as plt

# ----- Escogemos un elemento del conjunto test:
idx = np.random.choice(range(X_test.shape[0]),size=1)[0]
print(f"√≠ndice test: {idx}")
x = X_test[idx].copy()

# ----- Graficamos este ejemplo de prueba:
plt.figure()
plt.suptitle(y_test_original[idx],fontsize=15)
plt.imshow(x, cmap='gray')
plt.xticks([])
plt.yticks([])
plt.show()

# ----- Cambiamos a la forma adecuada para entrar a la red neuronal:
x_input = x.reshape(-1,x.shape[0],x.shape[1])

# ----- Lo pasamos por la red neuronal ya entrenada:
prediction = model.predict(x_input)
print(f"\nSalida de la red neuronal para este elemento:")

plt.figure(figsize=(5,1))
heatmap(prediction, cmap='plasma',annot=np.round(prediction,2),cbar=False)
plt.xticks([])
plt.yticks([])
plt.show()

print(f"Son probabilidades, la suma de las entradas es {np.sum(prediction)}")

# ----- Tomamos el argmax:
prediction = np.argmax(prediction, axis=1)
print(f"\nTomamos el √≠ndice de la entrada con mayor probabilidad: {prediction}")

Obtenemos todas las predicciones sobre el conjunto de prueba.

In [None]:
predictions_matrix = model.predict(X_test,batch_size=1)  # Observa el batch_size
predictions = np.argmax(predictions_matrix, axis=1)  # Prueba a comentar esta l√≠nea y discutamos qu√© pasa

Visualizamos algunas predicciones

In [None]:
idxs = np.random.choice(range(X_test.shape[0]),size=10,replace=False)

fig, axes = plt.subplots(ncols=10, sharex=False,
			 sharey=True, figsize=(18, 4))
for i,idx in enumerate(idxs):
	axes[i].set_title(predictions[idx])
	axes[i].imshow(X_test[idx], cmap='gray')
	axes[i].get_xaxis().set_visible(False)
	axes[i].get_yaxis().set_visible(False)
plt.show()

Obtenemos las m√©tricas de desempe√±o de la tarea de clasificaci√≥n. Observar que ambas son **vectores** de etiquetas

In [None]:
print(predictions.shape)
print(y_test_original.shape)

In [None]:
from sklearn.metrics import accuracy_score, recall_score, precision_score

print(f"Test Accuracy: {accuracy_score(y_pred=predictions,y_true=y_test_original)}")
print(f"Test Recall: {recall_score(y_pred=predictions,y_true=y_test_original,average='macro')}")
print(f"Test Precision: {precision_score(y_pred=predictions,y_true=y_test_original,average='macro')}")

Calculamos el roc-auc score

In [None]:
from sklearn.metrics import roc_auc_score

print(f"Shape de y_test: {y_test.shape}")
print(f"Shape de las predicciones para el conjunto de prueba: {predictions_matrix.shape}")

ra_score = roc_auc_score(y_test,predictions_matrix)
print(f"ROC-AUC score {ra_score}")

Mostramos la matriz de confusi√≥n

In [None]:
import seaborn as sns
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt

plt.figure()
cm = confusion_matrix(y_test_original,predictions)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.show()

‚≠ï ¬øQu√© d√≠gitos son los que m√°s confunde la red?

La diferencia entre las m√©tricas de clasificaci√≥n (accuracy, precision, recall) y el ROC-AUC radica en lo que cada una eval√∫a. Las m√©tricas de clasificaci√≥n miden el rendimiento del modelo con un umbral de decisi√≥n fijo, t√≠picamente 0.5 para clasificaci√≥n binaria o el valor m√°ximo de probabilidad para multiclase. En contraste, el ROC-AUC eval√∫a la capacidad del modelo para distinguir entre clases a trav√©s de todos los posibles umbrales de decisi√≥n. Un modelo puede tener un ROC-AUC alto porque ordena correctamente las muestras seg√∫n su probabilidad de pertenencia a cada clase, pero mostrar m√©tricas de clasificaci√≥n moderadas porque las probabilidades predichas no est√°n calibradas para el umbral de decisi√≥n utilizado. Esta discrepancia indica que el modelo posee buena capacidad discriminativa pero requiere optimizaci√≥n del umbral de decisi√≥n o calibraci√≥n de probabilidades para maximizar su rendimiento en la clasificaci√≥n final.

### üîΩ Predicci√≥n en el mundo real

Observa que este modelo est√° listo para hacer predicciones en el *mundo real*. Carguemos algunas imagenes de d√≠gitos hechos por t√≠:

* Escribe un d√≠gito en una hoja
* T√≥male foto
* Guardalo como imagen png
* S√∫bela a colab
* Ejecuta la celda siguiente con las modificaciones pertinentes

In [None]:
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt

def procesar_imagen(ruta_imagen):
    img = Image.open(ruta_imagen) # Leer la imagen
    img_gris = img.convert('L') # Convertir a escala de grises
    img_28x28 = img_gris.resize((28, 28),
                                # Image.Resampling.LANCZOS
                                ) # Redimensionar a 28x28 p√≠xeles
    arreglo = np.array(img_28x28, dtype=int) # Convertir a arreglo NumPy
    arreglo = np.clip(arreglo, 0, 255) # Asegurar que los valores est√°n en 0-255
    return arreglo


ruta = '/content/my_digits_3.png'  # Cambia por tu ruta

arreglo_28x28 = procesar_imagen(ruta)
arreglo_28x28 = 255 - arreglo_28x28  # Invierte colores
arreglo_28x28 = arreglo_28x28.astype('int')/255

plt.figure(figsize=(4,4))
plt.imshow(arreglo_28x28, cmap='gray')
plt.axis('off')
plt.show()

In [None]:
print(arreglo_28x28)

In [None]:
prediccion = model.predict(arreglo_28x28.reshape(-1,28,28))
np.argmax(prediccion)

---

## ‚≠ï Pr√°ctica y Ejercicios

En esta pr√°ctica vamos a definir, compilar y entrenar varias arquitecturas de redes neuronales

Implementa las siguientes redes neuronales de tipo MLP:

* 1 capa oculta de 200 neuronas sin activaci√≥n. Entrena durante 30 √©pocas.
* 1 capa oculta de 200 neuronas con activaci√≥n $tanh$. Entrena durante 30 √©pocas.
* 3 capas ocultas de 100, 200 y 100 neuronas respectivamente, todas con activaci√≥n ReLU. Entrena durante 50 √©pocas.

En cada uno de los experimentos determina las especificaciones de las capas de entrada y salida. Adem√°s, en cada caso, reporta el accuracy y recall en el conjunto de prueba, as√≠ como las curvas de entrenamiento (perdida y accuracy).

* Con el objetivo de subir la m√©trica de accuracy en el conjunto de prueba, entrena un nuevo m√≥delo de red neuronal MLP cambiando los siguientes hiperpar√°metros:

 * N√∫mero de capas ocultas.
 * N√∫mero de neuronas en cada capa oculta.
 * Funci√≥n de activaci√≥n de cada capa oculta.
 * Optimizador ([opciones](https://keras.io/api/optimizers/)).


---


Como referencia, el mejor resultado hasta ahora, sin usar redes convolucionales, es un accuracy de 99.65% (https://arxiv.org/abs/1003.0358)

Lista de resultados: http://yann.lecun.com/exdb/mnist/, https://paperswithcode.com/sota/image-classification-on-mnist

üü¢ Descargamos el conjunto de datos y preprocesamiento

In [None]:
from keras.layers import Dense, Flatten
from keras.models import Sequential
from tensorflow.keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from sklearn.model_selection import train_test_split

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train,
                                                  test_size=0.15,
                                                  stratify=y_train,
                                                  random_state=782)

X_train = X_train.astype('float32')/255
X_val = X_val.astype('float32')/255
X_test = X_test.astype('float32')/255

print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"X_val shape: {X_val.shape}")
print(f"y_val shape: {y_val.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_test shape: {y_test.shape}")


y_test_original = y_test.copy()
y_train = to_categorical(y_train,num_classes=10)
y_val = to_categorical(y_val,num_classes=10)
y_test = to_categorical(y_test,num_classes=10)

Define una arquitectura con una capa oculta de 200 neuronas, con activaci√≥n `tanh`

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Flatten, Input

model = Sequential()
model.add(Input(shape=(28,28)))
model.add(Flatten())

# a√±ade la capa oculta:


# ---------------

model.add(Dense(10, activation='softmax'))

# Imprimimos el summary:
model.summary()

üî¥ Compila el modelo con la misma funci√≥n de perdida, m√©trica y optimzador

üî¥ Entrena el modelo en el conjunto de entrenamiento, usa el conjunto `X_val, y_val` como validaci√≥n. Entrena durante 15 √©pocas.

üü¢ Graficamos la p√©rdida y m√©trica durante el entrenamiento, ¬øobservas overfitting o underfitting?

In [None]:
loss_train = history.history['loss']
loss_val = history.history['val_loss']
acc_train = history.history['acc']
acc_val = history.history['val_acc']

epochs = range(1,n_epocas+1)

fig, axs = plt.subplots(1,2,figsize=(12,5))
axs[0].plot(epochs, loss_train, 'g', label='Training loss')
axs[0].plot(epochs, loss_val, 'b', label='validation loss')
axs[0].title.set_text('Loss')
axs[0].set(xlabel="√âpoca", ylabel="Loss")
axs[0].legend()
axs[1].plot(epochs, acc_train, 'g', label='Training accuracy')
axs[1].plot(epochs, acc_val, 'b', label='validation accuracy')
axs[1].title.set_text('Accuracy')
axs[1].set(xlabel="√âpoca", ylabel="Accuracy")
axs[1].legend()

fig.show()

üî¥ Obten las predicciones y evalua el desempe√±o del modelo usando F1-score y Accuracy. Imprime ambas m√©tricas

In [None]:
from sklearn.metrics import accuracy_score, f1_score

predictions_matrix = ...
y_pred = np.argmax(predictions_matrix, axis=1)

accuracy = ...
f1score = ...

üî¥ En una sola celda, define una red MLP con las siguientes especificaciones:

* Capa de entrada (indica el `shape` adecuado)
* Capa Flatten
* Capa Oculta Densa de 200 neuronas, activaci√≥n `relu`
* Capa Oculta Densa de 500 neuronas, activaci√≥n `tanh`
* Capa Oculta Densa de 200 neuronas, activaci√≥n `relu`
* Capa de Salida adecuada con activaci√≥n adecuada

El resto de pasos como el ejercicio anterior.


### Soluci√≥n

...

A continuaci√≥n se muestra una soluci√≥n con un modelo entrenado previamente:

In [None]:
import os

# URL del archivo raw en GitHub
url = "https://github.com/DCDPUAEM/DCDP/raw/main/04%20Deep%20Learning/data/mejor_modelo_mlp.h5"

# Descargar el archivo usando wget
!wget {url}

In [None]:
from tensorflow import keras
import numpy as np

# Cargar el modelo
modelo = keras.models.load_model('mejor_modelo_mlp.h5')

# Ver arquitectura del modelo entrenado y cargado
print("=== Resumen del modelo ===")
modelo.summary()

In [None]:
prediccion = modelo.predict(X_test.reshape(-1,28*28))
y_pred = np.argmax(prediccion, axis=1)
print(y_pred[:10])

In [None]:
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
from seaborn import heatmap
import matplotlib.pyplot as plt

cm = confusion_matrix(y_test_original,y_pred)
plt.figure()
heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.show()

print(f"Test Accuracy: {accuracy_score(y_pred=y_pred,y_true=y_test_original)}")
print(f"Test F1-score: {f1_score(y_pred=y_pred,y_true=y_test_original,average='macro')}")