# **Asignatura**: Aprendizaje Automático

**Práctica 3**: Introducción a Deep Learning

**Valoración máxima**: 10 puntos

**Fecha límite de entrega**: 23 de Mayo de 2025 a las 23:59

**Procedimiento de entrega**: a través de PRADO

### Nombre completo: <mark>POR FAVOR, ESCRIBA AQUÍ SU NOMBRE</mark>





**Normas de desarrollo y entrega de trabajos**

- Única y exclusivamente se debe entregar este Notebook de Colab (fichero `.ipynb`). **No es necesario entregar ninguna memoria externa** (por ejemplo, en `.pdf`).

- El código debe estar bien comentado (explicando lo que realizan los distintos apartados y/o bloques), y todas las decisiones tomadas y el trabajo desarrollado (incluyendo los conceptos fundamentales subyacentes) deben documentarse ampliamente en celdas de texto. Es obligatorio documentar las valoraciones y decisiones adoptadas en el desarrollo de cada uno de los apartados. Debe incluirse también tanto una descripción de las principales funciones (Python/scikit-learn) empleadas (para mostrar que el alumno comprende, a nivel técnico, lo que está haciendo), como una valoración razonada sobre la calidad de los resultados obtenidos. **Sin esta documentación, se considera que el trabajo NO ha sido presentado**.

- La entrega en PRADO está configurada para permitir sucesivas entregas de la práctica. Desde este punto de vista, se recomienda subir versiones de la práctica a medida que se van realizando los distintos ejercicios propuestos, y no dejarlo todo para el final.  

- Se debe respetar la estructura y secciones del Notebook. Esto servirá para agilizar las correcciones, así como para identificar con facilidad qué ejercicio/apartado se está respondiendo.

- El código **NO debe escribir nada a disco**.

- El **path de lectura desde Google Drive debe ser siempre el mismo**, que es el que se indica en este Notebook.

- Una entrega es apta para ser corregida si se puede ejecutar de principio a fin sin errores. Es decir, un ejercicio con errores de ejecución tendrá una calificación de 0.

- No es válido usar opciones en las entradas (es decir, utilizar el comando `input()`, por ejemplo, para que el usuario escoja el valor de las variables para ejecutar el programa). Para ello, se deben fijar al comienzo los valores
por defecto que se consideren óptimos o que se soliciten en el enunciado.

- Se entrega solamente este Notebook, y no los datos empleados.


# **Ejercicio 1: Clasificación (5 puntos)**

En este ejercicio los alumnos se enfrentarán a un problema de clasificación, el cual tendrán que abordar de comienzo a fin (desde el análisis exploratorio hasta el entrenamiento y validación de los modelos de aprendizaje automático seleccionados). En particular, se enfrentarán a un problema real de uso de técnicas de aprendizaje automático para tratar de clasificar imágenes que contienen prendas de ropa, prediciendo la categoría de la imagen de entrada que contiene la prenda. El conjunto de datos original se obteniene a partir de la investigación realizada en el siguiente artículo:

- Han Xiao, Kashif Rasul, Roland Vollgraf, Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms, Technical Report, ArXiv, 2017 (URL: <a href="https://arxiv.org/abs/1708.07747">https://arxiv.org/abs/1708.07747</a>).

## El conjunto de datos

**Fashion-MNIST** es un conjunto de datos que contiene imágenes de artículos de venta online desde la web de **Zalando**. Se distribuye en dos conjuntos de entrenamiento (60.000 imágenes) y test (10.000 imágenes) de prendas de ropa en escala de grises, donde cada imagen tiene un tamaño de 28 filas y 28 columnas. Cada una de las prendas se corresponde con una etiqueta entre 10 classes posibles:

- 0 T-shirt/top
- 1 Trouser
- 2 Pullover
- 3 Dress
- 4 Coat
- 5 Sandal
- 6 Shirt
- 7 Sneaker
- 8 Bag
- 9 Ankle boot

Una muestra de ejemplo del contenido del conjunto de datos se ilustra en la siguiente figura:

<center>
<img src="https://github.com/zalandoresearch/fashion-mnist/raw/master/doc/img/fashion-mnist-sprite.png" />
</center>


El **objetivo de la práctica** es desarrollar un modelo de aprendizaje automático con **Keras** capaz de identificar, si es posible, la categoría a la que pertenece cada prenda de ropa, tratando de alcanzar el máximo rendimiento en la resolución del problema.

El dataset se encuentra disponible en **Keras**, y puede leerse como se muestra en la siguiente celda de código:

In [None]:
import tensorflow as tf

Train, Test= tf.keras.datasets.fashion_mnist.load_data()
print('Conjunto de training: ', type(Train), len(Train))
print('Conjunto de test: ', type(Test), len(Test))

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
[1m29515/29515[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
[1m26421880/26421880[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
[1m5148/5148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
[1m4422102/4422102[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Conjunto de training:  <class 'tuple'> 2


## Tarea

El alumnado debe realizar, al menos, las siguientes tareas (que deben ser descritas y abordadas, explícitamente, en la documentación entregada; de hecho, se debe incluir un subapartado en el Notebook para cada una de ellas):

1. Análisis descriptivo del problema y análisis exploratorio de los datos a nuestra disposición.
2. Preprocesado de datos (selección/extracción de características, reducción de dimensionalidad, procesado de datos extremos/atípicos, imputación de datos faltantes, escalado de variables, codificación/transformación de datos, desbalanceo de datos).
3. Definición del protocolo de validación experimental (entrenamiento, validación y test), junto con las métricas de evaluación del rendimiento que corresponda.
4. Selección de dos tipos de modelos distintos de **Deep Learning**: Al primero lo llamaremos **C1** y al segundo **C2**.
5. Selección y estimación de valores para hiperparámetros.
6. Entrenamiento y estimación del error fuera de la muestra. Discusión de resultados y extracción de conclusiones.


Con respecto a los modelos a utilizar, partiremos de la propuesta realizada en el siguiente artículo:

- E. Xhaferra, E. Cina and L. Toti, "Classification of Standard FASHION MNIST Dataset Using Deep Learning Based CNN Algorithms," 2022 International Symposium on Multidisciplinary Studies and Innovative Technologies (ISMSIT), Ankara, Turkey, 2022, pp. 494-498, doi: 10.1109/ISMSIT56059.2022.9932737 (URL: <a href="https://ieeexplore.ieee.org/document/9932737">https://ieeexplore.ieee.org/document/9932737</a>.




La arquitectura de la red para el modelo **C1** es la siguiente:

<table>
<th>
  <td><b>Layer Type</b></td>
  <td><b>kernel type (conv.)</b></td>
  <td><b>Input | Output dim.</b></td>
  <td><b>Input | Output channels (conv.)</b></td>
</th>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 26x26 </td>
  <td> 1 | 6 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> MaxPooling </td>
  <td> 2x2 </td>
  <td> 26x26 | 13x13 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 13x13 | 11x11 </td>
  <td> 6 | 10 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Batch Norm. </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> MaxPooling </td>
  <td> 2x2 </td>
  <td> 11x11 | 5x5 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 250 | 128 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 128 | 10 </td>
  <td> - </td>
</tr>
</table>



Por otra parte, la arquitectura de la red para el modelo **C2** es la siguiente:

<table>
<th>
  <td><b>Layer Type</b></td>
  <td><b>kernel type (conv.)</b></td>
  <td><b>Input | Output dim.</b></td>
  <td><b>Input | Output channels (conv.)</b></td>
</th>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 1 | 112 </td>
</tr>
<tr>
  <td></td>
  <td> Batch Norm. </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 112 | 64 </td>
</tr>
<tr>
  <td></td>
  <td> Batch Norm. </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 64 | 128 </td>
</tr>
<tr>
  <td></td>
  <td> Batch Norm. </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> MaxPooling </td>
  <td> 2x2 </td>
  <td> 28x28 | 14x14 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 25088 | 208 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Dropout(0.1) </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 208 | 160 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Dropout(0.1) </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 160 | 128 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Dropout(0.1) </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> FC </td>
  <td> - </td>
  <td> 128 | 10 </td>
  <td> - </td>
</tr>
</table>


**Entrene cada modelo un total de 20 épocas. Pruebe con dos tipos de tamaño de batch (64 y 1000) en cada modelo.**.

<font color="red"><b>NO OLVIDAR ACTIVAR LA GPU EN LA CONFIGURACIÓN DEL CUADERNO (Menú Editar -> Configuración del cuaderno)</b></font>

## Solución: Modelo C1


## Solución: Modelo C2

## Comparativa de los modelos C1 y C2

# **Ejercicio 2: IA generativa con Autoencoders (5 puntos)**

En este ejercicio los alumnos se enfrentarán a un problema utilizando autoencoders, el cual tendrán que abordar de comienzo a fin (desde el análisis exploratorio hasta el entrenamiento y validación de los modelos de aprendizaje automático seleccionados). En particular, se enfrentarán a un problema  de **Inteligencia Artificial Generativa** haciendo uso de técnicas de Deep Learning para tratar de generar imágenes que contienen dígitos manuscritos.

## Contexto del problema

La **IA generativa** es un tipo de Inteligencia Artificial que se centra en crear contenido nuevo y original. Esto puede incluir texto, imágenes, música, vídeo, etc. A diferencia de otros tipos de IA que se enfocan en analizar o clasificar datos, la IA generativa utiliza modelos complejos para aprender patrones y características de los datos existentes y luego generar algo nuevo basado en ese aprendizaje.

Un ejemplo popular de IA generativa son los modelos de lenguaje, como **ChatGPT**. Estos modelos pueden escribir historias, responder preguntas o incluso mantener una conversación, todo basado en la información con la que fueron entrenados.

La IA generativa también se utiliza en el arte, donde puede crear obras visuales sorprendentes, o en la música, donde puede componer melodías. Sin embargo, es importante tener en cuenta que, aunque puede producir resultados impresionantes, la calidad y la relevancia del contenido generado pueden variar.

<center>
<img src="https://bernardmarr.com/wp-content/uploads/2024/02/13-Ways-Writers-Should-Embrace-Generative-AI.webp" />
</center>

En esta práctica **vamos a hacer uso de autoencoders** para aprender las características de dígitos manuscritos, de modo que podamos utilizar el modelo entrenado **para generar nuevos dígitos previamente inexistentes**.

En particular, el modelo que deseamos construir constará de dos partes:

- Un **encoder**, capaz de obtener una imagen de entrada conteniendo un dígito manuscrito y dar como salida su *embedding*.
- Un **decoder**, cada de generar una imagen a partir de un *embedding*.


## El conjunto de datos

Utilizaremos el conjunto de datos de Digits MNIST incluido en TensorFlow, el cual se puede cargar utilizando el código de la siguiente celda:

In [None]:
import tensorflow as tf

train, test= tf.keras.datasets.mnist.load_data()
XTrain, YTrain= train
XTest, YTest= test

## Tarea

El alumnado debe realizar, al menos, las siguientes tareas (que deben ser descritas y abordadas, explícitamente, en la documentación entregada; de hecho, se debe incluir un subapartado en el Notebook para cada una de ellas):

1. Análisis descriptivo del problema y análisis exploratorio de los datos a nuestra disposición.
2. Preprocesado de datos (selección/extracción de características, reducción de dimensionalidad, procesado de datos extremos/atípicos, imputación de datos faltantes, escalado de variables, codificación/transformación de datos, desbalanceo de datos).
3. Definición del protocolo de validación experimental (entrenamiento, validación y test), junto con las métricas de evaluación del rendimiento que corresponda.
4. Construcción de **tres modelos**:
    1. **Encoder**, para codificar datos de entrada en *embeddings*.
    2. **Decoder**, para decodificar *embeddings*.
    3. **Autoencoder**, formado como la concatenación secuencial del **Encoder** y el **Decoder**
5. Selección y estimación de valores para hiperparámetros.
6. Validación del modelo. Discusión de resultados y extracción de conclusiones.


Con respecto a los modelos a utilizar, usaremos la siguiente estructura para el **Encoder**:


<table>
<th>
  <td><b>Layer Type</b></td>
  <td><b>kernel type (conv.)</b></td>
  <td><b>Input | Output dim.</b></td>
  <td><b>Input | Output channels (conv.)</b></td>
</th>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 1 | 64 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>

<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 64 | 32 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> MaxPooling </td>
  <td> 2x2 </td>
  <td> 28x28 | 14x14 </td>
  <td> - </td>
</tr>

<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 14x14 | 14x14 </td>
  <td> 32 | 16 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> MaxPooling </td>
  <td> 2x2 </td>
  <td> 14x14 | 7x7 </td>
  <td> - </td>
</tr>
</table>


El **Decoder** deberá *deshacer* la codificación realizada por el **Encoder**, por lo que estableceremos una arquitectura de capas simétrica al primer módulo:

<table>
<th>
  <td><b>Layer Type</b></td>
  <td><b>kernel type (conv.)</b></td>
  <td><b>Input | Output dim.</b></td>
  <td><b>Input | Output channels (conv.)</b></td>
</th>

<tr>
  <td></td>
  <td> UpSampling2D </td>
  <td> 2x2 </td>
  <td> 7x7 | 14x14 </td>
  <td> 16 | 16 </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 14x14 | 14x14 </td>
  <td> 16 | 32 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>

<tr>
  <td></td>
  <td> UpSampling2D </td>
  <td> 2x2 </td>
  <td> 14x14 | 28x28 </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 32 | 64 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
<tr>
  <td></td>
  <td> Conv </td>
  <td> 3x3 </td>
  <td> 28x28 | 28x28 </td>
  <td> 64 | 1 </td>
</tr>
<tr>
  <td></td>
  <td> ReLU </td>
  <td> - </td>
  <td> - </td>
  <td> - </td>
</tr>
</table>


**Entrene el autoencoder un total de 50 épocas con tamaño de batch 1000. Use una función de pérdida habitual para resolución de problemas de regresión**.

<font color="red"><b>NO OLVIDAR ACTIVAR LA GPU EN LA CONFIGURACIÓN DEL CUADERNO (Menú Editar -> Configuración del cuaderno)</b></font>


Cuando el modelo **autoencoder** ya esté entrenado, además de su validación con el conjunto de test, realice las siguientes pruebas:

- **Usando sólo el encoder**:
   1. Seleccione todas las imágenes de un mismo dígito (por ejemplo, el dígito 0).
   2. Envíe esas imágenes como entrada al encoder, y obtenga los resultados de los embeddings.
   3. Calcule un **embedding promedio** calculando la media de cada componente de todos los embeddings.

- **Usando sólo el decoder**:
   4. Proporcione este nuevo **embedding promedio** como entrada al **Decoder**. ¿Qué se obtiene? ¿Es lógico el resultado?


- Realice los pasos anteriores del **Encoder** con todos los dígitos pero, en este caso, guarde el valor promedio y de desviación estándar (a este último lo denominaremos **embedding de desviación**.
- Genere, para cada dígito, varios **nuevos embeddings** simulando un muestreo desde una distribución normal de media el embedding promedio y desviación típica el embedding de desviación.
- Utilice los **embeddings nuevos** como entrada al módulo **Decoder**. ¿Qué se obtiene?
- Analice y discuta los resultados obtenidos.

