<a href="https://colab.research.google.com/github/RudiksChess/UVG-DataScience-Notas-6-Semestre/blob/main/Clases/Clase%2016/TensorFlow_MNIST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Red Neuronal Profunda (DNN) para clasificación MNIST

Aplicaremos todos nuestros conocimientos para crear una DNN.  El problema que vamos a trabajar se conoce como el "Hola Mundo" del aprtendizaje profundo porque para la mayoría de estudiantes este es el primer algoritmo de aprendizaje profundo que ven. 

El conjunto de datos se llama MNIST y se refiere al reconocimiento de dígitos escritos a mano.  Pueden encontrar más información en el sitio web de Yann LeCun (Director of AI Research, Facebook).  El es uno de los pioneros de todo este tema, así como de otras metodologías más complejas como las Redes Neurales Convolucionales (CNN) que se utilizan hoy día-

El conjunto de datos tiene 70,000 imágenes (28x28 pixels) de dígitos escritos a mano (1 dígito por imagen).

La meta es escribir un algoritmo que detecta qué dígito ha sido escrito.  Como solo hay 10 dígitos (0 al 9), este es un problema de clasificación con 10 clases.

Nuestra meta será construir una RN con 2 capas escondidas.

## Importar los paquetes relevantes

TensorFlow incluye un proveedor de datos de MNIST que utilizaremos acá.  Viene con el módulo **"tensorflow-datasets"** por lo que si no lo ha instalado aún, debe hacerlo:

pip install tensorflow-datasets

ó

conda install tensorflow-datasets

Estos conjuntos de datos se almacenarán en su directorio C:\Users\usuario\tensorflow_datasets|...

La prrimera vez que baje un conjunto de datosm se almacenará en la carpeta respectiva.  Cada vez subsiguiente, automáticamente cargará la copia en su computadora

In [1]:
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds

## Datos

Es donde pre-procesamos nuestros datos.

**tfd.load** carga un conjunto de datos (o si es la primera vez, los baja y luego los carga).  En este caso estamos interesados en el conjunto de datos MNIST.  El único argumento obligatorio es el nombre del conjunto de datos.  Hay otros que pueden ser útiles, por ejemplo:

**with_info = True** nos provee con una tupla que contiene información sobre la versión, features, número de observaciones (muestras)

**as_supervised = True** cargará el conjunto de datos en una estructura de 2 tuplas (entrada, meta).  Si se usa **False**, retorna un diccionario, obviamente preferimos tener de una vez nuestra entrada y meta separados.

In [2]:
datos_mnist, info_mnist = tfds.load(name='mnist',
                                    shuffle_files = False,
                                    with_info=True, 
                                    as_supervised=True)

Una vez se ha cargado el conjunto de datos, se pueden, fácilmente, extraer los conjuntos de entrenamiento y prueba.

In [3]:
entreno_mnist, prueba_mnist = datos_mnist['train'], datos_mnist['test']

Por default, TF2 tiene conjuntos de datos de entrenamiento y de prueba, pero no tiene un conjunto de validación, por lo que debemos dividirlo por nuestra cuenta

Empezamos por definir el número de muestras de validación, como un porcentaje de las muestras de entrenamiento.  Aqui es donde también usamos **mnist_info** (no tenemos que contar las observaciones)

In [4]:
num_obs_validacion = 0.02 * info_mnist.splits['train'].num_examples

Difundimos (convertimos) este número a entero ya que un float puede causar problemas en el camino

In [5]:
num_obs_validacion = tf.cast(num_obs_validacion, tf.int64)

Usaremos una variable dedicada para el número de muestras de prueba

In [6]:
num_obs_prueba = info_mnist.splits['test'].num_examples

In [7]:
num_obs_prueba = tf.cast(num_obs_prueba, tf.int64)

Normalmente preferimos "escalar" nuestros datos en alguna forma para que el resultado sea numéricamente más estable.  En este caso simplemente preferimos tener entradas entre 0 y 1, por lo que definimos una función, que reciba la imagen MNIST y su etiqueta, para hacerlo.

Como los posibles valores de las entradas son entre 0 y 255 (256 posibles tonos de gris), al dividirlos por 255 obtenemos el resultado deseado.

In [8]:
def escalar(imagen, etiqueta):
    imagen = tf.cast(imagen, tf.float32)
    imagen /= 255.
    return imagen, etiqueta

El método .map() nos permite aplicar una transormación "customizada" a un conjunto de datos.  Ya hemos decidido que obtendremos los datos de validación a partir de *mnist_train*

In [9]:
datos_entrenamiento_y_validacion_escalados = entreno_mnist.map(escalar)

Finalmente, escalaremos y convertiremos los datos de pruebas en tandas.  Los escalamos para que tengan la misma magnitud que los datos de entrenamiento y validación.

No hay necesidad de "barajearlo" ya que no estaremos entrenando con los datos de prueba.  Habra una sola tanda, igual al tamaño de los datos de prueba.

In [10]:
datos_prueba = prueba_mnist.map(escalar)

Si "barajearemos" los datos de entrenamiento y validación.

El parámetro **TAMANIO_BUFFER** se utiliza para casos que tengan conjuntos de datos grandes.  En este caso no es posible "barajear" el conjunto completo de un solo porque no cabe en la memoria.  En vez, TF2 solo almacena los datos en memoria **TAMANIO_BUFFERE** muestras a la vez, y los "barajea".

si TAMANIO_BUFFER = 1 => no hay "barajeo"
si TAMANIO_BUFFER >= número de muestras => el "barajeo" se hace uniformemente

para un TAMANIO_BUFFER intermedio - se hace una otimización computacional para aproximar un "barajeo" uniforme.

Afortunadamente, hay un método de "barajeo" disponible y solo necesitamos especificar el tamaño del buffer.

In [11]:
TAMANIO_BUFFER = 10000

In [12]:
datos_entrenamiento_y_validacion_barajeados = datos_entrenamiento_y_validacion_escalados.shuffle(TAMANIO_BUFFER)

Una vez se han "escalado" y "barajeado" los datos, podemos proceder a extraer los datos de entrenamiento y de validación.

Nuestros datos de validación serán el 10% del conjunto de entrenamiento, que ya se calculó utilizando el método **.take()**.

Finalmente, creamos una tanda con un tamaño de tanda igual al total de muestras de validación.

In [13]:
datos_validacion = datos_entrenamiento_y_validacion_barajeados.take(num_obs_validacion)

Similarmente, los datos de entrenamiento son todos los demás por lo que nos salteamos tantas muestras como las hay en el conjunto de validación.

In [14]:
datos_entreno = datos_entrenamiento_y_validacion_barajeados.skip(num_obs_validacion)

Establecemos el tamaño de las tandas.

También podemos aprovechar el momento para separar los datos de entrenamiento y de prueba.

Estos sería muy útil cuando entrenemos, ya que podemos iterar sobre las diferentes tandas

In [15]:
TAMANIO_TANDA = 100

datos_entreno = datos_entreno.batch(TAMANIO_TANDA)

datos_validacion = datos_validacion.batch(num_obs_validacion)

datos_prueba = datos_prueba.batch(num_obs_prueba)

Toma la siguiente tanda (es la única tanda) ya que, como configuramos **as_supervized = True**, obtuvimos una estructura de 2 tuplas 

In [16]:
entradas_validacion, metas_validacion = next(iter(datos_validacion))

## Modelo

### Delineamos el modelo

Cuando pensamos sobre un algoritmo de aprenzaje profundo, casi siempre solo lo imaginamos.  Asi que hagámoslo.  :)

In [17]:
tamanio_entrada = 784
tamanio_salida = 10

Usaremos el mismo ancho para ambas capas escondidas.  No es una necesidad!

In [18]:
tamanio_capa_escondida = 200

# Definimos cómo se verá el modelo

La primera capa (la de entrada):  cada observación es de 28x28x1 píxeles, por lo tanto es un tensor de rango 3.

Como aún no hemos aprendido sobre CNNs, no sabemos como alimentar este tipo de entrada a nuestro red, por lo tanto hay que "aplanar" las imágenes.  Hay un método conveniente **Flatten** que toma nuestro tensor de 28x28x1 a un (None), o (28x28x1) = (784,) vector.  Esto nos permite crear una red de alimentación hacia adelante.

    
**tf.keras.layers.Dense** básicamente implementa:  output = activation(dot(input, weight) + bias).  Requiere varios argumentos, pero los más importantes para nosotros son el ancho de la capa escondida y la función de activación.

La capa final no es diferente, solo nos aseguramos de activarla con **softmax**


In [19]:
modelo = tf.keras.Sequential([

    tf.keras.layers.Flatten(input_shape=(28, 28, 1)), # capa entrada
    
    tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 1era capa escondida
    tf.keras.layers.Dense(tamanio_capa_escondida, activation='tanh'), # 2nda capa escondida
    

    tf.keras.layers.Dense(tamanio_salida, activation='softmax') # capa salida
])

"""
tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 3era capa escondida
    tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 4ta capa escondida
    tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 5ta capa escondida """

"\ntf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 3era capa escondida\n    tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 4ta capa escondida\n    tf.keras.layers.Dense(tamanio_capa_escondida, activation='relu'), # 5ta capa escondida "

### Seleccionar el optimizador y la función de pérdida

Definimos el optimizador que nos gustaría utilizar, la función de pérdida, y las métricas que nos interesa obtener en cada interacción

In [20]:
modelo.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

### Entrenamiento

Acá es donde entrenamos el modelo que hemos construído

Determinamos el número máximo de épocas.

Ajustamos el modelo , especificando:

* los datos de entrenamiento
* el número total de épocas
* y los datos de validación que creamos en el formato (entradas, metas)

In [21]:
import time

In [22]:
start = time.time()

In [23]:
NUMERO_EPOCAS = 5

modelo.fit(datos_entreno, 
          epochs = NUMERO_EPOCAS, 
          validation_data = (entradas_validacion, metas_validacion),
          validation_steps = 10,
          verbose = 2)

Epoch 1/5
588/588 - 9s - loss: 0.2468 - accuracy: 0.9277 - val_loss: 0.1047 - val_accuracy: 0.9717
Epoch 2/5
588/588 - 5s - loss: 0.0926 - accuracy: 0.9719 - val_loss: 0.0637 - val_accuracy: 0.9808
Epoch 3/5
588/588 - 5s - loss: 0.0628 - accuracy: 0.9805 - val_loss: 0.0402 - val_accuracy: 0.9875
Epoch 4/5
588/588 - 5s - loss: 0.0447 - accuracy: 0.9865 - val_loss: 0.0232 - val_accuracy: 0.9950
Epoch 5/5
588/588 - 5s - loss: 0.0338 - accuracy: 0.9890 - val_loss: 0.0220 - val_accuracy: 0.9933


<keras.callbacks.History at 0x7fc7806df210>

In [24]:
end = time.time()
print(end - start)

31.183070182800293
