<h1><b>Mi primera CNN (Convolucional) en TensorFlow</b> </h1>

<author>Julio Waissman Vilanova</author>

<br/>

<a target="_blank" href="https://colab.research.google.com/github/juliowaissman/intro-rn/blob/main/mnist-cnn.ipynb">
<img src="https://i.ibb.co/2P3SLwK/colab.png" width=30pt />
<i>Para usar en Google Colab</i></a>

## Hasta donde andábamos la libreta pasada

Bueno, esto ya te lo sabes, pero para retomar, necesitamos volver a cargar los datos de MNIST.

Ya no se necesita mucha explicación.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf

In [None]:
# TensorFlow ya te permite bajar ciertos conjuntos de datos famosos

mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images = (np.expand_dims(train_images, axis=-1)/255.).astype(np.float32)
train_labels = (train_labels).astype(np.int64)
test_images = (np.expand_dims(test_images, axis=-1)/255.).astype(np.float32)
test_labels = (test_labels).astype(np.int64)

plt.figure(figsize=(7,7))
random_inds = np.random.choice(60000,36)
for i in range(36):
    plt.subplot(6,6,i+1)
    plt.grid(False)
    plt.axis('off')
    image_ind = random_inds[i]
    plt.imshow(np.squeeze(train_images[image_ind]), cmap=plt.cm.binary)
    plt.title(train_labels[image_ind], y=.8)
plt.show()

## Redes neuronales convolucionales CNN

Como vimos en la pequeña presentación, las redes neuronales convolucionales (CNN) son particularmente adecuadas para una variedad de tareas en visión por computadora y han logrado precisiones casi perfectas en el conjunto de datos MNIST. Ahora construiremos una CNN compuesta por dos capas convolucionales seguidas cada una por capas de `max-pooling`. Al final dos capas completamente conectadas y, en última instancia, generaremos una distribución de probabilidad entre las clases de 10 dígitos (0-9). La CNN que construiremos se muestra a continuación:

![alt_text](https://raw.githubusercontent.com/aamini/introtodeeplearning/master/lab2/img/convnet_fig.png "Arquitectura CNN para clasificación MNIST")



## El modelo CNN

Usaremos los mismos conjuntos de datos de entrenamiento y prueba que antes, y procederemos de manera similar a nuestra red completamente conectada para definir y entrenar nuestro nuevo modelo CNN.

Para hacer esto, exploraremos dos capas que no hemos encontrado antes:

- [`keras.layers.Conv2D` ](https://www.tensorflow.org/api_docs/python/tf/keras/layers/Conv2D) para defina capas convolucionales
- [`keras.layers.MaxPool2D`](https://www.tensorflow.org/api_docs/python/tf/keras/layers/MaxPool2D) para definir las capas de agrupación.

Utiliza los parámetros que se muestran en la arquitectura de red del esquema anterior para definir estas capas y construir el modelo CNN.

In [3]:
def build_cnn_model():
    cnn_model = tf.keras.Sequential([

        # TODO: Define primera capa convolucional
        tf.keras.layers.Conv2D('''TODO'''),

        # TODO: Define primera capa de pooling
        tf.keras.layers.MaxPool2D('''TODO'''),

        # TODO: Define segunda capa convolucional
        tf.keras.layers.Conv2D('''TODO'''),

        # TODO: Define segunda capa de pooling
        tf.keras.layers.MaxPool2D('''TODO'''),

        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(128, activation='relu'),
        # TODO: Define the last Dense layer to output the classification
        # probabilities. Pay attention to the activation needed a probability
        # output
        #[TODO Dense layer to output classification probabilities]
    ])

    return cnn_model

Vamos a generar el modelo y visualizarlos con el método `summary`:

In [None]:
model = build_cnn_model()

# Inicializa el modelo con un dato para poder graficarlo
model.predict(train_images[[0]])

# Muestra una representación gráfica del modelo y sus detalles.
print(model.summary())

## Entrenar y probar el modelo CNN

Ahora, como en la libreta anterior, podemos definir la función de pérdida, el optimizador y las métricas mediante el método `compile`.

Compila el modelo CNN con un optimizador y una tasa de aprendizaje de tu elección:

In [None]:
'''TODO: Define la compilación para mandar entrenar'''
model.compile(
    optimizer='''TODO''',
    loss='''TODO''',
    metrics=['accuracy']
) # TODO

In [None]:
'''TODO: Completa la función fit con el tamaño de batch y nñumero de epochs.'''

model.fit(
    '''TODO'''
)

In [None]:
'''TODO: Evalua el modelo con los datos de prueba'''
test_loss, test_acc = # TODO

print('Test accuracy:', test_acc)

## El concurso

**¿Cuál es la precisión más alta que puede lograr utilizando el modelo CNN y cómo se compara la precisión del modelo CNN con la precisión de la red simple completamente conectada?**

**¿Qué optimizadores y tasas de aprendizaje parecen óptimos para entrenar el modelo CNN?**

**Tienes 15 minutos para encontrar el mejor modelo posible, quien logre la mayor *accuracy* en el conjunto de test, y con el menor sobreajuste, gana. Recuerda que puedes modificar sobre el código ya escrito**

## Hacer predicciones con el modelo CNN

Con el modelo entrenado, podemos usarlo para hacer predicciones sobre algunas imágenes. La llamada a la función [`predict`](https://www.tensorflow.org/api_docs/python/tf/keras/models/Sequential#predict) genera las predicciones de salida dado un conjunto de muestras de entrada.

In [None]:
predictions = model.predict(test_images)

Con esta llamada a función, el modelo ha predicho la etiqueta para cada imagen en el conjunto de prueba. Echemos un vistazo a la predicción de la primera imagen del conjunto de datos de prueba:

In [None]:
predictions[0]

Como puedes ver, una predicción es una matriz de 10 números. Recuerda que el resultado de nuestro modelo es una distribución de probabilidad entre las clases de 10 dígitos. Así, estos números describen la *confianza* del modelo en que la imagen corresponde a cada uno de los 10 dígitos diferentes.

Veamos el dígito que tiene la mayor confianza para la primera imagen en el conjunto de datos de prueba:

In [None]:
prediction = predictions[0].argmax()

print("Valor predicho es ", prediction)
print("La etiqueta real es: ", test_labels[0])

plt.figure(figsize=(2,2))
plt.imshow(test_images[0,:,:,0], cmap=plt.cm.binary)
plt.axis('off')
plt.show()

Visualicemos los resultados de la clasificación en el conjunto de datos MNIST. Mostramos a continuación imágenes del conjunto de datos de prueba junto con su etiqueta predicha, así como un histograma que proporciona las probabilidades de predicción para cada uno de los dígitos:

In [None]:
#@title Change the slider to look at the model's predictions! { run: "auto" }

image_index = 77 #@param {type:"slider", min:0, max:100, step:1}

img = test_images[image_index,:,:,0]
label = test_labels[image_index]
preds = predictions[image_index]

plt.subplot(1,2,1)
plt.imshow(img, cmap=plt.cm.binary)
plt.axis('off')
plt.title(f"Real: {label}, Estimado: {preds.argmax()}")

plt.subplot(1,2,2)
plt.bar(
    [str(i) for i in range(10)], preds,
    align='center', linewidth=0)
plt.title('Probabilidades de cada clase')
#for spine in plt.gca().spines.values():
#    spine.set_visible(False)
plt.tick_params(
    top='off', bottom='off', left='off', right='off',
    labelleft='off', labelbottom='on')
