![header](https://storage.googleapis.com/datasets-academy/00%20Databits/01%20Im%C3%A1genes/databits_header.png)

# <center>Redes Neuronales Convolucionales</center>
**Julio 2020** <br>
**Intructor:** Eduardo Marín Nicolalde


## Introducción
Las Redes Neuronales Convolucionales son redes profundas que implementan dos operaciones básicas:
* Convolución 
* Pooling (sub-sampling). 

Esta operación ha demostrado ser exitosa en procesos de Visión por Computadora y análisis de Imágenes Médicas. Aunque este tipo de operaciones tiene **aplicaciones limitadas en el análisis y predicción en data tabular**, es importante conocer que se pueden crear este tipo de arquitecturas usando el framework Keras.

## 1. Objetivos de Aprendizaje
Este laboratorio ilustrará como utilizar módulos que implementan la operación de convolución en Keras.

* Comprensión básica de las operaciones Conv2D y MaxPooling
* Creación de redes neuronales con múltiples capas Conv2D y MaxPooling
* Entrenamiento y evaluación

## 2. Algoritmo: Red Neuronal Convolutiva
### 2.1 Data representation
Las redes neuronales Convolutivas se forman por la aplicación de múltiples capas de **convolución y pooling** una a continuación de la otra. La operación de convolución es ampliamente usada en audio (1D) y en imágenes (2D), por lo que para entender esta operación veremos un caso aplicado a imágenes.



![Imagen](https://storage.googleapis.com/datasets-academy/ANN/RGBPlanes%402x.png)


Las imágenes son almacenadas en dos dimensiones (height, width). Cada pixel es un valor entre 0 y 255. Adicionalmente una imagen fotográfica posee 3 canales (RGB: Rojo, Verde, Azul), por lo que podemos imaginar una imagen representada por 3 matrices de un alto y ancho especifico, una matriz por cada canal. En el lenguaje las matrices multidimensionales de ```numpy``` diríamos que una imagen es un arreglo numpy de dimensiones ```(h,w,3)```. 





### 2.2 Convolución

La operación convolución es la base de las redes neuronales convolucionales. Para realizarla, se requieren dos elementos:

* Imagen de dimensiones (h, w, d)
* Filtro de dimensiones (fh,fw,d)
* **Output:** (h-fh+1, w-fw+1, 1)

![Kernel de Convolucion](https://miro.medium.com/max/576/1*kYSsNpy0b3fIonQya66VSQ.png)

Para formar el output se realiza un deslizamiento del filtro a lo largo de toda la imagen. La figura a continuación ilustra este proceso para un solo canal.

<img src="https://miro.medium.com/max/800/1*VJCoCYjnjBBtWDLrugCBYQ.gif" alt="drawing" width="400"/>

En cada deslizamiento, se suma el producto de los valores (elemento por elemento) de cada arreglo numérico dando lugar a la matriz de output

<img src="https://miro.medium.com/max/516/1*4yv0yIH0nVhSOv3AkLUIiw.png" width="400"/>

<img src="https://miro.medium.com/max/335/1*MrGSULUtkXc0Ou07QouV8A.gif" width="200"/>

### 2.3 Filtros
Existen un sinnúmero de filtros que permiten detectar distintas características de una imagen. Por ejemplo:

<img src="https://miro.medium.com/max/436/1*uJpkfkm2Lr72mJtRaqoKZg.png" />

**¿Cómo escoger el filtro correcto?**
Existe infintos filtros posibles a aplicar dentro de la convolución. Sin embargo, la matriz de filtros tiene parámetros entrenables de acuerdo al objetivo del modelo. Así, se puede escooger filtros previamente entrenados o usar **backpropagation** para encontrar los valores del filtro que lleven a los mejores resultados.

Ejemplo de filtro para detección de bordes verticales (vertical edges)

* Imagen ----> <img src="https://miro.medium.com/max/584/1*aGSthcPASa2OT1UBm7paOA.png" width="200"/>

* Filtro ----> <img src="https://miro.medium.com/max/303/1*591OPcvDKUN9liZ_VQ1M5g.png" width="100"/>

* Output ----> <img src="https://miro.medium.com/max/400/1*FkUz4rejmKag4x6j5QC39w.png" width="100"/> ----> <img src="https://miro.medium.com/max/148/1*UHl8cCPMN2GfuR9JRtOfCg.png" width="100"/>

### 2.4 Padding
El comportamiento natural de la aplicación de filtros hace que los píxeles de las esquinas de la imágen no tengan un peso significativo en la capa de output. Adicionalmente, solo  es posible realizar un número finito de convoluciones sobre la imagen.

Para resolver este problema, utilizamos la operación **padding** que consiste en añadir bordes alrededor de la imágen, típicamente ceros. 

<img src="https://miro.medium.com/max/674/1*gwEFlk20bWiXGyZkO5r_Xg.png" width="300"/>

### 2.5 Strides 
Los **strides** hacen referencia a los saltos de pixel que se hacen durante el movimiento del filtro sobre la imagen. 

Ejemplo de stride 1

<img src="https://miro.medium.com/max/800/1*g0OmDI1w9KqN7Rpw6Qo8Xg@2x.gif" width="300"/>

Ejemplo de padding + stride 2


<img src="https://miro.medium.com/max/344/1*GkmFFtArfzTN62uy8Lsf2g.gif" width="300"/>


### 2.6 Pooling (subsampling)

Consiste en reducir el tamaño espacial de la salida de cada resultado de la convolución y es especialmente util al trabajar con imágenes de alta definición (gran cantidad de pixels). Entre algunos tipos de pooling tenemos:

* Max Pooling
* Average Pooling
* Sum Pooling


El más común es **MaxPooling** con un parche de dos en dos. En cada salto se selecciona el máximo valor. Esto permite reducir las dimensiones espaciales (alto y ancho) a la mitad en cada operación de MaxPooling.



Finalmente múltiples operaciones de convolución y pooling son añadidas una a continuación de la otra formando una arquitectura de red profunda. Un ejemplo se ilustra a continuación. Usualmente si el problema es de clasificación multi-clase las últimas capas son totalmente conectadas o ```Dense``` (en terminología de Keras), donde al final se aplica una activación tipo Softmax como salida.

<img src="https://miro.medium.com/max/875/1*4GLv7_4BbKXnpc6BRb0Aew.png" width="800"/>

Finalmente los algoritmos de entrenamiento para encontrar los pesos de estas redes son los mismos que hemos visto anteriormente en redes MLP y que se basan en el algoritmo de **backpropagation** (propagación hacia atrás).

### 2.7 ¿Por qué CNN?
A diferencia de los modelos MLP (perceptrón multicapa), las redes convolucionales tienen menor cantidad de parámetros a aprender debido a :
* **Comparten parámetros:** Un mismo filtro puede utilizarse varias veces en distintas etapas de la red.
* **Conexión de esparcidad:** Solo un pequeño número de inputs esta directamente relacionado a un output.



## 3. Importar Librerías
Las librerías que utilizaremos serán:
* ```Python``` (>= 3.6),
* ```NumPy``` (>= 1.16.3),
* ```Pandas``` (>= 0.24.2),
* ```Tensorflow``` (>= 1.13.1),
* ```Keras``` (>= 2.2.4),
* ```Scikit-learn``` (>= 0.21.1),
* ```Matplotlib``` (>= 3.0.3)

In [0]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras import layers
from tensorflow.keras.utils import to_categorical
import matplotlib.pyplot as plt

print("Versión tf:",tf.__version__)

## 4. Preparación de los datos
El siguiente ejemplo es tomado del Libro: Deep Learning with Python (Francois Chollet), capítulo 5.

Vamos a utilizar el dataset **MNIST** que consiste en imágenes de dígitos (del 0 al 9):

* 60000 imágenes de entrenamiento 
* 10000 imágenes de testing. 
* Cada dígito es una imagen en escala de grises de **28x28** píxeles.

In [0]:
# Importar MNIST dataset
from keras.datasets import mnist

## 5. Train/Test Split
El dataset MNIST ya viene separado en training / testing

In [0]:
#Instancia para descargar dataset
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

#Tratamiento y escalamiento de imágenes entrenamiento
train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255

#Tratamiento y escalamiento de imágenes prueba
test_images  = test_images.reshape((10000, 28, 28, 1))
test_images  = test_images.astype('float32') / 255

#Tratamiento variable objetivo
train_labels = to_categorical(train_labels)
test_labels  = to_categorical(test_labels)

Visualización de uno de los ejemplos

In [0]:
plt.imshow(train_images[5,:,:,0], cmap='gray')
plt.show()
display()

## 6. Implementación

Utilizaremos el modelo  `Sequential` de Keras, al que iremos añadiendo capas. 

1. **Crear Modelo `Sequencial`**

```
model = Sequential()

```


Esto crea una instancia ```model```, sobre la cual se pueden ejecutar más operaciones. En particular añadir capas adicionales, compilar el modelo y entrenar el modelo.


2.**Añadir las capas que deseemos**

```
model.add( ... )

```

Ejemplo: en el caso de **redes convolucionales** añadimos varias capas Conv2D y MaxPool.

```
input_shape = (28, 28, 1)
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))


```

3.**La última capa corresponde a la salida. Por ejemplo para clasificación multi-clase añadimos una capa `Dense` pero con C unidades (una por cada clase) y con activación Softmax**

```
model.add(layers.Dense(10, activation='softmax'))
```

4.**Compilación**


```
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
```

Una vez armada la red, procedemos a compilarla. En este paso especificamos qué optimizador vamos a utilizar, qué tipo de función de pérdida se va a optimizar y qué métricas utilizaremos. En este caso usamos la pérdida ```categorical_crossentropy``` para un modelo de clasificación de múltiples clases. 

5.**Entrenamiento**

``` 
history = model.fit(train_images, train_labels, epochs=5, batch_size=64)

```
Finalmente ejecutaremos el entrenamiento. Aquí debemos especificar los datos (X, y), número de épocas y demás parámetros.


## 7. Documentación 

A continuación damos un detalle de las clases y  métodos necesarios para entrenar una red convolucional:

---
**```keras.layers.Conv2D```**
Crea una capa que implementa la operación de Convolución 2D:

```
keras.layers.Conv2D(filters, kernel_size, strides=strides, padding=padding, activation=activation, input_shape=input_shape)

```

* ```filters``` **integer**. Número de filtros convolutivos que se aplicarán a la entrada de esta unidad.
* ```kernel_size```. **tuple de dos valores int**. Dimensión espacial del filtro que se aplicará por ejemplo para un filtro de **5x5**  se especificará ```kernel_size=(5,5)```.
* ```strides```. **tuple de dos valores int**. Stride se refiere a cuanto se salta el filtro (en dimensión vertical y horizontal) al desplazarse a lo largo de la entrada. Por defecto es ```(1,1)``` lo que significa que el filtro avanzará de uno en uno.
* ```padding```. **string**. Puede ser ```'valid'``` o ```'same'```. Same significa que se rellena los bordes de ceros al calcular la convolución para que las dimensiones espaciales de la salida sean las mismas que las de la entrada.
* ```activation``` **string** o instancia de tipo **keras.layers.Activation**. Designa el tipo de función de activación. Tipos comunes son: ```'sigmoid', 'tanh', 'relu', 'softmax'```
* ```input_shape``` **tuple** o **integer**. Entero o tupla con la dimensionalidad de la entrada. Para imágenes fotográficas consiste en $ h \times w \times ch $, donde $h$ es el número de píxeles del alto, $w$ el número de píxeles del ancho y $ch$ el número de canales (RGB), por ejemplo ```(224, 224, 3)```.

---
**```keras.layers.MaxPooling2D```**
Crea una capa que implementa el subsampling o Max Pooling:

```
keras.layers.MaxPooling2D(pool_size=pool_size, strides=strides, padding=padding)

```

* ```pool_size```. **int o tuple de dos valores int**. Indica de cuanto en cuanto hacer el downsampling en la dimension vertical y horizontal.
* ```strides```. **tuple de dos valores int**. Stride se refiere a cuanto se salta el filtro (en dimensión vertical y horizontal) al desplazarse a lo largo de la entrada. Por defecto es ```(1,1)``` lo que significa que el filtro avanzará de uno en uno.
* ```padding```. **string**. Puede ser ```'valid'``` o ```'same'```. Same significa que se rellena los bordes de ceros al calcular la convolución para que las dimensiones espaciales de la salida sean las mismas que las de la entrada.


---
**```keras.layers.Flatten```**
Como vemos, el producto de las convoluciones en 2D son volúmenes de datos de dimensiones **h x ch**, pero para que puedan ser alimentados a capas totalmente conectadas ```Dense``` se necesita vectores, por lo que esta operación hace la conversión:

```
keras.layers.Flatten()

```

---
**Método ```model.fit_generator(generator, steps_per_epoch=steps_per_epoch, epochs=epochs, validation_data=validation_data, validation_steps=validation_steps)```**

Método de una instancia tipo ```Sequential```. Suponiendo que se creó el modelo ```model``` y se han compilado las opciones de optimización, se procederá a entrenar. La differencia es que ```fit_generator``` recibe una instancia de un objeto ```generator```. Mediante este objeto se pueden iterar sobre las secuencias a medida que se van generando sin tener que copiar todo a la memoria. Las opciones más importantes son:

* ```generator``` **Sequence(keras.utils.Sequence)**. La salida del generador debe proporcionar una tupla ```(inputs, targets)```.
* ```steps_per_epoch``` **int**. Número total de pasos (batches de muestras) a proporcionar por el generador.
* ```epochs``` **int**. Número de épocas que se va a entrenar el modelo.
* ```verbose``` **int**. Nivel de verbosidad. ```0```: modo silencioso. ```1```: sólo muestra la barra de progreso. ```2```: una línea de información por cada época.
* ```validation_data``` **tuple o generator**. Datos para la validación. Tupla de pares ```X_val```, ```y_val```, ambos arreglos numpy con el mismo número de columnas de ```X``` y ```y```, aunque no necesariamente el mismo número de filas. También admite un generador para las tuplas de validación.
* ```validation_steps``` **int**. Número total de pasos de validación a generar (sólo es válido cuando se usa un ```generator``` como ```validation_data```).
* ```callbacks``` **list**. Lista de instancias ```keras.callbacks```. Esto permite ejecutar funciones (callbacks) en cada iteración del proceso (cada época). 

---
**```keras.callbacks.EarlyStopping(monitor=monitor, min_delta=min_delta, patience=patience, verbose=verbose, mode=mode, restore_best_weights=restore_best_weights)```**
Callback utilizado para parar proceso de optimización. Las opciones más importantes son:
* ```monitor``` **string**. Se refiere a la cantidad que se va a monitorear. Usualmente se monitorea la pérdida sobre los datos de validación. Un valor común es ```monitor='val_loss'```.
* ```min_delta``` **float**. Mínimo cambio en la cantidad monitoreada, para que cuantifique como mejoría. Un valor común es ```min_delta=1e-3```
* ```patience``` **int**. Número de épocas sin mejoría después de lo cual la optimización se detiene. Ejemplo: ```patience=5```.
* ```verbose``` **int**. Modo de verbosidad.
* ```mode``` **string**. Usualmente se usa ```mode='auto'```.
* ```restore_best_weights``` **boolean**. Indica si se deben restaurar los pesos que derivaron en el mejor valor de la cantidad monitoreada. Usualmente es ```restore_best_weights=True```.





In [0]:
# Crear un modelo
model = Sequential()
# Añadir capas Conv2D y MaxPooling2D

# Añade una capa de convolución 2D, con 32 filtros. Cada filtro es de 3x3
# se aplica una activación RELU a la salida y el tamaño de la entrada es de
# 28x28x1 es decir 28 de altura, 28 de ancho y 1 canal (MNIST es escalas de grises)
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))


# Se hace Max Pooling reduciendo a la mitad la dimensión espacial
model.add(layers.MaxPooling2D((2, 2)))


# Añade una capa de convolución 2D, con 64 filtros. Cada filtro es de 3x3
# se aplica una activación RELU a la salida
model.add(layers.Conv2D(64, (3, 3), activation='relu'))


# Se hace Max Pooling reduciendo a la mitad la dimensión espacial
model.add(layers.MaxPooling2D((2, 2)))


# Añade una capa de convolución 2D, con 64 filtros. Cada filtro es de 3x3
# se aplica una activación RELU a la salida
model.add(layers.Conv2D(64, (3, 3), activation='relu'))


# Para continuar con clasificación multi-clase hay que utilizar capas Dense
# Para esto los datos debe ser convertidos a una sola dimensión usando la capa Flatten()
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))


# La capa final corresponde a la salida. Una por cada clase
# La activación Softmax permite calcular la probabilidad de cada clase (digitos del 0 al 9)
model.add(layers.Dense(10, activation='softmax'))


# Vemos información sumaria del modelo
model.summary()

In [0]:
train_labels.shape

In [0]:
train_images.shape

In [0]:
# Compilamos el modelo especificando el algoritmo de optimización, la función de pérdida y las métricas
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenamiento. Esto tomará algún tiempo
model.fit(train_images, train_labels, epochs=5, batch_size=64)

## 8. Evaluación del Modelo

In [0]:
# Finalmente evaluamos en la data de testing
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('Pérdida (testing) = {:.2f}, accuracy (testing) = {:.2f}'.format(test_loss, test_acc))

# Fin

![texto alternativo](https://storage.googleapis.com/datasets-academy/00%20Databits/01%20Im%C3%A1genes/databits_footer.png)