# 2.2. Redes neuronales convolucionales

* Una red neuronal convolucional (***Convolutional Neural Network*** o **CNN**) es un tipo de red neuronal artificial donde las neuronas imitan los campos receptivos de las neuronas de la corteza visual primaria de un cerebro biológico.

* Son una variación de los MLP, sin embargo, debido a que su aplicación se realiza en matrices bidimensionales, funcionan muy bien en tareas de visión artificial, como la clasificación o segmentación de imágenes, entre otras.

* [En 1989 Yann LeCun](http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf) propuso el uso de las CNN para aplicaciones en visión por computador, y un año después publicó la red conocida como [LeNet](https://papers.nips.cc/paper/293-handwritten-digit-recognition-with-a-back-propagation-network.pdf) para el reconocimiento de dígitos manuscritos.

<br>

![Deep Learning Timeline](http://www.dlsi.ua.es/~jgallego/deepraltamira/deep_learning_timeline_cnn.png)

<br>

* Posteriormente se publicaron muchos artículos sobre el uso de CNN pero sin resultados muy destacables, hasta que en [2012, Krizhevsky, Sutskever y Hinton](https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf), publicaron la red conocida como **AlexNet**, ganando el concurso de clasificación de imágenes ImageNet:

<br>

![ImagetNet contest](http://www.dlsi.ua.es/~jgallego/deepraltamira/cnn_imagenet.png)

<br>


* En general, las redes CNN están formadas por una o más capas convolucionales seguidas de una o más capas tipo MLP (aquí llamadas "capas totalmente conectadas" o *Fully Connected*).

<br>

![Red Neuronal Convolucional](http://www.dlsi.ua.es/~jgallego/deepraltamira/cnn_typical.png)

<br>

* En las capas convolucionales se realiza la extracción de características de la imagen (colores, gradientes, bordes, esquinas, formas, etc.).

* Después de cada capa convolucional se suele disminuir su dimensionalidad (*subsampling*) para que las capas más profundas puedan aprender características cada vez más complejas (combinando las características extraídas previamente).

<br>

![Red Neuronal Convolucional](http://www.dlsi.ua.es/~jgallego/deepraltamira/cnn_feature_hierarchy.png)

<br>

* En las capas *fully connected* finales se realiza un mapeo no-lineal de las características extraídas de la imagen a las categorías a clasificar.

* Este tipo de redes también pueden ser aplicadas para la clasificación de series temporales o señales de audio utilizando **convoluciones 1D**, así como para la clasificación de datos volumétricos usando **convoluciones 3D**.


## Operación de convolución

* La operación de convolución (convolución discreta) recibe como entrada un array 2D (una imagen) y aplica sobre ella un filtro o ***kernel*** que nos devuelve un mapa con las características extraídas de la imagen original.

* La salida de cada neurona convolucional se calcula como:

<br>

\begin{equation}
    y = f \Big(b + \sum K \otimes x_n \Big)
\end{equation}

<br>

  * Donde: La salida $y$ es una matriz que se calcula por medio de la combinación lineal de las entradas $x_n$ recibidas de las neuronas en la capa anterior,  operadas con el núcleo o ***kernel*** de convolución $K$ correspondiente, se le añade el bias $b$ y por último se pasa por la función de activación $f$.


<br>

![Convolucion](http://www.dlsi.ua.es/~jgallego/deepraltamira/convolution.jpg)

<br>


* El resultado obtenido se ha calculado de la forma:


        Píxel = 105 * 0  + 102 * -1 + 100 * 0
              + 103 * -1 +  99 * 5  + 103 * -1
              + 101 * 0  +  98 * -1 + 104 * 0
              = 89



* El resultado obtenido se guarda en el píxel central de la posición sobre la que se ha aplicado el *kernel*, por este motivo las dimensiones de los kernels suelen ser impares.


* La operación de convolución transforma los datos de tal manera que ciertas características (determinadas por el *kernel* utilizado) se resaltan en la imagen de salida.


<br>

![Ejemplos de resultados de convolución con distintos kernels](http://www.dlsi.ua.es/~jgallego/deepraltamira/convolution_results.png)

<br>





### Ejemplo de convolución

A continuación se incluye un ejemplo de como aplicar una convolución con distintos kernels sobre una imagen.

<br>

In [None]:
"""
En primer lugar descargamos la imagen que vamos a utilizar y mostramos
los datos de la misma.
"""

# Descargamos una imagen de prueba
!wget -q http://www.dlsi.ua.es/~jgallego/deepraltamira/sample_lenna.jpg

# Importamos las librerías de Matplotlib y de OpenCV
import matplotlib.pyplot as plt
import numpy as np
import cv2

# Leemos la imagen descargada
img = cv2.imread('sample_lenna.jpg', cv2.IMREAD_GRAYSCALE)

# Mostramos los datos de la imagen
plt.imshow(img, cmap='gray')
plt.grid(False)
plt.show()

print('Matriz de píxeles de la imagen:')
print(img)

print('Dimensiones de la imagen:')
print(img.shape)

In [None]:
"""
Y a continuación aplicamos diferentes Kernels sobre esta imagen
"""

# -------------------------------------
def convolve2d_and_show(image, kernel):
  out = cv2.filter2D(src=image, kernel=kernel, ddepth=-1)
  print("Convolución con Kernel:")
  print(kernel)
  plt.imshow(out, cmap='gray')
  plt.grid(False)
  plt.show()

kernel = np.array([[5,0,-5], [0,0,0], [-5,0,5]])
convolve2d_and_show(img, kernel)

kernel = np.array([[-1,-2,-1], [0,0,0], [1,2,1]])
convolve2d_and_show(img, kernel)


kernel = np.array([[1,0,-1], [2,0,-2], [1,0,-1]])
convolve2d_and_show(img, kernel)


Pero...

¿tenemos que establecer nosotros manualmente los pesos de los kernels que van a usar las convoluciones?

No, **los pesos se aprenden** durante el entrenamiento.

De esta forma se aprenderán los *kernels* o filtros más adecuados para clasificar los tipos de imágenes suministrados durante el entrenamiento.

Este tipo de aprendizaje se denomina "*feature learning*" (aprendizaje de características o de representación).

## Capas de convolución

* Cada una de las capas de convolución de la red puede aplicar uno o más filtros.

<br>

![Conjunto de Kernels de una capa convolucional](http://www.dlsi.ua.es/~jgallego/deepraltamira/array_kernels.png)

<br>

* Cada uno de los filtros de la capa se especializará en detectar un tipo de característica de la imagen de entrada.

<br>

![Filtros aprendidos](http://www.dlsi.ua.es/~jgallego/deepraltamira/filters.jpg)

<br>

* Los mapas de caracteríscas obtenidos se suman, se les añade el *bias* (también aprendido) y al resultado se le aplica la función de activación.

<br>

![Suma de convoluciones](http://www.dlsi.ua.es/~jgallego/deepraltamira/convolution_addition1.png)

<br>

## Subsampling

* Después de cada capa de convolución normalmente se aplica una operación de subsampling.

* Las técnicas más utilizadas para realizar esta operación son **Max-Pooling** y **Average Pooling**.

* En ambos casos se aplica un filtro (de dimensiones $w \times h$) sobre la imagen de entrada y se guarda el máximo (o la media en el caso del *Average Pooling*) de cada región en la matriz de salida.

* A continuación se muestra un ejemplo de cómo se aplicaría un filtro de Max-Pooling de tamaño de 2x2:

<br>

![Max Pooling](http://www.dlsi.ua.es/~jgallego/deepraltamira/max_pooling.png)

<br>

* El objetivo es reducir el tamaño de la imagen de entrada quedándonos con las características más relevantes.


## Jearquía de características

* Al aplicar consecutivamente, capa tras capa, operaciones de convolución seguidas de subsampling obtenemos una arquitectura o topología de red como la siguiente:


<br>

![Jerarquía de capas en CNN](http://www.dlsi.ua.es/~jgallego/deepraltamira/cnn_jerarquia.png)

<br>

* En las primeras capas los filtros solo se aplican sobre una pequeña parte de la imagen.

* Pero después de varias operaciones de subsampling los filtros aplicados pueden ver toda la imagen.

* Esto crea una jerarquía de características en la que en las primeras capas se aprenden filtros de más bajo nivel (bordes, colores, gradientes, etc.) y progresivamente se van combinando y aprendiendo características de más alto nivel.

<br>

![Jerarquía de características](http://www.dlsi.ua.es/~jgallego/deepraltamira/cnn_feature_hierarchy_2.png)

<br>

* Las características extraídas en las últimas capas de convolución han sido depuradas hasta llegar a una serie de características únicas que permitan discriminar la clase de la que se trata la imagen de entrada.






## Capa *Fully connected*

* Las últimas capas de la CNN se encargan de clasificar las características extraídas de la imagen en una de las posibles categorías.

* Estas últimas capas suelen ser de tipo *Fully Connected* (capas totalmente conectadas), que son equivalentes a las Redes Neuronales o MLP que vimos previamente.

* Para transformar los mapas de características (que son matrices 2D) en un vector 1D se realiza una operación llamada ***Flatten*** (aplanar).

* Esta operación simplemente consiste en redimensionar los mapas de características de salida en un vector 1D:


<br>

![Operación flatten](http://www.dlsi.ua.es/~jgallego/deepraltamira/flatten1.png)

<br>

# 2.2.1. Redes CNN con tf.Keras

* En tf.Keras disponemos de las clases `Conv2D`, `MaxPooling2D` y `Flatten` para crear una red neuronal convolucional.


* La clase [Conv2D](https://keras.io/layers/convolutional/#conv2d)  permite añadir capas convolucionales a la red.

 * Como parámetros recibe el número de filtros y el tamaño de los kernels, por ejemplo "`Conv2D(32, (3, 3))`" crearía una capa con 32 filtros de tamaño 3x3.

* [MaxPooling2D](https://keras.io/layers/pooling/#maxpooling2d) añade una capa para aplicar esta operación con el tamaño indicado como parámetro.

 * Por ejemplo `MaxPooling2D(pool_size=(2, 2))`.

* La clase [Flatten](https://keras.io/api/layers/reshaping_layers/flatten/) realiza esta operación a partir de las entradas recibidas, devolviendo un vector 1D.

<br>

&#10158; A continuación vamos a ver un ejemplo sencillo de cómo clasificar la base de datos MNIST usando una Red Neuronal Convolucional.

In [None]:
"""
En primer lugar descargamos la base de datos y mostramos algunas imágenes
"""

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

tf.random.set_seed(1)  # Fijamos la semilla de TF
np.random.seed(1)  # Fijamos la semilla

# Descargamos la base de datos
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# Mostramos algunas imágenes
n = 15
index = np.random.randint(len(x_train), size=n)
plt.figure(figsize=(n*1.5, 1.5))
for i in np.arange(n):
    ax = plt.subplot(1,n,i+1)
    ax.set_title('{} ({})'.format(y_train[index[i]],index[i]))
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
    plt.imshow(x_train[index[i]], cmap='gray')
plt.show()

# Mostramos las dimensiones de los datos
print('Datos para entrenamiento:')
print(' - x_train: {}'.format(str(x_train.shape)))
print(' - y_train: {}'.format(str(y_train.shape)))
print('Datos para evaluación:')
print(' - x_test: {}'.format(str(x_test.shape)))
print(' - y_test: {}'.format(str(y_test.shape)))

In [None]:
"""
Preparamos los datos para la red
"""

# Redimensionamos para añadir el canal
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1], x_train.shape[2], 1)
x_test = x_test.reshape(x_test.shape[0], x_test.shape[1], x_test.shape[2], 1)

# Transformamos a decimal
x_train = x_train.astype(np.float32)
x_test = x_test.astype(np.float32)

# Normalizamos entre 0 y 1
x_train /= 255.
x_test /= 255.

# Transformamos las etiquetas a categórico (one-hot)
NUM_LABELS = 10
y_train  = tf.keras.utils.to_categorical(y_train, NUM_LABELS)
y_test = tf.keras.utils.to_categorical(y_test, NUM_LABELS)


# Mostramos (de nuevo) las dimensiones de los datos
print('Datos para entrenamiento:')
print(' - x_train: {}'.format(str(x_train.shape)))
print(' - y_train: {}'.format(str(y_train.shape)))
print('Datos para evaluación:')
print(' - x_test: {}'.format(str(x_test.shape)))
print(' - y_test: {}'.format(str(y_test.shape)))

In [None]:
"""
Definimos la CNN a utilizar y la entrenamos
"""

from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.layers import Conv2D, MaxPooling2D

model = Sequential()

# Capa convolucional con 8 filtros de tamaño 3x3 seguida de un MaxPooling de 2x2
model.add(Conv2D(8, (3, 3), activation='relu', name='conv1', input_shape=x_train.shape[1:]))
model.add(MaxPooling2D(pool_size=(2, 2)))

# Capa convolucional con 4 filtros de tamaño 3x3 seguida de un MaxPooling de 2x2
model.add(Conv2D(4, (3, 3), activation='relu', name='conv2'))
model.add(MaxPooling2D(pool_size=(2, 2)))

# Capa Fully Connected de salida con función de activación Softmax
model.add(Flatten())
model.add(Dense(NUM_LABELS, activation='softmax'))

# Mostramos el resumen de la red
print(model.summary())

# La compilamos usando "categorical crossentropy" como función de pérdida,
# Adam como optimizador y añadimos la métrica accuracy
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'] )

# Iniciamos el entrenamiento durante 5 épocas con un tamaño de batch de 32
history = model.fit(x_train, y_train, validation_split=0.33,
                    batch_size=32, epochs=5, verbose=1)

In [None]:
"""
Mostramos las curvas de aprendizaje y evaluamos usando el test set
"""

# -----------------------------
def plot_learning_curves(hist):
  plt.plot(hist.history['loss'])
  plt.plot(hist.history['val_loss'])
  plt.title('Curvas de aprendizaje')
  plt.ylabel('Loss')
  plt.xlabel('Epoch')
  plt.legend(['Conjunto de entrenamiento', 'Conjunto de validación'], loc='upper right')
  plt.show()

print('Mostramos las curvas de aprendizaje')
plot_learning_curves(history)


# Evaluamos usando el test set
score = model.evaluate(x_test, y_test, verbose=0)

print('Resultado en el test set:')
print('Test loss: {:0.4f}'.format(score[0]))
print('Test accuracy: {:0.2f}%'.format(score[1] * 100))


In [None]:
"""
Mostramos los filtros aprendidos por la red
"""

# --------------------------------
def plot_figures(images):
  width = images.shape[0]
  n_filters = images.shape[2]
  plt.figure(figsize=(1.5 * n_filters, 1.5))
  for i in range(n_filters):
    ax = plt.subplot(1,n_filters,i+1)
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
    plt.imshow(np.array(images[:,:,i] * 255., dtype=np.uint8), cmap='gray')
  plt.show()


print('Filtros aprendidos por la primera capa:')
modelConv = Model(inputs=model.input, outputs=model.get_layer("conv1").output)
predictions = modelConv.predict(x_train)
print(predictions.shape)
plot_figures(predictions[0])
plot_figures(predictions[1])
plot_figures(predictions[2])

print('Filtros aprendidos por la segunda capa:')
modelConv = Model(inputs=model.input, outputs=model.get_layer("conv2").output)
predictions = modelConv.predict(x_train)
print(predictions.shape)
plot_figures(predictions[0])
plot_figures(predictions[1])
plot_figures(predictions[2])


print('Valores del primer filtro aprendido para la segunda capa:')
print( model.get_layer("conv2").get_weights()[0][:,:,0,0] )


## Diseño de la red

* Mediante las clases de tf.Keras que hemos visto (`Sequential, Conv2D, Flatten, MaxPooling2D, Dropout, Dense`) podemos diseñar la red como nosotros queramos.

* Hay que recordar que en la capa de entrada es necesario indicar la forma de los datos de entrada con `input_shape`.

* De esta forma podremos añadir más capas, variar el número de filtros, el tamaño de los kernels, etc.

* Por ejemplo, podemos crear una red con más capas intercalando MaxPooling y Dropout cada 2 convoluciones, y utilizar más filtros con distintos tamaños de kernel en cada capa:

```
   model = Sequential()

   model.add(Conv2D(64, (5,5), activation='relu', input_shape=(28,28,1)))
   model.add(Conv2D(64, (3,3), activation='relu'))
   model.add(MaxPooling2D(pool_size=(2, 2)))
   model.add(Dropout(0.2))

   model.add(Conv2D(128, (5,5), activation='relu'))
   model.add(Conv2D(128, (3,3), activation='relu'))
   model.add(MaxPooling2D(pool_size=(2, 2)))
   model.add(Dropout(0.2))

   model.add(Flatten())
   model.add(Dense(128, activation='relu'))
   model.add(Dropout(0.2))
   model.add(Dense(10, activation='softmax'))
```

## Aumentado de datos

* Como ya vimos previamente, cuando tenemos pocos datos o la variabilidad de estos datos es reducida, podemos utilizar la técnica de aumentado de datos (***data augmentation***).

* Esta técnica consiste en generar más datos de entrenamiento a partir de los datos ya existentes.

* Para esto se aplican transformaciones sobre las muestras de entrenamiento, como rotaciones, escalado, desplazamientos, flips (dar la vuelta), cambios de color, añadiendo ruido o suavizado, etc.


<br>

![Aumentado de datos](http://www.dlsi.ua.es/~jgallego/deepraltamira/data_augmentation1.png)

<br>


* En tf.Keras podemos utilizar la clase [ImageDataGenerator](https://keras.io/api/preprocessing/image/#imagedatagenerator-class) para generar en tiempo real muestras de entrenamiento con transformaciones aleatorias.


<br>

&#10158; A continuación vamos a ver un código de ejemplo:




In [None]:
"""
Importamos la clase ImageDataGenerator y llamamos a fit_generator...
"""

from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(rotation_range=25)  # Solo aplicamos rotaciones

model.fit(datagen.flow(x_train, y_train, batch_size=32),
                    steps_per_epoch=len(x_train) / 32, epochs=1)


# Vamos a mostrar algunas de las imágenes que genera
print('\nTransformaciones generadas sobre un dígito:')
plt.figure(figsize=(1.5 * 11, 1.5))
for idx, img_batch in enumerate(datagen.flow(np.array([x_train[2]]), batch_size=1)):
  ax = plt.subplot(1, 11, idx+1)
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)
  plt.imshow(img_batch[0,:,:,0], cmap='gray')
  if idx > 9:
    break

plt.show()


## CNN Hall of Fame

* Año tras año la potencia y precisión de las redes CNN ha ido mejorando.


<br>

![ImageNet contest](http://www.dlsi.ua.es/~jgallego/deepraltamira/imagenet_contest.png)

<br>


* Mejorar la precisión o acierto de las redes no siempre quiere decir añadir más capas o más parámetros.


<br>

![Redes](http://www.dlsi.ua.es/~jgallego/deepraltamira/applications.png)

<br>



### Modelos pre-entrenados en tf.Keras

* tf.Keras incluye la implementación de algunas de las redes más utilizadas [https://keras.io/applications/](https://keras.io/applications/)

* Además incluye pesos "pre-entrenados" para ImageNet, lo que nos permite utilizar estas redes directamente o aplicar un proceso de "fine-tuning" para ajustar los pesos a nuestra base de datos.

<br>

![Modelos pre-entrenados en tf.Keras](http://www.dlsi.ua.es/~jgallego/deepraltamira/fig_keras_apps_acc.png)

<br>


<br>

&#10158; A continuación se incluye un ejemplo de código de cómo podemos utilizar una de estas redes:

In [None]:
from tensorflow.keras.applications.inception_v3 import InceptionV3
from tensorflow.keras.applications.inception_v3 import preprocess_input, decode_predictions
from tensorflow.keras.preprocessing import image

# Descargamos una imagen de prueba
!wget -q http://www.dlsi.ua.es/~jgallego/deepraltamira/elefante.jpg


# Cargamos la imagen
img = image.load_img('elefante.jpg', target_size=(299, 299))


# Mostramos la imagen
plt.imshow(img)
plt.grid(False)
plt.show()


# La preprocesamos
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)
print('Dimensiones de la imagen:', x.shape)


# Cargamos el modelo y lo utilizamos para predecir la clase de la imagen
model = InceptionV3()
preds = model.predict(x)


# Decodificamos el resultado, que tendrá el formato (id clase, nombre clase, probabilidad)
print('Predicción:', decode_predictions(preds, top=3)[0])


## API funcional

* Hasta ahora todos los modelos que hemos visto los hemos creado utilizando la clase `Sequential`.

* Pero esta clase, como su propio nombre indica, solo permite crear modelos secuenciales.

* Para crear modelos más complejos, con múltiples entradas o salidas, o con diseños tipo grafo, podemos utilizar la **[API funcional de tf.Keras](https://keras.io/getting-started/functional-api-guide/)**.

* Al utilizar la API funcional cada capa actuará como una función, que recibirá una (o varias) entradas y devolverá un resultado.

 * Nota: Todas las clases (Conv2D, etc.) que hemos visto hasta ahora se puede utilizar igual.

* Por ejemplo, el siguiente modelo secuencial:

```
   model = Sequential()
   model.add(Dense(64, activation='relu', input_dim=784))
   model.add(Dense(64, activation='relu'))
   model.add(Dense(10, activation='softmax'))
```

* Utilizando la API funcional se definiría como:

```
   input = Input(shape=(784,))
   x = Dense(64, activation='relu')(input)
   x = Dense(64, activation='relu')(x)   
   output = Dense(10, activation='softmax')(x)
   model = Model(inputs=input, outputs=output)
```

* De esta forma podremos combinar capas, utilizando además los [operadores de combinación](https://keras.io/layers/merge/) que proporciona tf.Keras (que nos permitirán sumar, restar, concatenar, etc.)

* Por ejemplo, para crear una conexión residual (como en la red ResNet):

```
   x1 = Conv2D(3, (3, 3), padding='same')(x0)
   ...
   ...
   x10 = Conv2D(3, (3, 3), padding='same')(x9)
   x11 = tf.keras.layers.add([x1, x10])
```

* O para crear un módulo Inception (como en la red Inception):

```
   t1 = Conv2D(64, (1, 1), padding='same', activation='relu')(input_img)
   t1 = Conv2D(64, (3, 3), padding='same', activation='relu')(t1)

   t2 = Conv2D(64, (1, 1), padding='same', activation='relu')(input_img)
   t2 = Conv2D(64, (5, 5), padding='same', activation='relu')(t2)

   t3 = MaxPooling2D((3, 3), strides=(1, 1), padding='same')(input_img)
   t3 = Conv2D(64, (1, 1), padding='same', activation='relu')(t3)

   output = tf.keras.layers.concatenate([t1, t2, t3], axis=1)
```




<br>

<br>


---


**[&#10158;  Vamos a practicar &#10158; ](https://colab.research.google.com/drive/1jMnjMZ85wiNeUkyoUSDWUMwLLlgDsJjg)**

---