# 2 - Redes neuronales residuales (ResNets)

**Sumario**

1. Redes neuronales residuales (ResNet)
2. Transferencia de aprendizaje sobre ResNet

## 2.1 - Redes neuronales residuales (ResNet)

Las redes convolucionales son muy escalables. De este modo, **cuanto mayor sea la cantidad de información que queramos obtener o más compleja, mayor será el número de capas de la sección de extracción** (i.e., capas convolucionales y de pooling) que debemos utilizar, lo que aumentará considerablemente la profundidad de la red y, por tanto, su complejidad. Este aumento de la profundidad puede suponer la aparición del problema del **desvanecimiento del gradiente**.

[Este fenómeno fue observado en 2015 por Kaiming He et al.](https://arxiv.org/pdf/1512.03385.pdf) Incluso después de aplicar *batch normalization*, vieron que una red que usaba más capas funcionaba peor que una red que usaba menos capas, y no había otras diferencias entre los modelos. Lo más interesante es que la diferencia se observó no solo en el conjunto de validación, sino también en el conjunto de entrenamiento; entonces, **no era solo un problema de generalización, sino un problema de entrenamiento**.

<img src="images_2/problema_convolucionales.png" width="600" data-align="center">

Con el objetivo de evitar este problema, se desarrollaron las redes residuales (*Residual Networks*, ResNet por sus siglas en inglés), que constituyen una evolución de las redes convolucionales donde **se incluyen "atajos" o saltos entre las diferentes capas**. Estas nuevas conexiones otorgan flexibilidad de aprendizaje a la red sin añadir casi parámetros. Son interesantes porque le permiten "no utilizar" ciertas capas a menos que sea necesario y le ayudan a reducir el problema del desvanecimiento del gradiente.

<img src="images_2/bloque_residual.png" width="500" data-align="center">

Consideremos que tenemos un bloque residual formado por dos capas convolucionales que devuelve $y = x + \text{bloque}(x)$. Dado que $x$ es la información del bloque anterior, lo que estamos buscando que aprenda la red aqui es la diferencia entre $x$ e $y$. Es decir, si el nuevo bloque aporta información nueva o con la que teníamos en el bloque anterior ya es suficiente. 

Por lo tanto, **una ResNet es buena para aprender sobre las ligeras diferencias entre no hacer nada y pasar a través de un bloque de dos capas convolucionales (con pesos entrenables)**. Así es como estos modelos obtuvieron su nombre: **predicen residuos** (el residuo es valor obtenido de restar la predicción menos el objetivo). A continuación se muestra la estructura de una ResNet profunda que incluye saltos cada dos capas convolucionales (i.e., un "bloque").

<img src="images_2/resnet.png" width="600" data-align="center">

Este tipo de "capa" o bloque no está incluida entra las que ofrece Keras, así que debemos crearlo manualmnte mediante otras capas más básicas. Para ello, incluiremos una serie de modificaciones sobre el modelo convolucional definido en la unidad anterior.

### 2.1.1 - Importación de librerías

In [1]:
from keras import Input
from keras import Model
from keras.layers import Conv2D, Flatten, Dense, MaxPooling2D, Activation
from keras.layers import Add, BatchNormalization

### 2.1.2 - Definición del bloque residual

Para este ejemplo, vamos a construir un bloque residual similar al que hemos presentado anteriormente. Se le denomina a veces como "bloque residual V1". 

### 2.1.3 - Definición de la red de neuronas

### 2.1.4 - Otros tipos de bloques ResNet

## 2.2 - Transferencia de aprendizaje sobre ResNet

### 2.2.1 - Importación de librerías

### 2.2.2 - Creación de la red