# Convolutional Neural Networks: Step by Step


## ¿Qúe es una CNN? ¿Cómo clasifica imagenes y distingue un perro de un gato?

La CNN es un tipo de Red Neuronal con aprendizaje supervisado que procesa sus capas imitando al cortex visual del ojo humano para identificar distintas características en las entradas que en definitiva hacen que pueda identificar objetos y “ver”. 

**¿Como lo logra?** La CNN contiene varias capas ocultas especializadas y con una jerarquía: esto quiere decir que las primeras capas pueden detectar lineas, curvas y se van especializando hasta llegar a capas más profundas que reconocen formas complejas como un rostro o la silueta de un animal.

### Introducción
La red neuronal deberá aprender por sí sola a reconocer una diversidad de objetos dentro de imágenes y para esto necesitaremos una gran cantidad de imágenes (más de 10.000 imágenes de gatos, otras 10.000 de perros,...) para que la red pueda captar sus características únicas y a su vez, poder generalizarlo, esto es que pueda reconocer como gato tanto a uno negro, uno blanco, un gato de frente, un gato de perfil, gato saltando, etc.

<img src="images/cnn-01.png" style="width:800px;height:500px;">

### Pixeles y neuronas

Para comenzar, la red toma como entrada los pixeles de una imagen. Si tenemos una imagen con apenas 28×28 pixeles de alto y ancho, eso equivale a  784 neuronas. Y eso es si sólo tenemos 1 color (escala de grises). Si tuviéramos una imagen a color, necesitaríamos 3 canales (red, green, blue) y entonces usaríamos 28x28x3 = 2352 neuronas de entrada. Esa es nuestra capa de entrada. Para continuar con el ejemplo, supondremos que utilizamos la imagen con 1 sólo color. Y luego lo generalizaremos.

Antes de alimentar la red, recordar que como entrada nos conviene normalizar los valores. Los colores de los pixeles tienen valores que van de 0 a 255, haremos una transformación de cada pixel: “valor/255” y nos quedará siempre un valor entre 0 y 1.

<img src="images/cnn-02.png" style="width:800px;height:600px;">

### Convoluciones

Ahora comienza el “procesado distintivo” de las CNN. Es decir, haremos las llamadas “convoluciones”: Estas consisten en tomar “grupos de pixeles cercanos” de la imagen de entrada e ir operando matemáticamente (producto escalar) contra una pequeña matriz que se llama kernel o filtro en este caso. Ese kernel supongamos que es de tamaño 3×3 pixels “recorre” todas las neuronas de entrada (de izquierda-derecha, de arriba-abajo) y genera una nueva matriz de salida, que en definitiva será nuestra nueva capa de neuronas ocultas.

**Nota:** si la imagen fuera a color, el kernel realmente sería de 3x3x3 es decir: un filtro con 3 kernels de 3×3; luego  esos 3 kernels se suman (y se le suma una unidad bias) que conformarán 1 salida (cómo si fuera 1 solo canal).

<img src="images/cnn-03.png" style="width:550px;height:350px;">

El kernel tomará inicialmente valores aleatorios y se irán ajustando mediante backpropagation. Una mejora es hacer que siga una distribución normal siguiendo simetrías, pero que sus valores sean aleatorios.

### Filtro

En realidad, no aplicaremos 1 sólo kernel, si no que tendremos muchos kernel (su conjunto se llama filtros). Por ejemplo una primer convolución podríamos tener 32 filtros, con lo cual realmente obtendremos 32 matrices de salida (este conjunto se conoce como “feature mapping”), cada una de 28x28x1 dando un total del 25.088 neuronas para nuestra primer capa oculta de neuronas.

<img src="images/cnn_kernel.gif" style="width:450px;height:150px;">

Aquí vemos al kernel realizando el producto matricial con la imagen de entrada y desplazando de a 1 pixel de izquierda a derecha y de arriba-abajo y va generando una nueva matriz que compone al mapa de características.

A medida que vamos desplazando el kernel y vamos obteniendo una “nueva imagen” filtrada por el kernel. En esta primer convolución y siguiendo con el ejemplo anterior, es como si obtuviéramos 32 “imágenes filtradas nuevas”. Estas imágenes nuevas lo que están “dibujando” son ciertas características de la imagen original. Esto ayudará en el futuro a poder distinguir un objeto de otro (por ej. gato ó perro).

<img src="images/CNN-04.png" style="width:800px;height:320px;">

**Función RELU**

<img src="images/relu.png" style="width:300px;height:300px;">

### Arquitectura de una CNN

<img src="images/Typical_cnn-1.png" style="width:1000px;height:450px;">


## Ejercicio

Vamos a implementar una capa de convolución (CONV) y pooling (POOL) usando numpy, inlcuimos forward propagation and backward propagation. 

**Notación**:
- El superindice $[l]$ denota un objeto de la $l^{th}$ capa. 
    - Ejemplo: $a^{[4]}$ representa la matriz de activacion de la $4^{th}$ capa. $W^{[5]}$ y $b^{[5]}$ son los parametros de la $5^{th}$ capa.


- El superindice $(i)$ denota un objeto del $i^{th}$ ejemplo. 
    - Ejemplo: $x^{(i)}$ es el $i^{th}$ ejemplo de entrenamiento de entrada.
    
    
- El supraindice $i$ denota la $i^{th}$ entrada de un vector.
    - Ejemplo: $a^{[l]}_i$ denota la $i^{th}$ de la capa de activación $l$, asumiendo que es una capa fully connected (FC).
    
    
- $n_H$, $n_W$ y $n_C$ denota respectivamente la altura (height), el ancho (width) y el numero de canales (channels) de una capa dada. Si queremos indicar los valores de la capa $l$, debemos escribir $n_H^{[l]}$, $n_W^{[l]}$, $n_C^{[l]}$. 
- $n_{H_{prev}}$, $n_{W_{prev}}$ y $n_{C_{prev}}$ denotan respectivamente la altura (height), el ancho (width) y el numero de canales (channels) de la capa anterior. Si queremos indicar los valores de la capa $l$, esto se escribe del siguiente modo $n_H^{[l-1]}$, $n_W^{[l-1]}$, $n_C^{[l-1]}$. 

## 1 - Paquetes

Primero importaremos todos los paquetes que son necesarios para la implementación de nuestra CNN. 
- [numpy](www.numpy.org).
- [matplotlib](http://matplotlib.org) es una biblioteca para mostrar graficas en Python.

## 2 - Esquema de trabajo

¡Implementaremos los componentes básicos de una red neuronal convolucional! Cada función que implementaremos tiene instrucciones detalladas que serviran como guía de lo que hay que hacer:

- Función de convolución, incluye:
    - Zero Padding
    - Convolve window 
    - Convolution forward
    - Convolution backward (opcional)
- Función de pooling, incluye:
    - Pooling forward
    - Create mask 
    - Distribute value
    - Pooling backward (opcional)
    
En este notebook implementaremos estas funciones desde cero utilizando `numpy`. En el siguiente notebook, usaremos las funciones de TensorFlow equivalentes para crear el siguiente modelo:

<img src="images/model.png" style="width:800px;height:300px;">

**Note** Para cada función hacia adelante existe su equivalente hacia atras, por lo tanto almacenaremos algunos parametros en cache para luego utilizarlos en el backprop. 

## 3 - Convolutional Neural Networks

Una capa de convolución transforma un volumen de entrada en un volumen de salida de diferente tamaño, como se muestra a continuación.

<img src="images/conv_nn.png" style="width:350px;height:200px;">

En esta parte vamos a construir cada paso de la capa convolucional. Pero primero vamos a implementar dos funciones auxiliares: una para el zero padding y la otra para calcular la función de convolución en si. 

### 3.1 - Zero-Padding

Zero-padding agrega ceros alrededor de los bordes de una imagen:

<img src="images/PAD.png" style="width:600px;height:400px;">
<caption><center> <u> <font color='purple'> **Figura 1** </u><font color='purple'>  : **Zero-Padding**<br> Imagen (3 canales, RGB) con padding de valor 2. </center></caption>

Los principales beneficios del padding son los siguientes:

- Nos permite usar una capa CONV sin necesariamente reducir la altura y el ancho de los volúmenes. Esto es importante para construir redes más profundas, ya que de lo contrario la altura/ancho se reduciría a medida que avanzamos a las capas más profundas. Un caso especial que es importante es el padding denominado "same", esto genera que la altura/ancho se conserva después de una capa de CONV, se hace el padding con cierto tamaño que genera que el tamaño de la entrada sea el mismo que el de la salida. 

- Nos ayuda a mantener más información sobre el borde de una imagen. Sin padding, muy pocos valores en la siguiente capa se verían afectados por los píxeles sobre los bordes de una imagen.

**Ejercicio**: Implementar la siguiente función, la cual realiza el padding de todas las imagenes del conjunto X con tamaño pad. [Usar np.pad](https://docs.scipy.org/doc/numpy/reference/generated/numpy.pad.html). Nota: si queremos realizar el padding de la matriz "a" de dimensiones $(5,5,5,5,5)$ con `pad = 1` para la 2da dimensión, `pad = 3` para la 4ta dimensión y `pad = 0` para el resto, tenemos que hacer:
```python
a = np.pad(a, ((0,0), (1,1), (0,0), (3,3), (0,0)), mode='constant', constant_values = (0,0))
```

### 3.2 - Single step of convolution 

En esta parte, implementaremos un solo paso de convolución, en el que aplicamos el filtro a una sola posición de la imagen. Esto se usa para construir una unidad convolucional, que hace lo siguiente: 

- Toma un volumen de entrada 
- Applica un filtro a cada posición de la entrada
- Devuelve otro volumen (normalmente de diferente tamaño)

<img src="images/Convolution_schematic.gif" style="width:500px;height:300px;">
<caption><center> <u> <font color='purple'> **Figura 2** </u><font color='purple'>  : **Operación de convolución**<br> con un filtro de 3x3 y un stride de 1 (stride = cantidad que moveremos la ventana en cada slide) </center></caption>

En aplicaciones de computer vision, cada valor de la imagen de la izquierda corresponde a el valor de un pixel, realizar la convolución equivale a multiplicar esta ventana por los valores de los pixeles de la imagen y sumar todos estos valores más el bias. Implementaremos una funciona que realiza la convolución de una sola ventana, que se corresponde con la aplicación de un filtro sobre una posicion posible de la ventana el cual retorna un valor real para esta. 

Luego realizaremos este paso de convolución sobre todas las ventanas posible para completar una capa de convolucion

**Ejercicio**: Implementar conv_single_step(). [Pista](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sum.html).


**Nota**: la variable b se pasara a la función como un numpy array.  Si añadimos un escalar (un float o integer) a un numpy array, el resultado sera un numpy array. En el caso particular que un numpy array contenga un unico valor, podemos castearlo a un float para convertirlo a un escalar.

### 3.3 - Convolutional Neural Networks - Forward pass

En el forward pass, tomaremos muchos filtros y realizaremos la convolución con el volumen de entrada. Cada 'convolución' nos dara una matriz de 2D de salida. Luego juntaremos estas salidas para obtener un volumen de 3D:

<center>
<video width="620" height="440" src="images/conv_kiank.mp4" type="video/mp4" controls>
</video>
</center>

**Ejercicio**: 
Implementar la funcion que realizara la convolución entre los filtros `W` sobre la capa de activación previa `A_prev`.
Esta función toma las siguientes entradas:
* `A_prev`, la salida de la capa anterior (considerado como un conjunto de m); 
* Weights lo denotamos como `W`.  El filtro con tamaño de ventana `f` por `f`.
* El vector de bias es `b`, donde cada filtro tiene su propio (solo un) bias. 

Además se agrega un diccionario de hyperparameters que contiene el valor del stride y del padding. 

**Pista**: 
1. Para seleccionar una slide de `2x2` en la esquina superior izquierda de la matriz "a_prev" (de dimension (5,5,3)), debemos hacer lo siguiente:
```python
a_slice_prev = a_prev[0:2,0:2,:]
```
Observar que esto genera un corte 3D que tiene altura 2, ancho 2 y profundidad 3. La profundidad es el número de canales.
Esto es util para definir `a_slice_prev`, usar los indices `start/end` que definiremos.
2. Para definir una slice necesitamos definir los vertices `vert_start`, `vert_end`, `horiz_start` y `horiz_end`. Esta figura puede sernos de ayuda para encontrar los vertices los cuales podemos definir usando h, w, f y s en el codigo.

<img src="images/vert_horiz_kiank.png" style="width:400px;height:300px;">
<caption><center> <u> <font color='purple'> **Figura 3** </u><font color='purple'>  : **Definición de una slide usando vertical and horizontal start/end (con un filtro de 2x2)** <br> Esta figura muestra un solo canal.  </center></caption>


**Formulas**:
Estas formulas sobre las dimensiones del resultado de una convolución a partir de las dimensiones de la entrada:
$$ n_H = \lfloor \frac{n_{H_{prev}} - f + 2 \times pad}{stride} \rfloor +1 $$
$$ n_W = \lfloor \frac{n_{W_{prev}} - f + 2 \times pad}{stride} \rfloor +1 $$
$$ n_C = \text{number of filters used in the convolution}$$

Para este ejericio, no nos preocuparemos por la implementación vectorizada, y vamos a implementar todo con for-loops ya que la idea base es lograr entender el funcionamiento de una CNN.

#### Consejos adicionales


* Deberian utilizar el corte de matrices (ej.`varname[0:1,:,3:5]`) para las siguientes variables:  
  `a_prev_pad` ,`W`, `b`  
  Copiar el código de la función y ejecutarlo fuera de la función definida, en celdas separadas. Para comparar que el subconjunto de cada matriz es del tamaño y la dimensión que espera.
* Para decidir cómo obtener vert_start, vert_end; horiz_start, horiz_end, recordar que estos son índices de la capa anterior.  
  Los índices de la capa de salida se denotan con `h` y` w`.  
* Asegúrarse de que `a_slice_prev` tenga altura, ancho y profundidad.
* Recordar que `a_prev_pad` es un subconjunto de `A_prev_pad`.  
  Pensar cuál debería usarse dentro de los bucles for.

Finalmente, la capa CONV también debe contener una activación, en cuyo caso agregaríamos la siguiente línea de código:

```python
# Aplicar la función de activación
A[i, h, w, c] = activation(Z[i, h, w, c])
```

Esto no es necesario en este ejercicio.


## 4 - Pooling layer 

La capa de agrupación (POOL) reduce la altura y el ancho de la entrada. Ayuda a reducir el computo necesario, así como a hacer que los detectores de características sean más invariantes a la posición en la entrada. Los dos tipos de capas de agrupación son:

- Max-pooling layer: en las slides de entrada aplicamos ventanas de dimensiones ($f, f$) y almacenamos el maximo valor de la ventana en la salida.

- Average-pooling layer: en las slides de entrada aplicamos ventanas de dimensiones ($f, f$) y almacenamos el valor promedio de la ventana en la salida.

<table>
<td>
<img src="images/max_pool1.png" style="width:500px;height:300px;">
<td>

<td>
<img src="images/a_pool.png" style="width:500px;height:300px;">
<td>
</table>

Estas capas de agrupación no tienen parámetros para que la retropropagación entrene. Sin embargo, tienen hiperparámetros como el tamaño de la ventana $f$. Esto especifica la altura y el ancho de la ventana $f \times f$ en la que calcularía el *maximo* o *promedio*.

### 4.1 - Forward Pooling
Ahora, vamos a implementar MAX-POOL y AVG-POOL, en la misma función. 

**Ejercicio**: Implementar la forward pass sobre una pooling layer.

**Recordatorio**:
Las formulas sobre la dimensión del volumen de salida en relación al volumen de entrada son:

$$ n_H = \lfloor \frac{n_{H_{prev}} - f}{stride} \rfloor +1 $$

$$ n_W = \lfloor \frac{n_{W_{prev}} - f}{stride} \rfloor +1 $$

$$ n_C = n_{C_{prev}}$$

Ahora, vamos a realizar el ejericio!