# Redes Neuronales Convolucionales 

## Week 1

### Computer Vision and Edge Detection

Un problema importante con el computer vision es que para redes neuronales clásicas, con imágenes de alta resolución, es importante saber que cada vez el problema se vuelve poco factible sin prevenir el overfitting. Para ello, es importante saber que la operación de la convolución es mucho más eficiente.  

Lo primero que hace el computer vision con las redes neuronales, es tal vez detectar bordes o edges. Este lo que hace es tomar un **kernel** o un **filter** (como se llamará en el resto de videos) y hacer la operación de convolución, que se va a denotar con un asterisco (*)

Lo que se hace, es que este filter o kernel se toma una parte de la matriz general con el mismo tamaño y se hace un movimiento hasta recorrer toda la matriz original. Y se van poniendo los valores en otra matriz. Así el algoritmo detecta patrones.

En python se pueden usar estas funciones:
- conv-forward
- TF: tf.nn.conv2d
- CARIS: Conv2D

El tema de los filtros, influye en como se quiere detectar los bordes en una imagen, ejemplo:

<img src = CN_1.png>

Ahora bien, uno puede tomar los filtros o kernels de algunos investigadores. Sin embargo, es posible que en vez de tomar algo a mano, es posible coger este filtro y ponerlo como pesos de nuestra red neuronal para que los aprenda a detectar usando back-prop.

### Padding

Antes que nada, es importante que tengamos la denotación de las fórmulas que se van a utilizar. Cuando hacemos la operación de la convolución en una matriz de $(n, n)$ con un kernel/filtro de $(f, f)$ la matriz resultante va a ser de tamaño: $(n-f+1, n-f+1)$

Ahora bien, el problema con sólo aplicar la convolución, es que dejamos por fuera los pixeles de las esquinas o de la mitad, a sabiendas de que existen varias matrices que pueden rodear estas imágenes. Además, que el tema es que comprime nuestra imagen cada vez más, volviendola pixelada.

Este problema, se soluciona con el padding, en este caso, se va añadiendo una imagen cada vez más para cubrir estos bordes. Entonces:

Sea $p$ el número de pads que haremos para cubrir la imagen, nuestra matriz final queda de tamaño: $(n+2p-f+1, n+2p-f+1)$

Entonces,

#### Cuanto debe ser el valor de p que podemos dar

En este caso, tenemos dos metodologías: Valid and Same Convolutions

En una valida, quiere decir que no hay padding. Caso contrario, en las sames, lo que se usa es un número tal que termine del mismo tamaño que la imagen de destino. En este caso:

- $n+2p-f+1 = n$

- Entonces: $p = \frac{f-1}{2}$

Siendo que, siempre f es un par.

### Strided Convolutions

En este caso, en vez de añadir un pixel más con el padding, lo que hacemos es añadir un stride, lo que significa realizar un paso adicional, al que se hace tradicionalmente, es ir rodando la el filtro de tal manera que entre cada paso, se salten s pixeles. Esto nos deja con el siguiente tamaño de matriz:

- $(\lfloor\frac{n+2p-f}{s}\rfloor, \lfloor\frac{n+2p-f}{s}\rfloor)$

Si esto no da un entero, se redondea hasta abajo.

### Convultions over volume

Ahora bien, hemos aplicado y explicado esta fórmula sobre sólo una matriz de uno de los canales. En este caso, ya no usamos un sólo canal de color, ahora usamos el canal RGB. En este caso, si tenemos una matriz de 6x6x3 siendo el primer número la altura, el segundo el ancho y el tercero los canales. 

Nuestro filtro también debe ser un 3x3x3. Igual seguiremos obteniendo una matriz de 4x4 al aplicar la operación de convolución.

Ahora bien, esto implica que:

- La mayoría de veces, nuestro kernel/filter va a tener los mismos canales que nuestra imagen.

Sin embargo, podemos tener un filtro que sólo se enfoque a uno sólo de los canales, a 2 o a los 3 canales RGB.

Adicional:

- Al realizar la convolución, siempre tendremos una matriz en dos dimensiones.

Otra idea que podemos tener en cuenta, es que tal vez queremos detectar otros features en nuestra imagen, podemos aplicar dos filtros distintos, y ponerlas juntas para tener un volume en la convolución, es decir, tomamos las dos y la ponemos juntas, que dependiendo del número que usemos, tendremos un output con una tercera dimensión. 

### One Layer of a Convolutional Network

Si queremos hacer una red convolucional, podemos hacer el simil con una de una sóla neurona convolucional:

<img src = 'CN_2.png'>

El último valor o dimensión de la matriz, siempre depende de todos los filtros que apliquemos. Entonces:

- Si tenemos 10 filtros, que son todos 3x3x3, ¿Cuantos parámetros debemos aprender?. En este caso, serían 27 parámetros por cada filtro, y sumando el bias, tendriamos 28. En total terminaríamos con **280 parámetros**

##### Notación para una red convolucional:

- $f^{[l]}$ = tamaño del filtro para una capa $l$

- $p^{[l]}$ = es el padding

- $s^{[l]}$ = este sería el stride

- $n^{[l]}_{c}$ = Número de filtros

- Input: $(n^{[l-1]}_{H}, n^{[l-1]}_{W}, n^{[l-1]}_{c})$

- Output: $(n^{[l]}_{H}, n^{[l]}_{W}, n^{[l]}_{c})$

- $(n^{[l]}_{H,W} = \lfloor\frac{n^{[l]}_{H, W}+2p^{[l]}-f^{[l]}}{s^{[l]}} + 1\rfloor)$

Ahora bien, cada filtro será de tamaño:

- $(f^{[l]}, f^{[l]}, n^{[l-1]})$

Y nuestra activación:

- $a^{[l]} = (n^{[l]}_{H}, n^{[l]}_{W}, n^{[l]}_{c})$

- $A^{[l]} = (m, n^{[l]}_{H}, n^{[l]}_{W}, n^{[l]}_{c})$

- $w^{[l]} = (f^{[l]}, f^{[l]}, n^{[l-1]}, n^{[l]})$

En una red neuronal convolucional típica, tenemos varias capas:

- La que realiza la convolución: Convolution

- Otra es la Pooling Layer

- La otra es Fully Connected

### Pooling Layers

Las pooling layer básicamente lo que hacen es reducir la imagen de hasta comprimirla.

- Hay un tipo de pooling llamada max pooling, esta simplemente toma el valor máximo de cada región en el filtro de pooling. Dividiendo nuestra matriz, por ejemplo, de 4x4 en 4 regiones diferentes y marcadas.

Una ventaja, es que si bien, tiene dos hiperparámetros que serían el número de filtros y el stride que son los pasos a dar en cada región, no tiene parámetros para aprender.

- Hay otro tipo que sería el average pooling, este simplemente toma el promedio de pixeles en cada una de las regiones del filtro.

- Normalmente, no se usa padding en pooling, salvo en un caso particular.

La idea de las convoluciones, es tratar de que se detecten patrones basados precisamente en los valores de las imágenes.

Una ventaja es que comparten parámetros, es decir, al detectar una característica, lo que hace es precisamente usarlo en otra parte de la imágen para detectar el mismo patrón.

## Week 2

- LeNet-5
- AlexNet
- Vgg
- ResNet
- Inception

### LeNet - 5

Esta red neuronal, usa pooling layers (Con Averages), y al final una red densa conectada completamente con 120 neuronas, luego otra con 84 y al final una predicción de $\hat{y}$. Esta predicción puede darse usando una función de softmax. 

Si observamos, el $n_H$ y el $n_W$ tienden a ir hacia abajo a través de la red, mientras que el número de canales tiende a crecer. En este caso, podemos tener Conv-Pool-Conv-Pool-FC-FC-Output.

Otro tema, es que se solian usar Tanh o funciones sigmoides para la activación. Adicional, la original, tenía activaciones no lineales luego de aplicar el pooling. 

### AlexNET

En este caso, Alex Net usa max pooling, ene ste caso, también aumentan los números de canales y disminuyen el tamaño de la imagen. 

## ResNet

Están construidas con un bloque residual. Van con una activación linear, RelU, Linear y luego RElu. Ahora, en vez de ir directamente por el camino principal, ahora puede tomar un atajo para ir más profundo en la red neuronal.

Se aplica una Non-Linearity Function.

Usar bloques residuales es mejor para entrenar redes neuronales más profundas. Al usar una red neuronal plana, en la realidad, es que nuestro algoritmo de optimización le tomará más tiempo encontrar un óptimo, por lo que puede desmejorar a medida que hacemos nuestra red neuronal más profunda.

Es más facil para un bloque residual aprender una función de identidad. Esto es por que si son negativas, simplemente se hace cero toda la expresión de los ceros. 

## Inception Network

A pesar de los beneficios de usar pooling layers o conv layers, el costo computacional de estimar todos estos parámetros, se reduce 1/10 parte si se aplica un filtro de una convolución de 1x1 teniendo como base de que se realizarán las mismas operaciones sin dañar el performance de la red neuronal.

## Object localization

Hay dos terminologías importantes. La primera es saber que en el caso de detectar objetos, hay un sólo objeto. Pero cuando queremos hacer detección, es diferente por que tenemos varios objetos. 

En este caso, se tiene una función de softmax cómo salida de la red neuronal para detectar objetos en un cuadro. Si quieres localizar el carro, debes tener varias unidades que saldrán 4 nuevos outputs:

- $b_x, b_y, b_h, b_w $ -> Estos serían bounding boxes

Lo primero, es preguntarnos si ¿hay un objeto? dónde esta clase puede ser cualquiera de las definidas por la persona que hará el modelo.

La nomenclatura es $P_{c}$ este va a ser la probabilidad de que haya un objeto. Los bounding boxes será otro componente del output. Adicional, habrán una de las clases que se hayan definido por el usuario.

En el caso de que no haya un objeto, no importa, por que en realidad no hay ninguno.

## Face Recognition

Lo principal es destacar o dejar claro que existen dos problemas:

- Problema de verificación, en este caso ingreso una imagen de una persona, o su ID y verifico que esta sea la persona. En este caso, el problema es uno a uno.

- Problema de reconocimiento de caras, para este apartado, tenemos una base de datos con K personas, le ingresamos una imagen y se reconoce si esta es una de esas tantas personas.

Pasar de uno al otro, se convierte en un problema de "One-Shot Learning" en el que tenemos que usar sólo un ejemplo de una persona para que el algoritmo verifique si esta es la persona o no.

### One-Shot Learning

La idea en este caso, es que el algoritmo sea capaz de aprender una función de "similaridad". Es decir, que sea capaz de comparar una persona con la otra.

En este sentido, la función que va a aprender el algoritmo, corresponde a: $d(img1, img2)$ que no es más que el grado de diferencia entre imágenes. Para esta función, definimos un límite el cual es un nuevo hiperparámetro, el cual va a indicar la tolerancia a la cual vamos a admitir que existe un grado de diferencia entre las imágenes.

Para lograr el face recognition, usamos una red siamés, es decir, dos redes gemelas, que tendrán los mismos parámetros, pero realizarán un encoding diferente para cada una de las imágenes. Una vez cada una dé sus resultados luego de realizar el "encoding", se cálcula una distancia euclidiana, que sería la norma de ambas funciones elevado al cuadrado.

Más formalmente:

- Los parámetros de una red neuronal definen el encoding $f(x^{(i)})$ dada una imágen $x^{(i)}$

- Al final, queremos aprender los parámetros tales que dos imágenes $x^{(i)}$ y $x^{(j)}$ son la misma persona, dado que $||f(x^{(i)})-f(x^{(j)})||^{2}$ es pequeño.

### Triplet Loss Function

Una forma de que nuestra red neuronal aprenda los parámetros necesarios para que estas condiciones se cumplan, es usando una función de pérdida llamada Triplet.

En este caso, necesitamos comparar dos pares de imágenes, una que sería el Anchor que sería la persona con la que se está comparando. Otro sería efectivamente la misma persona, positiva y una persona que sería la negativa, es decir, el input, output correcto, output incorrecto. Es por eso que es llamada Triplet Loss Function.

- Tenemos lo siguiente: A: Anchor, P: positive, N: Negative.


Ahora bien, esto garantiza que en promedio, nuestra red neuronal aprenda a poner todas las normas en cero. En este caso, la fórmula final final no va más, sería la siguiente:

- $||f(A)-f(P)||^{2}-||f(A)-f(N)||^{2} + \alpha \leq 0$

Dónde $\alpha$ no es más que otro hiperparámetro que nos va a permitir tener un nivel de tolerancia para que nuestra red neuronal no siempre de cero.


La función de Triplet sería definida de la siguiente manera:

- Dada tres imágenes: A, P y N, $L(A,P,N) = max(||f(A)-f(P)||^{2}-||f(A)-f(N)||^{2} + \alpha , 0)$

### Face Recognition resuelto cómo una clasificación binaria.

Para el caso anterior, usamos esta función, en la cual, es necesario que tengamos un Anchor, una foto Positive o una negativa y que además, es necesario que la red neuronal sea difícil de entrenar, tal que se escojan los P y los N que sean lo más cercanos entre si. Así, tiene validez el márgen que seleccionamos como hiperparámetro.

Si lo hacemos como una clasificación binaria, podemos decir que:

- $\hat{y} = \sigma{(\sum_{k=1}^{128}w_{k}|f(x^{(i)})_{k}-f(x^{(j)})_{k}|+b)}$ siendo 128 el tamaño que podría tener el encoding

### Neural Style Transfer

Lo que se busca, es que dada una imágen real, llamada C, una con un estilo particular, llamada S, genera una imágen G con ciertos filtros y mismo estilo que la imagen anterior. Para lograr esto, debemos saber que cosas está aprendiendo nuestra red neuronal a través de cada una de las imágenes tal que podamos tener estas características y aplicarlas a la otra imágen. 