# Improving Deep Neural Networks

En este curso, se enseñará como funciona cada uno de los aspectos necesarios para realizar un ciclo correcto de investigación y experimentación con redes neuronales.

Cuando queremos realizar o aplicar proyectos de ML, es necesario escoger varios parámetros:

- Número de capas

- Número de unidades ocultas

- Tasa de aprendizaje

- Funciones de activación


Dependiendo de cada aplicación que se tenga, tenemos una idea, la codificamos y experimentamos con ella. 

Aquí es dónde jugamos con distintas variables dependiendo del resultado que tengamos.

### ¿Cómo seleccionar correctamente el Train/dev/test sets

En la literatura, el dev set es llamado Hold Out Cross Validation set este es útil para evaluar varios modelos y su performance.

Antes en el ML se usaba un regla de dedo o rule of thumb de usar el 70/30% pero en la era de Big Data, dónde se tiene muchísima información entonces normalmente se usan porcentajes pequeños por que al final la meta es poder evaluar el performance de nuestro modelo.

Algunos ejemplos es usar 98%/1%/1%

#### Mismatched train/test distribution.

Cuando nuestros datos provienen de diferentes fuentes con varias reglas o situaciones que no tienen la misma distribución de los datios, tenemos que asegurarnos que:

- El dev y el test set vienen de la misma distribución.

- A veces está bien no tener un test set. Sólo con un dev set estaría bien.

### Bias y Variance

Para entender el bias y el variance, tenemos que mirar dos tipos de métricas claves:

- Train set error

- Dev set error

Entonces, primer ejemplo:

#### Overfitting:

Tenemos un error muy bajo en el training set y un error relativamente alto en el dev set. Esto significa que nuestro modelo se ajusta demasiado a los datos y no generaliza patrones. En este caso tenemos un high variance

#### Underfitting:

Tenemos un error muy similar tanto en el train set como en el dev set. Pero bastante alto tanto en train como en dev sets. En este caso, tenemos un high bias.

<img src = HT_1.png>

### Basic Recipe for Machine Learning

Las primeras preguntas que debemos hacernos son las siguientes:

1. Tiene nuestro modelo un alto bias? (Training data performance)

En este caso, usamos una red más grande, con más capas o intentar un algoritmo más grande para entrenamiento. 

Podemos usar diferentes arquitecturas de redes neuronales.

2. Tiene nuestro modelo una alta variance?

En estecaso, podemos intentar con más datos, regularización o una arquitectura diferente.

Ahora bien, desde que implementamos alguna técnica, la otra puede verse afectada. La idea es implementar técnicas que no dañen tanto el bias pero que mejoren el variance. En otros casos, es mejor que se mejore el variance, pero no se dañe mucho el bias.


### Regularización

Una fórmula importante:

- $||w^{[l]}||^{2} = \sum^{n^{[l]}}_{i=1} \sum^{n^{[l-1]}}_{j=1}(w_{i,j}^{[l]})^{2}$

De esta fórmula, es importante saber que el límite para la sumatoria de las i, es debe ser desde 1 hasta $n^{[l]}$ y de j desde 1 hasta $n^{[l-1]}$

Las filas i de la matriz, deben ser el número de neuronas, en la capa $n^{[l-1]}$.

En cambio, las columnas j de la matriz de los weights, deben ser igual al número de neuronas de la capa anterior $n^{[l]}$

Ahora bien, repasemos la regularización usando el ejemplo de regresión logística:

- Recordemos que queremos minimizar la función de costo J: $min J(w,b)$

Dónde J(w,b) = $\frac{1}{m}\sum^{m}_{i=1}L(\hat{y}^{i},y^{i})$

- En este caso, lo que hacemos es sumarle a la fórmula anterior: $\frac{\lambda}{2m}||w||^{2}$

#### Regularización L2

- Dónde, $||w||^{2}_{2} = \sum^{n_x}_{j}w^{2}_{j}$

Esta es llamada regularización L2, normalmente se omite la del bias que sería lo mismo. Sin embargo, w es mucho más dimensional que b, donde W tiene muchos más parámetros al ser un vector, pero b es sólo un número escalar. 

#### Regularización L1

Por otro lado, está regularizar los mismos parámetros w, lo que traerá ventajas como que nuestros parámetros w serán más esparcidos, es decir, tendrán bastantes ceros lo que ayuda a tener que usar menos memoria para almacenar los parámetros del modelo.

La fórmula de L1 sería la siguiente:

- $\frac{\lambda}{2m}||w||$

- $\lambda$ es el parámetro de regularización. Es un hiperparámetro que podemos tunear también. En vez de lambda en python, estaremos usando la palabra lambd.

Ahora bien, en una red neuronal, dónde tenemos distintas capas, al usar regularización, vamos a tener la siguiente fórmula:

- $J(w^{[1]}, b^{[1]}, ... , w^{[l]}, b^{[l]}) = \frac{1}{m}\sum^{m}_{i=1}L(\hat{y}^{i},y^{i}) + \frac{\lambda}{2m}\sum^{L}_{l-1}||w^{[l]}||^{2}$

- Dónde: $||w^{[l]}||^{2} = \sum^{n^{[l]}}_{i=1} \sum^{n^{[l-1]}}_{j=1}(w_{i,j}^{[l]})^{2}$

Este cálculo de la determinante, es llamado la fórma de Frobenius

Recordemos que nuestra matriz de W va a ser de tamaño $(n^{[l]}, n^{[l-1]})$

Ahora bien, ¿Como implementamos descenso del gradiente?

En este caso, lo que procederemos a hacer es en vez de calcularlo de la forma tradicional, en este caso, le sumamos el siguiente término al dw:

- $\frac{\lambda}{m}w^{[l]}$

Al sumarle un término adicional y recordando que nuestro parámetro de actualización es el siguiente:

- $w^{[l]} := w^{[l]}-\alpha dw^{[l]}$

Estamos aumentando nuestro valor de dw, lo que en la literatura se conoce como weight decay. Lo que en pocas palabras penaliza aún más nuestros pesos.

### Dropout

## Algoritmos de optimización para entrenar más rápido las redes neuronales

Actualmente hemos aprendido que la vectorización nos ayuda a realizar cálculos eficientemente en m examples.

Dónde, nuestra matriz de X no es más que una de tamaño $(n_x, m)$

Pero, ¿qué pasaría si nuestro dataset es bastante grande?. En este caso, sería bastante lento nuestro descenso del gradiente, en estos casos, lo mejor es usar:

### Mini-Batch Gradient Descent

En este caso, lo que se quiere lograr o hacer, es tratar de tomar al menos 1000 ejemplos para entrenar con pequeños lotes de datos que puedan darnos una aproximación de cómo puede ir nuestro módelo.

En este caso, podemos ir utilizando 1000 ejemplos e irlos partiendo a través de cada uno de nuestras feautures:

- $X^{[T]}, Y^{[T]}$ dónde T es el tamaño el cual irémos dividiendo nuestros ejemplos.

Esto del mini batch es llamado un epoch, que no es más que ir leyendo cada mini batch para que podamos realizar un mejor entrenamiento:

<img src = 'HT_2.png'>

¿Cómo escogemos nuestro mini-batch size?:

Entonces, en este caso, lo que hacemos es que:

- Si, nuestro minibatch size es igual a m, entonces estamos usando batch gradient descent

- Si, nuestro minibatch size es igual a 1, entonces estamos usando stochastic gradient descent, que no es más que tomar cada uno de nuestros ejemplos, hasta m. 

¿Qué sería lo mejor?

- Tomar un número entre 1 y m, normalmente, potencia de 2, es decir, $2^6, 2^4$ entre otros

### Exponentially Weighted Averages

En este caso, lo que queremos es usar un modelo autoregresivo con medias móviles, para ajustar los datos a medias móviles.

En ese caso, nuestra ecuación sería:

- $V_t = \beta V_{t-1} + (1-\beta)\theta_t$

Para cada mini batch t, lo que hacemos es ir ajustando nuestro beta para ir ajustando la curva.

Ahora, este cálculo nos puede ayudar a realizar un descenso del gradiente con momentum.

### Descenso del gradiente con momentum

En este caso particular, lo que hacemos es en vez de calcularlo como siempre, se reemplaza el dw por el cálculo de V para ese dw en cada peso.

<img src = HT_3.png>

Obtendríamos dos hiperparámetros esta vez, que serían alpha y beta.

Ahora bien, con el momentum es una forma de hacer que nuestro algoritmo sea más 

## Tunning Process

El problema de hacer tuneo de hiperparámetros es que tenemos demasiados dependiendo de nuestro caso:

- $\alpha$: Learning Rate
- $\beta$: Momentum
- $\beta_{1}, \beta_{2}, \epsilon$: Hiperparámetros para adam
- número de capas
- número de neuronas
- learning rate decay
- mini-batch size.

En este caso, el más importante es el learning rate. En los otros casos, los segundos importantes son el momentum, el número de neuronas y el mini-batch size.

### PROTIP: Nunca usar un grid, intenta valores randoms.