# Optimizadores

Analizaremos distintas formas de minimizar la función de costo de una red neuronal o un regresor logístico o lineal.

Para mas información se recomienda la lectura de este [paper](https://arxiv.org/pdf/1609.04747.pdf)

## Gradient Descent

Debemos encontrar los valores de los parámetros que minimizan la función de costo.
Una alternativa es encontrar el mínimo de la función de costo iterativamente. Esto lo podemos hacer basándonos en los siguientes conceptos:

* Inicializamos los parámetros del modelo con un valor aleatorio: $\mathbf{\omega}(0)$
* El gradiente de la función de costo evaluado en un punto particular, nos dará la dirección de máxima variación de la función de costo. Es decir, si yo muevo al vector de parámetros en la dirección de máxima variación, el valor de la función de costo subirá a la tasa mas alta posible.
* Al contrario, si muevo al vector de parámetros en la dirección contraria, el valor de la función de costo bajará a la tasa mas alta posible: 
* Muevo los pesos muy poco en la dirección contraria a la del gradiente y vuelvo a calcular el gradiente en ese punto. $\mathbf{\omega}(k+1)=\mathbf{\omega}(k)-2\alpha\nabla(J(\mathbf{\omega}))$.
* Podemos terminar este proceso iterativo cuando $J$ sea mas chico que un valor deseado, o luego de un número de iteraciones fijo.

<img src="grad.png" alt="Mountain View" style="width:600px;height:400px;">

A este proceso para hallar el mínimo de una función se lo conoce como Batch Gradient Descent.
Para cada peso en particular, lo podemos actualizar como:

$$\omega_1(k+1)=\omega_i(k)-\alpha\frac{1}{N}\sum_{j=0}^N( \omega \mathbf x^{(j)}-y^{(j)})x^{(j)}_i$$

## Stochastic Gradient Descent

Stochastic Gradient Descent es una simplificación de Batch Gradient Descent.
La misma consiste en reemplazar la función de costo total (la cual es el error cuadrático medio calculado para todo el set de muestras) por el error cuadrático instantáneo. Si hacemos esto, las ecuaciones de actualización de los pesos nos quedarán:

$$\omega_i(k+1)=\omega_i(k)-\alpha ( \omega \mathbf x^{(k)}-y^{(k)})x^{(k)}_i$$

El criterio de corte podrá ser por cantidad de iteraciones, o si el errór cuadrático instantáneo de todo un batch se mantiene por debajo de un valor predeterminado.


## Minibach gradient descent (muchas veces se incluye dentro de SGD)

Hemos visto cómo encontrar el mínimo de la superficie de error en forma iterativa de dos formas:

- Desde la ecuación del MSE (considerando todas las observaciones), moviendo los pesos paso a paso en dirección opuesta al gradiente de la superficie del error.(Batch-GD). Este método tiene mucho cálculo ya que para cada movimiento de los pesos hay que recalcular el gradiente en base al error de todas las muestras.
- Desde el error instantáneo (considerando una sola observación), moviendo los pesos en dirección opuesta al gradiente del error instantáneo, tomando una observación distinta a cada paso. (SGD). Este método tiene 

<img src="stochastic-vs-batch-gradient-descent.png" alt="Mountain View" style="width:600px;height:400px;">


La solución provista por el primer método es mas estable ya que trabaja directamente con el gradiente de la superficie del MSE.  
El segundo método es mas ruidoso ya que solo tiene en cuenta el error instantáneo y opera sobre el supuesto de que para una gran cantidad de iteraciones, con un epsilon muy chico, se llegará al mismo mínimo que con el método anterior. En muchas iteraciones los pesos podrían moverse en dirección incluso opuesta al valor buscado. 

Una opción intermedia entre ambos métodos es utilizar el método llamado minibatch-GD. El mismo consiste en trabajar con el error cuadrático correspondiente a un número parcial de observaciones (algún número en el medio entre la totalidad de las observaciones y una sola observación). 

En definitiva todos los métodos se basan en la misma ecuación:

$$\omega_i(k+1)=\omega_i(k)-\alpha\frac{1}{N}\sum_{j=0}^N( \omega \mathbf x^{(j)}-y^{(j)})x^{(j)}_i$$

con:

BGD: N=cantidad de observaciones  
SGD: N=1  
MBGD: 1<N<cantidad de observaciones  
