**Diplomado en Inteligencia Artificial y Aprendizaje Profundo**

# Conceptos de Optimización 

##  Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Oleg Jarma, ojarmam@unal.edu.co
4. Maria del Pilar Montenegro, pmontenegro88@gmail.com

## Contenido

* [Introducción](#Introducción)
* [Métodos basados en el gradiente](#Métodos-basados-en-el-gradiente)
* [Gradiente descendiente en lote](#Gradiente-descendiente-en-lote)
* [Gradiente descendiente estocástico](#Gradiente-descendiente-estocástico)
* [Gradiente descendiente por mini-lotes](#Gradiente-descendiente-por-mini-lotes)
* [Método del momento](#Método-del-momento)
* [RMSprop](#RMSprop)
* [Algoritmo Adam](#Algoritmo-Adam)

## Introducción

La mayoría de los algoritmos de aprendizaje profundo implican optimización de algún tipo. La optimización se refiere a la tarea de minimizar o maximizar alguna función $ f (x) $ alterando $ x $. Por lo general, expresamos la mayoría de los problemas de optimización en términos de minimizar $ f (x) $.


La función que queremos minimizar  se llama función o criterio **objetivo (objetivo)**. 

Cuando estamos minimizando, también podemos llamarla función de costo, **función de pérdida** o función de error.



A menudo denotamos el valor que minimiza una función con un superíndice ∗. 


Por ejemplo, podríamos decir

$$x^∗ = argmin f(x).$$




## Métodos basados en el gradiente



A menudo minimizamos las funciones que tienen múltiples entradas: $ f: \mathbb{R}^n \to \mathbb {R} $. 

Para que el concepto de "minimización" para tener sentido, debe haber una sola salida (función escalar).


Para funciones con múltiples entradas, se hace uso del concepto de derivadas parciales. La derivada parcial $\frac{\partial}{\partial x_i} f(x)$  mide como cambia $f$  cuando la
variable $x_i$ crece o decrece desde el punto  $x$. 


El gradiente generaliza la noción de derivada al caso en que la derivada es con respecto a un vector: el gradiente de $ f $ es el vector que contiene todas las derivadas parciales, denotado $ \nabla_xf (x) $. El elemento $ i $ del gradiente es la derivada parcial de f con respecto a $ x_i $.


En múltiples dimensiones, los puntos críticos son puntos donde cada elemento del gradiente es igual a cero.


Por otro lado, se puede verificar que el gradiente $ \nabla_xf (x) $  es el vector geométrico que con base en el punto $X$ apunta en la direección en la cual crece más rápidamente la función. En consecuencia, $ -\nabla_xf (x) $ apunta en la dirección contraria, es decir en la dirección hacia la cual la función decrece más rápido, desde el punto $x$. Esta es la base de los métodos de optimización basados en el gradiente. 

El término **gradiente descediente** indica que se usará $ -\nabla_xf (x) $ para moverse a un siguiente punto en busca de un minimo local.

El método general se escribe como:

$$
x^{(k+1)} = x^{(k)} − \eta_{k} \nabla_x f(x^{(k)})
$$


Los  valores  $\eta_k$ se denominan genéricamente  **tasa de aprendizaje**.


La razón de incorporar la tasa de aprendizaje es controlar el tamaño de paso. Si no hace esta corrección podemos alejarnos en lugar de acercarnos al mínimo que se está buscando.



## Gradiente descendiente en lote


En el descenso de gradiente  descendiente vainilla (vainilla se refiere al ejemplo básico), también conocido como descenso de gradiente por lotes, calcula el gradiente de la función de pérdida con respecto a los parámetros $\boldsymbol{\theta}$ para el **conjunto de datos de entrenamiento completo** $(\mathbf{x}_{train},\mathbf{y}_{train})$. Si $\mathfrak{L}$ es la función de pérdida del problema, entonces se tiene que 

$$
\boldsymbol{\theta}_{k+1} =  \boldsymbol{\theta}_k - \eta_k \nabla_{\boldsymbol{\theta}} \mathfrak{L}(\mathbf{x}_{train},\mathbf{y}_{train},\boldsymbol{\theta}_k),
$$


El principal problema a resolver con los métodos de gradiente descendiente es cómo definir y actualizar en cada paso la tasa de aprendizaje $\eta_k $.

Un fragmento de código puede lucir como sigue. Supongamos que al comenzar $0<\eta_0<1$. 

In [2]:
def gd(theta, x_train, y_train, loss_func, epochs):
    for i in range (epochs):
        gradient = evaluate_gradient(loss_func, x_train, y_train, theta)
        theta -=  eta * gradient
        eta   *= eta
    return theta, gradient

## Gradiente descendiente estocástico

El descenso de gradiente estocástico (SGD), por el contrario, realiza una actualización de parámetros para cada ejemplo de entrenamiento $x_{train}^{(i)} $ y etiqueta $ y_{train}^ {(i)} $, seleccionados al azar en cada época.


$$
\boldsymbol{\theta}_{k+1} =  \boldsymbol{\theta}_k - \eta_k \nabla_{\boldsymbol{\theta}} \mathfrak{L}({x}_{train}^{(i)},{y}_{train}^{(i)},\boldsymbol{\theta}_k),
$$


En el artículo original de [Robbins and Monro (1951)](https://projecteuclid.org/download/pdf_1/euclid.aoms/1177729586) $\eta$ cambia en cada iteración como acabamos de mostrar y se asume que  $\{\eta_k\}$ es una sucesión tal que $\sum_k \eta_k = \infty$, and $\sum_k \eta_k^2 < \infty$. Por ejemplo $\eta_k = 1/k$.

Un fragmento de código luce como

In [3]:
def sgd(theta, data_train, loss_func, epochs):
    for i in range (epochs):
        np.random.shuffle (data)
        for example in data:
            x, y = example
            gradient = evaluate_gradient(loss_func,x, y, theta )
            theta = theta - eta * gradient
            eta *= eta
    return theta, gradient

## Gradiente descendiente por mini-lotes


El descenso de gradiente por mini-lotes finalmente toma lo mejor de los dos mundos anteriores y realiza una actualización para cada mini-lote de $n$ ejemplos de entrenamiento:


$$
\boldsymbol{\theta}_{k+1} =  \boldsymbol{\theta}_k - \eta_k \nabla_{\boldsymbol{\theta}} \mathfrak{L}(\mathbf{x}_{train}^{(i:i+n)},\mathbf{y}_{train}^{(i:i+n)},\boldsymbol{\theta}_k),
$$



Desde este punto de la lección, asumiremos que **tomamos mini-lotes**, por lo que omitimos super-índices en los datos $(\mathbf{x}_{train}^{(i:i+n)},\mathbf{y}_{train}^{(i:i+n)})$ en todas las expresiones.

un fragmento de código para este método puede verse como

In [None]:
def sgd_mini_batch(theta, data_train, loss_func, epochs, batch_size):
    for i in range (epochs):
        np.random.shuffle (data)
        for batch in get_batches(data , batch_size = batch_size):
            x, y = batch
            gradient = evaluate_gradient(loss_func,x, y, theta )
            theta = theta - eta * gradient
            eta *= eta
    return theta, gradient

El tamaño de los mini-lotes depende del problema y puede ser 32, 64, 128, etc.

### Discusión

El método vainilla del descenso de gradiente  no garantiza una buena convergencia, y ofrece algunos desafíos que deben abordarse:

1. Elegir un ritmo de aprendizaje adecuado puede resultar complicado. Una tasa de aprendizaje demasiado pequeña conduce a una convergencia dolorosamente lenta, mientras que una tasa de aprendizaje demasiado grande puede dificultar la convergencia y hacer que la función de pérdida fluctúe alrededor del mínimo o incluso diverja.
2. Los horarios de actualización de la tasa de aprendizaje intentan ajustar la tasa de aprendizaje durante la entrenamiento, es decir, reducir la tasa de aprendizaje de acuerdo con un programa predefinido o cuando el cambio función de pérdida entre epochs cae por debajo de un umbral. Sin embargo, estos horarios y umbrales deben definirse con anticipación y, por lo tanto, no pueden adaptarse a las características de un conjunto de datos.
3. Además, la misma tasa de aprendizaje se aplica a todas las actualizaciones de parámetros. Si nuestros datos son escasos y nuestras características tienen frecuencias muy diferentes, es posible que no queramos actualizarlas todas en la misma medida, sino realizar una actualización más grande para las características que ocurren con poca frecuencia.
4. Otro desafío clave al minimizar las funciones de error altamente no convexas comunes para las redes neuronales es evitar quedar atrapado en sus numerosos mínimos locales subóptimos. Algunos autores argumentan que, de hecho, la dificultad no surge de los mínimos locales sino de los puntos de silla, es decir, puntos donde una dimensión se inclina hacia arriba y otra hacia abajo. Estos puntos de silla suelen estar rodeados por una meseta del mismo error, lo que dificulta notablemente el escape de SGD, ya que el gradiente es cercano a cero en todas las dimensiones.

Para una revisón contemporáneas de los algoritmos de optimización modernos puede consultar [An overview of gradient descent optimization
algorithms](https://arxiv.org/pdf/1609.04747.pdf).

## Método del momento


SGD tiene problemas para navegar por los barrancos, es decir, áreas donde la superficie se curva mucho más abruptamente en una dimensión que en otra, que son comunes en los óptimos locales. En estos escenarios, SGD oscila a lo largo de las pendientes del barranco mientras solo avanza vacilante por el fondo hacia el óptimo local.

 Este es un método que ayuda a acelerar SGD en la dirección relevante y amortigua oscilaciones. Lo hace sumando una fracción $\lambda$ del vector de actualización del paso anterior al vector de actualización actual. 
 
El método  se esquematiza como sigue

$$
\begin{align}
\mathbf{v}_k &= \lambda \mathbf{v}_{k-1} +  \eta \nabla_{\boldsymbol{\theta}} \mathfrak{L}({x}_{train}^{(i)},{y}_{train}^{(i)},\boldsymbol{\theta}_k)\\
\theta_{k+1} &= \theta_{k} - v_k,
\end{align}
$$
$\lambda<1$. Ussually, $\lambda= 0.9$.


<figure>
<center>
<img src="../Imagenes/moment_method.png" width="300" height="200" align="center"/>
</center>
<figcaption>
<p style="text-align:center">SGD.Momento</p>
</figcaption>
</figure>

[Imagen tomada de](https://www.google.com/search?q=momentum+method+gradient+descent&source=lnms&tbm=isch&sa=X&ved=2ahUKEwi22sKXn4DsAhVHk1kKHaYyB2wQ_AUoAXoECA4QAw&biw=1366&bih=540)

## RMSprop

Desarrollado por Goeff Hinton, no publicado. Se basa en dividir la tasa de aprendizaje en cada caso por un promedio del cuadrado de las componentes del gradiente anteriore. Por cada componente $\theta$ del vector de parámetros $\boldsymbol{\theta}$, sea $g$ la respectiva componente del gradiente asociada a $\theta$, entonces el métodos es como sigue:

1. $E[g^2]_t= \lambda E[g^2]_{t-1} + (1-\lambda)g_t^2$
2. $\theta_{t+1} = \theta_t - \tfrac{\eta}{\sqrt{E[g^2]_t + \epsilon}}g_t$

$\epsilon >0$ es para evitar divisioens por cero. 

- $\lambda$ es el parámetro de decaimiento. Típicamente $\lambda = 0.9$.
- $\eta$ es la tasa de aprendizaje. Típicamente el valor por defecto es 0.001.


## Algoritmo Adam

El algoritmo [Adam a method for Stochastic optimization](https://arxiv.org/pdf/1412.6980.pdf) de Kingma y Lei es actualmente el método más utilizado. El siguiente es el algoritmo.

El símbolo  $g^2_t$ indica los elementos del producto de Hadamard (componente por componente)  $g_t\bigodot g_t$. Según los autores, los mejores resultados han sido obtenidos para los valores de los hiperparámetros  $\alpha = 0.001$, $\beta_1 = 0.9$, $\beta_2 = 0.999$ y $\epsilon = 10−8$. Todas operaciones entre vectores son hechas componente por componente (producto de Hadamard). con $\beta_1^t$ and $\beta_2^t$ se denota la potencia $t$-ésima.
1. Require: $\alpha$: Stepsize
2. Require: $\beta_1^t$ and $\beta_2^t \in [0, 1)$. Exponential decay rates for the moment estimates
3. Require: $f(\theta)$: Stochastic objective function with parameters $\theta$
4. Require: $\theta_0$: Initial parameter vector
5.  $m_0  = 0$ (Initialize 1st moment vector)
6. $v_0 =  0$ (Initialize 2nd moment vector)
7. $t =  0$ (Initialize timestep)
8. while $\theta_t$ not converged do


$
\begin{align}
t  &= t + 1 \\
g_t &=  \nabla f_t(\theta_{t-1}) \text{ (Get gradients w.r.t. stochastic objective at timestep t)}\\
m_t  &= \beta_1 m_{t−1} + (1 − \beta_1) · g_t \text{ (Update biased first raw moment estimate)}\\
v_t  &= \beta_2 v_{t−1} + (1 − \beta_2) · g_t^2 \text{ (Update second raw moment estimate)}\\
\hat{m}_t  &= \frac{m_t}{1 − \beta_1^t}   \text{ (Compute bias-corrected first moment estimate)}\\ 
\hat{v}_t  &=  \frac{v_t}{1 − \beta_2^t}  \text{ (Compute bias-corrected second moment estimate)}\\ 
\theta_t &=   \theta_{t-1}  - \alpha  \frac{\hat{m}_t}{\hat{v}_t + epsilon} \text{ (Update parameters)}\\
\end{align}
$


end while

return $\theta_t$ (Resulting parameters)

[Regresar al inicio](#Contenido)