# 08: Optimización - Parte 2

<table style="margin:0; max-width: 1000px;">
    <tbody>
        <tr>
            <td>
                <a href="https://thatcsharpguy.com">
                    <img src="assets/general/Sharp@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitter.com/io_exception">
                    <img src="assets/general/Twitter@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://tcsg.dev/discord">
                    <img src="assets/general/Discord@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://github.com/thatcsharpguy/df">
                    <img src="assets/general/GitHub@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtube.com/thatcsharpguy">
                    <img src="assets/general/YouTube@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://www.youtube.com/watch?v=J4eCD38WF5k">
                    <img src="assets/general/EnVivo@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitch.tv/thatcsharpguy">
                    <img src="assets/general/Twitch@1x.png" />
                </a>
            </td>
        </tr>
    </tbody>
</table>

## Paquetes  

 - `numpy`  
 - `matplotlib`  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Piensa en las redes neuronales  

Seguramente habrás escuchado muchas, muchísimas cosas sobre las redes neuronales; no es por nada, sus logros en diversos ámbitos: visión artificial, procesamiento de lenguaje natural, traducciones, clasificación de imágenes...  


Como ya lo vimos la clase pasada, el problema fundamental de las redes neuronales es el de encontrar la solución aproximada a una función. Piensa en un modelo simple, en donde dado un conjunto de observaciones $\vec{x}_1, \vec{x}_2, \dots, \vec{x}_n$ y un conjunto de valores esperados $y_1, y_2, \dots, y_n$, tratamos de encontrar una función $y^\prime = f(\vec{x};\theta)$ y sus parámetros $\theta$, de tal modo que:

$$\theta^* = \text{arg min}_{\theta}  \sum_i ||f(\vec{x}_i;\theta)- y_i||$$

En donde $||f(\vec{x}_i;\theta)- y_i||$ representa la distancia de la salida de $f$ y los valores esperados para $y_i$.  

**Este es un problema de optimización**.

Sin embargo, las redes neuronales... en particular las pertenencientes al aprendizaje profundo o (*deep learning*), pueden tener decenas, cientos... billones de parámetros; imagínate el tamaño de $\theta$... ¿qué forma de optimización emplearias?

## Retropropagación  

Antes de explicarte cómo es que funciona la retropropagación, veamos cómo es que están construidas las redes neuronales, en su forma más básica:

Una serie de capas, cada una de ellas representa una aplicación lineal (una multiplicación matricial 😉) seguida de una función no lineal. La salida de una capa es la entrada de otra; así hasta llegar a un punto en el cual llegar a un resultado $y^\prime$:

<img src="assets/08/BasicNN.png" />

Cada una de las $W_n$ en la imagen anterior representan una matriz distinta, cada una de ellas representa una **matriz de ponderación** (matriz de pesos o *weight matrix*). En conjunto, todos los valores de estas $W$ forman los parámetros de nuestra red neuronal (nuestro $\theta$), es decir, los valores que estamos tratando de encontrar. Las funciones $G$ se mantienen "constantes".  

Esta forma de construir las redes neuronales nos calcular la derivada de la función objetivo con respecto a cada uno de los parámetros; esta derivada nos ayuda a guiar el camino a seguir para encontrar un mínimo de esta función objetivo. Esto funciona porque la derivada con respecto a los parámetros nos "dice" qué tanto efecto tiene cada parámetro en el resultado final.  

Los recursos al final del post lo explican mucho, mucho mejor.

Esto funciona aún cuando hay múltiples capas en nuestra red neuronal, es un algoritmo muy especial conocido como **retropropagación** o *backpropagation*.  

## ¿Por qué usar este método?  

A diferencia de los métodos que vimos la sesión pasada, estos...

 - Tienden a ser lentos,
 - No nos garantizan encontrar un punto mínimo,
 - Tienen muchos híperparametros que elegir de antemano
 
Cuando se trata de optimizar problemas, como los presentados por las redes neuronales, el usar uno de los métodos discutidos antetiormente es ingenuo; en su lugar se usa algo conocido como **optimización de primer orden**.

## Diferenciabilidad  

Ya habíamos hablado sobre lo que significa que una función sea continua. Ahora vamos a hablar de una **función suave**; una función de este tipo tiene derivadas continuas hasta cierto orden. Una función suave es más fácil de optimizar porque esto significa que cambios pequeños en los parámetros provocaran cambios pequeños en el resultado de la función objetivo.  

Si nosotros logramos calcular la derivada exacta de la función objetivo la optimización es mucho, mucho más sencilla porque podemos usarla para tomar buenas decisiones sobre hacia dónde "mover" los parámetros, acercándolos al mínimo. Piensa en una función $L(\theta) = \theta^2$ objetivo en donde el vector objetivo está formado por un solo valor $\theta \in \mathbb{R}$, 

$$L(\theta) = \theta^2$$  

$$L^{\prime}(\theta) = 2\theta$$  

La cosa se complica cuando tenemos que lidiar con vectores parámetro de más de una entrada, es ahí en donde entramos en el terreno de funciones objetivo multidimensionales; en este caso tenemos algo conocido como vector gradiente ($\nabla L(\theta)$), en lugar de un solo valor multiplicado por $\theta$. Aún así, los mismos principios aplican.


## Optimización con derivadas  

Si sabemos (o podemos calcular) el gradiente de una función objetivo, también sabremos la "pendiente" de la función en un punto determinado... esta pendiente nos dicta la dirección hacia la cual la función crece más "rápidamente". Si sabemos la derivada de la función que estamos tratando de optimizar, podemos incrementar en órdenes de magnitud la eficiencia de nuestra optimización.

### Primer orden  

Hay métodos de optimización que usan las primeras derivadas como herramienta principal, estos se conocen como **métodos de primer orden**. La semana pasada hablamos de **métodos de orden cero** en donde lo único que necesitamos saber es la función objetivo, y también hay métodos de segundo orden que requieren la segunda derivada de la función y se llaman (creativamente) **métodos de segundo orden**...

La derivada que utilizan estos métodos es la derivda de la función objetivo con respecto los parámetros. Esto encesita que conozcamos los gradientes de la función, en otras palabras, nosotros podemos aplicar solamente esta función es: **continua** y **diferenciable**.  

En un problema multidimensional, podemos escribir el vector de derivadas de la siguiente manera:

$$
\begin{equation}
\nabla L(\vec{\theta}) = \left[ \frac{\partial L(\vec{\theta})}{\partial \theta_1},  
\frac{\partial L(\vec{\theta})}{\partial \theta_2}, \dots, \frac{\partial L(\vec{\theta})}{\partial \theta_n},\right]
\end{equation}
$$

En donde $\frac{\partial L(\vec{\theta})}{\partial \theta_1}$ respresenta el cambio en $L$ en la dirección $\theta_1$ en el punto $\vec{\theta}$.

El vector $\nabla L(\vec{\theta})$ es conocido como el **gradiente**; en cualquier punto, este gradiente apunta en la dirección en la que la función cambia más rápidamenmte y su magnitud nos dice la "velocidad" con la que este cambio está sucediendo.

### El gradiente descendiente  

El algoritmo más básico de primer orden es conocido como el algoritmo del **gradiente descendiente**, es relativamente simple comenzando de una $\theta^{(0)}$, el valor de $\theta^{(i+1)}$ estará determinado por:  

$$\vec{\theta^{(i+1)}} = \vec{\theta^{(i)}} - \delta \nabla L(\vec{\theta^{(i)}})$$  

Ahí se ve una $\delta$, que en adelante conoceremos como el **tamaño del paso**, este es... sí un híperparametro; ni aquí nos salvamos de los híperparametros.  

De forma platicada, el algoritmo es el siguiente:  

 - Elegimos un punto de inicio $\theta^{(0)}$  
 - Repetimos...
   - Calculamos la inclinación en ese punto y para todas las direcciones $v = \nabla L(\vec{\theta^{(i)}})$  
   - Damos un pequeño pasito de tamaño $\delta$ en la dirección que nos indique $v$  
   - Después de ese paso habremos llegado a nuestro nuevo punto de inicio  $\theta^{(1)}$ 
   
Este método es un compromiso entre una solución rápida y una solución genérica.  

#### Implementación  


$$L(\theta) = \theta^2$$  

$$L^{\prime}(\theta) = 2\theta$$  

In [None]:
def L(theta):
    return theta**2

def dL(theta):
    return 2*theta

 - Elegimos un punto de inicio $\theta^{(0)}$  
 - Repetimos...
   - Calculamos la inclinación en ese punto y para todas las direcciones $v = \nabla L(\vec{\theta^{(i)}})$  
   - Damos un pequeño pasito de tamaño $\delta$ en la dirección que nos indique $v$  
   - Después de ese paso habremos llegado a nuestro nuevo punto de inicio  $\theta^{(1)}$ 

In [None]:
tolerancia = 1e-4

def gradiente(loss_fn, derivada_loss_fn, theta_inicial, paso):
    theta = theta_inicial
    
    current_loss = loss_fn(theta)
    last_loss = np.inf
    historial = [(theta, current_loss)]
    
    while np.abs(current_loss-last_loss) > tolerancia and len(historial) < 100000:
        last_loss = current_loss
        
        theta = theta - (paso * derivada_loss_fn(theta))
        
        current_loss = loss_fn(theta)
        historial.append((theta, current_loss))
    history = np.array(historial)
    return history[:,0], history[:,1]
    

In [None]:
def plot_gradient_descent(xs, L, dL, x_0, paso, ax):
    fig = plt.figure(figsize=(7, 3), dpi=200)
    ax = fig.gca()
    
    x, y  = gradiente(L, dL, x_0, paso)
    
    ax.fill_between(xs, L(xs), label="Función objetivo")    
    ax.set_title(f"Paso {paso} - Mínimo en {len(x)} pasos")
    ax.set_xlabel("$\\theta$")
    ax.set_ylabel("Loss")
    ax.plot(x, y, 'k-x', label='Pasos')
    ax.legend()

xs = np.linspace(-5,5,200)

step_sizes = [0.0001, 0.01, 0.1, 0.3, 0.99]

In [None]:
plot_gradient_descent(xs, L, dL, -5, 0.0001, ax)

In [None]:
plot_gradient_descent(xs, L, dL, -5, 0.001, ax)

In [None]:
plot_gradient_descent(xs, L, dL, -5, 0.01, ax)

In [None]:
plot_gradient_descent(xs, L, dL, -5, 0.1, ax)

In [None]:
plot_gradient_descent(xs, L, dL, -5, 0.99, ax)

In [None]:
plot_gradient_descent(xs, L, dL, -5, 1.000002, ax)

#### Los "peros" del gradiente descendiente

 - Debemos poder calcular el gradiente de la función ($L^{\prime}(\theta)$) en cualquier punto.  
 - La velocidad (y convergencia) de la optimización depende del tamaño de paso elegido.   
 - Funciona mejor en funciones "suaves" sin variaciones grandes.  
 - Aún se puede atorar en mínimos locales o "[puntos de silla](https://es.wikipedia.org/wiki/Punto_de_silla)".  
 - Debemos seguir evaluando la función a cada paso, si esta función es costosa, la optimización es costosa.


### El gradiente descendiente estocástico  

De nuestro último punto, evaluar la función puede ser muy *"costoso"*, en particular cuando tenemos datasets grandes (ehem... *machine learning*) o una función con muchos parámetros (ehem... *machine learning*).

Si logramos separar la función en sub partes, podemos configurar el optimizador para optimizar una parcialidad de estas independientemente, agregando estas *"pequeñas"* optimizaciones. Este es el principio detrás detrás del  algoritmo del **gradiente descendiente estocástico**.   

Si la función de pérdida se puede escribir de la siguiente manera:   

$$L(\theta) = \sum_i L_i(\theta)$$

Es decir, si la función se puede expresar como una suma $L_1(\theta), L_2(\theta), \dots, L_n(\theta)$.  

Para nuestra suerte, cuando estamos tratando de entrenar un modelo de *machine learning* podemos descomponer la función de pérdida de esta manera; y es que en este tipo de problemas tenemos diversos ejemplos de entrenamiento $\vec{x}_i$ y su correspondiente $y_i$. En este caso, nuestra función de pérdida está dada por:  


$$L(\theta) = \sum_i \|f(\vec{x}_i;\vec{\theta}) - y_i\|$$  

(una suma sobre todos los ejemplos de entrenamiento)

Cuando hablamos de las diferenciales:

$$\nabla \sum_i \|f(\vec{x}_i;\vec{\theta}) - y_i\| = \sum_i \nabla ||f(\vec{x}_i;\vec{\theta}) - y_i||$$  

Propuesto de esta manera, podemos tomar un subconjunto de ejemplos de entrenamiento y sus salidas, computar el gradiente para este subconjunto y dar el paso; conforme "entrenamos" más y más, en teoría, nos iremos acercando al mínimo.  

A cada uno de estos subconjuntos se les conoce como **minibatch**. Cuando un algoritmo ha visto ya todos los ejemplos de un conjunto de entrenamiento se le conoce como **epoch**.

---------
## Recursos

<table style="margin:0; max-width: 1000px;">
    <tbody>
        <tr>
            <td>
                <a href="https://thatcsharpguy.com">
                    <img src="assets/general/Sharp@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitter.com/io_exception">
                    <img src="assets/general/Twitter@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://tcsg.dev/discord">
                    <img src="assets/general/Discord@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://github.com/thatcsharpguy/df">
                    <img src="assets/general/GitHub@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtube.com/thatcsharpguy">
                    <img src="assets/general/YouTube@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://www.youtube.com/watch?v=J4eCD38WF5k">
                    <img src="assets/general/EnVivo@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitch.tv/thatcsharpguy">
                    <img src="assets/general/Twitch@1x.png" />
                </a>
            </td>
        </tr>
    </tbody>
</table>

- **Neural Networks and Deep Learning** - [http://neuralnetworksanddeeplearning.com/](http://neuralnetworksanddeeplearning.com/) 
 
 - **Calculus on Computational Graphs: Backpropagation** - [http://colah.github.io/posts/2015-08-Backprop/](http://colah.github.io/posts/2015-08-Backprop/)
 
 - **Neural Networks, Manifolds, and Topology** - [http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/](http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/)
 
 - **Ecuación diferencial ordinaria de primer orden** - [https://es.wikipedia.org/wiki/Ecuaci%C3%B3n_diferencial_ordinaria_de_primer_orden](https://es.wikipedia.org/wiki/Ecuaci%C3%B3n_diferencial_ordinaria_de_primer_orden)
 
 - **smooth functions or continuous** - [https://math.stackexchange.com/questions/472148/smooth-functions-or-continuous](https://math.stackexchange.com/questions/472148/smooth-functions-or-continuous)
 
 - **does it make sense to talk about third-order (or higher order) optimization methods?** - [https://math.stackexchange.com/questions/2838083/does-it-make-sense-to-talk-about-third-order-or-higher-order-optimization-meth](https://math.stackexchange.com/questions/2838083/does-it-make-sense-to-talk-about-third-order-or-higher-order-optimization-meth)