# Diferenciación automática

<a href="https://colab.research.google.com/github/milocortes/mod_04_concentracion/blob/ccm-2024/src/talleres/numeros_duales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


* [Algorithms for Optimization, sección 2.4](https://algorithmsbook.com/optimization/files/optimization.pdf)
* [Introduction to Automatic Differentiation and MATLAB Object-Oriented Programming](https://epubs.siam.org/doi/10.1137/080743627)

La [diferenciación automática](https://en.wikipedia.org/wiki/Automatic_differentiation) es un método para evaluar derivadas de funciones representadas como programas usualamente conocido como gráfica de cómputo.[[Automatic Differentiation in Machine Learning: a Survey, Baydin et. al, 2018](https://arxiv.org/abs/1502.05767)]. El programa está compuesto por operaciones elementales como sumas, restas, multiplicaciones y divisiones. 

Una gráfica de cómputo representa una función donde los nodos son operaciones y las aristas son relaciones de entrada-salida. Los nodos hoja de una gráfica computacional son variables de entrada o constantes, y los nodos terminales son valores de salida de la función. 

Hay dos métodos de diferenciación automática usando una gráfica de cómputo.

* **Forward accumulation** : el método usa **números duales** para recorrer el árbol desde las entradas hasta las salidas.
* **Backward accumulation** : recorre el árbol de las salidas a las entradas.

## Forward accumulation

Para la función:

$$
    \begin{equation}
        6x^2 - 12x +3
    \end{equation}
$$

La gráfica de cómputo asociada a esta función es la siguiente:

Para calcular el valor de la función y de su derivada en el punto $x=3$, recorreríamos la gráfica de la siguiente manera:

![Diferenciación automática](compu_graph_one_dim.png)

La gráfica de cómputo tomaría la siguiente configuración inicial:

![Diferenciación automática. Configuración inicial](config_compu_graph_one_dim.png)

## Implementación de números duales

Todos los datos en un programa Python están representados por objetos o por relaciones entre objetos (ver : https://docs.python.org/3/reference/datamodel.html).

Nosotros podemos modificar estas relaciones entre objetos al modificar los denominados "atributos especiales".

Estos son atributos proporcionan acceso a la implementación de operaciones entre clases y podemos modificarlos 
(sobrecargarlos).

Estos atributos especiales inicial con **__** y terminan de la misma forma con **__**.

Para la implementación de números duales nos interesan los atributos especiales que pueden ser definidos 
para emular objetos numéricos y operaciones entre estos objetos numéricos.

Por ejemplo, para evaluar la expresión x + y, donde x es una instancia de una clase que tiene el método especial
**__**add**__()**,  se llama al método x.**__**add**__**(x,y).

Por ejemplo, las siguientes operaciones son equivalentes:
* 4.7 + 6.8
* 4.7.**__**add**__**(6.8)
    
Con el objetivo de implementar el método Forward Accumulation de diferenciación automática, 
el cual diferencía una función al recorrer "hacia adelante" la gráfica computacional de la función (
Una gráfica computacional representa una función donde los nodos representan operaciones y las aristas relaciones 
de entrada-salida).

El recorrido a través de la gráfica computacional puede ser automatizado al sobrecargar cada operación aritmética que  produce el valor de la función y de su derivada. Esto es, tenemos que sobrecargar las reglas de derivación para la suma, resta, división, regla de la cadena, etc.


## Probemos la clase <code>Dual</code>

### Función a)
Para la función:

$$
    \begin{equation}
        6x^2 - 12x +3
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?

### Función b)

Para la función:

$$
    \begin{equation}
        \dfrac{x^2 + 3x}{x^3 + x^2 +2}
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?



### Función c)

Para la función:

$$
    \begin{equation}
        (4x^2 + 16x +3)^2
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?

Tenemos que implementar la regla de la cadena de potencias para números duales.



## Gradiente con números duales

Hasta el momento sólo hemos trabajado con funciones de una variable. Para extender el método de diferenciación automática con *forward accumulation* para funciones de varias variables, necesitamos agregar el cálculo del gradiente con números duales.

Cuando consideramos funciones de varias variables, la gráfica de cómputo es prácticamente la misma que para el caso univariado, de manera que podemos extender el método *forward accumulation* sin grandes complicaciones. 

Considerando la función 

$$f(x,y) = 2x^3 + 3y^2 + c$$

La gráfica de cómputo asociada es:

<center><img src="https://raw.githubusercontent.com/bereml/iap/master/fig/autodiff_example.svg" width="800" align="center"/></center>
&nbsp;

[Tomado del ejemplo de Bere y Ricardo](https://github.com/gibranfp/CursoAprendizajeProfundo/blob/2022-1/notebooks/1c_pytorch.ipynb)

### Función d)

Para la función:

$$
    \begin{equation}
        3x^2 + 10y^2
    \end{equation}
$$

¿Cual es el gradiente en el punto $(x,y) = (2,3)$?



### Función e) Himmelblau

$$
    \begin{equation}
        f(x,y) = (x^2 + y -11)^2 + (x + y^2 -7)^2
    \end{equation}
$$

con gradiente


$$
\nabla f(x,y)=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x} \\
\frac{\partial f(x,y)}{\partial y}
\end{bmatrix} =
 \begin{bmatrix}
4x (x^2 + y - 11) + 2(x + y^2 - 7) \\
2(x^2 + y - 11) + 4  y  (x + y^2 - 7)
\end{bmatrix} 
$$

¿Cual es el gradiente en el punto $(x,y) = (-3,3)$?


## Algoritmo de descenso de gradiente con números duales

## Función f) McCormick

$$
    \begin{equation}
        f(x,y) = \sin(x+y) + (x-y)^2 - 1.5x + 2.5y + 1
    \end{equation}
$$
