# Diferenciación automática

<a href="https://colab.research.google.com/github/milocortes/mod_04_concentracion/blob/ccm-2023/src/notebooks/python/numeros_duales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


* [Algorithms for Optimization, sección 2.4](https://algorithmsbook.com/optimization/files/optimization.pdf)
* [Introduction to Automatic Differentiation and MATLAB Object-Oriented Programming](https://epubs.siam.org/doi/10.1137/080743627)

## Implementación de números duales

Todos los datos en un programa Python están representados por objetos o por relaciones entre objetos (ver : https://docs.python.org/3/reference/datamodel.html).

Nosotros podemos modificar estas relaciones entre objetos al modificar los denominados "atributos especiales".

Estos son atributos proporcionan acceso a la implementación de operaciones entre clases y podemos modificarlos 
(sobrecargarlos).

Estos atributos especiales inicial con **__** y terminan de la misma forma con **__**.

Para la implementación de números duales nos interesan los atributos especiales que pueden ser definidos 
para emular objetos numéricos y operaciones entre estos objetos numéricos.

Por ejemplo, para evaluar la expresión x + y, donde x es una instancia de una clase que tiene el método especial
**__**add**__()**,  se llama al método x.**__**add**__**(x,y).

Por ejemplo, las siguientes operaciones son equivalentes:
* 4.7 + 6.8
* 4.7.**__**add**__**(6.8)
    
Con el objetivo de implementar el método Forward Accumulation de diferenciación automática, 
el cual diferencía una función al recorrer "hacia adelante" la gráfica computacional de la función (
Una gráfica computacional representa una función donde los nodos representan operaciones y las aristas relaciones 
de entrada-salida).

El recorrido a través de la gráfica computacional puede ser automatizado al sobrecargar cada operación aritmética que  produce el valor de la función y de su derivada. Esto es, tenemos que sobrecargar las reglas de derivación para la suma, resta, división, regla de la cadena, etc.


In [1]:

class Dual:
    """
    Implementación de números duales.
    
    ...

    Atributos
    ----------
    val : float
        valor de la variable a evaluar en la función
    der : float
        valor de la dericaba de la variable a evaluar en la función

    Métodos
    -------
    __add__()
        sobrecarga la operación aritmética de suma
    
    __sub__()
        sobrecarga la operación aritmética de resta
        
    """
    
    def __init__(self, val, der):
        self.val = val
        self.der = der
    
    def __repr__(self):
        return f"Valor: {self.val}, Derivada: {self.der}"
    
    ## Sobrecargamos el método de suma al incorporar las reglas de derivación para la suma. 
    
    ## Para f(x) y g(x) 
    def __add__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val + other.val, # f(x) + g(x)
                        self.der + other.der) # f(x) + g(x)
        else:
            ## El otro objeto es una constante, no un número dual
            return Dual(self.val + other, # f(x) + c
                        self.der + 0) # fʼ(x) + 0

    ## Para g(x) y f(x) 
    def __radd__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val + other.val # g(x) + f(x)  
                        , self.der + other.der) # gʼ(x) + fʼ(x)  
        else:
            return Dual(self.val + other, #  c + f(x)
                        self.der + 0) # 0 + fʼ(x)

    ## Sobrecargamos el método de resta al incorporar las reglas de derivación para la resta. 
    
    ## Para f(x) y g(x) 
    def __sub__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val - other.val, # f(x) - g(x)
                        self.der - other.der) # f(x) - g(x)
        else:
            ## El otro objeto es una constante, no un número dual
            return Dual(self.val - other, # f(x) - c
                        self.der - 0) # fʼ(x) - 0

    def __rsub__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val - other.val, # g(x) - f(x)
                        self.der - other.der) # gʼ(x) - fʼ(x)
        else:
            return Dual(self.val - other, #  c - f(x)
                        self.der - 0) # 0 - fʼ(x)

    ## Sobrecargamos el método de multiplicación al incorporar las reglas de derivación para la multiplicación. 
    def __mul__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val * other.val, # f(x) * g(x)
                        self.val * other.der + other.val * self.der ) # f(x) * gʼ(x) + g(x) * fʼ(x)  
        else:
            return Dual(self.val * other, # f(x) * c
                        self.der * other) # fʼ(x) * c

    def __rmul__(self, other):
        if isinstance(other, Dual):
            return Dual(self.val * other.val, # g(x) * f(x)  
                        self.val * other.der + other.val * self.der ) # g(x) * fʼ(x) + f(x) * gʼ(x)   
        else:
            return Dual(self.val * other, self.der * other)

    ## Sobrecargamos el método de potencia
    def __pow__(self, a):
        return Dual(self.val**a, # f(x)^a
                    a* self.val**(a-1)) # a f(x)^(a-1)

    ## Sobrecargamos el método de división
    def __truediv__(self, other):
        return Dual(self.val / other.val, # f(x)/g(x)
                    (self.der*other.val - other.der*self.val)/(other.val)**2) # fʼ(x)*g(x) - gʼ(x)*f(x) / (g(x)^2)

## Probemos la clase <code>Dual</code>

### Función a)
Para la función:

$$
    \begin{equation}
        6x^2 - 12x +3
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?

In [2]:
# Generamos un objeto Dual. El primer argumento del constructor es el valor de la variable a evaluar 
# y el segunfo argumento indica que se requiere evaluar en la derivada de la función.
x = Dual(3,1)

6*x**2 - 12*x + 3


Valor: 21, Derivada: 24

### Función b)

Para la función:

$$
    \begin{equation}
        \dfrac{x^2 + 3x}{x^3 + x^2 +2}
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?



In [3]:
(x**2 + x*3)/(x**3 + x*2 + 2)


Valor: 0.5142857142857142, Derivada: -0.1689795918367347

In [4]:
# Verifiquemos el resultado anterior
def f(x):
    return (x**2 + x*3)/(x**3 + x*2 + 2)

def df(x):
    return (((2*x + 3)*(x**3 + x*2 + 2)) - ((x**2 + x*3)*(3*x**2 + 2)))/(x**3 + x*2 + 2)**2

In [5]:
f(3)

0.5142857142857142

In [6]:
df(3)

-0.1689795918367347

### Función c)

Para la función:

$$
    \begin{equation}
        (4x^2 + 16x +3)^2
    \end{equation}
$$

¿Cual es el valor de la función y de su derivada en el punto $x = 3$?

Tenemos que implementar la regla de la cadena de potencias para números duales.

In [7]:
def chain_rule_power(dual_number, power):
    return Dual(dual_number.val**power, # f(g(x))^a
                power*(dual_number.val) * (dual_number.der) ) # a * f(x) *gʼ(x)

In [8]:
chain_rule_power(4*x**2 + 16*x +3, 2)


Valor: 7569, Derivada: 6960

In [9]:
# Verifiquemos el resultado anterior
def f(x):
    return (4*x**2 + 16*x + 3)**2 

def df(x):
    return 2*(4*x**2 + 16*x +3)*(8*x + 16)

In [10]:
f(3)

7569

In [11]:
df(3)

6960

## Gradiente con números duales

In [12]:
import numpy as np

def gradiente(f, *xs):
    gs = []

    for i,x in enumerate(xs):
        if i == 0:
            gs.append(f(Dual(x, 1), *xs[1:]))
        else:
            gs.append(f(*xs[:i], Dual(x,1), *xs[(i+1):]))

    return np.array([g.der for g in gs])

### Función d)

Para la función:

$$
    \begin{equation}
        3x^2 + 10y^2
    \end{equation}
$$

¿Cual es el gradiente en el punto $(x,y) = (2,3)$?



In [13]:
def f(x,y):
    return 3*x**2 + 10*y**2

gradiente(f, 2, 3)

array([12, 60])

### Función e) Himmelblau

$$
    \begin{equation}
        f(x,y) = (x^2 + y -11)^2 + (x + y^2 -7)^2
    \end{equation}
$$

con gradiente


$$
\nabla f(x,y)=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x} \\
\frac{\partial f(x,y)}{\partial y}
\end{bmatrix} =
 \begin{bmatrix}
4x (x^2 + y - 11) + 2(x + y^2 - 7) \\
2(x^2 + y - 11) + 4  y  (x + y^2 - 7)
\end{bmatrix} 
$$

¿Cual es el gradiente en el punto $(x,y) = (-3,3)$?


In [14]:
def himmelblau_dual(x,y):
    return chain_rule_power(x**2 + y -11, 2) + chain_rule_power(x + y**2 -7, 2)

In [15]:
gradiente(himmelblau_dual, -3, 3)

array([-14, -10])

In [16]:
def himmelblau(x,y):
    return (x**2 + y -11)**2 + (x + y**2 -7)**2

def gradiente_himmelblau(x,y):
    dx = 4 * x * (x**2 + y - 11) + 2 * (x + y**2 - 7)
    dy = 2 * (x**2 + y - 11) + 4 * y * (x + y**2 - 7)
    return np.array([dx,dy])

xk_himm = [-3,3]

himmelblau(*xk_himm)
gradiente_himmelblau(*xk_himm)


array([-14, -10])

## Algoritmo de descenso de gradiente con números duales

In [17]:
# Definimos punto inicial de búsqueda
x0 = np.array([-3,3])

# Definimos la tasa de aprendizaje
rho = 0.005

# Definimos la cantidad de iteraciones
n = 40

xt = x0

# Comenzamos las iteraciones
for it in range(n):
    print(f"Iteración {it}. Evaluación del punto {xt} en la función: {himmelblau(*xt)}")

    ## Actualizamos xt con la regla de actualización de deepest descent
    xt = xt - rho*gradiente(himmelblau_dual, *xt) 


Iteración 0. Evaluación del punto [-3  3] en la función: 2
Iteración 1. Evaluación del punto [-2.93  3.05] en la función: 0.7968542600000039
Iteración 2. Evaluación del punto [-2.88651986  3.0819285 ] en la función: 0.3220618813046645
Iteración 3. Evaluación del punto [-2.85874142  3.10171959] en la función: 0.1318235619771682
Iteración 4. Evaluación del punto [-2.84068776  3.11374733] en la función: 0.05468414954178047
Iteración 5. Evaluación del punto [-2.82882375  3.12096118] en la función: 0.02299845409609426
Iteración 6. Evaluación del punto [-2.82096899  3.12524855] en la función: 0.00980145301416703
Iteración 7. Evaluación del punto [-2.81574181  3.12777958] en la función: 0.004228057614274932
Iteración 8. Evaluación del punto [-2.81225059  3.12926563] en la función: 0.0018433373172307402
Iteración 9. Evaluación del punto [-2.80991274  3.13013384] en la función: 0.0008109525058370222
Iteración 10. Evaluación del punto [-2.80834425  3.13063859] en la función: 0.000359462631578026

## Función f) McCormick

$$
    \begin{equation}
        f(x,y) = \sin(x+y) + (x-y)^2 - 1.5x + 2.5y + 1
    \end{equation}
$$


In [18]:
import math


def chain_rule_sin(dual_number):
    return Dual(math.sin(dual_number.val), # sin(f(x))
                math.cos(dual_number.val) * (dual_number.der) ) # cos(f(x)) * fʼ(x)

def McCormick(x,y):
    return math.sin(x+y) + (x-y)**2 - 1.5*x + 2.5*y + 1

def McCormick_dual(x,y):
    return chain_rule_sin(x+y) + chain_rule_power(x-y,2) - 1.5*x + 2.5*y + 1

In [19]:
# Definimos punto inicial de búsqueda
x0 = np.array([-3,3])

# Definimos la tasa de aprendizaje
rho = 0.005

# Definimos la cantidad de iteraciones
n = 2000

xt = x0

# Comenzamos las iteraciones
for it in range(n):
    
    if it % 100 == 0:
        print(f"Iteración {it}. Evaluación del punto {xt} en la función: {McCormick(*xt)}")

    ## Actualizamos xt con la regla de actualización de deepest descent
    xt = xt - rho*gradiente(McCormick_dual, *xt) 

Iteración 0. Evaluación del punto [-3  3] en la función: 49.0
Iteración 100. Evaluación del punto [-0.58039781 -0.65206092] en la función: -0.6977277394619827
Iteración 200. Evaluación del punto [-0.44344931 -1.32033368] en la función: -1.8481698356096556
Iteración 300. Evaluación del punto [-0.48928077 -1.47295323] en la función: -1.9052119285408433
Iteración 400. Evaluación del punto [-0.52116335 -1.518998  ] en la función: -1.9119316670562547
Iteración 500. Evaluación del punto [-0.5360792  -1.53579203] en la función: -1.9130022515898073
Iteración 600. Evaluación del punto [-0.54251518 -1.5424771 ] en la función: -1.9131846005345143
Iteración 700. Evaluación del punto [-0.54523313 -1.54522808] en la función: -1.9132162487955142
Iteración 800. Evaluación del punto [-0.54637421 -1.54637354] en la función: -1.9132217795142803
Iteración 900. Evaluación del punto [-0.54685254 -1.54685245] en la función: -1.9132227487318807
Iteración 1000. Evaluación del punto [-0.54705298 -1.54705297] en