# Diferenciación automática

Hasta ahora, en el método de Newton hemos tenido que meter "a mano" la derivada. Sabemos que hay forma de calcular derivadads numéricamente, por ejemplo con diferencias finitas.

Pero de hecho hay una técnica muy bonita para calcular derivadas de forma *exacta*, que se llama la **diferenciación automática** o **diferenciación algorítmica**. En este notebook, veremos las bases de este método.

Este método no utiliza diferencias finitas, ni tampoco manipulación simbólica. Calcula el valor numérico de una derivada en un punto $a$ que también tiene un valor *numérico*. Es decir, debemos especificar en una variable `a = 3`, por ejemplo, el valor numérico del punto en el que queramos evaluar la derivada, y el método nos regresará el valor numérico de la derivada en dicho punto.

**[1]** Supón que tienes dos funciones $f$ y $g$ de $\mathbb{R} \to \mathbb{R}$, cuyas derivadas conoces, y quieres calcular derivadas en un punto $a \in \mathbb{R}$ de combinaciones de estas funciones.

(i) Expande $f$ y $g$ en series de Taylor alrededor de $a$ en términos de la distancia $\epsilon$ desde $a$.

(ii) Encuentra series de Taylor para la suma $(f+g)$ y el producto $(f \cdot g)$ en la vecindad de $a$.

(iii) Así, encuentra las expresiones conocidas para $(f+g)'(a)$ y $(f \cdot g)'(a)$,
en términos de los valores de las funciones y sus derivadas. Concluye cuál información necesitas de cada función para poder calcular derivadas en el punto $a$ de las combinaciones de las funciones.

**Solución**

\begin{eqnarray}
f(x) = f(a) + f'(a)(x-a) + \ldots \dfrac{f^{(k)}(a)}{k!}(x-a)^k + \ldots \qquad(\alpha) \\ 
g(x) = g(a) + g'(a)(x-a) + \ldots \dfrac{g^{(k)}(a)}{k!}(x-a)^k + \ldots \qquad(\beta)
\end{eqnarray}

Expandiendo la función $f+g$ se obtiene:

\begin{eqnarray}
(f+g)(x) = (f+g)(a) + (f+g)'(a)(x-a) + \ldots \dfrac{(f+g)^{(k)}(a)}{k!}(x-a)^k + \ldots \qquad(1)
\end{eqnarray}

Pero también podemos tomar simplemente la suma de las series para cada función, es decir:

\begin{eqnarray}
f(x) + g(x) = \left(f(a)+g(a)\right) + \left(f'(a)+g'(a)\right)(x-a) + \ldots \left(\dfrac{f^{(k)}(a)+g^{(k)}(a)}{k!}\right)(x-a)^k + \ldots \qquad(2)
\end{eqnarray}

Comparando los coeficientes de $(x-a)$ en $1$ y $2$ vemos que:
\begin{eqnarray}
\boxed{(f+g)'(a) = f'(a) + g'(a)} \qquad(I)
\end{eqnarray}

Definiendo los coeficientes de la expansión cómo: $f_k = f_k(a) = \dfrac{f^{(k)}(a)}{k!}$.
Entonces, vemos que en general se cumple que:

\begin{eqnarray}
\boxed{
(f+g)_k = f_k + g_k
}
\end{eqnarray}




De manera análoga, para el producto $f \cdot g$ se tiene, expandiendo en Taylor:

\begin{eqnarray}
(f \cdot g)(x) = (f \cdot g)(a) + (f \cdot g)'(a)(x-a) + \ldots \dfrac{(f \cdot g)^{(k)}(a)}{k!}(x-a)^k + \ldots 
\end{eqnarray}

a primer orden se tiene:

\begin{eqnarray}
(f \cdot g)(x) \approx (f \cdot g)(a) + (f \cdot g)'(a)(x-a) \qquad(3)
\end{eqnarray}

y por otro lado, tomando el producto de $\alpha$ y $\beta$ a primer orden:

\begin{eqnarray}
f(x) \cdot g(x) \approx \left( f(a) + f'(a)(x-a) \right) \cdot \left( g(a) + g'(a)(x-a) \right) =\\
f(a)g(a) + f(a)g'(a)(x-a) + f'(a)g(a)(x-a) + f'(a)g'(a)(x-a)^2=\\
f(a)g(a) + \left( f(a)g'(a) + f'(a)g(a) \right) (x-a) + f'(a)g'(a)(x-a)^2 \qquad(4)
\end{eqnarray}

Comparando los coeficientes de $(x-a)$ en $3$ y $4$ se llega a que:

\begin{eqnarray}
\boxed{
(f \cdot g)'(a) = f(a)g'(a) + f'(a)g(a)} \qquad(II)
\end{eqnarray}

Que es lo que esperamos para la derivada de un producto

**[2]** Ahora podemos hacer de esto un método numérico para calcular derivadas, como sigue.

(i) Define un tipo nuevo `Dual` que contiene la información necesaria de una función en el punto $a$. (Dejamos implícito el punto $a$; no lo representamos de forma explícita.) 

La sintaxis de Julia para definir un tipo nuevo es
    
    struct Dual
        a::Float64
    end 
    
Adentro del `struct`, pones la lista de los nombres de las variables que quieres guardar adentro, junto con sus tipos.

(ii) Verifica que ahora puedes crear objetos de este tipo llamando a una función con el mismo nombre que el tipo; una función así se llama un **constructor**. Para acceder a las variables adentro de cada objeto, usamos la sintaxis `a.b`, donde `a` es el nombre del objeto, y `b` de la variable adentro.

(iii) Define las operaciones aritméticas básicas sobre objetos de este tipo, al *sobrecargar* los operadores con la siguiente sintaxis:

    import Base: +, *  # y cualquier otra operación que sobrecargues
    
    +(x::Dual, y::Dual) = ...
    
    +(x::Dual, y::Real) = ...   # para sumar un número real a un dual
    
[En Julia, los operadores como `+` son simplemente funciones, y podemos definir nuevos **métodos** (versiones) para ellos.]
    
Estas operaciones deben reflejar las reglas que desarrollaste arriba.    

(iv) ¿Cuál número `Dual` corresponde con la función identidad $\mathbb{1}: x \mapsto x$ en el punto $a$?

(v) Así, escribe una función que calcule de forma automática la derivada de una función en un punto dado.

** Solución **

In [16]:
struct DDual
    funcion::Float64
    derivada::Float64
end
dual = DDual(1.3, 3.2)
dual.funcion, dual.derivada

(1.3, 3.2)

In [34]:
import Base: +, *  # y cualquier otra operación que sobrecargues
    
    +(x::DDual, y::DDual) = DDual(x.funcion + y.funcion, x.derivada + y.derivada)

    +(x::DDual, y::Real) = DDual(y*x.funcion, y*x.derivada)
    
    *(x::DDual, y::DDual) = DDual(x.funcion*y.funcion,
    x.derivada*y.funcion + x.funcion*y.derivada)

    *(x::DDual, y::Real) = DDual(y*x.funcion, y*x.derivada)

* (generic function with 184 methods)

El dual que corresponde a la función identidad evaluada en $a$ es:

In [49]:
xxx = DDual(3, 1)
f(x) = x*x + x*2
f(xxx)

DDual(15.0, 8.0)

**[3]** (i) Si tienes una función como `exp`, cuando la aplicas a un número `Dual` que representa a una función $f$ cerca del punto $a$, el resultado debe contener el valor de la función $\exp$ evaluada sobre $f(a)$, así como la derivada de $(\exp \circ f)$. Impleméntalo.

(ii) ¿Qué ocurre si derivas `exp(exp(x))` en un punto $a$? ¿Es correcto?

**[4]** Utiliza lo anterior para escribir el método de Newton para funciones $\mathbb{R} \to \mathbb{R}$, calculando de forma automática la derivada.

**[5]** (i) Para una función $f: \mathbb{R}^n \to \mathbb{R}$, quisiéramos calcular la gradiente $\nabla f$. ¿Cómo podemos extender la diferenciación automática a este caso? Puedes restringir atención a $n=2$ para entender cómo funciona.

**[6]** Ahora que hayamos entendido la idea de la diferenciación automática, podemos echar mano del paquete de Julia `ForwardDiff.jl`, donde hay una implementación muy buena.

Lee el manual del paquete para entender cómo calcular derivadas de funciones $\mathbb{R} \to \mathbb{R}$, gradientes de funciones $\mathbb{R}^n \to \mathbb{R}$, y jacobianos de funciones $\mathbb{R}^n \to $\mathbb{R}^m$.