# Diferenciación automática

En este notebook, veremos una metodología para calcular derivadas numéricamente de forma *exacta*, la **diferenciación automática** o **diferenciación algorítmica**

## Significado de la derivada

¿Para qué sirven las derivadas?

Es una medida de tasas de cambio

**[1]** (i) Supón que quieres calcular raíces de una función $f: \mathbb{R} \to \mathbb{R}$ como lo hemos hecho en un notebook anterior, y tienes una manera de calcular la derivada $f'$. Si calculas $f'(X)$ para un intervalo $X$, ¿qué te da? 

* El conjunto de todas las derivadas en el intervalo $X$ 

¿En qué te ayuda esto qué puedes concluir sobre las raíces? 

* Puedo implementar un método de Newton para intervalos $X$ para encontrar raices en el intervalo. Recordemos el método de Newton 

Sean $f:[a,b] \longrightarrow \mathbb{R}$ una función diferenciable a $[a,b]$ y $x_{0} \in [a,b]$ una condición inicial, definimos la función de iteración como $$x_{n+1} = x_{n} -  \dfrac{f(x_{n})}{f'(x_{n})} = \Phi(x_{n})$$ tal que

$\displaystyle\lim_{x_{n} \rightarrow \infty} \Phi(x_{n}) = x^{*}$ con $x^{*}$ la raíz de $f$

Ahora si extendemos esto a intevalo tenemos lo siguiente

Sean $f:X \longrightarrow \mathbb{R}$ una función diferenciable a $X$ y $x_{0} \in X$, punto medio del intervalos como condición inicial, definimos la función de iteración como $$x_{n+1} = x_{n} -  \dfrac{f(x_{n})}{f'(x_{n})}$$

(ii) ¿Se extiende esto a funciones $f:\mathbb{R^n} \to \mathbb{R}^n$?

* Sí

¿De qué manera?

* Con el método de Newton multidimensional

**[2]** Para una función $f:\mathbb{R} \to \mathbb{R}$, considera un intervalo $X$ donde queremos encontrar el rango $f(X)$. 

(i) Recuerda el teorema del valor medio ("mean value theorem"). Fija un $x_0 \in X$ y utiliza el teorema para escribir una expresión para $f(x)$ para $x \in X$, en términos de la derivada de $f$ en algún punto $\xi \in X$.

Por hipótesis $f\in \mathcal{C}^1$ por el teorema de Taylor, y acontado el residuo (de Lagrange), alrededor de $x_0$ fijo tenemos

$$f(x) = f(x_{0}) + f'(\xi)(x - x_{0})$$



(ii) No conocemos $\xi$. ¿Qué podemos hacer al respecto?

* Tomamos todo el intervalo $X$

Si lo haces, encontrarás otra expresión para el rango $f(X)$, que se conoce como el **mean value form** o **centred form**.

Utilizando la idea de acotar con intervalos, tenemos

$$f(X) = f(x_{0}) + f'(X)(X - x_{0})$$

(iii) Compara los resultados numéricos que obtienes de $f(X)$ con la extensión intervalar usual (lo que vimos en un notebook anterior) y esta versión nueva para distintas funciones. ¿Cuándo es mejor la nueva? 


(iv) Si tienes las dos formas de calcular el rango, ¿cómo puedes combinarlos? Impleméntalo.

* Para ello consideremos la función $f(x) = x^2$ en el intervalo $[-1,2]$ , que sabemos el rango es $f([-1,2]) = [0,4]$,  por otro lado usando la "nueva versión" con $x_0 = 1$

$$f([-1,2]) = f(1) + f'\left([-1,2] \right)([-1,2] - 1) = 1 + [-2,4]*[-2,1] = [-7,5] $$

Con $x_0 = 0$

$$f([-1,2]) = f(0) + f'\left([-1,2] \right)([-1,2] - 0) = [-2,4]*[-1,2] = [-4,8] $$

Notemos que ambos contienen el intervalo solución

Al calcular $f'(X)$ usamos la versión intervalar usual.

In [1]:
using Base.Test

In [2]:
struct Intervalo
    inf::Float64
    sup::Float64
    Intervalo(inf,sup) = inf > sup ? error("No es un intervalo valido") : new(inf,sup)
end

In [3]:
import Base: +, -,*, /, ^, exp, sqrt

function +(x::Intervalo, y::Intervalo)
    return Intervalo(x.inf + y.inf, x.sup + y.sup)
end

function +(x::Intervalo, c::Real) 
    # Aquí definimos la suma de un Intervalo a un Real
    return Intervalo(x.inf + c, x.sup + c)
end

function +(c::Real, x::Intervalo)
    # Aquí definimos la suma de un Real a un Intervalo
    return Intervalo(x.inf + c, x.sup + c)
end


function -(x::Intervalo)
    return Intervalo(- x.sup, - x.inf)
end

function -(x::Intervalo, y::Intervalo)
    y = -y
    return Intervalo(x.inf + y.inf, x.sup + y.sup)
end

function -(x::Intervalo, c::Real)
    return Intervalo(x.inf - c, x.sup - c)
end

function -(c::Real, x::Intervalo)
    return Intervalo(c-x.inf, c-x.sup)
end


function *(x::Intervalo, y::Intervalo)
    Intervalo(min(x.inf*y.inf, x.sup*y.inf, x.sup*y.sup, x.inf*y.sup), 
        max(x.inf*y.inf, x.sup*y.inf, x.sup*y.sup, x.inf*y.sup))
end

function *(x::Intervalo, c::Real)
    Intervalo(min(x.inf*c, x.sup*c), max(x.inf*c, x.sup*c))
    
    #return Intervalo(x.inf * c, x.sup * c)
end

function *(c::Real, x::Intervalo)
    Intervalo(min(x.inf*c, x.sup*c), max(x.inf*c, x.sup*c))
end

function /(x::Intervalo, y::Intervalo)
    if sign(y.inf) != sign(y.sup) && y.inf != 0.0 && y.sup != 0.0
        Intervalo(-Inf, Inf)
    elseif y.inf == 0.0
        Intervalo(min(x.inf/y.sup, x.sup/y.sup), Inf)
    elseif y.sup == 0.0
        Intervalo(-Inf, max(x.inf/y.inf, x.sup/y.inf))
    else
        Intervalo(min(x.inf/y.inf, x.inf/y.sup, x.sup/y.inf, x.sup/y.sup), 
            max(x.inf/y.inf, x.sup/y.inf, x.sup/y.sup, x.inf/y.sup))
    end
end

function /(x::Intervalo, c::Real)
    Intervalo(min(x.inf/c, x.sup/c), max(x.inf/c, x.sup/c))
    
    #return Intervalo(x.inf * c, x.sup * c)
end

function /(c::Real, x::Intervalo)
    if sign(x.inf) != sign(x.sup) && x.inf != 0.0 && x.sup != 0.0
        Intervalo(-Inf, Inf)
    elseif x.inf == 0.0
        Intervalo(c/x.sup, Inf)
    elseif x.sup == 0.0
        Intervalo(-Inf, c/x.inf)
    else
        Intervalo(min(c/x.inf, c/x.sup), max(c/x.inf, c/x.sup))
    end
end


function ^(x::Intervalo, c::Int64)
    if iseven(c)
        if x.inf < 0 && x.sup >0
            if abs(x.inf) < abs(x.sup)
                return Intervalo(0, x.sup^c)
            else
                return Intervalo(0, x.inf^c)
            end
        elseif x.inf < 0 && x.sup < 0
             return Intervalo(x.sup^c, x.inf^c)
        else
            return Intervalo(x.inf^c, x.sup^c)
        end
    else
        Intervalo(x.inf^c, x.sup^c)
    end
end

function exp(x::Intervalo)
    Intervalo(exp(x.inf),exp(x.sup))
end

function sqrt(x::Intervalo)
    if x.inf < 0 || x.sup < 0
        Intervalo(0,0)
    else
        Intervalo(sqrt(x.inf), sqrt(x.sup))
    end
end

sqrt (generic function with 11 methods)

In [4]:
## pruebas 1/x y 1/x-2

@show 1 / Intervalo(-1,1)
@show 1/(Intervalo(1,3) - 2)
@show 1/Intervalo(0,1)
@show 1/Intervalo(-1,0) 
@show 1/(Intervalo(-1,1))^2 ;

1 / Intervalo(-1, 1) = Intervalo(-Inf, Inf)
1 / (Intervalo(1, 3) - 2) = Intervalo(-Inf, Inf)
1 / Intervalo(0, 1) = Intervalo(1.0, Inf)
1 / Intervalo(-1, 0) = Intervalo(-Inf, -1.0)
1 / Intervalo(-1, 1) ^ 2 = Intervalo(1.0, Inf)


In [5]:
Intervalo(-1,2)^2

Intervalo(0.0, 4.0)

In [6]:
Intervalo(-1,2)^3

Intervalo(-1.0, 8.0)

In [7]:
g(x) = x^2
gp(x) = 2x

gp (generic function with 1 method)

In [8]:
typeof(g)

#g

In [9]:
function Fintervalo(f,fp, x::Intervalo , x0::Real)

    #x0 ∈ [x.inf, x.sup] ? nothing : error("x0 no esta en el intervalos")
    
    f(x0) + fp(x)*(x - x0)
    
end

Fintervalo (generic function with 1 method)

In [10]:
Fintervalo(g,gp,Intervalo(-1,2),1)

Intervalo(-7.0, 5.0)

## Diferenciación automática

De cálculo conocemos reglas para calcular derivadas (a diferencia, por ejemplo, de integrales indefinidas). Resulta que es posible *automatizar* estas reglas, para que la computadora las utilice para calcular derivadas de forma numéricamente exacta (a parte de errores de redondeo). Este conjunto de técnicas se llama la **diferenciación automática** o **diferenciación algorítmica**. En este notebook, veremos las bases de este método.

Nota: Este método *no* utiliza ni diferencias finitas, ni manipulación simbólica. Utiliza las reglas de derivadas provenientes del cálculo, pero de forma *numérica*. Especificamos el valor numérico de una variable, por ejemplo, `a = 3` en donde queremos evaluar la derivada de una función $f$, y ¡el método nos regresará el valor numérico de la derivada $f'(a)$!

**[3]** Supón que tienes dos funciones $f$ y $g$ de $\mathbb{R} \to \mathbb{R}$, cuyas derivadas conoces, y quieres calcular derivadas en un punto $a \in \mathbb{R}$ de combinaciones de estas funciones.

(i) Expande $f$ y $g$ en series de Taylor alrededor de $a$ en términos de la distancia $\epsilon$ desde $a$.
 
 Sea $\epsilon = x -a$

* $f(x) = f(a) + \dfrac{f'(a)(\epsilon)}{1!} + \dfrac{f''(a)(\epsilon)^2}{2!} + \cdots = \displaystyle \sum _{k = 0} ^{\infty} \dfrac{f^{(k)}(a) \epsilon ^k }{k!}$

* $g(x) = g(a) + \dfrac{g'(a)(\epsilon)}{1!} + \dfrac{g''(a)(\epsilon)^2}{2!} + \cdots = \displaystyle \sum _{k = 0} ^{\infty} \dfrac{g^{(k)}(a) \epsilon ^k }{k!} $


(ii) Encuentra series de Taylor para la suma $(f+g)$ y el producto $(f \cdot g)$ en la vecindad de $a$.

* $(f + g)(x) = \displaystyle \sum _{k = 0} ^{\infty}  \left[ f^{(k)}(a)  + g^{(k)}(a) \right]  \left(\dfrac{ \epsilon ^k}{k!}  \right) = \displaystyle \sum _{k =0 }^{\infty} \dfrac{(f + g)^{(k)}(a)\epsilon^{k}}{k!}  $

* $(f \cdot g)(x) = \left( \displaystyle \sum _{k = 0} ^{\infty} \dfrac{f^{(k)}(a) \epsilon ^k }{k!} \right)\left( \displaystyle \sum _{l = 0} ^{\infty} \dfrac{g^{(l)}(a) \epsilon ^l }{l!} \right) = \displaystyle \sum _{k =0 }^{\infty} \dfrac{(f \cdot g)^{(k)}(a)\epsilon^{k}}{k!}  $

(iii) Así, recobre las expresiones ya conocidas (de cálculo) para $(f+g)'(a)$ y $(f \cdot g)'(a)$,
en términos de los valores de las funciones y sus derivadas. Concluye cuál información necesitas de cada función para poder calcular derivadas en el punto $a$ de las combinaciones de las funciones.

* ($f + g)'(a) = f'(a) + g'(a)$, es decir, para suma necesitamos los coeficientes de orden epsilon

* $(f \cdot g)'(a) = f'(a)g(a) + f(a)g'(a)$, para esto necesitamos los coeficentes de orden menor o igual a epsilon de $f$ y $g$ 

Necesitamos que $f$ y $g$ sean $\mathcal{C}^{\infty}$ sin polos en $a$

**[4]** Ahora podemos convertir esto en un método numérico para calcular derivadas, como sigue.

(i) Define un tipo nuevo `Dual` que contiene la información necesaria de una función en el punto $a$. (Dejamos implícito el punto $a$; no lo representamos de forma explícita.) 

(ii) Define las operaciones aritméticas básicas sobre objetos de este tipo, siguiendo las reglas que desarrollamos en la pregunta (3).

(iii) ¿Cuál número `Dual` corresponde con la función identidad $\mathbb{1}: x \mapsto x$ en el punto $a$? Esto representará la "variable independiente" $x$.

* Es `Dual(a, 1)`

(iv) Verifica que si agarras un objeto `xx` de la forma encontrada en (iii) y lo enchufas en una función específica `f(x)` de Julia, arroja el valor de la función y de la derivada.

(v) Así, escribe una función que calcule de forma automática la derivada de una función en un punto dado.

In [11]:
import Base: ^

In [12]:
# (i)

struct Dual
    fa::Float64
    fpa::Float64
end

In [13]:
Dual(9,6)

Dual(9.0, 6.0)

In [14]:
function +(x::Dual, y::Dual)
    Dual(x.fa + y.fa, x.fpa + y.fpa)
end

function +(c::Real, y::Dual)
    Dual(c + y.fa, y.fpa)
end

function +(x::Dual, c::Real)
    Dual(x.fa + c, x.fpa )
end


function -(x::Dual, y::Dual)
    Dual(x.fa - y.fa, x.fpa - y.fpa)
end

function -(c::Real, y::Dual)
    Dual(c - y.fa, y.fpa)
end

function -(x::Dual, c::Real)
    Dual(x.fa - c, x.fpa )
end

function *(x::Dual, y::Dual)
    Dual(x.fa * y.fa, x.fpa * y.fa + x.fa * y.fpa )
end

function *(c::Real, y::Dual)
    Dual(c* y.fa,  c * y.fpa )
end

function *(x::Dual, c::Real)
    Dual(x.fa*c, x.fpa*c )
end

function ^(x::Dual, n::Int64)
    Dual(x.fa^n, n*x.fa^(n-1))
end

^ (generic function with 54 methods)

In [15]:
Dual(2,1)^3

Dual(8.0, 12.0)

In [16]:
Dual(9,6) + Dual(9,6) 

Dual(18.0, 12.0)

In [17]:
@testset "Pruebas de Dual" begin
    @test Dual(9,6) + Dual(9,6) == Dual(18,12)
    @test Dual(9,6) * Dual(9,6) == Dual(81,108)
    @test Dual(9,6) * Dual(1,0) == Dual(9,6)
    @test Dual(3,1) * Dual(3,1) == Dual(9,6)
end

[1m[37mTest Summary:   | [39m[22m[1m[32mPass  [39m[22m[1m[36mTotal[39m[22m
Pruebas de Dual | [32m   4  [39m[36m    4[39m


Base.Test.DefaultTestSet("Pruebas de Dual", Any[], 4, false)

In [18]:
f(x) = x^3 - 2x

f (generic function with 1 method)

In [19]:
f(Dual(2,1))

Dual(4.0, 10.0)

In [20]:
function derivada(f,x0::Real)
    x = f(Dual(x0, 1))
    x.fpa
end

derivada (generic function with 1 method)

In [21]:
@test derivada(f,2) == Dual(4,10).fpa

[1m[32mTest Passed
[39m[22m

**[5]** (i) Si tienes una función como `exp`, cuando la aplicas a un número `Dual` que representa a una función $f$ cerca del punto $a$, el resultado debe corresponder a la función $(\exp \circ f)$. Impleméntalo.

(ii) ¿Qué ocurre si derivas `exp(exp(x))` en un punto $a$? ¿Es correcto? ¿Qué se ha implementado (¡de forma automática!) aquí?

In [22]:
import Base: exp

function exp(x::Dual)
    Dual(exp(x.fa), exp(x.fa)*x.fpa)
end

exp (generic function with 12 methods)

In [23]:
exp(Dual(1,1))

Dual(2.718281828459045, 2.718281828459045)

In [24]:
g(x) = x^2 

g (generic function with 1 method)

In [25]:
g(Dual(3,1))

Dual(9.0, 6.0)

In [26]:
@test exp(g(Dual(3,1))) == exp(Dual(9,6))

[1m[32mTest Passed
[39m[22m

(ii) ¿Qué ocurre si derivas `exp(exp(x))` en un punto $a$? ¿Es correcto? ¿Qué se ha implementado (¡de forma automática!) aquí?

In [27]:
exp(exp(Dual(1,1)))

Dual(15.154262241479262, 41.193555674716116)

In [28]:
expp(x) = exp(exp(x)) 
derivada(expp,1)

41.193555674716116

**[6]** Para una función $f: \mathbb{R}^n \to \mathbb{R}$, quisiéramos calcular la gradiente $\nabla f$. ¿Cómo podemos extender la diferenciación automática a este caso? Puedes restringir atención a $n=2$ para entender cómo funciona.

In [29]:
h(x,y) = x^2 + exp(y)

h2(x ,y) = x^2*y^2 

h3(x ,y) = x^2*y^2 + 2x + 3y

h4(x, y) = y^3 * exp(x)

h4 (generic function with 1 method)

In [30]:
h(0,1)

2.718281828459045

In [31]:
h2(Dual(2,1) , 1)

Dual(4.0, 4.0)

In [32]:
h2(2, Dual(1, 1))

Dual(4.0, 8.0)

In [33]:
h4(Dual(3,1), 2)

Dual(160.68429538550134, 160.68429538550134)

In [34]:
h4( 3, Dual(2,1))

Dual(160.68429538550134, 241.02644307825202)

In [35]:
function grad(f,x0,y0)
    xaux = f(Dual(x0, 1), y0)
    yaux = f(x0, Dual(y0, 1))

    Df = (xaux.fpa,yaux.fpa)

end

grad (generic function with 1 method)

In [36]:
grad(h, 2, 1 )

(4.0, 2.718281828459045)

In [37]:
grad(h2, 2, 1 )

(4.0, 8.0)

In [38]:
grad(h3, 2, 1 )

(6.0, 11.0)

In [39]:
grad(h4, 3, 2)

(160.68429538550134, 241.02644307825202)

In [40]:
12*exp(3)

241.02644307825202

**[7]** Ahora que hayamos entendido la idea de la diferenciación automática, podemos echar mano del paquete de Julia `ForwardDiff.jl`, donde hay una implementación muy buena.

Lee el manual del paquete para entender cómo calcular derivadas de funciones $\mathbb{R} \to \mathbb{R}$, gradientes de funciones $\mathbb{R}^n \to \mathbb{R}$, y jacobianos de funciones $\mathbb{R}^n \to \mathbb{R}^m$.

In [41]:
# Pkg.add("ForwardDiff")

In [42]:
using ForwardDiff

Sean:

* $f:\mathbb{R} \longrightarrow \mathbb{R}$ tal que $f(x) = \sin(x^2)$ sabemos $f'(x) = 2x \cos (x^2)$ evaluando en $\sqrt{\pi}$ tenemos  $f'\left( \sqrt{\pi } \right) = 2 \sqrt{\pi} \cos (\pi) \approx -3.54490770181103$


* $g:\mathbb{R}^n \longrightarrow \mathbb{R}$ tal que $g(x,y,z) = \sin(x^2) + y\exp(z)$

In [43]:
f(x::Real) = sin(x^2);
g(x::Vector) = sum(sin, x) + prod(tan, x) * sum(sqrt, x);

In [44]:
ForwardDiff.derivative(f, sqrt(pi))

-3.5449077018110318

In [45]:
x = rand(5) 
gg = x ->ForwardDiff.gradient(g, x)

(::#1) (generic function with 1 method)

In [46]:
gg(x)

5-element Array{Float64,1}:
 0.899369
 0.960491
 0.808708
 1.05178 
 1.0062  

In [47]:
ForwardDiff.hessian(g, x)

5×5 Array{Float64,2}:
 -0.442273    0.0262214   0.0163074  0.145671    0.0496343
  0.0262214  -0.299349    0.0221017  0.197311    0.0672476
  0.0163074   0.0221017  -0.586308   0.122794    0.0418376
  0.145671    0.197311    0.122794   0.0183656   0.372999 
  0.0496343   0.0672476   0.0418376  0.372999   -0.136561 

**[8]** Ocupa diferenciación automática para calcular el "centered form" de una función $\mathbb{R} \to \mathbb{R}$.

In [48]:
?ForwardDiff.derivative

```
ForwardDiff.derivative(f, x::Real)
```

Return `df/dx` evaluated at `x`, assuming `f` is called as `f(x)`.

This method assumes that `isa(f(x), Union{Real,AbstractArray})`.

```
ForwardDiff.derivative(f!, y::AbstractArray, x::Real, cfg::DerivativeConfig = DerivativeConfig(f!, y, x))
```

Return `df!/dx` evaluated at `x`, assuming `f!` is called as `f!(y, x)` where the result is stored in `y`.


In [49]:
function centredform(f, X::Intervalo)
    x0 = abs(X.sup - X.inf)*0.5 + X.inf
    
    a = ForwardDiff.derivative(f, X.inf)
    b = ForwardDiff.derivative(f, X.sup)
    #@show x0
    if a >= b
        xp = Intervalo(b, a)
    else
        xp = Intervalo(a, b)
    end
    
    f(x0) + xp*(X - x0) 
end

centredform (generic function with 1 method)

In [50]:
ff(x) = x^2
II = Intervalo(-1, 2)

Intervalo(-1.0, 2.0)

In [51]:
centredform(ff, II)

Intervalo(-5.75, 6.25)

In [52]:
fff(x) = x^3  -3x^2 

fff (generic function with 1 method)

In [53]:
XX1 = Intervalo(-1,-.5)
XX2 = Intervalo(-1,1.5)
@show centredform(fff,XX1), fff(XX1)
@show centredform(fff,XX2), fff(XX2)

(centredform(fff, XX1), fff(XX1)) = (Intervalo(-4.359375, 0.140625), Intervalo(-4.0, -0.875))
(centredform(fff, XX2), fff(XX2)) = (Intervalo(-11.421875, 11.078125), Intervalo(-7.75, 3.375))


(Intervalo(-11.421875, 11.078125), Intervalo(-7.75, 3.375))

In [54]:
using Plots
gr()

equis1 = linspace(XX1.inf,XX1.sup, 200)
equis2 = linspace(XX2.inf,XX2.sup, 1000)

plot(equis2, fff.(equis2))
scatter!(equis1, fff.(equis1), markersize=0.3)



In [55]:
f4(x) = x + 1/x 

f41 = Intervalo(1,2)

@show centredform(f4,f41), f4(f41);

(centredform(f4, f41), f4(f41)) = (Intervalo(1.7916666666666665, 2.5416666666666665), Intervalo(1.5, 3.0))


In [56]:
g(x) = 1/x

gx=Intervalo(-1, 5.5)
@show centredform(g, gx)
@show g(gx)

centredform(g, gx) = Intervalo(-2.8055555555555554, 3.6944444444444446)
g(gx) = Intervalo(-Inf, Inf)


Intervalo(-Inf, Inf)

In [57]:
ForwardDiff.derivative(g,0.5)

-4.0

In [66]:
f5(x) = exp(sqrt(x))
f5X1 = Intervalo(0.1,8)
f5X2 = Intervalo(0,8)

@show centredform(f5, f5X1), centredform(f5, f5X2)
@show f5(f5X1), f5(f5X2)

(centredform(f5, f5X1), centredform(f5, f5X2)) = (Intervalo(-4.3321672216701534, 19.295584292804755), Intervalo(-Inf, Inf))
(f5(f5X1), f5(f5X2)) = (Intervalo(1.3719427019669197, 16.9188286785579), Intervalo(1.0, 16.9188286785579))


(Intervalo(1.3719427019669197, 16.9188286785579), Intervalo(1.0, 16.9188286785579))

In [65]:
equisf5 = linspace(f5X1.inf,f5X1.sup, 200)

plot(ylim=(0,18),yticks=0:1:18)
plot!(equisf5, f5.(equisf5))