# Diferenciación automática (o algorítmica)

## Parte 1

>### NOTA
>
>Este notebook se iniciará en la clase. La resolución completa 
>de los ejercicios debe ser enviada como "Tarea3.ipynb".
>
>Fecha de envío del PR inicial: **lunes 27 de marzo, antes de la clase**
>
>Fecha de aceptación del PR: **martes 4 de abril, antes de la clase**
>

# Motivación

En el [notebook anterior](https://github.com/lbenet/2017-2_TSFisComputacional-1/blob/master/notas_clase/05_Derivacion_numerica.ipynb), vimos que hay diferentes formas de implementar numéricamente la derivada de una función $f(x)$ en un punto $x_0$ y que éstas dependen de un parámetro $h$, que es la separación entre puntos cercanos. 

En ese notebook obtuvieron que el error absoluto en términos de $h$, cuando $h\to 0$, tiene un comportamiento distinto, y que de hecho puede ser "contaminado" por errores de numéricos.

Se obtuvo que:

- La "derivada derecha" converge *linealmente* al $h\to 0$ al valor correcto de la derivada, es decir, el error es proporcional a $\mathcal{O}(h)$. Sin embargo, para valores *suficientemente* pequeños de $h$, el valor obtenido de la derivada deja de tener sentido ya que se pierde exactitud.

- La "derivada simétrica" converge *cuadráticamente*, es decir, el error escala como $\mathcal{O}(h^2)$. Al igual que la derivada derecha, para $h$ suficientemente pequeña los errores "de cancelación" debidos a la diferencia en la definición hacen que el resultado pierda sentido.

- La definición de la "derivada compleja" también converge *cuadráticamente*. A diferencia de las dos definiciones anteriores *no* exhibe problemas al considerar valores de $h$ muy pequeños; esto se debe a que no involucra diferencias que dan lugar a errores de cancelación.

Los puntos anteriores muestran que, la manera de implementar un algoritmo (concreto) cualquiera en la computadora es importante respecto a cuestiones de la convergencia y del manejo de errores numéricos. En este sentido, la "derivada compleja" da el resultado que más se acerca al exacto, incluso para valores de $h \sim 10^{-16}$.

La pregunta es si podemos ir más allá y obtener el valor exacto con números de punto flotante, esto es, el que más se acerca al valor obtenido con números reales, excepto por cuestiones de redondeo.

# Diferenciación automática (o algorítmica)

Citando a [wikipedia](https://en.wikipedia.org/wiki/Automatic_differentiation): 

> ``Automatic differentiation (AD), also called algorithmic differentiation or computational differentiation, is a set of techniques to numerically evaluate the derivative of a function specified by a computer program.''

Diferenciación automática **no es** diferenciación numérica. Está basada en cálculos numéricos (evaluación de funciones por la computadora), pero **no** usa ninguna de las definiciones por diferencias finitas, como las que vimos la clase anterior.

Para ilustrar su funcionamiento, empezaremos recordando cómo funcionan los números complejos: $z = a + \mathrm{i} b$. Como bien sabemos, `a` es la parte real y `b` es la parte imaginaria de `z`.

Uno puede definir todas las operaciones aritméticas de la manera natural (a partir de los números reales), manteniendo las expresiones con $\mathrm{i}$ factorizada. En el caso de la multiplicación y división, simplemente recordamos que $\mathrm{i}^2=-1$.

Por ejemplo, para $z = a + \mathrm{i} b$ y $w = c + \mathrm{i} d$, tenemos que, 

\begin{eqnarray*}
z + w & = & (a + \mathrm{i} b) + (c + \mathrm{i} d) = (a + c) + \mathrm{i}(b + d),\\
z \cdot w & = & (a + \mathrm{i} b)\cdot (c + \mathrm{i} d) \\
  & = & ac + \mathrm{i} (ad+bc) + \mathrm{i}^2 b d\\
 & = & (ac - b d) + \mathrm{i} (ad+bc).
\end{eqnarray*}

Por último, vale también la pena recordar que, $\mathbb{C}$ es *isomorfo* a $\mathbb{R}^2$, esto es, hay un mapeo biyectivo de $ z \leftrightarrow (a, b)$.

Volviendo a la cuestión de la diferenciación automática, la idea es introducir un par ordenado donde la primer componente es el valor de una función $f(x)$ evaluada en $x_0$, y la segunda es el valor de su derivada evaluada
en el mismo punto. Esto es, definimos a los *duales* como:

\begin{equation}
\vec{f}(x_0) = \big( f_0, f'_0\big) = \big( f(x_0), f'(x_0)\big) = f_0 + \hat{\mathbf{h}}\, f'_0,
\end{equation}

donde $f_0 = f(x_0)$ y $f'_0=\frac{d f}{d x}(x_0)$ y, en la segunda igualdad, $\hat{\mathbf{h}}$ sirve para indicar la segunda componente del par ordenado. (En un sentido que se precisará más adelante, $\hat{\mathbf{h}}$ se comporta de una manera semejante a $\mathrm{i}$ para los números complejos, distinguiéndose en el valor de $\hat{\mathbf{h}}^2$.)

En particular, para la función constante $f(x)=c$ se cumple que el dual asociado es $\vec{c}(x_0)=(c,0)$, y para la función identidad $f(x)=x$ obtenemos $\vec{x}(x_0)=(x_0,1)$. Vale la pena aquí enfatizar que la función identidad es precisamente la variable independiente, respecto a la que estamos derivando.

---

## Ejercicio 1

Implementen una nueva estructura paramétrica (`type`) que llamaremos `Dual` y que defina los duales, donde el parámetro debe ser un subtipo de `Real`; la siguiente celda sirve para empezar. La parte que identifica a $f_0$ será llamada `fun`, y la correspondiente a $f'_0$ será `der`.

La definición debe incluir métodos que sean compatibles con las dos propiedades arriba mencionadas, es decir, que el dual de una constante (cualquier número real) sea $(c,0)$, y que el de la variable independiente sea $(x_0,1)$. Para lo segundo definiremos una función `xdual` con la propiedad mencionada.

In [1]:
"""
    Dual{T<:Real}

Definición de los duales, donde lo campos son:
...
"""
type Dual{}
    # código: 
end

In [None]:
#= 
Definan un método que permita la promoción automática cuando 
las entradas para definir el dual no son del mismo tipo
=#


In [None]:
#= 
Aquí se define un método que garantiza que el dual de una constante 
(número) cumple lo requerido
=#


In [None]:
#= 
Aquí se define la función `xdual`, que se usará para identificar 
la variable independiente. La función dependerá de x_0, y debe 
regresar el Dual apropiado a la variable independiente
=#

"""
    xdual(x0) -> Dual(x0, 1)

...
"""
function xdual(x0)
    # código
end

In [None]:
#= 
Muestren que su código funciona con tests adecuados para crear duales,
para promoverlos, y al definir el dual de un número y `xdual`.

En esto es útil usar la infraestructura de Julia; ver:
https://julia.readthedocs.io/en/stable/stdlib/test/

using Base.Test

a = Dual(1, 2.0)
@test a.fun == 1.0
@test a.der == 2.0

=#



---

# Aritmética de duales

De la definición, y recordando el significado de cada una de las componentes del par doble, tenemos que las operaciones aritméticas quedan definidas por:

\begin{eqnarray}
    \vec{u} \pm \vec{w} &=& \big( u_0 \pm w_0, \, u'_0\pm w'_0 \big),\\
    \vec{u} \times \vec{w} &=& \big( u_0 \cdot w_0,\, u_0 w'_0 +  w_0 u'_0 \big),\\
    \frac{\vec{u}}{\vec{w}} &=& \big( \frac{u_0}{w_0},\, \frac{ u'_0 - (u_0/w_0)w'_0}{w_0}\big),\\
    {\vec{u}}^\alpha &=& \big( u_0^\alpha,\, \alpha u_0^{\alpha-1} u'_0 \big).\\
\end{eqnarray}    

Noten que las dos últimas operaciones son compatibles con $\hat{\mathbf{h}}^2=0$.

Además, están los operadores unitarios, que satisfacen:
\begin{equation}
    \pm \vec{u} = \big(\pm u_0, \pm u'_0 \big).
\end{equation}    



---

## Ejercicio 2

Implementen *todas* las operaciones aritméticas definidas arriba. Estas operaciones deben incluir las operaciones aritméticas que involucran un número cualquiera (`a :: Real`) y un dual (`b::Dual`), como por ejemplo `a+b` o `b+a`, etc. Esto se puede hacer implementando los métodos específicos para estos casos (¡y que sirven en cualquier órden!). 

Implementen también la comparación entre duales (`==`). 

Incluyan tests que muestren que cada una de ellas está bien definida, y que sus resultados dan valores consistentes.

In [1]:
import Base: +, -, *, /, ^, ==

#= 
Aquí se implementan los métodos necesarios para cada función; 
en el caso de ^ por ahora nos conformaremos con que la potencia 
sea entera.
=#



In [None]:
# Aquí se incluyen las pruebas necesarias


---

# Entendiendo los Duales

Ahora probaremos la infraestructura que han desarrollado. En particular, usaremos la misma función que se utilizó en la clase anterior:

```julia
    ftest(x) = 3x^3 - 2,
```

y la idea es calcular la derivada en $x_0=1$.

In [None]:
ftest(x) = 3*x^3 - 2

Para obtener la derivada en $x_0=1$ evaluamos `ftest` en `xdual(1)`:

In [None]:
ftest( xdual(1) )

In [None]:
# Del resultado anterior, obtengan el valor de la derivada

Consideremos otra función racional:

```julia
    gtest(x) = (3x^2-8x+5)/(7x^3-1)
```

cuya derivada queremos calcular en $x_0=1$. Según [WolframAlpha](http://www.wolframalpha.com/input/?i=D%5B+%283x%5E2-8x%2B5%29%2F%287x%5E3-1%29+%2C+x+%5D+%2F.+x-%3E+1), el resultado exacto es $-1/3$.


In [None]:
gtest(x) = (3x^2-8x+5)/(7x^3-1)

In [None]:
gtest( xdual(1) )

El resultado anterior es la representación en números de punto flotante de $-1/3$. La pregunta es si podemos obtener
el resultado exacto.

In [None]:
# Evalúen `gtest` de manera que el resultado sea el exacto



Para entender cómo funciona esto, evaluaremos explícitamente y paso a paso `gtest(x)` en $\vec{x_0} = (1,1)$. Sustituímos $\vec{x_0}$ en `gtest`:

\begin{equation}
\vec{g}_\textrm{test}(\vec{x_0}) = \frac{\vec{3}\cdot{\vec{x_0}}^2-\vec{8}\cdot\vec{x_0}+\vec{5}}{\vec{7}\cdot{\vec{x_0}}^3-\vec{1}},
\end{equation}


esto es,

\begin{eqnarray}
\vec{g}_\textrm{test}(\vec{x_0}) & = & 
\frac{3\cdot{(1,1)}^2-8\cdot(1,1)+5}{7\cdot{(1,1)}^3-1}\\\\
& = & \frac{3\cdot(1,2)-8\cdot(1,1)+5}{7\cdot(1,3)-1}
\end{eqnarray}


\begin{equation}
\vec{g}_\textrm{test}(\vec{x_0}) = 
\frac{ (3,6)-(8,8)+(5,0)}{(7,21)-(1,0)} = 
\frac{ \Big(3-8+5, 6-8\Big)}{\Big( 7-1,21\Big)} = 
\frac{ \Big(0, -2\Big)}{\Big( 6,21\Big)} 
\end{equation}

\begin{equation}
\vec{g}_\textrm{test}(\vec{x_0}) = 
\Big(\frac{0}{6}, \frac{(-2)-21\cdot(0/6)}{6} \Big) = 
\Big(0, -\frac{1}{3}\Big). \\\\
\Box
\end{equation}


# Modulos y "runtests.jl" en julia

## Ejercicio 3

Para reutilizar el código que han hecho en este notebook, y de hecho seguirlo desarrollando, conviene ponerlo dentro de un módulo. Para hacer esto, deberán copiar todo el código necesario (y que aparece en la resolución de los ejercicios anteriores) en un archivo cuyo nombre será "AutomDiff.jl" y cuya estructura será la siguiente

```julia
#=
Aquí viene una explicación de lo que se hace en el módulo, 
los autores y la fecha
=#

# La siguiente instrucción sirve para *precompilar* el módulo
__precompile__(true)

module AD
    import Base: +, -, *, /, ^, ==
    
    export Dual, xdual
    
    # Aquí viene TODO el código que implementaron.
    # Primero uno incluye la definición de Dual y
    # después las operaciones con Duales.
    ...

end
```

Todas las pruebas deberán ser incluidas en un archivo separado llamado "runtest.jl", y su estructura es:

```julia
# Este archivo incluye los tests del módulo AD
include("AutomDiff.jl")
using Base.test
using AD

# A continuación vienen los tests que implementaron y que deben 
# ser suficientemente exhaustivos
...

```

Estos dos archivos deben incluirlos en el envío de su tarea (además del archivo `Tarea3.ipynb`).