# Diferenciación automática

La diferenciación automática es un método para evaluar derivadas de funciones representadas como programas <a href="https://arxiv.org/abs/1502.05767">[Automatic Differentiation in Machine Learning: a Survey, Baydin et. al, 2018]</a>.

<img src="difaut1.png"/>

In [1]:
import torch as th
from torch import nn

import numpy as np
import matplotlib.pyplot as plt

th.manual_seed(42)
np.random.seed(42)

## Clase Parameter

La clase <tt>Parameter</tt> del módulo <tt>nn</tt> de PyTorch define una subclase de <tt>Tensor</tt> que se emplea comúnmente para representar los parámetros que modifican los algoritmos de aprendizaje para generar un modelo. Las instancias de <tt>Parameter</tt> que se definen dentro de una subclase de <tt>Module</tt> del módulo de <tt>nn</tt> se agregan a su lista de parámetros a optimizar.

El constructor de la clase <tt>Parameter</tt> recibe un tensor como argumento con el que se crea la instancia.

In [2]:
print('Con un tensor de ceros')
print(nn.parameter.Parameter(th.zeros(10,5)))
print('Con un tensor aleatorio')
print(nn.parameter.Parameter(th.rand(10,5)))
print('Con un arreglo de NumPy')
nparray1 = np.random.rand(5,5)
print(nn.parameter.Parameter(th.tensor(nparray1)))
print('Con una lista')
print(nn.parameter.Parameter(th.tensor([[1.,2.],[3.,4.]])))

Con un tensor de ceros
Parameter containing:
tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]], requires_grad=True)
Con un tensor aleatorio
Parameter containing:
tensor([[0.8823, 0.9150, 0.3829, 0.9593, 0.3904],
        [0.6009, 0.2566, 0.7936, 0.9408, 0.1332],
        [0.9346, 0.5936, 0.8694, 0.5677, 0.7411],
        [0.4294, 0.8854, 0.5739, 0.2666, 0.6274],
        [0.2696, 0.4414, 0.2969, 0.8317, 0.1053],
        [0.2695, 0.3588, 0.1994, 0.5472, 0.0062],
        [0.9516, 0.0753, 0.8860, 0.5832, 0.3376],
        [0.8090, 0.5779, 0.9040, 0.5547, 0.3423],
        [0.6343, 0.3644, 0.7104, 0.9464, 0.7890],
        [0.2814, 0.7886, 0.5895, 0.7539, 0.1952]], requires_grad=True)
Con un arreglo de NumPy
Parameter containing:
tensor([[0.3745, 0.95

In [3]:
param = th.nn.parameter.Parameter(th.zeros(10,5))

print('Transpuesta:\n', param.T)
print('Suma:\n', param+th.ones_like(param))
print('Multiplicación elemento a elemento:\n', param*th.zeros_like(param))
print('Multiplicación:\n', param @ th.rand_like(param).T)

Transpuesta:
 tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], grad_fn=<PermuteBackward0>)
Suma:
 tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], grad_fn=<AddBackward0>)
Multiplicación elemento a elemento:
 tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]], grad_fn=<MulBackward0>)
Multiplicació

## Diferenciación automática en PyTorch

PyTorch puede diferenciar automáticamente secuencias de operaciones con instancias de <tt>Tensor</tt> o <tt>Parameter</tt>. Para ello se mantiene una gráfica de cómputo, la cual se va generando de manera dinámica conforme se ejecutan operaciones con instancias que tienen la propiedad <tt>requires_grad</tt> en verdadero (solo ten cuidado con las operaciones <i>in-place</i>). Por defecto, todas las instancias de <tt>Parameter</tt> tienen esa propiedad en verdadero y las instancias de <tt>Tensor</tt> en falso.

In [4]:
ten = th.linspace(start=-10, end=10, steps=100)
print(param.requires_grad)
print(ten.requires_grad)

True
False


Es posible cambiar el valor de esta propiedad en una instancia usando el método <tt>requires_grad_</tt> (<i>in-place</i>).

In [5]:
param.requires_grad_(False)
ten.requires_grad_(True)
print(param.requires_grad)
print(ten.requires_grad)

False
True


Para modificar el contenido de una instancia de <tt>Parameter</tt> es necesario especificar que no se registre la operación usando el ámbito <tt>no_grad</tt>.

In [6]:
with th.no_grad():
    param[0,0] = 1
print('Nuevo valor del elemento (0,0) =', param[0,0])

Nuevo valor del elemento (0,0) = tensor(1.)


En general, existen métodos para instancias tanto de <tt>Parameter</tt> como de <tt>Tensor</tt> que modifican el contenido <i>in-place</i>. Los nombres de estos métodos usualmente terminan con un guión bajo. Tal es el caso de <tt>add_</tt> y <tt>mul_</tt>, que suman y multiplican un tensor. Debido a que estas operaciones no deben registrarse cuando las instancias de <tt>Parameter</tt> o <tt>Tensor</tt> tienen <tt>requires_grad = True</tt>, las ejecutamos dentro del ámbito <tt>no_grad</tt>.

In [7]:
with th.no_grad():
    print('Suma matriz de unos a parámetros:', param.add_(th.ones_like(param)))
    print('Resta matriz de unos a parámetros:', param.subtract_(th.ones_like(param)))
    print('Multiplica parámetros por matriz de dos:', param.mul_(2*th.ones_like(param)))

Suma matriz de unos a parámetros: Parameter containing:
tensor([[2., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])
Resta matriz de unos a parámetros: Parameter containing:
tensor([[1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])
Multiplica parámetros por matriz de dos: Parameter containing:
tensor([[2., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0.,

Para obtener el gradiente de una función escalar respecto a un tensor que está siendo contemplado se debe llamar al método <tt>backward</tt>.

Por ejemplo, considera la siguiente función: $$ f(x,y) = 2x^3 + 3y^2 + c$$

Evaluando esta función en $x=2$, $y=3$ y $c=1.0$, tenemos $$ f(2,3) = 2 \cdot (2)^3 + 3 \cdot (3)^2 + 1 = 44$$

Las derivadas parciales evaluadas en estos puntos estarían dadas por $$ \frac{\partial f}{\partial x} = 6x^2 = 6 \cdot (2)^2 = 24$$

$$ \frac{\partial f}{\partial y} = 6(3)  = 18$$

In [8]:
x = th.tensor(2., requires_grad=True)
y = th.tensor(3., requires_grad=True)
c = th.tensor(1.)
f = 2*x**3 + 3*y**2 + c
print(f)
f.backward()

tensor(44., grad_fn=<AddBackward0>)


  Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
