In [1]:
%matplotlib inline


Una suave introducción a ``torch.autograd``
---------------------------------

``torch.autograd`` es el motor de diferenciación automática de PyTorch que impulsa
entrenamiento de redes neuronales. En esta sección, obtendrá una descripción
comprensión de cómo el autogrado ayuda a entrenar una red neuronal.

Background
~~~~~~~~~~
Las redes neuronales (NN) son una colección de funciones anidadas que se ejecutan en algunos datos de entrada. Estas funciones están definidas por parámetros (que consisten en pesos y sesgos), que en PyTorch se almacenan en tensores.

El entrenamiento de un NN ocurre en dos pasos:

**Forward Propagation(Propagación hacia adelante)**: en el apoyo hacia adelante, el NN hace su mejor 
conjetura sobre la salida correcta. Ejecuta los datos de entrada a través de 
cada una de sus funciones para realizar esta conjetura.

**Backward Propagation(Propagación hacia atrás)**:  : en backprop, el NN ajusta sus parámetros
proporcionalmente al error en su conjetura. Para ello, realiza un recorrido 
hacia atrás desde la salida, recopila las derivadas del error con respecto a 
los parámetros de las funciones ( gradientes ) y optimiza los parámetros 
mediante el descenso de gradiente. Para obtener un tutorial más detallado de 
backprop, vea este video de 3Blue1Brown .<https://www.youtube.com/watch?v=tIeHLnjs5U8>`__.




Uso en PyTorch
~~~~~~~~~~~
Echemos un vistazo a un solo paso de entrenamiento. 
Para este ejemplo, cargamos un modelo resnet18 previamente entrenado de 
``torchvision``.
Creamos un tensor de datos aleatorios para representar una sola imagen con 3
canales, y alto y ancho de 64, y su correspondiente ``label``inicializado a
algunos valores aleatorios.

Importante
~~~~~~~~~~~
Este tutorial funciona solo en CPU y no funcionará en GPU (incluso si el tensor se mueve a CUDA).



In [2]:
import torch, torchvision
model = torchvision.models.resnet18(pretrained=True)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /home/monky/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth


  0%|          | 0.00/44.7M [00:00<?, ?B/s]

*A continuación*, ejecutamos los datos de entrada a través del modelo a través de cada una de sus capas para hacer una predicción.
Este es el **pase hacia adelante**.



In [3]:
prediction = model(data) # forward pass

Usamos la predicción del modelo y la etiqueta correspondiente para calcular el error (``loss``).
El siguiente paso es propagar este error a través de la red.

La propagación hacia atrás se inicia cuando llamamos a ``.backward()`` en el tensor de error.

Luego, Autograd calcula y almacena los gradientes para cada parámetro del modelo en el atributo ``.grad`` del parámetro.




In [4]:
loss = (prediction - labels).sum()
loss.backward() # backward pass

A continuación, cargamos un optimizador, en este caso SGD con una tasa de aprendizaje de 0.01 y [momentum](https://towardsdatascience.com/stochastic-gradient-descent-with-momentum-a84097641a5d) de 0,9.
Registramos todos los parámetros del modelo en el optimizador.



In [5]:
optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

Finalmente, llamamos ``.step()``a iniciar el descenso de gradiente. El optimizador ajusta cada parámetro por su gradiente almacenado en ``.grad``.




In [6]:
optim.step() #desenso de gradiente

En este punto, tienes todo lo que necesitas para entrenar tu red neuronal. Las siguientes secciones detallan el funcionamiento de autograduación; siéntase libre de omitirlas.

--------------




Diferenciación en Autograd
~~~~~~~~~~~~~~~~~~~~~~~~~~~
Echemos un vistazo a cómo``autograd`` recopila los degradados. Creamos dos tensores ``a`` y ``b`` con
``requires_grad=True``. Esto indica ``autograd`` que se debe realizar un seguimiento de cada operación en ellos.

In [7]:
import torch

a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)

Creamos otro tensor a ``Q`` partir de ``a`` y ``b``.

\begin{align}Q = 3a^3 - b^2\end{align}



In [8]:
Q = 3*a**3 - b**2

Supongamos que ``a`` y ``b``son parámetros de un NN, y``Q``
es el error. En el entrenamiento NN, queremos gradientes de los parámetros wrt de error, es decir

\begin{align}\frac{\partial Q}{\partial a} = 9a^2\end{align}

\begin{align}\frac{\partial Q}{\partial b} = -2b\end{align}


Cuando llamamos ``.backward()`` a ``Q``, autograd calcula estos gradientes y los almacena en los respectivos tensores ``.grad`` atributo.

Necesitamos pasar explícitamente un ``gradient`` argumento ``Q.backward()`` porque es un vector
``gradient`` es un tensor de la misma forma que ``Q``,y representa el
degradado Q w.r.t. de sí mismo, es decir

\begin{align}\frac{dQ}{dQ} = 1\end{align}

De manera equivalente, también podemos agregar Q en un escalar y llamar hacia atrás implícitamente, como ``Q.sum().backward()``.




In [9]:
external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

Los degradados ahora se depositan en ``a.grad`` y ``b.grad``



In [10]:
# comprobar si los gradientes recopilados son correctos
print(9*a**2 == a.grad)
print(-2*b == b.grad)

tensor([True, True])
tensor([True, True])


Lectura opcional: cálculo vectorial usando ``autograd``

^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

Matemáticamente, si tienes una función con valor vectorial
$\vec{y}=f(\vec{x})$, luego el gradiente de $\vec{y}$ con respecto a
 $\vec{x}$ es una matriz jacobiana $J$:

\begin{align}J
     =
      \left(\begin{array}{cc}
      \frac{\partial \bf{y}}{\partial x_{1}} &
      ... &
      \frac{\partial \bf{y}}{\partial x_{n}}
      \end{array}\right)
     =
     \left(\begin{array}{ccc}
      \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}}\\
      \vdots & \ddots & \vdots\\
      \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}
      \end{array}\right)\end{align}

En terminos generales, ``torch.autograd`` es un prodructo  vectorial-jacobiano. Es decir dado cualquier vector $\vec{v}$, calcula el producto
$J^{T}\cdot \vec{v}$

Si $\vec{v}$ pasa a ser el gradiente de funcion escalar $l=g\left(\vec{y}\right)$:

\begin{align}\vec{v}
   =
   \left(\begin{array}{ccc}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right)^{T}\end{align}

luego, por regla de cadena, el producto vectorial-jacobiano seria el gradiente de $l$ con respecto a $\vec{x}$:

\begin{align}J^{T}\cdot \vec{v}=\left(\begin{array}{ccc}
      \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{1}}\\
      \vdots & \ddots & \vdots\\
      \frac{\partial y_{1}}{\partial x_{n}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}
      \end{array}\right)\left(\begin{array}{c}
      \frac{\partial l}{\partial y_{1}}\\
      \vdots\\
      \frac{\partial l}{\partial y_{m}}
      \end{array}\right)=\left(\begin{array}{c}
      \frac{\partial l}{\partial x_{1}}\\
      \vdots\\
      \frac{\partial l}{\partial x_{n}}
      \end{array}\right)\end{align}

Esta característica del producto vector-jacobiano es lo que usamos en el ejemplo anterior;
``external_grad`` representa $\vec{v}$.




In [5]:
#ejemplo:

weights = torch.ones(4, requires_grad = True)

for epocg in range(3):
    model_output = (weights*3).sum()
    
    model_output.backward()
    
    print(weights.grad)
    
    #podemos reiniciar los pesos con
    #weights.grad.zero_()

tensor([3., 3., 3., 3.])
tensor([6., 6., 6., 6.])
tensor([9., 9., 9., 9.])


Gráfico computacional
~~~~~~~~~~~~~~~~~~~

Conceptualmente, autograd mantiene un registro de datos (tensores) y todas las
operaciones ejecutadas (junto con los nuevos tensores resultantes) en un
gráfico acíclico dirigido (DAG) que consta de objetos de
`Función <https://pytorch.org/docs/stable/autograd.html#torch.autograd.Function>`__
En este DAG, las hojas son los tensores de entrada, las raíces son los tensores
de salida. Al trazar este gráfico desde las raíces hasta las hojas, puede 
calcular automáticamente los gradientes usando la regla de la cadena.

En un pase adelantado, autograd hace dos cosas simultáneamente:

- ejecutar la operación solicitada para calcular un tensor resultante, y
- mantener la función de gradiente de la operación en el DAG.

El pase hacia atrás comienza cuando ``.backward()``se llama en la raíz del DAG. ``autograd`` Entoneces:

- calcula los gradientes de cada uno``.grad_fn``,
- los acumula en el ``.grad``atributo del tensor respectivo , y
- utilizando la regla de la cadena, se propaga hasta los tensores foliares.

A continuación se muestra una representación visual del DAG en nuestro ejemplo.
En el gráfico, las flechas están en la dirección del pase hacia adelante. Los 
nodos representan las funciones hacia atrás de cada operación en el pase hacia 
adelante. Los nodos de hojas en azul representan nuestros tensores de hojas 
``a`` and ``b``.

.. Figura: /_static/img/dag_autograd.png

<div class="alert alert-info"><h4>NOTA</h4><p>**Los DAG son dinámicos en PyTorch.**
Una cosa importante a tener en cuenta es que el gráfico se recrea desde cero; después de cada 
``.backward()``llamada, autograd comienza a completar un nuevo gráfico. Esto es
exactamente lo que le permite utilizar declaraciones de flujo de control en su
modelo; puede cambiar la forma, el tamaño y las operaciones en cada iteración
si es necesario.</p></div>

Exclusión del DAG
^^^^^^^^^^^^^^^^^^^^^^

``torch.autograd``rastrea las operaciones en todos los tensores que tienen su 
``requires_grad`` bandera establecida en ``True``.
Para tensores que no requieren gradientes, configurar este atributo para  ``False`` excluirlo del DAG
de cálculo de gradiente.
El tensor de salida de una operación requerirá gradientes incluso si solo tiene un tensor de entrada ``requires_grad=True``.




In [11]:
x = torch.rand(5, 5)
y = torch.rand(5, 5)
z = torch.rand((5, 5), requires_grad=True)

a = x + y
print(f"¿`a` requiere gradientes? : {a.requires_grad}")
b = x + z
print(f"¿`b` requiere gradientes?: {b.requires_grad}")

Does `a` require gradients? : False
Does `b` require gradients?: True


En una NN, los parámetros que no calculan gradientes generalmente se denominan **parámetros congelados**.
Es útil "congelar" parte de su modelo si sabe de antemano que no necesitará los 
gradientes de esos parámetros (esto ofrece algunos beneficios de rendimiento al 
reducir los cálculos de autogrado).

Otro caso de uso común donde la exclusión del DAG es importante es para
`ajustar una red previamente capacitada <https://pytorch.org/tutorials/beginner/finetuning_torchvision_models_tutorial.html>`__

En el ajuste fino, congelamos la mayor parte del modelo y, por lo general, solo 
modificamos las capas del clasificador para hacer predicciones en nuevas 
etiquetas. Veamos un pequeño ejemplo para demostrarlo. Como antes, cargamos un 
modelo resnet18 previamente entrenado y congelamos todos los parámetros.


In [12]:
from torch import nn, optim

model = torchvision.models.resnet18(pretrained=True)

# Freeze all the parameters in the network
for param in model.parameters():
    param.requires_grad = False

Digamos que queremos ajustar el modelo en un nuevo conjunto de datos con 10 etiquetas. En resnet, el clasificador es la última capa lineal ``model.fc``.
Simplemente podemos reemplazarlo con una nueva capa lineal (descongelada por defecto) que actúa como nuestro clasificador.

In [13]:
model.fc = nn.Linear(512, 10)

Ahora todos los parámetros del modelo, excepto los parámetros de ``model.fc``, estan congeladas.
Los únicos parámetros que calculan los gradientes son los pesos y el sesgo de ``model.fc``.



In [14]:
# Optimize only the classifier
optimizer = optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

Observe que, aunque registramos todos los parámetros en el optimizador, los únicos parámetros que calculan gradientes (y, por lo tanto, se actualizan en el descenso de gradientes)
son los pesos y el sesgo del clasificador.

La misma funcionalidad de exclusión está disponible como administrador de contexto en
`torch.no_grad() <https://pytorch.org/docs/stable/generated/torch.no_grad.html>`__




--------------




Lecturas adicionales:
~~~~~~~~~~~~~~~~~~~

-  `Operaciones in situ y autogrado multiproceso <https://pytorch.org/docs/stable/notes/autograd.html>`__
-  `Implementación de ejemplo de autodiff en modo inverso <https://colab.research.google.com/drive/1VpeE6UvEPRz9HmsHh1KS0XxXjYu533EC>`__



Gracias A:
----------------
Documentacion oficial de pytorch:
    
Traducido por: Mi :)