### Autograds

Cada tensor tiene un parámetro booleano ```requires_grad``` que nos permitirá excluir o incluir la construcción de gráficos de dependencia para hacer debugging de las gradientes de nuestro algoritmos.  Si alguno de los tensores necesita ser diferenciado, entonces tendremos que activar este parámetro antes. El poder activar y desactivar gradientes en ciertos tensores nos permite "congelar" ciertos layers en las redes neuronales, para poder re-entrenar un modelo (finetuning).

Tal como se mencionó antes, nos sirve para crear gráficos de dependecia pero ¿Por qué esto es necesario? Cuando hacemos la optimización de nuestro algoritmo descenso de la gradiente, y **tener un registro de las gradientes** nos permite hacer esto, es decir, hacer un seguimiento de los errores a través de la red.

Entonces, recordemos que en una red neuronal pasan dos cosas: 

- Forward Propagation: La red neuronal hace su mejor predicción y pasa todos los datos del input a través de las neuronas y capas que contenga, con el fin de hacer su mejor predicción.

- Backward Propagation: La red neuronal propaga el error a través de las derivadas y debe de tener una colección de ellas (date cuenta en este caso es necesita el ``requires_grad`` activo) optimizando los parámetros usando el descenso de la gradiente. En este sentido, torch.autograd es una herramienta para computar vectorialmente una matriz producto Jacobiana.

In [48]:
import torch
from mlp_mnist_model import MLP #Es necesario tener la estructura del algoritmo en un archivo aparte.

#Cargamos nuestro modelo
model = torch.load('mnist_model.pt')

#Cargamos datos generados de manera aleatoria (Solo para actualizar los parámetros)
data = torch.rand(64, 784) #Tendré 64 muestras de un tensor de 784 (lo q acepta mi red)
labels = torch.rand(64, 10) #Los labels con probabilidades 

In [51]:
#Predecimos para ver qué tanto nuestro algoritmo clasifica el ruido
output = model(data)
pred = torch.argmax(output, dim=1)

#Vamos a definir la pérdida (loss) de la sgte manera
loss = (output - labels).sum()

In [53]:
loss.backward()

In [54]:
#Definimos un optimizador
optim = torch.optim.SGD(model.parameters(), lr= 1e-2, momentum= 0.9)
#Inicializamos el descenso de la gradiente
optim.step()