# Diferenciação automática (autograd)
- Essa é uma das grandes vantagens do framework: derivar qualquer função automáticamente
- Nem precisa dizer o quão útil isso é para aplicarmos os algoritmos baseados em descida do gradiente

In [None]:
import torch

## Exemplo 1:

In [None]:
x = torch.randn(3, requires_grad=True)
x

- O atributo `requires_grad=True` informa ao Pytorch que é necessário fazer o tracking dessa variável para calcular alguma derivada
- O padrão é que seja `False`

In [None]:
y = x + 2
y

- Observe que o Pytorch cria automaticamente um `grad_fn=<AddBackward0>`
- Isso é o grafo automático para calculo de $\frac{\partial y}{\partial x}$
- O valor que já é armazenado para `y` é por conta da forward pass, que é o resultado da operação

In [None]:
z = y*y*2
z = z.mean()
z

- Agora, observe que a função automática mudou para `MeanBackward0`, que é a operação final de `z`

- Agora, se quisermos calcular o gradiente, a única coisa que precisamos fazer é chamar o método `backward()` na função final que desejamos calcular o gradiente
    - Essa ideia vem do backpropagation que discutimos na última aula

In [None]:
z.backward()

- Agora, podemos obter o gradiente $\frac{\partial z}{\partial x}$ da seguinte forma:

In [None]:
x.grad

- Esse valor é obtido através do grafo automático que foi criado
- **Obs:** se tentarmos obter o gradiente sem nenhum `requires_grad` setado, vamos obter um erro

## Exemplo 2:

In [None]:
x = torch.tensor(1.0, requires_grad=True)
y = torch.tensor(2.0, requires_grad=True)
z = 2*x + y**2

In [None]:
z

In [None]:
z.backward()

In [None]:
x.grad

In [None]:
y.grad

## Removendo a obrigatoriedade de calcular o gradiente
- Temos 3 opções

In [None]:
x.requires_grad = False
x

In [None]:
x.detach()

In [None]:
x = torch.tensor(1.0, requires_grad=True)
with torch.no_grad():
    y = 2*x

y

In [None]:
y = 2*x
y

## Zerando o valor dos gradientes
- Por padrão, os gradientes são acumulados dentro do atributo `grad`

In [None]:
w = torch.ones(4, requires_grad=True)

for ep in range(4):
    loss = (w * 3).sum()
    loss.backward()

    print(w.grad)

- A maneira de solucionar esse comportamento é zerando os gradientes após o loop
- Isso é importante quando fizermos nosso loop de treinamento

In [None]:
w = torch.ones(4, requires_grad=True)

for ep in range(3):
    loss = (w * 3).sum()
    loss.backward()

    print(w.grad)

    w.grad.zero_()

# Indo mais a fundo
- Se você quiser entender mais a fundo como é construído o grafo para a derivação automática, sugiro que assita o vídeo a seguir:

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('MswxJw-8PvE', width=600, height=400)