# PyTorch: Variable, Gradientes e Grafo Computacional

## Atualizando para usar Tensores com `requires_grad=True`

A classe `Variable` foi descontinuada no PyTorch. Agora, a funcionalidade de rastreamento de gradiente est√° integrada diretamente aos tensores. Para habilitar o c√°lculo autom√°tico de gradientes para um tensor, defina o par√¢metro `requires_grad` como `True` durante a cria√ß√£o do tensor ou use o m√©todo `.requires_grad_(True)`.

## Objetivos

Este notebook introduz
- o conceito de `Variables` do PyTorch,
- uma interpreta√ß√£o num√©rica intuitiva do gradiente, e o
- grafo computacional, utilizado para o c√°lculo autom√°tico do gradiente de uma fun√ß√£o.

Um dos principais fundamentos para que o PyTorch seja adequado para deep learning √© a sua habilidade de
calcular o gradiente automaticamente a partir da express√µes definidas. Essa facilidade √© implementada
pelo tipo Variable do PyTorch, que adiciona ao tensor a facilidade de c√°lculo autom√°tico do gradiente pela constru√ß√£o din√¢mica do grafo computacional.

## Grafo computacional

```
    y_pred = x * w
    e = y_pred - y
    e2 = e**2
    J = e2.sum()
```

![alt text](https://raw.githubusercontent.com/vcasadei/images/master/GrafoComputacional.png)

Variable possui 3 campos: o dado em si (data), o gradiente (grad) e um apontador (creator) para construir o grafo da backpropagation. Uma express√£o utilizada para o c√°lculo do gradiente exige que todas suas express√µes sejam calculadas com Variables, caso contr√°rio n√£o √© poss√≠vel construir o grafo computacional.

![alt text](https://raw.githubusercontent.com/vcasadei/images/master/variables.png)

In [1]:
import torch
# from torch.autograd import Variable # Variable is deprecated

## Variable √© criada a partir de um tensor e possui as mesmas funcionalidades

In [2]:
y_t = 2 * torch.arange(0.,4.)
y = y_t; y # Use tensor directly

tensor([0., 2., 4., 6.])

In [3]:
x = torch.arange(0.,4.); x # Use tensor directly

tensor([0., 1., 2., 3.])

In [4]:
w = torch.ones(1, requires_grad=True); w # Use tensor with requires_grad=True

tensor([1.], requires_grad=True)

## C√°lculo autom√°tico do gradiente da fun√ß√£o perda J

Seja a express√£o: $$ J = ((x  w) - y)^2 $$

Queremos calcular a derivada de $J$ em rela√ß√£o a $w$.

### Montagem do grafo computacional

In [5]:
# predict (forward)
y_pred = x * w

# c√°lculo da perda J: loss
e = y_pred - y
e2 = e.pow(2)
J = e2.sum()
J

tensor(14., grad_fn=<SumBackward0>)

## Auto grad - processa o grafo computacional backwards

O `backward()` varre o grafo computacional a partir da vari√°vel a ele associada e calcula o gradiente para todas as `Variables` que possuem o atributo `requires_grad` como verdadeiro.
O `backward()` destroi o grafo ap√≥s sua execu√ß√£o. Isso √© intr√≠nsico ao PyTorch pelo fato dele ser uma rede din√¢mica.

In [6]:
J.backward()
print(w.grad)

tensor([-28.])


In [7]:
w.grad.data.zero_();

## Interpreta√ß√£o do Gradiente

O gradiente de uma vari√°vel final (J) com respeito √† outra vari√°vel de entrada (w) pode ser interpretado como o quanto a vari√°vel final J vai aumentar se houver um pequeno aumento na vari√°vel de entrada (w).
Por exemplo suponha que o gradiente seja 28. Isto significa se aumentarmos a vari√°vel w de 0.001, ent√£o J vai aumentar de 0.028.

In [8]:
eps = 0.001
y_pred = x * (w+eps)
J_new = (y_pred - y).pow(2).sum()
J_new

tensor(13.9720, grad_fn=<SumBackward0>)

In [9]:
print((J_new - J).data.numpy())

-0.027988434


## Back propagation

Uma forma equivalente expl√≠cita de calcular o gradiente √© fazendo o processamento do backpropagation no grafo computacional, de forma expl√≠cita.
Apenas como ilustra√ß√£o.

Fun√ß√£o de perda:
$$ J(\hat{y_i},y_i) = \frac{1}{M} \sum_{i=0}^{M-1} (\hat{y_i} - y_i)^2 $$

Gradiente:
$$  \mathbf{\nabla{J_w}} = \frac{2}{M}\mathbf{x^T}(\mathbf{x w^T} - \mathbf{y}) $$

Atualiza√ß√£o dos par√¢metros pelo gradiente descendente:
$$ \mathbf{w} = \mathbf{w} ‚àí \eta (\mathbf{\nabla J_w})^T $$

In [10]:
import numpy as np

dJ = 1.
de2 = dJ * np.ones((4,))
de = de2 * 2 * e.data.numpy()
dy_pred = de
dw = (dy_pred * x.data.numpy()).sum()
print(dJ)
print(de2)
print(de)
print(dw)

1.0
[1. 1. 1. 1.]
[ 0. -2. -4. -6.]
-28.0


# Exerc√≠cios

## Quest√µes

1. O que acontece com o grafo computacional ap√≥s execu√ß√£o do `backward()`?
>  Ap√≥s executar o PyTorch percorre todo o grafo computacional de tr√°s para frente, acumulando em cada tensor. Depois de calcular todos os gradientes, o PyTorch descarta o grafo, liberando a mem√≥ria.

## Atividades

1. Execute um passo de atualiza√ß√£o do valor de w, pelo
gradiente descendente. Utilize um fator de aprendizado (*learning rate*) de 0.1
para atualizar o `w`. Ap√≥s, recalcule a fun√ß√£o de perda:

    - w = w - lr * w.grad.data
    - execute a c√©lula 1.3.1 e verifique o quanto que a perda J diminuiu
    

In [11]:
# Passo 1: atualizar w
lr = 0.1
w.data = w.data - lr * w.grad.data

# Passo 2: zerar gradiente
w.grad.data.zero_()

# Passo 3: recalcular J
y_pred = x * w
J = (y_pred - y).pow(2).sum()
print("Nova Loss J:", J.item())

Nova Loss J: 14.0


# Aprendizados com este notebook

1. Tensors com requires_grad=True

O PyTorch utiliza tensores que armazenam n√£o apenas valores num√©ricos, mas tamb√©m gradientes.

Quando requires_grad=True, o PyTorch registra as opera√ß√µes para construir um grafo computacional.

2. Grafo computacional

Cada opera√ß√£o matem√°tica cria n√≥s no grafo.

Esse grafo representa a cadeia de opera√ß√µes necess√°rias para calcular o gradiente da fun√ß√£o final.

Ap√≥s chamar backward(), o grafo √© destru√≠do para economizar mem√≥ria.

3. Gradiente num√©rico

Utilizando pequenas perturba√ß√µes Œµ √© poss√≠vel aproximar o gradiente numericamente:

ùëì( ùë§ + ùúÄ)
‚àí
ùëì
(
ùë§
)
ùúÄ
Œµ
f(w+Œµ)‚àíf(w)
	‚Äã


Isso serve para verificar se o gradiente anal√≠tico/autograd est√° correto.

4. Autograd e backward()

O PyTorch calcula automaticamente os gradientes usando backpropagation.

O gradiente aparece em w.grad.

Os gradientes s√£o acumulados, por isso devem ser zerados antes de novo passo.

5. Gradiente descendente manual

A atualiza√ß√£o de pesos pode ser feita manualmente:

ùë§
:
=
ùë§
‚àí
ùúÇ
‚ãÖ
‚àÇ
ùêΩ
‚àÇ
ùë§
w:=w‚àíŒ∑‚ãÖ
‚àÇw
‚àÇJ
	‚Äã


Isso permite aprender como frameworks funcionam internamente, antes de usar otimizadores mais avan√ßados.