In [22]:
import torch

Per capire come funziona Autograd, definisco un tensore a richiedendo che venga accumulato il gradiente, cioè scrivendo requires_grad=True. Quindi ogni update su a verrà calcolato.

In [23]:
a = torch.tensor([2., 3.], requires_grad=True)

Ora definisco una prima funzione, $Q(a)=a^2$, per la quale la derivata è
$$\frac{\textrm{d}Q}{\textrm{d}a}=2a$$

In [24]:
Q = a**2

Quando chiamo backward(), autograd calcola questo gradiente e lo immagazzina in a.grad. Quindi mi aspetto che a.grad mi restituisca $2\cdot a=2\cdot (2,3) = (4,6)$.

**Nota bene:** a patto che a non sia uno scalare, devo specificare un vettore v da mettere nel parametro gradient. Metto (1.,1.) perché verrà moltiplicato per il gradiente.

In [25]:
v = torch.tensor([1.,1.])   
Q.backward(gradient = v)

a,a.grad

(tensor([2., 3.], requires_grad=True), tensor([4., 6.]))

Ora eseguo una seconda funzione $P(a)=3a$ e, quando chiamo backward, viene immagazzinato il gradiente in a.grad, sommandolo a quello esistente. Quindi mi aspetto che a.grad ora mi restituisca il vecchio gradiente più 3: $(4,6)+(3,3)=(7,9)$.

In [26]:
P = 3*a
P.backward(gradient=v)
a,a.grad

(tensor([2., 3.], requires_grad=True), tensor([7., 9.]))

Se ora calcolo una terza funzione $R(a)=a^3$ e chiamo backward, mi aspetto che a.grad restituisca $(7,9) -3a^2=(7,9)-3*(4,9)=(7,9)-(12,27)=(-5,-18)$:

In [27]:
R=-a**3
R.backward(gradient=v)
a,a.grad

(tensor([2., 3.], requires_grad=True), tensor([ -5., -18.]))

Se definisco un'ulteriore funzione, senza chiamare backward, a.grad non viene aggiornato. Meglio, chiamo il decorator torch.no_grad() così direttamente non lo calcola.

In [30]:
with torch.no_grad():
    S = 5*a
a,a.grad

(tensor([2., 3.], requires_grad=True), tensor([ -5., -18.]))