Esempio creato da: Sebastian Raschka (sraschka@wisc.edu)  

Course website: http://pages.stat.wisc.edu/~sraschka/teaching/stat453-ss2021/  
GitHub repository: https://github.com/rasbt/stat453-deep-learning-ss21

## Autograd Example

In [1]:
import torch
from torch.autograd import grad
import torch.nn.functional as F

Consideriamo un esempio di funzione

![](images/relu-graph.png)

Definiamo le variabili e trasformiamole in tensori

In [2]:
x = torch.tensor([3.])
w = torch.tensor([2.], requires_grad=True)
b = torch.tensor([1.], requires_grad=True)
a = F.relu(x*w + b)

In [3]:
a

tensor([7.], grad_fn=<ReluBackward0>)

Di default, PyTorch costruisce automaticamente un grafo in background se le variabili hanno il parametro `requires_grad=True`. Se nuove variabili senza questo parametro impostato su `True` vengono utilizzate in un calcolo con una variabile che ha `requires_grad=True`, anche queste nuove variabili avranno automaticamente i gradienti impostati su `True` (questo significa semplicemente che i gradienti di queste variabili saranno calcolati; è uno spreco impostarlo su `True` se non abbiamo bisogno del gradiente di quella variabile; per esempio, di solito non abbiamo bisogno dei gradienti degli input di addestramento `x`).

Derivata di a rispetto a w:

In [4]:
grad(a, w, retain_graph=True)

(tensor([3.]),)

Above, the `retain_graph=True` means the computation graph will be kept in memory -- this is for example purposes so that we can use the `grad` function again below. In practice, we usually want to free the computation graph in every round.

In [None]:
grad(a, b)

(tensor([1.]),)

<br>
<br>

Le funzioni di PyTorch sono solitamente più efficienti, ma si può anche implementare la propria funzione ReLU come mostrato di seguito:

In [5]:
x = torch.tensor([3.])
w = torch.tensor([2.], requires_grad=True)
b = torch.tensor([1.], requires_grad=True)

def my_relu(z):
    if z > 0.:
        return z
    else:
        z[:] = 0.
        return z

a = my_relu(x*w + b)
grad(a, w)

(tensor([3.]),)

Anche se la derivata di ReLU non è definita a 0, PyTorch autograd farà qualcosa di ragionevole per gli scopi pratici:

In [6]:
x = torch.tensor([-1.])
w = torch.tensor([1.], requires_grad=True)
b = torch.tensor([1.], requires_grad=True)

def my_relu(z):
    if z > 0.:
        return z
    else:
        z[:] = 0.
        return z

a = F.relu(x*w + b)
grad(a, w, retain_graph=False)

(tensor([-0.]),)