深度学习框架通过自动计算导数，自动微分来加快求导。实际中，根据设计好的模型，系统会构建一个计算图，来跟踪计算哪些数据通过哪些操作组合起来产生输出。

In [8]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

计算y关于x的梯度之前，需要一个地方来存储梯度。我们经常会成千上万次地更新相同的参数，每次都分配内存会将内存耗尽。

In [9]:
x.requires_grad_(True) # 等价于 x = torch.arange(4.0, requires_grad=True)
x.grad # 默认为None

In [10]:
y = 2 * torch.dot(x,x)
y

tensor(28., grad_fn=<MulBackward0>)

通过反向传播函数，来动计算y关于x每个分量的梯度，并打印这些梯度。

In [11]:
y.backward()
x.grad # 当x为[0,1,2,3] 的情况下，梯度的值

tensor([ 0.,  4.,  8., 12.])

In [12]:
x.grad == 4 * x

tensor([True, True, True, True])

现在计算x的另一个函数

In [13]:
# 在默认情况下，PyTorch会积累梯度，我们需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

## 非标量变量的反向传播

In [16]:
x.grad.zero_()
y = x * x
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

## 分离计算

In [17]:
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [19]:
x.grad.zero_()
y.sum().backward()


RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.