In [1]:
import torch

**假设我们对函数y=2x<sup>T</sup>x关于列向量x求导**

In [3]:
x = torch.arange(4.0)
print(x)

tensor([0., 1., 2., 3.])


**在我们计算y关于x的梯度之前，我们需要一个地方来存储梯度。**

In [5]:
x.requires_grad_(True)  #  等同于 x = torch.arange(4.0, requires_grad=True)
x.grad  # 默认为None， 设置required_grad_为True, 以后可以通过x.grad访问梯度。

**计算y**

In [14]:
y = 2 * torch.dot(x, x)
print(y)

tensor(28., grad_fn=<MulBackward0>)


**通过调用反向传播函数，来自动计算y关于x的每个分量的梯度**

In [15]:
y.backward()  # 求导
x.grad

tensor([ 0., 12., 24., 36.])

In [17]:
4 * x

tensor([ 0.,  4.,  8., 12.], grad_fn=<MulBackward0>)

In [16]:
x.grad == 4 * x

tensor([ True, False, False, False])

**当计算另一个函数时，Pytorch会累积梯度，我们需要清除之前的值。**

In [19]:
x.grad.zero_()   # 清除之前的梯度值

tensor([0., 0., 0., 0.])

In [20]:
y = x.sum()  # 标量

In [21]:
y.backward()
x.grad

tensor([1., 1., 1., 1.])

**将计算移动到记录的计算图之外**

In [24]:
x.grad.zero_()

y = x * x
u = y.detach()
z = u * x 
z.sum().backward()
x.grad == u

tensor([True, True, True, True])