In [2]:
import torch

In [12]:
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [13]:
# 声明需要记录梯度
# x = torch.arange(4.0, requires_grad=True)
x.requires_grad_(True)

tensor([0., 1., 2., 3.], requires_grad=True)

In [14]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

In [15]:
# 反向计算梯度
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [16]:
# y对x的偏导（导数）
x.grad == 4 * x

tensor([True, True, True, True])

In [21]:
# 默认情况 pytorch会累积梯度，需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

In [30]:
x.grad.zero_()
y = x * x
y

tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)

In [31]:
# backward() 只能隐式的对标量输出导数, 将y变为标量
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

In [35]:
x.grad.zero_()
y = x * x
u = y.detach() # 将y变为与x无关的变量，摆脱x，则u相当于一个关于x的无关量
z = u * x

z.sum().backward()
x.grad == u # 此刻z对x的偏导等于u

tensor([True, True, True, True])

In [36]:
x.grad.zero_()
y.sum().backward() # 通过y求x的导数
x.grad == 2 * x

tensor([True, True, True, True])

In [38]:
# 在复杂的控制流中，依然可以计算变量的梯度
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

a = torch.randn(size=(), requires_grad=True)
d = f(a) # 最终计算，d = n * a, n 为常数，d对a的导数为n
d.backward()
a.grad == d / a

tensor(True)