\begin{array}{c}   
y=2x^{T}x  \\   
f'(x) = 4x
\end{array}

In [2]:
# 2.5.1 简单例子
import torch

x = torch.arange(4.0, requires_grad=True)
print(x)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)  # tensor([4., 4.])
print(x.grad == 4 * x)  # tensor([True, True, True, True])

# 现在计算x 的另一个函数
# 需要清除上一个计算的梯度
x.grad.zero_()
y = x.sum()
y.backward()
print(x.grad)  # tensor([1.])

tensor([0., 1., 2., 3.], requires_grad=True)
tensor([ 0.,  4.,  8., 12.])
tensor([True, True, True, True])
tensor([1., 1., 1., 1.])


In [3]:
# 2.5.2 非标量的反向传播
# 本例只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
print(y)  # tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
z = y.sum()
print(z)  # tensor(20., grad_fn=<SumBackward0>)
z.backward()
print(x.grad == 2 * x)  # tensor([ True,  True,  True,  True])


tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
tensor(14., grad_fn=<SumBackward0>)
tensor([True, True, True, True])


In [5]:
# 2.5.3 分离计算
x.grad.zero_()
y = x * x
u = y.detach()  # u 是一个新的变量，和 y 指向同一块内存
z = u * x  # z 和 y 没有关系了
z.sum().backward()
print(x.grad == u)  # 输出：tensor([2.])

x.grad.zero_()
y.sum().backward()  # 计算 y 的梯度
print(x.grad == 2 * x)  # 输出：tensor([2.])

tensor([True, True, True, True])
tensor([True, True, True, True])


In [8]:
# 2.5.4 Python 控制流的梯度计算
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

# 我们来计算f(a) 的梯度
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
print("a=", a)  # 输出：a= tensor(0.0000)
print("d=", d)
print("a.grad=", a.grad)  # 输出：a.grad= tensor(0.0000)
print(a.grad == d/a) # 输出：tensor(0.0000)

a= tensor(-1.9469, requires_grad=True)
d= tensor(-199364.0156, grad_fn=<MulBackward0>)
a.grad= tensor(102400.)
tensor(True)
