In [2]:
# ************ 自动求导实现 ***********
import torch

x = torch.arange(4, dtype=torch.float32)
x

tensor([0., 1., 2., 3.])

In [11]:
# y = 2(x1^2 + x2^2 + x3^2 + x4^2)

# requires_grad=True 告诉PyTorch需要追踪 x 的所有运算，以便后续计算梯度
x.requires_grad_(True) # 等价于 x = torch.arange(4.0, requires_grad=True)
x.grad  # 此时输出 None，因为还没有进行反向传播，梯度还未计算
y = 2 * torch.dot(x, x)
y.backward()  # 反向传播：自动计算 y 对 x 的梯度
x.grad  # grad 存储梯度值，初始值为 None

tensor([ 1.,  5.,  9., 13.])

In [12]:
# y = x1 + x2 + x3 + x4

# 在默认情况下，PyTorch会积累梯度，需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

In [18]:
x.grad.zero_()

# 张量 * 张量，是按元素相乘
y = x * x   # 按元素相乘，得到与张量 x 形状相同的张量 y

# 对非标量调用 backward 需要传入一个 gradient 参数
# TODO 没懂，但是深度学习一般是标量对向量求导

In [22]:
# 即使构建函数的计算图需要通过Python控制流（例如条件、循环或任意函数调用），
# 仍可以计算得到变量的梯度
def f(a):
    b = a * 2
    while b.norm() < 1000:  # b 的 L2范数
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

# 创建随机标量输入（size=()表示标量）
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward() # 反向传播
print(a.grad)  # 梯度值
a.grad.zero_()

tensor(2048.)


tensor(0.)