In [63]:
import torch

# 1. 向前计算
#### 1.1 计算
$$
\begin{align*}
&o = \frac{1}{4}\sum_iz_i \\
&z_i = 3(x_i+2)^2\\
其中:&\\
&z_i|_{x_i=1}=27\\
\end{align*}
$$

In [64]:
# 初始化参数 x 并设置 requires_grad=True 用来追踪其计算历史，以便后续能够进行自动求导和反向传播
x = torch.ones(2, 2, requires_grad=True).cuda()

In [65]:
print(x)

tensor([[1., 1.],
        [1., 1.]], device='cuda:0', grad_fn=<ToCopyBackward0>)


In [66]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], device='cuda:0', grad_fn=<AddBackward0>)


In [67]:
z = y * y * 3
print(z)

tensor([[27., 27.],
        [27., 27.]], device='cuda:0', grad_fn=<MulBackward0>)


In [68]:
# 求平均值
out = z.mean()
print(out)

tensor(27., device='cuda:0', grad_fn=<MeanBackward0>)


#### 1.2 requires_grad和grad_fn

In [69]:
a = torch.randn(2, 2).cuda()

In [70]:
a = ((a * 3) / (a - 1)).cuda()

In [71]:
print(a)

tensor([[-1.1533, -0.3750],
        [ 1.6100,  2.1624]], device='cuda:0')


In [72]:
print(a.requires_grad)  # 默认为False

False


In [73]:
a.requires_grad_(True)  # 就地修改

tensor([[-1.1533, -0.3750],
        [ 1.6100,  2.1624]], device='cuda:0', requires_grad=True)

In [74]:
print(a.requires_grad)  # True

True


In [75]:
b = (a * a).sum()
print(b)

tensor(8.7389, device='cuda:0', grad_fn=<SumBackward0>)


In [76]:
# 为了防止跟踪历史记录（和使用内存），可以将代码块包装在with torch.no_grad():中。在评估模型时特别有用，因为模型可能具有requires_grad = True的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。
with torch.no_grad():
    c = (a * a).sum()  # 不进行梯度追踪
print(c.requires_grad)

False


# 2.梯度计算

In [77]:
print(out)  # 输出当前的 out 值

tensor(27., device='cuda:0', grad_fn=<MeanBackward0>)


In [78]:
# 进行反向传播计算梯度
x.retain_grad()  # 保留梯度
out.backward()  # 进行反向传播

In [79]:
# 获取梯度值
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]], device='cuda:0')
