In [1]:
import torch

x=torch.ones(5)#input tensor
y=torch.zeros(3)#expected output
w=torch.randn(5,3,requires_grad=True)
b=torch.randn(3,requires_grad=True)
z=torch.matmul(x,w)+b
loss=torch.nn.functional.binary_cross_entropy_with_logits(z,y)


You can set the value of requires_grad when creating a tensor, or later by using x.requires_grad_(True) method.

In [2]:
print(f"Gradient function for z = {z.grad_fn}")
print(f"Gradient function for loss = {loss.grad_fn}")

Gradient function for z = <AddBackward0 object at 0x00000207255C45B0>
Gradient function for loss = <BinaryCrossEntropyWithLogitsBackward0 object at 0x00000207255C4100>


In [3]:
loss.backward()
print(w.grad)
print(b.grad)

tensor([[0.0731, 0.3099, 0.0931],
        [0.0731, 0.3099, 0.0931],
        [0.0731, 0.3099, 0.0931],
        [0.0731, 0.3099, 0.0931],
        [0.0731, 0.3099, 0.0931]])
tensor([0.0731, 0.3099, 0.0931])


我们只能获取grad计算图的叶节点的属性，这些节点的requires_grad属性设置为True。对于图中的所有其他节点，梯度将不可用。

出于性能原因，我们只能 backward在给定的图上使用一次来执行梯度计算。如果我们需要backward在同一张图上进行多次调用，则需要传递 retain_graph=True给backward调用。

禁用梯度追踪

默认情况下，所有张量都requires_grad=True跟踪其计算历史并支持梯度计算。但是，有些情况下我们不需要这样做，例如，当我们已经训练了模型并只想将其应用于一些输入数据时，即我们只想通过网络进行前向计算。我们可以通过在计算代码周围添加 torch.no_grad()块来停止跟踪计算：

您可能出于以下原因想要禁用梯度跟踪：
将神经网络中的某些参数标记为冻结参数。

当您仅进行前向传递时，可以加快计算速度，因为不跟踪梯度的张量的计算会更有效率。

In [4]:
z = torch.matmul(x, w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x, w)+b
print(z.requires_grad)

True
False
