In [1]:
import torch
import torch.nn as nn

# 定义一个简单的线性模型
model = nn.Linear(10, 5)
# 定义优化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 模拟前向传播和反向传播多次
for _ in range(3):
    # 随机生成输入数据
    inputs = torch.randn(1, 10)
    # 真实标签
    targets = torch.randint(0, 5, (1,))

    # 前向传播
    outputs = model(inputs)
    # 计算损失
    loss = nn.CrossEntropyLoss()(outputs, targets)

    # 反向传播计算梯度
    loss.backward()

    # 打印梯度值（如果不使用 zero_grad ，梯度会累加）
    print("未清零梯度前的梯度：")
    for name, param in model.named_parameters():
        print(f"参数 {name} 的梯度: ", param.grad)

    # 清零梯度
    optimizer.zero_grad()

    # 打印清零后的梯度
    print("清零梯度后的梯度：")
    for name, param in model.named_parameters():
        print(f"参数 {name} 的梯度: ", param.grad)


未清零梯度前的梯度：
参数 weight 的梯度:  tensor([[-0.0152, -0.2535,  0.2191, -0.1092, -0.0443,  0.3424, -0.1235,  0.0609,
         -0.2795, -0.2516],
        [-0.0254, -0.4232,  0.3656, -0.1823, -0.0739,  0.5715, -0.2061,  0.1017,
         -0.4664, -0.4199],
        [-0.0082, -0.1365,  0.1180, -0.0588, -0.0238,  0.1844, -0.0665,  0.0328,
         -0.1505, -0.1355],
        [-0.0185, -0.3086,  0.2666, -0.1329, -0.0539,  0.4167, -0.1503,  0.0741,
         -0.3401, -0.3062],
        [ 0.0674,  1.1218, -0.9693,  0.4832,  0.1958, -1.5150,  0.5464, -0.2695,
          1.2366,  1.1132]])
参数 bias 的梯度:  tensor([ 0.1915,  0.3196,  0.1031,  0.2331, -0.8473])
清零梯度后的梯度：
参数 weight 的梯度:  None
参数 bias 的梯度:  None
未清零梯度前的梯度：
参数 weight 的梯度:  tensor([[ 0.0974,  0.1006, -0.0285, -0.0512,  0.1889, -0.0087, -0.1512, -0.0388,
         -0.1098, -0.0125],
        [ 0.1339,  0.1382, -0.0392, -0.0704,  0.2597, -0.0119, -0.2078, -0.0533,
         -0.1509, -0.0172],
        [ 0.1582,  0.1634, -0.0463, -0.0832,  0.3069, -0.0141, -

In [4]:
import torch

# 创建一个不需要梯度的输入 Tensor
x1 = torch.tensor([1.0, 2.0, 3.0])
# 创建一个需要梯度的输入 Tensor
x2 = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

# 假设进行一些计算
y1 = x1 * 2
y2 = x1 * x2 * 2

# 进行反向传播
y2.backward(torch.ones_like(y2))
# y1.backward(torch.ones_like(y1))

# 查看梯度
print("x1 的梯度：", x1.grad)  # 输出为 None，因为 x1 不需要梯度
print("x2 的梯度：", x2.grad)  # 输出为 [2., 2., 2.]


x1 的梯度： None
x2 的梯度： tensor([2., 4., 6.])


In [41]:
import torch
import torch.optim as optim


# 假设一个简单的模型参数
weight = torch.tensor([1.0], requires_grad=True)

# 模拟多次迭代
for i in range(3):
    
    # 前向计算
    output = weight * 2
    # 定义损失
    loss = (output - 5) ** 2

    # 反向传播计算梯度
    loss.backward()
    
    print(f"第 {i + 1} 次迭代的梯度：", weight.grad)
    
    weight.grad.zero_()


第 1 次迭代的梯度： tensor([-12.])
第 2 次迭代的梯度： tensor([-12.])
第 3 次迭代的梯度： tensor([-12.])


In [31]:
import torch

w = torch.tensor([1.0], requires_grad=True)

out = w * 2
loss = (out - 5) ** 2

loss.backward()
print(w.grad)

tensor([-12.])


In [38]:
loss.grad_fn(4)

TypeError: argument 0 is not a Variable

In [44]:
w = torch.tensor([1.0], requires_grad=True)
w.requires_grad

True