通过一个简单的线性回归模型来解释反向传播。线性回归模型的目标是找到一条线，使得所有数据点到这条线的距离（即误差）之和最小。

In [5]:
import torch

# 创建数据
x = torch.tensor([1.0, 2.0, 3.0, 4.0, 5.0])  # 输入数据
y = torch.tensor([2.0, 4.0, 6.0, 8.0, 10.0])  # 实际结果

# 初始化模型参数
w = torch.tensor([1.0], requires_grad=True)  # 随机初始化权重

# 学习率
lr = 0.01

# 训练模型
for i in range(100):
    # 前向传播：计算预测结果和损失
    y_pred = w * x  # 使用当前的权重预测结果
    loss = (y_pred - y).pow(2).mean()  # 计算预测结果和实际结果之间的差异（损失）

    # 反向传播：计算损失对权重的梯度
    loss.backward()  # PyTorch自动计算梯度

    # 更新权重
    with torch.no_grad():  # 在更新权重时，我们不需要计算梯度
        w -= lr * w.grad  # 使用梯度下降更新权重
        
    print(f'当前第{i}次训练的权重: {w}')  # 输出当前循环更新的权重
    
    # 清零梯度
    w.grad.zero_()

print(f'训练后的权重: {w.item()}')  # 输出训练后的权重


当前第0次训练的权重: tensor([1.2200], requires_grad=True)
当前第1次训练的权重: tensor([1.3916], requires_grad=True)
当前第2次训练的权重: tensor([1.5254], requires_grad=True)
当前第3次训练的权重: tensor([1.6298], requires_grad=True)
当前第4次训练的权重: tensor([1.7113], requires_grad=True)
当前第5次训练的权重: tensor([1.7748], requires_grad=True)
当前第6次训练的权重: tensor([1.8243], requires_grad=True)
当前第7次训练的权重: tensor([1.8630], requires_grad=True)
当前第8次训练的权重: tensor([1.8931], requires_grad=True)
当前第9次训练的权重: tensor([1.9166], requires_grad=True)
当前第10次训练的权重: tensor([1.9350], requires_grad=True)
当前第11次训练的权重: tensor([1.9493], requires_grad=True)
当前第12次训练的权重: tensor([1.9604], requires_grad=True)
当前第13次训练的权重: tensor([1.9691], requires_grad=True)
当前第14次训练的权重: tensor([1.9759], requires_grad=True)
当前第15次训练的权重: tensor([1.9812], requires_grad=True)
当前第16次训练的权重: tensor([1.9854], requires_grad=True)
当前第17次训练的权重: tensor([1.9886], requires_grad=True)
当前第18次训练的权重: tensor([1.9911], requires_grad=True)
当前第19次训练的权重: tensor([1.9931], requires_grad=True)
当前第20次训练的权

首先创建了一些数据，然后初始化了模型的权重。
然后，我们进行了100次训练迭代。
在每次迭代中，我们首先进行前向传播，计算预测结果和损失，然后进行反向传播，计算损失对权重的梯度，最后我们使用这个梯度来更新权重。
这个过程会一直重复，直到模型的性能达到满意的程度（在这个例子中，我们简单地进行了100次迭代）。