In [1]:
# -*- coding: utf-8 -*-
import torch

In [2]:
# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

In [3]:
# 产生输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

In [4]:
# 使用nn包将我们的模型定义为一系列的层
# nn.Sequential是包含其他模块的模块，并按顺序应用这些模块来产生其输出
# 每个线性模块使用线性函数从输入计算输出，并保存其内部的权重和偏差张量
# 在构造模型之后，我们使用.to()方法将其移动到所需的设备
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

In [5]:
# nn包还包含常用的损失函数的定义
# 在这种情况下，我们将使用平均平方误差(MSE)作为我们的损失函数
loss_fn = torch.nn.MSELoss(reduction='sum')

In [6]:
learning_rate = 1e-4

In [7]:
for t in range(500):
    # 前向传播：通过向模型传入x计算预测的y
    # 模块对象重载了__call__运算符，所以可以像函数那样调用它们
    # 这么做相当于向模块传入了一个张量，然后它返回了一个输出张量
    y_pred = model(x)

    # 计算并打印损失。我们传递包含y的预测值和真实值的张量，损失函数返回包含损失的张量
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # 反向传播之前清零梯度
    model.zero_grad()

    # 反向传播：计算模型的损失对所有可学习参数的梯度
    # 在内部，每个模块的参数存储在requires_grad=True的张量中
    # 因此这个调用将计算模型中所有可学习参数的梯度
    loss.backward()

    # 使用梯度下降更新权重
    # 每个参数都是张量，所以我们可以像我们以前那样可以得到它的数值和梯度
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

99 2.5821821689605713
199 0.046172767877578735
299 0.0030032251961529255
399 0.0002886698639485985
499 3.044271215912886e-05
