In [2]:
import numpy as np
import torch
from torch.utils import data
from d2l import torch as d2l
true_w = torch.tensor([2, -3.4])
true_b = 4.2
# synthetic_data函数用于生成合成的线性回归数据
# 它根据给定的权重true_w、偏置true_b和样本数量1000，生成对应的特征和标签
# 生成的数据满足线性关系：y = Xw + b + noise（其中noise是随机噪声）
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

def load_array(data_arrays, batch_size, is_train=True):
    # TensorDataset的作用：将多个tensor（如features和labels）打包成一个数据集
    # 它确保对应索引的数据能够一起被访问，比如features[i]和labels[i]是对应的
    dataset = data.TensorDataset(*data_arrays)
    
    # DataLoader的作用：
    # 1. 提供批量数据加载功能，每次返回batch_size个样本
    # 2. shuffle=True时会随机打乱数据顺序，有助于训练时的随机性
    # 3. 支持多进程数据加载，提高数据读取效率
    # 4. 自动处理最后一个不完整的batch
    # shuffle参数的含义：
    # - shuffle=True：每个epoch开始时会随机打乱数据集中样本的顺序
    # - shuffle=False：保持数据集原有的顺序，按顺序依次取样本
    # 在训练时通常设置shuffle=True来增加随机性，避免模型记住数据顺序
    # 在验证/测试时通常设置shuffle=False来保证结果的可重复性
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)

# next(iter(data_iter))的作用：
# 1. iter(data_iter)：将DataLoader转换为迭代器对象
# 2. next()：从迭代器中获取下一个元素，即获取第一个批次的数据
# 这行代码的目的是验证数据加载器是否正常工作，查看第一个批次的数据格式和内容
# 返回的是一个包含(features_batch, labels_batch)的元组，其中：
# - features_batch: 形状为(batch_size, feature_dim)的特征张量
# - labels_batch: 形状为(batch_size, 1)的标签张量
next(iter(data_iter))

[tensor([[-0.1925, -0.2022],
         [ 0.8993,  0.4580],
         [-0.1799,  0.6595],
         [ 0.2546, -0.2740],
         [-2.2517,  1.1073],
         [ 0.4914, -0.4207],
         [ 0.9334, -0.9579],
         [ 1.7532, -0.2445],
         [-0.2767, -1.7574],
         [-0.5771, -0.8510]]),
 tensor([[ 4.5210],
         [ 4.4483],
         [ 1.5939],
         [ 5.6519],
         [-4.0795],
         [ 6.5989],
         [ 9.3363],
         [ 8.5203],
         [ 9.6136],
         [ 5.9259]])]

In [4]:
from torch import nn
net=nn.Sequential(
    nn.Linear(2,1)
    
    )
# net[0]指的就是Sequential中的第一个层，即nn.Linear(2,1)线性层
# 这里对线性层的权重和偏置进行初始化：
# - weight.data.normal_(0,0.01)：将权重初始化为均值0，标准差0.01的正态分布
# - bias.data.fill_(0)：将偏置初始化为0
net[0].weight.data.normal_(0,0.01)
net[0].bias.data.fill_(0)


tensor([0.])

In [7]:
loss=nn.MSELoss()

In [8]:
trainer=torch.optim.SGD(net.parameters(),lr=0.03)

# SGD确实是随机梯度下降(Stochastic Gradient Descent)的缩写
# 在PyTorch中，torch.optim.SGD实现了随机梯度下降优化算法
# 
# SGD的工作原理：
# 1. 计算损失函数对模型参数的梯度
# 2. 使用梯度信息更新参数：θ = θ - lr * ∇θ
# 3. lr是学习率，控制参数更新的步长
#
# 这里创建的trainer对象包含：
# - net.parameters()：模型中所有需要优化的参数（权重和偏置）
# - lr=0.03：学习率设置为0.03
#
# 使用方法：
# 1. trainer.zero_grad()：清零梯度
# 2. loss.backward()：反向传播计算梯度
# 3. trainer.step()：根据梯度更新参数

num_epochs=3
for epoch in range(num_epochs):
    for X,y in data_iter:
        l=loss(net(X),y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l=loss(net(features),labels)
    print(f'epoch {epoch+1}, loss {l:f}')
    

epoch 1, loss 0.000225
epoch 2, loss 0.000098
epoch 3, loss 0.000098
