In [1]:
import torch
import numpy
from torch.utils import data
from d2l import torch as d2l

In [18]:
true_w = torch.tensor([2,-3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

In [13]:
#读取数据集
def load_array(data_arrays, bath_size, is_train = True): #@%save
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    #TensorDataset是PyTorch中用于包装数据的一个类，它接受任意数量的张量作为输入，并将它们打包成一个数据集。这里的*data_arrays是解包操作
    return data.DataLoader(dataset, bath_size, shuffle=is_train)
    #DataLoader是PyTorch中用于加载数据集的一个迭代器，它支持自动分批、打乱数据（如果shuffle=True）和多进程数据加载等功能

In [8]:
bath_size = 10
data_iter = load_array((feathers, labels), bath_size)

In [10]:
next(iter(data_iter))
#next(iter(data_iter))这行代码的作用是获取data_iter（即DataLoader对象）的第一个批次的数据

[tensor([[-1.3016, -0.5518],
         [ 0.2216,  0.4628],
         [-0.7452,  0.8555],
         [ 0.4570, -0.0530],
         [ 0.3978,  1.6983],
         [-0.9927,  0.0248],
         [ 0.5997,  1.6740],
         [ 0.3801, -1.1331],
         [ 1.2516, -0.7389],
         [-0.5192, -0.4671]]),
 tensor([[ 3.4805],
         [ 3.0707],
         [-0.1926],
         [ 5.2894],
         [-0.7801],
         [ 2.1234],
         [-0.2895],
         [ 8.8122],
         [ 9.2286],
         [ 4.7674]])]

In [11]:
# nn是神经网络的缩写
from torch import nn

net = nn.Sequential(nn.Linear(2, 1))
"""nn.Sequential是一个容器，用于按顺序包装一系列的层"""
"""nn.Linear(2, 1)：这是一个全连接层，它的输入特征维度是2，输出特征维度是1。
这意味着，当你向这个网络提供一个形状为(batch_size, 2)的输入张量时，
它会返回一个形状为(batch_size, 1)的输出张量"""

'nn.Linear(2, 1)：这是一个全连接层，它的输入特征维度是2，输出特征维度是1。\n这意味着，当你向这个网络提供一个形状为(batch_size, 2)的输入张量时，\n它会返回一个形状为(batch_size, 1)的输出张量'

In [14]:
#初始化模型参数
net[0].weight.data.normal_(0,0.01)
"""将net中第一个层的权重初始化为均值为0，标准差为0.01的正态分布随机值。"""
net[0].bias.data.fill_(0)
"""将net中第一个层的偏置初始化为0"""
#init.normal_(net[0].weight, mean=0.0, std=0.01)
#init.constant_(net[0].bias, val=0)

'将net中第一个层的偏置初始化为0'

In [15]:
#定义损失函数
loss = nn.MSELoss()
"""计算均方误差使用的是MSELoss类，也称为平方
范数,默认情况下，它返回所有样本损失的平均值。"""
#定义优化算法
trainer = torch.optim.SGD(net.parameters(), lr=0.03)
"""
小批量随机梯度下降算法是一种优化神经网络的标准工具， PyTorch在optim模块中实现了该算法的许多变种。
当我们(实例化一个SGD实例)时，我们要指定优化的参数 （可通过net.parameters()从我们的模型中获得）以及优化算法所需的超参数字典。
小批量随机梯度下降只需要设置lr值，这里设置为0.03。
"""

'\n小批量随机梯度下降算法是一种优化神经网络的标准工具， PyTorch在optim模块中实现了该算法的许多变种。\n当我们(实例化一个SGD实例)时，我们要指定优化的参数 （可通过net.parameters()从我们的模型中获得）以及优化算法所需的超参数字典。\n小批量随机梯度下降只需要设置lr值，这里设置为0.03。\n'

In [19]:
num_epoachs = 3 
for epoachs in range(num_epoachs):
    for X, y in data_iter:
        l = loss(net(X), y)
        trainer.zero_grad() #将模型参数的梯度清零
        l.backward()
        trainer.step() #使用优化器（假设已经以trainer变量名初始化）更新模型的参数
    l = loss(net(features), labels)
    print(f'epoachs {epoachs + 1}, loss {l:f}')

epoachs 1, loss 0.000101
epoachs 2, loss 0.000100
epoachs 3, loss 0.000100


In [20]:
w = net[0].weight.data
print('w的估计误差：', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差：', true_b - b)

w的估计误差： tensor([4.5061e-05, 3.5286e-04])
b的估计误差： tensor([0.0003])


In [21]:
#查看损失函数
dir(nn)

['AdaptiveAvgPool1d',
 'AdaptiveAvgPool2d',
 'AdaptiveAvgPool3d',
 'AdaptiveLogSoftmaxWithLoss',
 'AdaptiveMaxPool1d',
 'AdaptiveMaxPool2d',
 'AdaptiveMaxPool3d',
 'AlphaDropout',
 'AvgPool1d',
 'AvgPool2d',
 'AvgPool3d',
 'BCELoss',
 'BCEWithLogitsLoss',
 'BatchNorm1d',
 'BatchNorm2d',
 'BatchNorm3d',
 'Bilinear',
 'CELU',
 'CTCLoss',
 'ChannelShuffle',
 'CircularPad1d',
 'CircularPad2d',
 'CircularPad3d',
 'ConstantPad1d',
 'ConstantPad2d',
 'ConstantPad3d',
 'Container',
 'Conv1d',
 'Conv2d',
 'Conv3d',
 'ConvTranspose1d',
 'ConvTranspose2d',
 'ConvTranspose3d',
 'CosineEmbeddingLoss',
 'CosineSimilarity',
 'CrossEntropyLoss',
 'CrossMapLRN2d',
 'DataParallel',
 'Dropout',
 'Dropout1d',
 'Dropout2d',
 'Dropout3d',
 'ELU',
 'Embedding',
 'EmbeddingBag',
 'FeatureAlphaDropout',
 'Flatten',
 'Fold',
 'FractionalMaxPool2d',
 'FractionalMaxPool3d',
 'GELU',
 'GLU',
 'GRU',
 'GRUCell',
 'GaussianNLLLoss',
 'GroupNorm',
 'Hardshrink',
 'Hardsigmoid',
 'Hardswish',
 'Hardtanh',
 'HingeEmbed

In [23]:
loss = nn.HuberLoss()
num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step() # 调用step()函数对X的值进行更新
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

w = net[0].weight.data
print('w的估计误差：', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差：', true_b - b)

epoch 1, loss 0.000051
epoch 2, loss 0.000050
epoch 3, loss 0.000050
w的估计误差： tensor([-0.0003,  0.0005])
b的估计误差： tensor([9.0122e-05])


In [24]:
#访问线性回归的梯度
print(net[0].weight.grad, net[0].bias.grad)

tensor([[0.0003, 0.0008]]) tensor([-0.0022])
