## 3.3 线性回归的简洁实现

随着深度学习框架的发展，开发深度学习应⽤变得越来越便利。实践中，我们通常可以⽤⽐上⼀节更简
洁的代码来实现同样的模型。在本节中，我们将介绍如何使⽤PyTorch更⽅便地实现线性回归的训练。

### 3.3.1 ⽣成数据集

我们⽣成与上⼀节中相同的数据集。其中 features 是训练数据特征， labels 是标签。

In [15]:
import torch
import numpy as np
num_inputs = 2
num_examples = 1000
true_w = [2,-3.4]
true_b = 4.2
features = torch.tensor(np.random.normal(0,1,(num_examples,num_inputs)))
labels = true_w[0] * features[:,0] + true_w[1] * features[:,1] + true_b
labels += torch.tensor(np.random.normal(0,0.01,size = labels.size()),dtype = torch.float32)

### 3.3.2 读取数据

PyTorch提供了 data 包来读取数据。由于 data 常⽤作变量名，我们将导⼊的 data 模块⽤ Data 代
替。在每⼀次迭代中，我们将随机读取包含10个数据样本的⼩批量。

In [16]:
import torch.utils.data as Data

batch_size =10
#将训练数据的特征和标签组合
dataset = Data.TensorDataset(features,labels)
#随机读取小批量
data_iter = Data.DataLoader(dataset,batch_size,shuffle = True)

这⾥ data_iter 的使⽤跟上⼀节中的⼀样。让我们读取并打印第⼀个⼩批量数据样本

In [17]:
for X,y in data_iter:
    print(X,y)
    break

tensor([[ 1.0153, -1.2396],
        [ 0.1866, -0.4169],
        [ 0.4910,  0.0083],
        [ 1.2819, -0.8795],
        [-0.3057,  0.2529],
        [ 0.3979, -1.4554],
        [-1.1206,  1.0093],
        [ 0.3580,  2.4316],
        [ 1.0128, -1.1702],
        [-1.0910, -0.0915]], dtype=torch.float64) tensor([10.4408,  5.9940,  5.1349,  9.7583,  2.7280,  9.9548, -1.4712, -3.3669,
        10.1879,  2.3155], dtype=torch.float64)


### 3.3.3 定义模型

在上⼀节从零开始的实现中，我们需要定义模型参数，并使⽤它们⼀步步描述模型是怎样计算的。当模
型结构变得更复杂时，这些步骤将变得更繁琐。其实，PyTorch提供了⼤量预定义的层，这使我们只需
关注使⽤哪些层来构造模型。下⾯将介绍如何使⽤PyTorch更简洁地定义线性回归

⾸先，导⼊ torch.nn 模块。实际上，“nn”是neural networks（神经⽹络）的缩写。顾名思义，该模
块定义了⼤量神经⽹络的层。之前我们已经⽤过了 autograd ，⽽ nn 就是利⽤ autograd 来定义模
型。 nn 的核⼼数据结构是 Module ，它是⼀个抽象概念，既可以表示神经⽹络中的某个层（layer），
也可以表示⼀个包含很多层的神经⽹络。在实际使⽤中，最常⻅的做法是继承 nn.Module ，撰写⾃⼰
的⽹络/层。⼀个 nn.Module 实例应该包含⼀些层以及返回输出的前向传播（forward）⽅法。下⾯先
来看看如何⽤ nn.Module 实现⼀个线性回归模型。

In [18]:
import torch.nn as nn
class LinearNet(nn.Module):
    def __init__(self,n_features):
        super(LinearNet,self).__init__()
        self.linear = nn.Linear(n_features,1)
    
    def forward(self,x):
        y = self.linear(x)
        return y
    
net = LinearNet(num_inputs)
print(net)

LinearNet(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)


事实上我们还可以⽤ nn.Sequential 来更加⽅便地搭建⽹络， Sequential 是⼀个有序的容器，⽹络
层将按照在传⼊ Sequential 的顺序依次被添加到计算图中。

In [19]:
import torch.nn as nn
# 写法⼀
net = nn.Sequential(
 nn.Linear(num_inputs, 1)
 # 此处还可以传⼊其他层
 )
"""
# 写法⼆
net = nn.Sequential()
net.add_module('linear', nn.Linear(num_inputs, 1))
# net.add_module ......
# 写法三
from collections import OrderedDict
net = nn.Sequential(OrderedDict([
 ('linear', nn.Linear(num_inputs, 1))
 # ......
 ]))
print(net)
print(net[0])
"""

"\n# 写法⼆\nnet = nn.Sequential()\nnet.add_module('linear', nn.Linear(num_inputs, 1))\n# net.add_module ......\n# 写法三\nfrom collections import OrderedDict\nnet = nn.Sequential(OrderedDict([\n ('linear', nn.Linear(num_inputs, 1))\n # ......\n ]))\nprint(net)\nprint(net[0])\n"

可以通过 net.parameters() 来查看模型所有的可学习参数，此函数将返回⼀个⽣成器。

In [20]:
for param in net.parameters():
    print(param)

Parameter containing:
tensor([[-0.5745,  0.6596]], requires_grad=True)
Parameter containing:
tensor([0.1554], requires_grad=True)


注意： torch.nn 仅⽀持输⼊⼀个batch的样本不⽀持单个样本输⼊，如果只有单个样本，可使
⽤ input.unsqueeze(0) 来添加⼀维。

### 3.3.4 初始化模型参数

在使⽤ net 前，我们需要初始化模型参数，如线性回归模型中的权᯿和偏差。PyTorch在 init 模块中
提供了多种参数初始化⽅法。这⾥的 init 是 initializer 的缩写形式。我们通过 init.normal_ 将
权᯿参数每个元素初始化为随机采样于均值为0、标准差为0.01的正态分布。偏差会初始化为零。

In [21]:
from torch.nn import init

init.normal_(net[0].weight,mean = 0,std = 0.01)
init.constant_(net[0].bias,val = 0)

Parameter containing:
tensor([0.], requires_grad=True)

### 3.3.5 定义损失函数

PyTorch在 nn 模块中提供了各种损失函数，这些损失函数可看作是⼀种特殊的层，PyTorch也将这些损
失函数实现为 nn.Module 的⼦类。我们现在使⽤它提供的均⽅误差损失作为模型的损失函数。

In [22]:
loss = nn.MSELoss()

### 3.3.6 定义优化算法

同样，我们也⽆须⾃⼰实现⼩批量随机梯度下降算法。 torch.optim 模块提供了很多常⽤的优化算法
⽐如SGD、Adam和RMSProp等。下⾯我们创建⼀个⽤于优化 net 所有参数的优化器实例，并指定学
习率为0.03的⼩批量随机梯度下降（SGD）为优化算法。

In [23]:
import torch.optim as optim

optimizer = optim.SGD(net.parameters(),lr = 0.03)
print(optimizer)

SGD (
Parameter Group 0
    dampening: 0
    lr: 0.03
    momentum: 0
    nesterov: False
    weight_decay: 0
)


我们还可以为不同⼦⽹络设置不同的学习率，这在finetune时经常⽤到。例

有时候我们不想让学习率固定成⼀个常数，那如何调整学习率呢？主要有两种做法。⼀种是修
改 optimizer.param_groups 中对应的学习率，另⼀种是更简单也是较为推荐的做法——新建优化
器，由于optimizer⼗分轻量级，构建开销很⼩，故⽽可以构建新的optimizer。但是后者对于使⽤动量
的优化器（如Adam），会丢失动量等状态信息，可能会造成损失函数的收敛出现震荡等情况。

In [24]:
# 调整学习率
for param_group in optimizer.param_groups:
 param_group['lr'] *= 0.1 # 学习率为之前的0.1倍

### 3.3.7 训练模型

在使⽤Gluon训练模型时，我们通过调⽤ optim 实例的 step 函数来迭代模型参数。按照⼩批量随机梯
度下降的定义，我们在 step 函数中指明批量⼤⼩，从⽽对批量中样本梯度求平均。

In [25]:
num_epochs = 3
for epoch in range(1, num_epochs + 1):
     for X, y in data_iter:
            X = X.float()
            y = y.float()
            output = net(X)
            l = loss(output, y.view(-1, 1))
            optimizer.zero_grad() # 梯度清零，等价于net.zero_grad()
            l.backward()
            optimizer.step()
   
     print('epoch %d, loss: %f' % (epoch, l.item()))

epoch 1, loss: 13.627850
epoch 2, loss: 2.599608
epoch 3, loss: 0.897267


In [26]:
dense = net[0]
print(true_w, dense.weight)
print(true_b, dense.bias)

[2, -3.4] Parameter containing:
tensor([[ 1.7453, -2.7735]], requires_grad=True)
4.2 Parameter containing:
tensor([3.5193], requires_grad=True)
