实践中，使用PyTorch更方便的实现线性回归

In [31]:
%matplotlib inline
import torch
from IPython import display
from matplotlib import pyplot as plt
import numpy as np
import random
import sys
sys.path.append("..")
import d2lzh_pytorch

import torch.utils.data as Data
import torch.nn as nn
from torch.nn import init
import torch.optim as optim

### 3.3.1 生成数据集

In [32]:
num_inputs = 2
num_examples = 1000
true_w = [2, -3.4]
true_b = 4.2
features = torch.randn(num_examples, num_inputs, dtype=torch.float32)
labels = true_w[0] * features[:, 0] + true_w[1] * features[: , 1] + true_b
labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()),
                      dtype=torch.float32)

### 3.3.2 读取数据

PyTorch 提供 `data`包 来读取数据。

在每次迭代中，随机读取包含10个数据样本的小批量。

In [33]:
batch_size = 10
# 将训练集的特征和标签结合
dataset = Data.TensorDataset(features, labels)
# 随机读取小批量数据
data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)

In [34]:
for X, y in data_iter:
    print(X, y)
    break

tensor([[ 0.1615,  0.2345],
        [ 0.9849,  1.5698],
        [-0.5652,  0.0615],
        [ 0.5380,  0.1752],
        [ 1.0851, -1.2112],
        [-0.1829,  1.1450],
        [ 1.0213, -0.9987],
        [ 1.1024, -0.2465],
        [ 1.0887, -0.0362],
        [-0.2539, -0.8371]]) tensor([ 3.7293,  0.8283,  2.8527,  4.6633, 10.4898, -0.0554,  9.6299,  7.2281,
         6.5189,  6.5519])


### 3.3.3 定义模型

如果需要定义模型参数，并使用它们一步步描述模型，当模型结构变得复杂时，这些步骤将变得更繁琐。

PyTorch已提供了大量预定义的层，我们只需要关注使用哪些层来构造模型。

导入 `torch.nn` 模块。

实际上，`nn`就是利用`autograd`来定义模型，`nn`的核心数据结构使`Module`。

`Module`既可以表示神经网络中的某个层（Layer)，也可以表示一个包含很多层的神经网络。

实际使用中，最常见的做法是继承 `nn.Module`，撰写自己的网络/层。一个`nn.Module`实例应该包含一些层以及返回输出的前向传播（forward）方法。

下面使用`nn.Module`实现一个线性回归模型

In [35]:
class LinearNet(nn.Module):
    def __init__(self, n_feature):
        super(LinearNet, self).__init__()
        self.linear = nn.Linear(n_feature, 1)
    # forward 定义前向传播
    def forward(self, x):
        y = self.linear(x)
        return y
    
net = LinearNet(num_inputs)
print(net) # 打印网络结构

LinearNet(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)


`nn.Sequential`是一个有序的容器，网络层将按照传入`Sequential`的顺序，依次被添加到计算图中。

In [37]:
# 写法一
net = nn.Sequential(
    nn.Linear(num_inputs, 1)
    # 此处可以传入其他层
)

# 写法二
net = nn.Sequential()
net.add_module('linear', nn.Linear(num_inputs, 1))
# net.add_module...

# 写法三
from collections import OrderedDict
net = nn.Sequential(OrderedDict([
    ('linear', nn.Linear(num_inputs, 1))
    
]))

print(net)
print(net[0])

Sequential(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)
Linear(in_features=2, out_features=1, bias=True)


通过`net.parameters()`查看模型所有的可学习参数，此函数返回一个生成器

In [40]:
for param in net.parameters():
    print(param)

Parameter containing:
tensor([[0.0025, 0.0020]], requires_grad=True)
Parameter containing:
tensor([0.], requires_grad=True)


### 3.3.4 初始化模型参数

初始化权重和偏差。

`init`模块中提供了多种参数初始化方法。

通过`init.normal_`将权重参数每个元素初始化为随机采样于均值为0、标准差为0.01的正态分布；偏差初始化为0.

In [38]:
init.normal_(net[0].weight, mean=0, std=0.01)
init.constant_(net[0].bias, val=0)  # 也可以直接修改bias的data：net[0].bias.data.fill_(0)

Parameter containing:
tensor([0.], requires_grad=True)

### 3.3.5 定义损失函数

`nn`模块中提供了各种损失函数，这些损失函数可看作是一种特殊的层。

PyTorch中将这些损失函数实现为 `nn.Module` 的子类

下面使用均方误差损失作为模型的损失函数

In [39]:
loss = nn.MSELoss()

### 3.3.6 定义优化算法

`torch.optim`模块提供了很多常用的优化算法，比如SGD、Adam和RMSProp等。

下面创建一个用于优化`net`所有参数的优化器实例，并指定学习率为0.03的小批量随机梯度下降（SGD）为优化算法。

In [41]:
optimizer = optim.SGD(net.parameters(), lr=0.03)
print(optimizer)

SGD (
Parameter Group 0
    dampening: 0
    lr: 0.03
    momentum: 0
    nesterov: False
    weight_decay: 0
)


可以为不同子网络设置不同的学习率，在 **finetune** 时经常用到

optimizer = optim.SGD([
    # 如果对某个参数不指定学习率，就使用最外层的默认学习率
    {'params': net.subnet1.parameters()},
    {'params': net.subnet2.parameters(), 'lr': 0.01},
], lr=0.03)

如果不想学习率固定成常数，调整学习率有两种方法
- 修改`optimizer.param_groups`中对应的学习率
- 新建优化器（推荐）
    但对于使用动量的优化器（如Adam），会丢失动量等状态信息，可能会造成损失函数的收敛出现震荡等情况

In [29]:
# 调整学习率
for param_group in optimizer.param_groups:
    param_group['lr'] *= 0.1  # 学习率为之前的0.1倍

### 3.3.7 训练模型

通过调用 `optim` 实例的 `step` 函数来迭代模型参数

In [42]:
num_epochs = 3
for epoch in range(1, num_epochs + 1):
    for X, y in data_iter:
        output = net(X)
        l = loss(output, y.view(-1, 1))
        optimizer.zero_grad()  # 梯度清零
        l.backward()
        optimizer.step()
    print('epoch %d, loss:%f ' % (epoch, l.item()))

epoch 1, loss:0.000080 
epoch 2, loss:0.000093 
epoch 3, loss:0.000084 


In [43]:
# 比较学习到的参数和真实参数
dense = net[0]
print(true_w, dense.weight)
print(true_b, dense.bias)

[2, -3.4] Parameter containing:
tensor([[ 1.9997, -3.3997]], requires_grad=True)
4.2 Parameter containing:
tensor([4.2002], requires_grad=True)
