### 线性回归的简洁实现

在本节，我们将使用PyTorch更方便地实现线性回归的训练。

#### 生成数据集

In [27]:
import torch
import numpy as np
from torch import nn
num_inputs=2
num_examples=1000
true_w=[2,-3]
true_b=4.2
features=torch.tensor(np.random.normal(0,1,(num_examples,num_inputs)),dtype=torch.float32)
labels=true_w[0]*features[:,0]+true_w[1]*features[:,1]+true_b
labels+=torch.tensor(np.random.normal(0,0.01,size=labels.size()),dtype=torch.float32)

#### 读取数据

PyTorch提供了data包来读取数据。由于data常用作变量名，我们将导入的data模块用Data代替。在每一次迭代中，我们将随机读取包含10个数据样本的小批量。

函数说明

class torch.utils.data.TensorDataset(data_tensor,target_tensor)

包装训练数据和标签的数据集

参数:
* data_tensor(Tensor):样本数据
* target_tensor(Tensor):标签

class torch.utils.data.Dataloader(dataset,batch_size=1,shuffle=False,..)

数据加载器，在数据集上提供单进程或多进程迭代器

参数:
* dataset(Dataset):加载数据的数据集
* batch_size(int):batch_Size
* shuffle(bool):设置为Ture时会在每个epoch重新打乱数据(默认:False)

In [3]:
import torch.utils.data as Data

batch_size=10
#将训练数据的特征和标签组合
dataset=Data.TensorDataset(features,labels)
#随机读取小批量
#这里的data_iter也是一个迭代器
data_iter=Data.DataLoader(dataset,batch_size,shuffle=True)

In [4]:
for X,y in data_iter:
    print(X,y)
    break

tensor([[-0.8110, -0.1360],
        [ 0.9777, -0.3895],
        [-0.3851, -2.0484],
        [-1.2841,  2.3703],
        [ 0.9958, -1.9146],
        [-1.4517,  0.0620],
        [-0.5573,  0.0842],
        [ 0.8103,  0.8467],
        [ 0.6521,  0.3122],
        [-0.4478, -0.3239]]) tensor([ 2.9930,  7.3226,  9.5793, -5.4694, 11.9473,  1.1055,  2.8418,  3.2882,
         4.5754,  4.2692])


#### 定义模型

PyTorch提供了大量预定义的层。

首先导入torch.nn模块。实际上,'nn'是neural networks(神经网络)的缩写。该模型定义了大量神经网络的层。nn的核心数据结构是Module,它是一个抽象概念。在实际使用中，最常用的做法是继承nn.Module,撰写自己的网络/层。

**一个nn.Module实例应该包含一些层以及返回输出的前向传播方法。**

In [7]:
class LinearNet(nn.Module):
    def __init__(self,n_feature):
        super(LinearNet,self).__init__()
        self.linear=nn.Linear(n_feature,1)
    #forward定义前向传播
    def forward(self,x):
        y=self.linear(x)
        return y

In [15]:
net=LinearNet(num_inputs)
print(net)

LinearNet(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)


事实上我们还可以用nn.Sequential来更加方便搭建网络,Sequential是一个有序的容器，网络层将按照在传入Sequential的顺序依次被添加到计算图中。

In [12]:
#写法一
net1=nn.Sequential(
    nn.Linear(num_inputs,1)
    #此处还可以传入其他层
)
#写法二
net2=nn.Sequential()
net2.add_module('linear',nn.Linear(num_inputs,1))
#net.add_module...

print(net1)
print(net2)

Sequential(
  (0): Linear(in_features=2, out_features=1, bias=True)
)
Sequential(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)


可以通过net.parameters()来查看模型所有的可学习参数，此函数将返回一个生成器

In [13]:
for param in net.parameters():
    print(param)

Parameter containing:
tensor([[ 0.4893, -0.1494]], requires_grad=True)
Parameter containing:
tensor([0.2035], requires_grad=True)


线性回归输出层中的神经元和输入层中各个输入完全连接。因此，线性回归的输出层又叫全连接层。

#### 初始化模型参数

在使用net前，我么需要初始化模型参数。PyTorch在init模块中提供了多种参数初始化方法。这里的init是initializer的缩写形式。我们通过init.normal_将权重参数每个元素初始化为随机采样于均值为0，标准差为0.01的正态分布。偏差会初始化为零。

In [16]:
from torch.nn import init

init.normal_(net1[0].weight,mean=0,std=0.01)
init.constant_(net1[0].bias,val=0)#也可以直接修改bias的data:net[0].bias.data.fill_(0)

Parameter containing:
tensor([0.], requires_grad=True)

**注意:如果这里的net是继承与nn.module的LinearNet,那么上面的代码会报错,net[0].weight应改为net.linear.weight,bias亦然。因为net[0]这样根据下标访问子模块的写法只有当net是个ModuleList或者Sequential实例时才可以**

#### 定义损失函数

PyTorch在nn模块中提供了各种损失函数，这些损失函数可看作是一种特殊的层，PyTorch也将这些损失函数实现为nn.Module的子类。我们现在使用它提供的均方误差损失作为模型的损失函数。

In [17]:
loss=nn.MSELoss()

#### 定义优化算法

同样，我么也无需自己实现小批量随机梯度下降算法。torch.optim模块提供了很多常用的优化算法比如SGD、Adam和RMSProp等。下面我们创建一个用于优化net所有参赛的优化器实例，并制定学习率为0.03的小批量随机梯度下降(SGD)为优化算法。

In [23]:
import torch.optim as optim

optimizer=optim.SGD(net1.parameters(),lr=0.03)
print(optimizer)

SGD (
Parameter Group 0
    dampening: 0
    lr: 0.03
    momentum: 0
    nesterov: False
    weight_decay: 0
)


我们还可以为不同子网络设置不同的学习率

In [None]:
optimizer=optim.SGD([
    {'params':net.subnet1.parameters()},#lr=0.03
    {'params':net.subnet2.parameters(),'lr':0.01}
],lr=0.03)

调整学习率有两种做法:
* 修改optimizer.param_groups中对应的学习率
* 新建优化器。但对于使用的动量的优化器(如Adam)，会丢失动量等状态信息，可能会造成损失函数的收敛出现震荡等情况

In [None]:
#调整学习率
for param_group in optimizer.param_groups:
    param_group['lr']*=0.1  #学习率为之前的0.1倍

#### 训练模型

在训练模型时，我们通过调用optim实例的step函数来迭代模型参数。

In [28]:
num_epochs=3
for epoch in range(1,num_epochs+1):
    for X,y in data_iter:
        output=net1(X)
        l=loss(output,y.view(-1,1))
        optimizer.zero_grad() #梯度清零，等价于net.zero_grad()
        l.backward()
        optimizer.step()
    print('epoch %d ,loss:%f'%(epoch,l.item()))

epoch 1 ,loss:0.000075
epoch 2 ,loss:0.000051
epoch 3 ,loss:0.000067


In [29]:
dense=net1[0]
print(true_w,dense.weight)
print(true_b,dense.bias)

[2, -3] Parameter containing:
tensor([[ 1.9993, -2.9998]], requires_grad=True)
4.2 Parameter containing:
tensor([4.2008], requires_grad=True)
