我们先定义一个含单隐藏层的多层感知机。

In [1]:
import torch
from torch import nn
from torch.nn import init

In [2]:
net=nn.Sequential(nn.Linear(4,3),nn.ReLU(),nn.Linear(3,1)) #pytorch已进行默认的初始化

print(net)
X=torch.rand(2,4)
Y=net(X).sum()

Sequential(
  (0): Linear(in_features=4, out_features=3, bias=True)
  (1): ReLU()
  (2): Linear(in_features=3, out_features=1, bias=True)
)


#### 访问模型参数

对于Sequential类，我们可以通过Module类的parameters()或者named_parameters()方法来访问所有参数(以迭代器的形式返回)，后者除了返回参数Tensor外还会返回其名字。

In [4]:
print(type(net.named_parameters()))
#返回的名字自动加上了层数的索引作为前缀
for name,param in net.named_parameters():
    print(name,param.size())

<class 'generator'>
0.weight torch.Size([3, 4])
0.bias torch.Size([3])
2.weight torch.Size([1, 3])
2.bias torch.Size([1])


##### 初始化模型参数

PyTorch的init模块里提供了多种预设的初始化方法。

In [5]:
#将权重参数初始化成均值为0、标准差为0.01的正态分布随机数，并依然将偏差参数清零

for name,param in net.named_parameters():
    if 'weight' in name:
        init.normal_(param,mean=0,std=0.01)
        print(name,param.data)

0.weight tensor([[-0.0200,  0.0166,  0.0123, -0.0084],
        [-0.0058, -0.0201,  0.0060,  0.0103],
        [ 0.0028, -0.0147,  0.0003,  0.0023]])
2.weight tensor([[-0.0015,  0.0107, -0.0010]])


In [6]:
#下面使用常数来初始化偏差参数

for name,param in net.named_parameters():
    if 'bias' in name:
        init.constant_(param,val=0)
        print(name,param.data)

0.bias tensor([0., 0., 0.])
2.bias tensor([0.])


##### 自定义初始化方法

在下面的例子里，我们令权重有一半概率初始化为0，有另一半概率初始化为[-10,-5]和[5,10]两个区间里均匀分布的随机数。

In [8]:
def init_weight_(tensor):
    #这里使用一个inplace改变Tensor值得函数，而且这个过程是不记录梯度的
    with torch.no_grad():
        tensor.uniform_(-10,10)
        tensor*=(tensor.abs()>=5).float()


for name,param in net.named_parameters():
    if 'weight' in name:
        init_weight_(param)
        print(name,param.data)

0.weight tensor([[-5.6535, -6.5999, -0.0000, -6.8306],
        [-0.0000,  8.4150,  0.0000, -0.0000],
        [ 0.0000, -0.0000,  5.4649,  0.0000]])
2.weight tensor([[8.1392, 5.2721, -0.0000]])


我们还可以通过改变这些参数data来改写模型参数值同时不会影响梯度。

In [9]:
for name,param in net.named_parameters():
    if 'bias' in name:
        param.data+=1
        print(name,param.data)

0.bias tensor([1., 1., 1.])
2.bias tensor([1.])


#### 共享模型参数

在有些情况下，我们希望在多个层之间共享模型参数。

Module类的forward函数里多次调用同一个层可以共享模型参数，此外，如果我们传入Sequential的模块是同一个Module实例的话参数也是共享的。

在内存中这些层其实是一个对象。

In [10]:
linear=nn.Linear(1,1,bias=False)
net=nn.Sequential(linear,linear)
print(net)
#这里只有一个权重参数
for name,param in net.named_parameters():
    init.constant_(param,val=3)
    print(name,param.data)

Sequential(
  (0): Linear(in_features=1, out_features=1, bias=False)
  (1): Linear(in_features=1, out_features=1, bias=False)
)
0.weight tensor([[3.]])
