In [5]:
import torch
from torch import nn
from torch.nn import init

net = nn.Sequential(nn.Linear(4, 3), nn.ReLU(), nn.Linear(3, 1))  # pytorch已进行默认初始化

print(net)
X = torch.rand(2, 4)
Y = net(X).sum()
#模型参数的访问、初始化和共享
#访问模型参数——parameters() or named_parameters(),后者返回参数Tensor外还会返回其名字。
print(type(net.named_parameters()))
for name,param in net.named_parameters():
    print(name,param.size())
#也可以用索引得到特定某一层的索引——因为用的是Sequence
for name,param in net[0].named_parameters():
    print(name,param.size(),type(param))

Sequential(
  (0): Linear(in_features=4, out_features=3, bias=True)
  (1): ReLU()
  (2): Linear(in_features=3, out_features=1, bias=True)
)
<class 'generator'>
0.weight torch.Size([3, 4])
0.bias torch.Size([3])
2.weight torch.Size([1, 3])
2.bias torch.Size([1])
weight torch.Size([3, 4]) <class 'torch.nn.parameter.Parameter'>
bias torch.Size([3]) <class 'torch.nn.parameter.Parameter'>


In [8]:
#另外返回的param的类型为torch.nn.parameter.Parameter，其实这是Tensor的子类，
#和Tensor不同的是如果一个Tensor是Parameter，那么它会自动被添加到模型的参数列表里
class MyModel(nn.Module):
    def __init__(self,**kwargs):
        super(MyModel,self).__init__(**kwargs)
        self.weight1 = nn.Parameter(torch.rand(20,20))
        self.weight2 = torch.rand(20,20)
    def forward(self,x):
        pass
n = MyModel()
for name,param in n.named_parameters():
    print(name)
#因为Parameter是Tensor，即Tensor拥有的属性它都有，比如可以根据data来访问参数数值，用grad来访问参数梯度。
#weight2不是Tensor

weight1


In [11]:
#初始化模型参数
#PyTorch的init模块里提供了多种预设的初始化方法。
#下面例子，将权重参数初始化成均值为0、标准差为0.01的正态分布随机数，并依然将偏差参数清零。
for name,param in net.named_parameters():
    if 'weight' in name:
        init.normal_(param,mean=0,std=0.01)
        print(name,param.data)
#用常数初始化权重
for name,param in net.named_parameters():
    if 'bias' in name:
        init.constant_(param,val=0)
        print(name,param.data)

0.weight tensor([[ 0.0056,  0.0040,  0.0132,  0.0030],
        [ 0.0027, -0.0053,  0.0024,  0.0015],
        [ 0.0033, -0.0124,  0.0017, -0.0112]])
2.weight tensor([[-0.0097, -0.0001, -0.0042]])
0.bias tensor([0., 0., 0.])
2.bias tensor([0.])


In [13]:
#自定义初始化方法
#令权重有一半概率初始化为0，有另一半概率初始化为[−10,−5]和[5,10]两个区间里均匀分布的随机数。
def init_weight_(tensor):
    with torch.no_grad():
        tensor.uniform_(-10,10) #从均匀分布中取值——每个的概率是一样的
        tensor *= (tensor.abs()>=5).float()
for name,param in net.named_parameters():
    if 'weight' in name:
        init_weight_(param)
        print(name,param.data)

0.weight tensor([[-0.0000, -6.8709,  9.9523,  7.2053],
        [-0.0000,  9.5194,  9.1493, -5.6697],
        [-0.0000,  0.0000, -7.0740, -0.0000]])
2.weight tensor([[-0.0000, -9.6935, -0.0000]])


In [15]:
#模型参数共享
#1. Module类的forward函数里多次调用同一个层。Module类layer复用
#2. 传入Sequential的模块是同一个Module实例的话参数也是共享的
linear = nn.Linear(1,1,bias=False)
net = nn.Sequential(linear,linear)
print(net)
for name,param in net.named_parameters():
    init.constant_(param,val=3)
    print(name,param.data)
#在内存中，这两个线性层其实一个对象:
print(id(net[0]) == id(net[1]))
print(id(net[0].weight) == id(net[1].weight))

Sequential(
  (0): Linear(in_features=1, out_features=1, bias=False)
  (1): Linear(in_features=1, out_features=1, bias=False)
)
0.weight tensor([[3.]])
True
True
