In [105]:
import torch  
from torch import nn  
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))  
X = torch.rand(size=(2, 4))  
net(X)

tensor([[0.1979],
        [0.2000]], grad_fn=<AddmmBackward0>)

## 一.参数访问

### 1.访问一个层的参数

In [109]:
print(net[2].state_dict())

OrderedDict([('weight', tensor([[ 0.2449,  0.1801,  0.0567,  0.1355, -0.3012, -0.1621,  0.2232, -0.3003]])), ('bias', tensor([0.0938]))])


说明：访问的是模型的第3层(Liner(8，1))，这个全连接层包含两个参数,分别是该层的权重(o,h)和偏置(1,o)。

### 2.访问单独的参数
下面的代码从第二个全连接层(即第三个神  经网络层)提取偏置,提取后返回的是一个参数类实例,并进一步访问该参数的值。

(1)参数类型

In [114]:
print(type(net[2].bias))  

<class 'torch.nn.parameter.Parameter'>


(2)参数的内容

In [117]:
print(net[2].bias)  

Parameter containing:
tensor([0.0938], requires_grad=True)


(3)参数的值

In [120]:
print(net[2].bias.data)

tensor([0.0938])


另一种方式

In [123]:
net.state_dict()['2.bias'].data

tensor([0.0938])

（4）访问参数的梯度

In [126]:
print(net[2].bias.grad) 

None


(5)一次性访问一个全连接层的所有参数

In [129]:
print(*[(name, param.shape) for name, param in net[2].named_parameters()])

('weight', torch.Size([1, 8])) ('bias', torch.Size([1]))


（6）一次性访问所有全连接层的参数

In [132]:
print(*[(name, param.shape) for name, param in net.named_parameters()])

('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


### 3.在嵌套的block中访问

In [135]:
def block1():  
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(),  nn.Linear(8, 4), nn.ReLU())  
def block2():  
    net = nn.Sequential()  
    for i in range(4): # 在这里嵌套
        net.add_module(f'block {i}', block1())  
    return net  
rgnet = nn.Sequential(block2(), nn.Linear(4, 1))  
rgnet

Sequential(
  (0): Sequential(
    (block 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (block 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)

分析：在rgnet这个模型中，有两层（块），在第一块（block2）中由Sequential包含了4个子块（block1）
因为层是分层嵌套的,所以我们也可以像通过嵌套列表索引一样访问它们。下面,我们访问第一个主要的块中、第二个子块的第一层的偏置项。

In [138]:
rgnet[0][1][0].bias.data

tensor([ 0.1454, -0.0033,  0.2428,  0.2983,  0.3111,  0.4952,  0.4737, -0.3738])

## 二、参数初始化

### 1.内置初始化

（1）将所有权重参数初始化为标准差为0.01的高斯随机变量,且将  偏置参数设置为0。

In [149]:
def init_normal(m):  
    if type(m) == nn.Linear:  
        nn.init.normal_(m.weight, mean=0, std=0.01)  
        nn.init.zeros_(m.bias)  
net.apply(init_normal)  
net[0].weight.data[0], net[0].bias.data[0]

(tensor([ 0.0057, -0.0241, -0.0078,  0.0126]), tensor(0.))

（2）将所有参数初始化为给定的常数,比如初始化为1。

In [152]:
def init_constant(m):  
    if type(m) == nn.Linear:  
        nn.init.constant_(m.weight, 1)  
        nn.init.zeros_(m.bias)
net.apply(init_constant)  
net[0].weight.data[0], net[0].bias.data[0]

(tensor([1., 1., 1., 1.]), tensor(0.))

（3）对某些块应用不同的初始化方法。    
例如,下面我们使用Xavier初始化方法初始化第一个神经网络  层,然后将第三个神经网络层初始化为常量值42。

In [155]:
def init_xavier(m):  
    if type(m) == nn.Linear:  
        nn.init.xavier_uniform_(m.weight)  
def init_42(m):  
    if type(m) == nn.Linear:  
        nn.init.constant_(m.weight, 42)  
net[0].apply(init_xavier)  
net[2].apply(init_42)  
print(net[0].weight.data[0])  
print(net[2].weight.data[0])

tensor([-0.3067,  0.7016, -0.3640,  0.6962])
tensor([42., 42., 42., 42., 42., 42., 42., 42.])


## 三、参数绑定

In [158]:
# 我们需要给共享层一个名称,以便可以引用它的参数  
shared = nn.Linear(8, 8)  
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),  shared, nn.ReLU(),  shared, nn.ReLU(),  nn.Linear(8, 1))  
net(X)  # 检查参数是否相同  
print(net[2].weight.data[0] == net[4].weight.data[0])  
net[2].weight.data[0, 0] = 100  # 确保它们实际上是同一个对象,而不只是有相同的值  
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])


如果我们改变其中一个参数,另一个参数也会改变。