# 5.2 参数管理

## 5.2.1 参数访问

In [3]:
import torch
from torch import nn

net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
X,net(X)

(tensor([[0.9288, 0.8350, 0.4935, 0.4622],
         [0.0947, 0.5366, 0.9383, 0.2545]]),
 tensor([[-0.0285],
         [ 0.0547]], grad_fn=<AddmmBackward0>))

当通过Sequential类定义模型时，我们可以通过索引来访问模型的任意层。

这就像模型是一个列表一样。每层的参数都在其属性中。

如下所示，我们可以检查第二个全连接层的参数。
首先，这个全连接层包含两个参数，分别是该层的权重和偏置,两者都存储为单精度浮点数（float32）。

注意，参数名称允许我们唯一地标识每个参数，即使在包含数百个层的网络中也是如此。

In [4]:
print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.0945, -0.2433, -0.0757,  0.1561,  0.2365,  0.2934, -0.1218,  0.0669]])), ('bias', tensor([0.0577]))])


### 目标参数
注意，每个参数都表示为参数（parameter）类的一个实例。

要对参数执行任何操作，首先我们需要访问底层的数值。

参数是复合的对象，包含值、梯度和额外信息

In [6]:
print(type(net[2].bias)) # 访问参数的类型
print(net[2].bias) # 访问参数
print(net[2].bias.data) # 访问参数的值


<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([0.0577], requires_grad=True)
tensor([0.0577])


In [7]:
# 我们还可以访问每个参数的梯度。
# 由于我们还没有调用这个网络的反向传播，所以参数的梯度处于初始状态。
net[2].weight.grad == None


True

### 一次性访问所有的参数

In [8]:
print(*[(name, param.shape) for name, param in net[0].named_parameters()])
print(*[(name, param.shape) for name, param in net.named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


In [9]:
# 另外一种访问网格参数的方式
net.state_dict()['2.bias'].data

tensor([0.0577])

### 从嵌套块收集参数

In [10]:
def block1():
    return nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                         nn.Linear(8, 4), nn.ReLU())

def block2():
    net = nn.Sequential()
    for i in range(4):
        # 在这里嵌套
        net.add_module(f'block {i}', block1())
    return net

In [11]:
rgnet = nn.Sequential(block2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.3274],
        [-0.3275]], grad_fn=<AddmmBackward0>)