## 参数管理
+ 访问参数，用于调试、诊断和可视化
+ 参数初始化
+ 在不同模型中组件间共享参数

In [2]:
import torch
from torch import nn
from d2l import torch as d2l

# 这是具有单隐藏层的多层感知机

X = torch.rand((2,4))
print(X)
net = nn.Sequential(
    nn.Linear(4,8),nn.ReLU(),   # 第一个样本输入4个数据，第二个样本输出4个数据
    nn.Linear(8,1)
)
net(X)

tensor([[0.1795, 0.1953, 0.1156, 0.4262],
        [0.5363, 0.5601, 0.7159, 0.7829]])


tensor([[-0.2905],
        [-0.4087]], grad_fn=<AddmmBackward0>)

## 参数访问

In [3]:
# 第二个全连接层的参数
print(net[2].state_dict())

OrderedDict([('weight', tensor([[-0.3164,  0.2971, -0.0146,  0.3407, -0.0780, -0.0655,  0.2656, -0.1782]])), ('bias', tensor([-0.1665]))])


In [4]:
print(type(net[2].bias))
print(net[2].bias)
print(net[2].bias.data)

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([-0.1665], requires_grad=True)
tensor([-0.1665])


参数是复合的对象，包含值、梯度和额外信息。 这就是我们需要显式参数值的原因。 除了值之外，我们还可以访问每个参数的梯度。 在上面这个网络中，由于我们还没有调用反向传播，所以参数的梯度处于初始状态。

In [5]:
net[2].weight.grad == None

True

In [6]:
# 一次访问所有参数
print(*[(name, param.shape) for name, param in net[0].named_parameters()])
print(*[(name, param.shape) for name, param in net.named_parameters()])

('weight', torch.Size([8, 4])) ('bias', torch.Size([8]))
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))


In [7]:
net.state_dict()['2.bias'].data

tensor([-0.1665])