In [2]:
# 参数管理: 我们可以通过一些特殊的操作对每层当中的网络当中的参数进行操作
# 包括初始化, 访问参数: 用于调试, 诊断和可视化. 以及生成共享层


In [3]:
# 我们先来看一些具有单隐藏层的多层感知机.

import torch
from torch import nn

# create Sequential: a sigual MLP (multilayer perceptron )
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
output = net(X)

output

tensor([[0.0510],
        [0.0482]], grad_fn=<AddmmBackward0>)

In [4]:
# 参数访问:
# 我们可以将Sequential看作一个列表容器, 我们可以通过索引看到其中的各个层的值
print(net[0]) # 取出第一层
# Linear(in_features=4, out_features=8, bias=True)

# 通过state_dict()返回这个层的参数. 
print(net[2].state_dict())
# 返回OrderDict这个数据类型.


Linear(in_features=4, out_features=8, bias=True)
OrderedDict([('weight', tensor([[-0.1367,  0.3375,  0.0475,  0.1561,  0.2346, -0.0513, -0.1979,  0.2334]])), ('bias', tensor([0.0429]))])


In [5]:
# 目标参数, 
# 注意, 其实每个参数都表示为参数类的一个实例, 在torch中就是Parameter类
print(type(net[2].bias))
print(net[2].bias) # 打印bias的属性, 其中包括data, grad两个方面
dir(net[2].bias) # 查看bias的attribute
# 通过data取出数据: 
print(net[2].bias.data) # 就是单独的data
# 通过grad取出梯度
print(net[2].bias.grad) # None, 因为我们还没backward所以还没有计算梯度. 

<class 'torch.nn.parameter.Parameter'>
Parameter containing:
tensor([0.0429], requires_grad=True)
tensor([0.0429])
None


In [6]:
# 访问梯度
net[2].weight.grad == None # True
# 因为我们还没有进行backward所以还没有计算梯度, 所以grad为None


True

In [7]:
# 一次性访问所有参数:
print(net.named_parameters()) # <generator object Module.named_parameters at 0x7fabcee9d7e0>
# 是一个生成器对象, 通过yield返回数值. 


# 访问net[0]的所有参数:
print(*[(name, parm) for name, parm in net[0].named_parameters()])

print("="*50)
# 访问net中的所有层, 所有参数:
print(*[(name, parm) for name, parm in net.named_parameters()]) # 返回net每层中参数 
# *进行解包. 


<generator object Module.named_parameters at 0x7f2253bf4660>
('weight', Parameter containing:
tensor([[-0.3137,  0.4447,  0.1632, -0.0665],
        [ 0.1398, -0.3636, -0.1345,  0.1400],
        [-0.3024,  0.4709,  0.4361, -0.0838],
        [ 0.2103, -0.4333,  0.3128, -0.2857],
        [-0.2681,  0.3009,  0.0493, -0.4782],
        [-0.3141,  0.0650,  0.3362,  0.2607],
        [-0.2926,  0.2631, -0.1591, -0.3237],
        [ 0.4916, -0.3872, -0.1101, -0.4044]], requires_grad=True)) ('bias', Parameter containing:
tensor([-0.3313, -0.1666,  0.0280, -0.0343, -0.0414,  0.0065, -0.4216, -0.1318],
       requires_grad=True))
('0.weight', Parameter containing:
tensor([[-0.3137,  0.4447,  0.1632, -0.0665],
        [ 0.1398, -0.3636, -0.1345,  0.1400],
        [-0.3024,  0.4709,  0.4361, -0.0838],
        [ 0.2103, -0.4333,  0.3128, -0.2857],
        [-0.2681,  0.3009,  0.0493, -0.4782],
        [-0.3141,  0.0650,  0.3362,  0.2607],
        [-0.2926,  0.2631, -0.1591, -0.3237],
        [ 0.4916, -

In [8]:
# 因为state_dict()返回的本质是一个字典形式: 所以我们还可以通过key的形式进行访问参数
net.state_dict()['2.bias'].data # 通过key来查找

tensor([0.0429])

In [9]:

# 现在让我们看看通过add_module添加网络层, 这样我们可以指定每层的名称

# 我们先定义black1:


def black1() -> nn.Sequential:
    return nn.Sequential(
        nn.Linear(4, 8), nn.ReLU(),
        nn.Linear(8, 4), nn.ReLU()
    )

# 然后定义black2: 
def black2() -> nn.Module:
    net = nn.Sequential() # definite a container 
    
    for i in range(4):
        # 嵌套
        net.add_module(f"black: {i}", black1())
        # 和我们直接在Sequential中定义的唯一区别, 就是这里我们可以执行模型的名字
    return net

rgnet = nn.Sequential(black2(), nn.Linear(4, 1))
rgnet(X)

tensor([[-0.3413],
        [-0.3413]], grad_fn=<AddmmBackward0>)

In [11]:
# 打印网络结构:
print(rgnet)

Sequential(
  (0): Sequential(
    (black: 0): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (black: 1): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (black: 2): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
    (black: 3): Sequential(
      (0): Linear(in_features=4, out_features=8, bias=True)
      (1): ReLU()
      (2): Linear(in_features=8, out_features=4, bias=True)
      (3): ReLU()
    )
  )
  (1): Linear(in_features=4, out_features=1, bias=True)
)


In [12]:
# 由于是层是分层嵌套的, 所以我们也可以通过嵌套列表索引一样访问他们, 
rgnet[0][1][0].bias.data

tensor([-0.3868,  0.0399,  0.1805,  0.2331,  0.1051,  0.1194,  0.1589,  0.3595])

In [None]:
# 参数初始化: 我们如何修改默认的函数, 来获得我们新的参数初始化
def init_norm(m: nn.Module):
    if type(m) == nn.Linear: # 如果是全连接层
        nn.init.normal_(m.weight, mean=0, std=0.01) # 对w进行正态分布初始化