In [1]:
import torch
from torch import nn

# 定义一个简单的 MLP 模型
net = nn.Sequential(
    nn.Linear(4, 3),
    nn.ReLU(),
    nn.Linear(3, 1)
)

In [2]:
# 查看模型结构
print(net)

Sequential(
  (0): Linear(in_features=4, out_features=3, bias=True)
  (1): ReLU()
  (2): Linear(in_features=3, out_features=1, bias=True)
)


In [3]:
# 用 parameters() 遍历所有参数
for name, param in net.named_parameters():
    print(name, param.shape)

0.weight torch.Size([3, 4])
0.bias torch.Size([3])
2.weight torch.Size([1, 3])
2.bias torch.Size([1])


In [4]:
# 常用初始化方法
def init_normal(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=0.01)
        nn.init.zeros_(m.bias)

In [5]:
# 应用初始化并验证
net.apply(init_normal)  # 对 net 中所有层执行 init_normal
print(net[0].weight[:2])  # 打印前两行权重矩阵看看效果

tensor([[-0.0156, -0.0121, -0.0022,  0.0130],
        [ 0.0012,  0.0042,  0.0009,  0.0009]], grad_fn=<SliceBackward0>)


In [6]:
# 参数绑定
# 定义一个线性层
shared = nn.Linear(8, 8)

# 构建一个网络，两个子层都用 shared 层
net = nn.Sequential(
    shared,  # 第一个用 shared
    nn.ReLU(),
    shared,  # 第二个也用 shared（共享）
    nn.ReLU()
)

In [7]:
# 可以验证这两层共享参数
# 修改 shared 层的权重后，两个位置都受到影响
print(net[0].weight.data[0][0])  # 第一个位置的权重
print(net[2].weight.data[0][0])  # 第二个位置（同一个 shared）

# 两者是同一个 tensor 对象
print(id(net[0].weight) == id(net[2].weight))  # True

tensor(0.2445)
tensor(0.2445)
True
