In [14]:
import torch
from torch import nn

In [15]:
net = nn.Sequential(nn.LazyLinear(8), nn.ReLU(), nn.LazyLinear(1))
X = torch.rand(size=(2, 4))
net(X).shape

torch.Size([2, 1])

In [18]:
def init_normal(module): # 内置初始化器
    if type(module) == nn.Linear:
        nn.init.normal_(module.weight, mean=0, std=0.01) # 均值为 0，标准差为 0.01
        nn.init.zeros_(module.bias) # 初始化偏置为 0

net.apply(init_normal) # 遍历 net 中的所有层，并将 init_normal 函数应用到每一层。
net[0].weight.data[0], net[0].bias.data[0]

(tensor([ 0.0134, -0.0113, -0.0097,  0.0163]), tensor(0.))

In [23]:
def init_constant(module):
    if type(module) == nn.Linear:
        nn.init.constant_(module.weight, 1) # 初始化为常量 1，其余与上面的相同
        nn.init.zeros_(module.bias)

net.apply(init_constant)
net[0].weight.data[0], net[0].bias.data[0]

(tensor([1., 1., 1., 1.]), tensor(0.))

In [28]:
def init_xavier(module):
    if type(module) == nn.Linear:
        nn.init.xavier_uniform_(module.weight)
        # 使用 nn.init.xavier_uniform_ 将 module.weight 的权重初始化为 Xavier 均匀分布
        # 暂时先别管 Xavier 均匀分布是什么

def init_42(module):
    if type(module) == nn.Linear:
        nn.init.constant_(module.weight, 42) # 上一个代码块用过，初始化为常数 42

net[0].apply(init_xavier)
net[2].apply(init_42)
print(net[0].weight.data[0])
print(net[2].weight.data)

tensor([-0.2455, -0.4017, -0.0877, -0.4805])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])


In [33]:
def my_init(module):
    if type(module) == nn.Linear:
        print("Init", *[(name, param.shape) for name, param in module.named_parameters()][0])
        # module.named_parameters() 返回该层的参数生成器
        # [(name, param.shape) for name, param in module.named_parameters()][0] 只取第一个参数的名字和形状（通常是 weight）
        # 然后用 * 展开以便打印输出
        nn.init.uniform_(module.weight, -10, 10)
        # 用 nn.init.uniform_ 将 module.weight 初始化为在 -10 到 10 范围内均匀分布的值
        module.weight.data *= module.weight.data.abs() >= 5
        # 留权重绝对值大于或等于 5 的数值，将其他值置为 0

net.apply(my_init)
net[0].weight[:2]

Init weight torch.Size([8, 4])
Init weight torch.Size([1, 8])


tensor([[-7.7284,  5.2990,  8.0184,  8.7791],
        [ 8.6085, -0.0000, -0.0000,  0.0000]], grad_fn=<SliceBackward0>)

In [34]:
net[0].weight.data[:] += 1
net[0].weight.data[0, 0] = 42
net[0].weight.data[0]

tensor([42.0000,  6.2990,  9.0184,  9.7791])

Exercise: NO MORE