In [3]:
import torch
import torch.nn as nn

# 定义一个包含 LazyLinear 的模型（无需指定 in_features）
class LazyMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear1 = nn.LazyLinear(64)   # 输出64维，输入维数未知
        self.relu = nn.ReLU()
        self.linear2 = nn.LazyLinear(10)   # 输出10维

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        return x

# 创建模型（此时参数尚未初始化！）
model = LazyMLP()

# 查看参数：此时 named_parameters() 为空！
print("Before forward:", list(model.named_parameters()))  # []

# 创建一个 batch 的输入数据（例如：batch_size=5, features=20）
x = torch.randn(5, 20)

# 第一次前向传播：触发 Lazy 模块的参数初始化
output = model(x)

# 现在参数已经创建好了
print("After forward:")
for name, param in model.named_parameters():
    print(name, param.shape)
# 第一次输入 5，20 后，自动推断出 in_features=20，并创建了 64，20 的权重

Before forward: [('linear1.weight', <UninitializedParameter>), ('linear1.bias', <UninitializedParameter>), ('linear2.weight', <UninitializedParameter>), ('linear2.bias', <UninitializedParameter>)]
After forward:
linear1.weight torch.Size([64, 20])
linear1.bias torch.Size([64])
linear2.weight torch.Size([10, 64])
linear2.bias torch.Size([10])
