In [7]:
import torch
import torch.nn as nn

linear_layer = nn.Linear(in_features=20, out_features=30)
input_tensor = torch.randn(128, 20)
output_tensor = linear_layer(input_tensor)
print(output_tensor.shape)  # torch.Size([128, 30])

torch.Size([128, 30])


In [8]:
lazy_linear = nn.LazyLinear(out_features=30)
input_tensor = torch.randn(128, 20)
output_tensor = lazy_linear(input_tensor)
print(output_tensor.shape)  # torch.Size([128, 30])

torch.Size([128, 30])


In [9]:
print(lazy_linear.weight.shape)  # torch.Size([30, 20])

torch.Size([30, 20])


这段代码展示了如何使用 `nn.Linear` 和 `nn.LazyLinear` 来实现线性变换，并通过打印输出张量的形状和权重的形状来验证它们的行为。下面是对代码的详细解释以及相关的数学原理。

### 代码解释

#### 1. 使用 `nn.Linear`
```python
linear_layer = nn.Linear(in_features=20, out_features=30)
input_tensor = torch.randn(128, 20)
output_tensor = linear_layer(input_tensor)
print(output_tensor.shape)  # torch.Size([128, 30])
```

- **`nn.Linear` 的初始化**：
  - 创建了一个线性层 `linear_layer`，输入特征维度为 20（`in_features=20`），输出特征维度为 30（`out_features=30`）。
  - 在初始化时，`nn.Linear` 会自动初始化权重矩阵 \( W \) 和偏置向量 \( b \)：
    - 权重矩阵 \( W \) 的形状为 `(out_features, in_features)`，即 `(30, 20)`。
    - 偏置向量 \( b \) 的形状为 `(out_features,)`，即 `(30,)`。

- **输入张量**：
  - `input_tensor` 的形状为 `(128, 20)`，表示有 128 个样本，每个样本有 20 个特征。

- **线性变换**：
  - 线性层执行的操作是 \( y = xW^T + b \)。
  - 输入张量 \( x \) 的形状为 `(128, 20)`，权重矩阵 \( W \) 的形状为 `(30, 20)`。
  - 计算 \( xW^T \) 时，矩阵乘法的结果形状为 `(128, 30)`。
  - 最终输出张量的形状为 `(128, 30)`，表示每个样本被映射到 30 维的输出空间。

#### 2. 使用 `nn.LazyLinear`
```python
lazy_linear = nn.LazyLinear(out_features=30)
input_tensor = torch.randn(128, 20)
output_tensor = lazy_linear(input_tensor)
print(output_tensor.shape)  # torch.Size([128, 30])
print(lazy_linear.weight.shape)  # torch.Size([30, 20])
```

- **`nn.LazyLinear` 的初始化**：
  - 创建了一个 `nn.LazyLinear` 模块，仅指定了输出特征维度为 30（`out_features=30`）。
  - 在初始化时，`nn.LazyLinear` **不会** 初始化权重矩阵 \( W \) 和偏置向量 \( b \)，因为输入特征维度尚未确定。

- **第一次前向传播**：
  - 当第一次调用 `lazy_linear(input_tensor)` 时，`nn.LazyLinear` 会根据输入张量的形状自动推断输入特征维度（`in_features`）。
  - 输入张量的形状为 `(128, 20)`，因此 `in_features` 被推断为 20。
  - 此时，`nn.LazyLinear` 会自动初始化权重矩阵 \( W \) 和偏置向量 \( b \)：
    - 权重矩阵 \( W \) 的形状为 `(30, 20)`。
    - 偏置向量 \( b \) 的形状为 `(30,)`。

- **线性变换**：
  - 与 `nn.Linear` 相同，`nn.LazyLinear` 执行的操作也是 \( y = xW^T + b \)。
  - 输入张量 \( x \) 的形状为 `(128, 20)`，权重矩阵 \( W \) 的形状为 `(30, 20)`。
  - 最终输出张量的形状为 `(128, 30)`。

- **权重形状**：
  - 打印 `lazy_linear.weight.shape` 的结果是 `(30, 20)`，这与 `nn.Linear` 的权重形状一致。

### 数学原理

无论是 `nn.Linear` 还是 `nn.LazyLinear`，它们的核心操作都是线性变换：
\[ y = xW^T + b \]

- \( x \) 是输入张量，形状为 `(batch_size, in_features)`。
- \( W \) 是权重矩阵，形状为 `(out_features, in_features)`。
- \( b \) 是偏置向量，形状为 `(out_features,)`。
- \( y \) 是输出张量，形状为 `(batch_size, out_features)`。

在矩阵乘法 \( xW^T \) 中：
- \( x \) 的形状为 `(batch_size, in_features)`。
- \( W^T \) 的形状为 `(in_features, out_features)`。
- 结果 \( y \) 的形状为 `(batch_size, out_features)`。

### 总结

- **`nn.Linear`**：
  - 需要在初始化时明确指定输入特征维度（`in_features`）。
  - 权重和偏置在初始化时立即初始化。

- **`nn.LazyLinear`**：
  - 在初始化时不指定输入特征维度，而是通过第一次前向传播自动推断。
  - 权重和偏置在第一次前向传播时初始化。
  - 在第一次前向传播后，`nn.LazyLinear` 自动转换为 `nn.Linear`。

两者在数学原理上完全一致，只是初始化方式不同。

In [10]:
# 定义输入张量 x，形状为 (batch_size, in_features)
x = torch.tensor([[1.0, 2.0, 3.0],
                  [4.0, 5.0, 6.0]])

# 定义权重矩阵 W，形状为 (out_features, in_features)
W = torch.tensor([[0.1, 0.2, 0.3],
                  [0.4, 0.5, 0.6],
                  [0.7, 0.8, 0.9],
                  [1.0, 1.1, 1.2]])

In [11]:
# 计算 xW^T
output = torch.matmul(x, W.T)
print(output)

tensor([[ 1.4000,  3.2000,  5.0000,  6.8000],
        [ 3.2000,  7.7000, 12.2000, 16.7000]])
