# 网络中的网络（NiN）
:label:`sec_nin`

LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。
AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。
或者，可以想象在这个过程的早期使用全连接层。然而，如果使用了全连接层，可能会完全放弃表征的空间结构。
*网络中的网络*（*NiN*）提供了一个非常简单的解决方案：在每个像素的通道上分别使用多层感知机 :cite:`Lin.Chen.Yan.2013`

## (**NiN块**)

回想一下，卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。
另外，全连接层的输入和输出通常是分别对应于样本和特征的二维张量。
NiN的想法是在每个像素位置（针对每个高度和宽度）应用一个全连接层。
如果我们将权重连接到每个空间位置，我们可以将其视为$1\times 1$卷积层（如 :numref:`sec_channels`中所述），或作为在每个像素位置上独立作用的全连接层。
从另一个角度看，即将空间维度中的每个像素视为单个样本，将通道维度视为不同特征（feature）。

 :numref:`fig_nin`说明了VGG和NiN及它们的块之间主要架构差异。
NiN块以一个普通卷积层开始，后面是两个$1 \times 1$的卷积层。这两个$1 \times 1$卷积层充当带有ReLU激活函数的逐像素全连接层。
第一层的卷积窗口形状通常由用户设置。
随后的卷积窗口形状固定为$1 \times 1$。

![对比 VGG 和 NiN 及它们的块之间主要架构差异。](../img/nin.svg)
:width:`600px`
:label:`fig_nin`


In [None]:
!pip install d2l==1.0.3 --no-deps
!pip install scipy torch torchvision

In [None]:
import torch
from torch import nn
from d2l import torch as d2l


def nin_block(in_channels, out_channels, kernel_size, strides, padding):
    return nn.Sequential(
        nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),
        nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())

## [**NiN模型**]

最初的NiN网络是在AlexNet后不久提出的，显然从中得到了一些启示。
NiN使用窗口形状为$11\times 11$、$5\times 5$和$3\times 3$的卷积层，输出通道数量与AlexNet中的相同。
每个NiN块后有一个最大汇聚层，汇聚窗口形状为$3\times 3$，步幅为2。

NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。
相反，NiN使用一个NiN块，其输出通道数等于标签类别的数量。最后放一个*全局平均汇聚层*（global average pooling layer），生成一个对数几率	（logits）。NiN设计的一个优点是，它显著减少了模型所需参数的数量。然而，在实践中，这种设计有时会增加训练模型的时间。


In [None]:
net = nn.Sequential(
    nin_block(1, 96, kernel_size=11, strides=4, padding=0),
    nn.MaxPool2d(3, stride=2),
    nin_block(96, 256, kernel_size=5, strides=1, padding=2),
    nn.MaxPool2d(3, stride=2),
    nin_block(256, 384, kernel_size=3, strides=1, padding=1),
    nn.MaxPool2d(3, stride=2),
    nn.Dropout(0.5),
    # 标签类别数是10
    nin_block(384, 10, kernel_size=3, strides=1, padding=1),
    nn.AdaptiveAvgPool2d((1, 1)),
    # 将四维的输出转成二维的输出，其形状为(批量大小,10)
    nn.Flatten())

我们创建一个数据样本来[**查看每个块的输出形状**]。


In [None]:
X = torch.rand(size=(1, 1, 224, 224))
for layer in net:
    X = layer(X)
    print(layer.__class__.__name__,'output shape:\t', X.shape)

## [**训练模型**]

和以前一样，我们使用Fashion-MNIST来训练模型。训练NiN与训练AlexNet、VGG时相似。


In [None]:
lr, num_epochs, batch_size = 0.1, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

## 小结

* NiN使用由一个卷积层和多个$1\times 1$卷积层组成的块。该块可以在卷积神经网络中使用，以允许更多的每像素非线性。
* NiN去除了容易造成过拟合的全连接层，将它们替换为全局平均汇聚层（即在所有位置上进行求和）。该汇聚层通道数量为所需的输出数量（例如，Fashion-MNIST的输出为10）。
* 移除全连接层可减少过拟合，同时显著减少NiN的参数。
* NiN的设计影响了许多后续卷积神经网络的设计。

## 练习

1. 调整NiN的超参数，以提高分类准确性。
1. 为什么NiN块中有两个$1\times 1$卷积层？删除其中一个，然后观察和分析实验现象。
1. 计算NiN的资源使用情况。
    1. 参数的数量是多少？
    1. 计算量是多少？
    1. 训练期间需要多少显存？
    1. 预测期间需要多少显存？
1. 一次性直接将$384 \times 5 \times 5$的表示缩减为$10 \times 5 \times 5$的表示，会存在哪些问题？


[Discussions](https://discuss.d2l.ai/t/1869)


**第一问**  
使用文章中的原始代码进行训练，得到如下的结果：  
![屏幕截图 2026-02-11 155553.png](<attachment:屏幕截图 2026-02-11 155553.png>)  
后面轮次梯度爆炸，导致训练失败。调整超参数（例如，学习率、批量大小、迭代次数等）以提高分类准确性，并避免梯度爆炸。
将学习率调整为0.04，迭代次数调整为20，得到如下的结果：  
![屏幕截图 2026-02-11 162622.png](<attachment:屏幕截图 2026-02-11 162622.png>)
将学习率调整为0.04，批次数量调整为64，迭代次数调整为20，得到如下的结果：  
![image.png](attachment:image.png)  

**第二问**  
大概是两个$1\times 1$卷积层非线性能力更强，表达性更好。删除一个之后，准确率下降了，结果如下：  
![image-2.png](attachment:image-2.png)  

**第三问**  
# 一、CNN 计算统一标准公式

设：

* 输入尺寸：$( H \times W \times C_{in} )$
* 输出尺寸：$( H_{out} \times W_{out} \times C_{out} )$
* 卷积核：$( K \times K )$

---

## 1️⃣ 参数量

$Params = K^2 \times C_{in} \times C_{out}$

（忽略 bias）

---

## 2️⃣ 乘法次数

每个输出像素：
$K^2 \times C_{in}$

总输出像素：
$H_{out} \times W_{out} \times C_{out}$

所以：
$Mult = H_{out} W_{out} C_{out} \times K^2 C_{in}$

---

## 3️⃣ 加法次数

理论上：
$Add = H_{out} W_{out} C_{out} \times (K^2 C_{in} - 1)$

工程中通常近似：
$Add \approx Mult$

---

## 4️⃣ FLOPs（标准论文口径）
$FLOPs = 2 \times Mult$

（一次乘 + 一次加）

---

| 阶段 / 层级        | 输出尺寸 (H×W×C) | 参数量 (Params) | 参数量计算过程              | 乘法次数计算过程                     | 乘法次数 | 加法次数计算过程                     | 加法次数 |
|-------------------|------------------|----------------|----------------------------|--------------------------------------|----------|--------------------------------------|----------|
| Block 1: Conv     | 54×54×96         | 112×1×96      | (121×1)×(54²×96)           | (121×1)×(54²×96)                     | 33.85 M  | (121×1)×(54²×96)                     | 33.85 M  |
| Block 1: 1x1      | 54×54×96         | 1×96×96       | (1×96)×(54²×96)            | (1×96)×(54²×96)                      | 26.87 M  | (96×54²×96)                          | 26.87 M  |
| Block 1: 1x1      | 54×54×96         | 1×96×96       | (1×96)×(54²×96)            | (1×96)×(54²×96)                      | 26.87 M  | (96×54²×96)                          | 26.87 M  |
| Block 2: Conv     | 26×26×256        | 5×5×96×256    | (25×96)×(26²×256)          | (25×96)×(26²×256)                    | 415.29 M | (2400×26²×256)                       | 415.29 M |
| Block 2: 1x1      | 26×26×256        | 1×256×256     | (1×256)×(26²×256)          | (1×256)×(26²×256)                    | 44.30 M  | (256×26²×256)                        | 44.30 M  |
| Block 2: 1x1      | 26×26×256        | 1×256×256     | (1×256)×(26²×256)          | (1×256)×(26²×256)                    | 44.30 M  | (256×26²×256)                        | 44.30 M  |
| Block 3: Conv     | 12×12×384        | 3×3×256×384   | (9×256)×(12²×384)          | (9×256)×(12²×384)                    | 127.40 M | (2304×12²×384)                       | 127.40 M |
| Block 3: 1x1      | 12×12×384        | 1×384×384     | (1×384)×(12²×384)          | (1×384)×(12²×384)                    | 21.23 M  | (384×12²×384)                        | 21.23 M  |
| Block 3: 1x1      | 12×12×384        | 1×384×384     | (1×384)×(12²×384)          | (1×384)×(12²×384)                    | 21.23 M  | (384×12²×384)                        | 21.23 M  |
| Block 4: Conv     | 5×5×10           | 3×3×384×10    | (9×384)×(5²×10)            | (9×384)×(5²×10)                      | 0.86 M   | (3456×5²×10)                         | 0.86 M   |
| Block 4: 1x1      | 5×5×10           | 1×10×10       | (1×10)×(5²×10)             | (1×10)×(5²×10)                       | 0.0025 M | (10×5²×10)                           | 0.0025 M |
| Block 4: 1x1      | 5×5×10           | 1×10×10       | (1×10)×(5²×10)             | (1×10)×(5²×10)                       | 0.0025 M | (10×5²×10)                           | 0.0025 M |
| **总计**          | -                | ≈ 1.99 M      | -                          | -                                    | 762.2 M  | -                                    | 762.2 M  |


**第四问**  
似乎没什么影响  
![image-3.png](attachment:image-3.png)