## 8.1 AlexNet

论文可见于：[论文链接](https://dl.acm.org/doi/abs/10.1145/3065386)

在上一章的最后详细介绍了卷积神经网络的开山之作LeNet，虽然卷积神经网络最近非常流程，但在LeNet出现后的十几年里，目标识别领域的主流还是传统目标识别算法，当然也与算力限制有关。直到2012年AlexNet赢得ImageNet挑战赛，才使得卷积神经网络再次引起人们的关注，也因此一发不可收拾，不断推陈出新。

AlexNet是由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton等人设计的。这个模型很大程度上推动了深度学习的发展，并为今天的卷积神经网络模型奠定了基础。截止目前为止，论文引用次数已经超过12万。

### 8.1.1 AlexNet基本思想

模型的设计是受到LeNet的启发的，但是它比LeNet要大得多，有5个卷积层和3个全连接层。它也引入了新的技术，例如使用ReLU激活函数代替Sigmoid激活函数，使用Dropout正则化以防止过拟合等。 AlexNet还是第一个在大型数据集上训练的卷积神经网络模型，它在ImageNet数据集上取得了很好的结果，并且在计算机视觉领域中引起了很大的关注。

### 8.1.2 AlexNet结构

AlexNet结构如下图所示：

<img src="./images/8-1-1.png" width="100%"></img>

AlexNet是一个8层的卷积神经网络，其中包括5个卷积层和3个全连接层。

* 第一层是卷积层，用于提取图像的特征。它包括96个11x11步长为4的卷积核，并使用最大池化。

* 第二层是卷积层，包括256个5x5的卷积核，并使用最大池化。

* 第三、四、五层也是卷积层，分别包括384个3x3的卷积核，384个3x3的卷积核，和256个3x3的卷积核。这三层后面使用最大池化。

* 第六层是全连接层，包括4096个神经元。

* 第七层是全连接层，包括4096个神经元。

* 第八层是输出层，包括1000个神经元，用于预测图像属于ImageNet数据集中的哪一类。

AlexNet参数量计算参考下图：

<img src="./images/8-1-2.png" width="100%"></img>

### 8.1.3 AlexNet代码实现

接下来看一下如何用代码实现相关网络结构。

In [1]:
# 导入必要的库
import torch
import torch.nn as nn

# 定义AlexNet的网络结构
class AlexNet(nn.Module):
    def __init__(self, num_classes=1000, dropout=0.5):
        super().__init__()
        # 定义卷积层
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        # 定义全连接层
        self.classifier = nn.Sequential(
            nn.Dropout(p=dropout),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

### 8.1.4 小结

* AlexNet是当时第一个在大型数据集上训练的卷积神经网络模型，使得卷积神经网络成为计算机视觉领域中可行的机器学习方法。

* 使用了ReLU激活函数，这使得训练更快且模型性能更好。

* 使用Dropout正则化，有利于防止过拟合。

* 在数据集上做了很多工作，引入数据增强，例如镜像以及随机剪裁等。

* 采用了一种局部响应归一化（Local Response Normalization, LRN）的方法进行处理。当然后面VGGNet等证明LRN并没有实现其预期效果，这里就不做赘述了。