之前的AlexNet已经证明了，当GPU越来越猛的时候，我们去使用一个比较深、大的神经网络是可行的

但是AlexNet具有一个问题，那就是并没有提供一种模块化的设计思路，可以用来指导后续的研究设计新的神经网络

其实这里有点像啥呢？随机森林提醒我们可以把弱的学习器组合起来进行bagging，所以我们现在也会自然而然想到把多个不同的模型组合起来做ensemble（AutoGluon

而且AlexNet长的并不那么“规则”，你不太知道为啥它这么设计，可能就是随便调参调出来的
* VGG的设计思路就是，我要把我的网络框架变得更加有规律，这样我进一步研究也可以参照前面的研究结果
* 整个深度学习到今天，都是更深、更大、更多数据
* VGG的思想就是，我怎么合理的让我的模型变得，更深、更大，也就是有道理的变深变大
* VGG通过把一些层组成块，来让模型变得更大

VGG块其实就是，卷基层+赤化层，等于是把AlexNet的3卷基层+1池化层的结构给替换成模块，然后把AlexNet最前面那些不太规则的layer直接干掉了
1. 33卷积，padding 1，n层，m通道
2. 22max pool，stride 2
3. 遵循一个规则，较窄但是比较深的网络可能效果更好（所以不用55的conv layer

从上面设计思路可以看出，VGG模块化设计是比较自由的，所以有了VGG16、19等网络，其实就是VGG模块重复的次数

VGG这个使用可重复块的构建思路，后面被大量大量使用，同时这种思想可以同一种网络搞出很多配置的版本

In [5]:
import torch
from torch import nn
from d2l import torch as d2l


# 多少个卷积层，然后输入输出的通道数，for循环然后直接扔给sequential
def vgg_block(num_convs, in_channels, out_channels):
    layers = []
    for _ in range(num_convs):
        layers.append(nn.Conv2d(in_channels, out_channels,
                                kernel_size=3, padding=1))
        layers.append(nn.ReLU())
        in_channels = out_channels
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers)

In [6]:
conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))

然后我们定义好整个vgg网络的架构，下面我们循环调用里面vgg block的函数就可以了，要调参直接改就可以（不过改多少个vgg block还是需要改一下代码的

In [7]:
def vgg(conv_arch):
    conv_blks = []
    in_channels = 1
    # 卷积层部分
    for (num_convs, out_channels) in conv_arch:
        conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
        in_channels = out_channels

    return nn.Sequential(
        *conv_blks, nn.Flatten(),
        # 全连接层部分
        nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 10))

net = vgg(conv_arch)

In [10]:
# 可以看一下数据大小的变化
X = torch.randn(size=(1, 1, 224, 224))
for blk in net:
    X = blk(X)
    print(blk.__class__.__name__,'output shape:\t',X.shape)
    # 这种变化规律，长宽减半但是通道加倍，在后面的网络里面被广泛应用

Sequential output shape:	 torch.Size([1, 64, 112, 112])
Sequential output shape:	 torch.Size([1, 128, 56, 56])
Sequential output shape:	 torch.Size([1, 256, 28, 28])
Sequential output shape:	 torch.Size([1, 512, 14, 14])
Sequential output shape:	 torch.Size([1, 512, 7, 7])
Flatten output shape:	 torch.Size([1, 25088])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 10])


In [11]:
ratio = 4
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]
# 搞了一个比较小的，输出通道是1/4的小数据
net = vgg(small_conv_arch)

In [None]:
lr, num_epochs, batch_size = 0.05, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
# 训练效果还是蛮好的，只不过时间......比AlexNet高好多好多
# vgg net相比来说，非常耗内存
# colab：14分钟，但是VGG11，8卷积层3全连接3能到90多acc