In [1]:
import torch
from torch import nn
from d2l import torch as d2l

In [2]:
def vgg_block(num_convs, out_channels):
    layers = []
    for _ in range(num_convs):
        layers.append(nn.LazyConv2d(out_channels, kernel_size=3, padding=1))
        layers.append(nn.ReLU())
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers)

In [3]:
class VGG(d2l.Classifier):
    def __init__(self, arch, lr=0.1, num_classes=10):
        super().__init__()
        self.save_hyperparameters()
        conv_blks = []
        for (num_convs, out_channels) in arch:
            conv_blks.append(vgg_block(num_convs, out_channels))
        self.net = nn.Sequential(
            *conv_blks, nn.Flatten(),
            nn.LazyLinear(4096), nn.ReLU(), nn.Dropout(0.5),
            nn.LazyLinear(4096), nn.ReLU(), nn.Dropout(0.5),
            nn.LazyLinear(num_classes))
        self.net.apply(d2l.init_cnn)

In [4]:
VGG(arch=((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))).layer_summary(
    (1, 1, 224, 224))



Sequential output shape:	 torch.Size([1, 64, 112, 112])
Sequential output shape:	 torch.Size([1, 128, 56, 56])
Sequential output shape:	 torch.Size([1, 256, 28, 28])
Sequential output shape:	 torch.Size([1, 512, 14, 14])
Sequential output shape:	 torch.Size([1, 512, 7, 7])
Flatten output shape:	 torch.Size([1, 25088])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 10])


In [None]:
model = VGG(arch=((1, 16), (1, 32), (2, 64), (2, 128), (2, 128)), lr=0.01)
trainer = d2l.Trainer(max_epochs=10, num_gpus=1)
data = d2l.FashionMNIST(batch_size=128, resize=(224, 224))
model.apply_init([next(iter(data.get_dataloader(True)))[0]], d2l.init_cnn)
trainer.fit(model, data)

Discussion: 일단 지금까지의 단원들에 비해 시간이 압도적으로 많이 걸렸다. 이번 단원은 VGG Network에 대해서 설명하는데, 이는 CNN의 여러 구조중 하나로, block구조를 사용한다는 특징을 가지고 있다. 각각의 block은 합성곱층, ReLU, Max Pooling의 순서로 이루어진다고 한다. 이러한 block들이 구성된 network는 크게 2가지 부분으로 나뉘는데, 합성곱 및 풀링 층으로 구성된 부분에서는 이미지에서 특징을 추출하고 입력 공간의 크기를 점차 줄여나가는 역할을 하고, 완전 연결 층으로 구성된 부분에서는 마지막에 추출된 특징을 사용하여 이미지를 분리하는 역할을 하였다. 이 예시에서는 5개의 block으로 구성되어 있으며, 위의 코드의 VGG구조에서 각 block의 채널 수나 계산 비용이 매우 크다는 것을 알 수 있다. 실제 훈련 및 실험에서는 채널 수를 줄여 더 간단한 버전을 훈련하였다. (그러나, 아무래도 데스크탑도 아니고 노트북으로 진행하고 있다 보니 시간이 여전히 너무 오래 걸렸다. colab으로 해서 gpu라도 쓸 수 있게 할 걸 그랬나 싶다.)