# ImageNet Winners

https://www.kaggle.com/discussions/getting-started/149448

### Alexnet

<img src="https://drive.google.com/uc?id=1lMNMahrKOsGmLu6V7Hctq5MbizfG1SCb" width=800/>


In [94]:
import torch

In [95]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# torch.nn.Conv2d 및 nn.ReLU 와 nn.Dropout 레이어를 사용하여 다음 모델을 구현해 보세요.

* input data: (32, 3, 224, 224)
* kernel size 3x3
* output data: (32, 48, 222, 222)

In [2]:
import torch

In [3]:
import torch.nn as nn

In [4]:
input = torch.rand(32, 3, 224, 224)
conv = nn.Conv2d(3, 48, 3)
x = conv(input)
x.shape

torch.Size([32, 48, 222, 222])

In [5]:
relu = nn.ReLU()
x = relu(x)
x.shape

torch.Size([32, 48, 222, 222])

In [6]:
dropout = nn.Dropout()
dropout(x).shape

torch.Size([32, 48, 222, 222])

### VGG16

<img src="https://www.researchgate.net/profile/Max-Ferguson/publication/322512435/figure/fig3/AS:697390994567179@1543282378794/Fig-A1-The-standard-VGG-16-network-architecture-as-proposed-in-32-Note-that-only.png" width=800 />

* 작은(3x3) 합성 필터를 사용하여 매우 간단하고 균일하게 설계
* 네트워크의 깊이를 늘리면 성능이 크게 향상됨
* 사전 학습된 VGG 모델은 다른 작업을 위한 강력한 기능 추출기로 널리 사용됨

* ref.: neurohive, VGG16 - Convolutional Network for Classification and Detection, 2018, https://neurohive.io/en/popular-networks/vgg16/
* ref.: Simonyan, Karen, and Andrew Zisserman. 2015. "Very Deep Convolutional Networks for Large-Scale Image Recognition." arXiv preprint arXiv:1409.1556.



## 1. torch.rand 를 이용하여 (32, 1, 224, 224) 크기의 데이터를 생성해 input 변수에 저장하세요.

In [1]:
import torch


In [24]:
input = torch.rand(32, 1, 224, 224)
input.shape

torch.Size([32, 1, 224, 224])

## 2. torch.nn.Conv2d 를 이용하여 (32, 8, 224, 224) 출력을 내는 CNN 레이어를 생성하여 cnn1 변수에 저장하세요. (hint: padding='same' 사용해 보기)

In [25]:
from torch.nn import Conv2d

In [26]:
cnn1 = Conv2d(1, 8, 5, padding='same')
cnn1(input).shape

torch.Size([32, 8, 224, 224])

## 3. input 데이터를 cnn1 레이어에 통과시킨 후, activation function(torch.nn.ReLU) 레이어를 생성하여 relu1 변수에 저장하고, x 를 여기에 적용한 결과를 다시 x 변수에 저장하세요.

In [27]:
from torch.nn import ReLU

In [28]:
relu = ReLU()
x = relu(cnn1(input))
x.shape

torch.Size([32, 8, 224, 224])

## 4. x 변수에 저장된 feature maps 데이터의 width, height 의 크기를 절반으로 만드는 torch.nn.MaxPool2D 를 생성하여 pool1 변수에 저장합니다. 다음으로 생성한 풀링 레이어에 x 변수를 통과시켜 그 결과를 다시 x 변수에 저장하세요. 단, x 변수의 입력 전과 입력 후의 shape 을 출력하여 크기가 절반으로 줄어 들었는지 확인해 봅니다.

In [29]:
from torch.nn import MaxPool2d

In [30]:
print(x.shape)
pool1 = MaxPool2d(kernel_size=2, stride=2)
x = pool1(x)
print(x.shape)

torch.Size([32, 8, 224, 224])
torch.Size([32, 8, 112, 112])


### Inception (2014)

<!-- <img src="https://drive.usercontent.google.com/download?id=1fTiTKlfVvOpPLXfeJoA7sZ-1bm-X9TCT&authuser=0" /> -->
<img src="./images/figure3.png" width=1000 />


* Inception의 핵심 개념은 모듈에서 여러 계층을 결합하여 계산 리소스를 효율적으로 활용하는 방법
* 이 아키텍처는 계산 비용을 크게 증가시키지 않고도 네트워크의 깊이와 너비(더 많은 계층과 계층당 더 많은 필터)를 모두 늘릴 수 있음
    * 다양한 필터 크기(1x1, 3x3 및 5x5)의 convolutions 을 포함
    * 이미지의 세부 사항 뿐만 아니라 전반적인 맥락을 학습하고 더 풍부한 표현을 만듬
    * 1x1 컨볼루션을 사용하여 채널 수를 줄여 계산 오버헤드를 제한함
    * AlexNet보다 10배 적은 매개변수를 사용 (61.1M -> 6.6M)

* ref.: Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 2014. "Going Deeper with Convolutions." arXiv preprint arXiv:1409.4842.

<!-- <img src="https://drive.google.com/uc?id=1G5GuROyqTVIKi3uo1B4b_1hdDG8A-t4z" width=800/> -->
<img src="./images/figure2.png" width=800 />




## 1. Inception Module with demension reductions 버전을 구현하여 inception 변수에 저장하세요. 이때 마지막 출력 전에 각 레이어의 출력을 모으기 위해 torch.cat([x1, x2, x3, x4], dim=1) 코드를 사용해 보세요. 다음으로 (1, 192, 224, 224) 입력 데이터를 torch.rand 로 생성 후, inception 모듈의 입력으로 전달합니다. 마지막으로 출력이 (1, 256, 224, 224)  가 나오는지 확인하세요.

관련내용 교재 311p 참조

32채널, 128채널, 64채널, 32채널

In [62]:
x = torch.rand(1, 192, 224, 224)

In [63]:
conv1 = nn.Conv2d(192, 32, 1)
x1 = conv1(x)
x1.shape

torch.Size([1, 32, 224, 224])

In [65]:
conv2 = nn.Conv2d(192, 128, 1)
conv3 = nn.Conv2d(128, 128, 3, padding='same')

x2 = conv3(conv2(x))
x2.shape

torch.Size([1, 128, 224, 224])

In [66]:
conv4 = nn.Conv2d(192, 64, 1)
conv5 = nn.Conv2d(64, 64, 5, padding='same')

x3 = conv5(conv4(x))
x3.shape

torch.Size([1, 64, 224, 224])

In [68]:
maxpool3 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
conv_m = nn.Conv2d(192,32,1)
x4 = conv_m(maxpool3(x))
x4.shape

torch.Size([1, 32, 224, 224])

In [71]:
x1.shape, x2.shape, x3.shape, x4.shape

(torch.Size([1, 32, 224, 224]),
 torch.Size([1, 128, 224, 224]),
 torch.Size([1, 64, 224, 224]),
 torch.Size([1, 32, 224, 224]))

In [70]:
torch.cat([x1,x2,x3,x4], dim=1).shape

torch.Size([1, 256, 224, 224])

### Resnet (2015)

<img src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/resnet_architecture.png" width=800 />

* 심층 신경망은 레이어 수가 증가함에 따라 학습이 더 어려워지며, 깊이가 추가됨에 따라 정확도가 포화 상태(accuracy saturates)가 된 후 감소하는 Degradation Problem 가 발생 (vanishing/exploding gradients)
*  새로운 잔차 학습 프레임워크 (residual learning framework) 를 제시하여 이 문제를 효과적으로 해결하여 훨씬 더 깊은 네트워크를 학습할 수 있도록 함
  * 레이어가 원하는 전체 매핑(full mappings)을 직접 학습하는 대신 잔차 매핑 (residual mappings)을 학습하도록 하는 것 F(x) + x = H(x)
  * 잔차 매핑은 지름길 연결 (shortcut connections)로 실현
* 최대 152개의 레이어를 가진 ResNet 아키텍처를 성공적으로 학습하고 좋은 성능을 보임
* COCO 데이터셋에 대한 object detection 에서 향상된 성능을 보임 (28% relative improvement)
* 110 레이어 버전의 ResNet이 CIFAR-10에서 성공적으로 훈련되고 다른 모델의 성능을 능가하여 작은 데이터 세트 설정에서도 깊이를 늘리는 데 도움이 될 수 있음을 보임

* ref: He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. "Deep Residual Learning for Image Recognition." In Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.

#### Bottleneck Building Block

<!-- <img src="https://drive.google.com/uc?id=1TnHn_kej-fER8nNxwyx6ck3--CxwCpKX" width=800/> -->
<img src="./images/figure5.png" width=800/>

## 1. 그림 5의 오른쪽 residual 모듈을 구현하여 residual 변수에 저장해 보세요. 지름길 경로는 shorcut 변수에 저장해 보세요. 내부의 output channels 은 64 를 사용해 보세요. 다음으로 입력 데이터 x 를 (1, 64, 224, 224) residual 모듈의 입력으로 받아 출력 데이터를 (32, 256, 224, 224) 생성해 보세요.


In [104]:
import torch
from torch.nn import Conv2d, ReLU, Sequential

In [106]:
residual = Sequential(
    Conv2d(256, 64, 1),
    ReLU(),
    Conv2d(64, 64, 3, padding='same'),
    ReLU(),
    Conv2d(64, 256, 1)
)

In [107]:
shortcut = Conv2d(256, 256, 1)

In [108]:
x = torch.rand(32, 256, 224, 224)
residual(x).shape, shortcut(x).shape

(torch.Size([32, 256, 224, 224]), torch.Size([32, 256, 224, 224]))

In [109]:
x = residual(x) + shortcut(x)
x.shape

torch.Size([32, 256, 224, 224])

In [110]:
relu = ReLU()
x = relu(x)
x.shape

torch.Size([32, 256, 224, 224])