# ImageNet Winners

https://www.kaggle.com/discussions/getting-started/149448

### Alexnet

<img src='./img/Alexnet.png' width=800 />


# torch.nn.Conv2d 및 nn.ReLU 와 nn.Dropout 레이어를 사용하여 다음 모델을 구현해 보세요.

* input data: (32, 3, 224, 224)
* kernel size 3x3
* output data: (32, 48, 222, 222)

In [1]:
import torch

In [2]:
import torch.nn as nn

In [3]:
input = torch.rand(32, 3, 224, 224)
conv = nn.Conv2d(3, 48, 3)
x = conv(input)
x.shape

torch.Size([32, 48, 222, 222])

In [4]:
relu = nn.ReLU()
x = relu(x)
x.shape

torch.Size([32, 48, 222, 222])

In [5]:
dropout = nn.Dropout()
dropout(x).shape

torch.Size([32, 48, 222, 222])

### VGG16

<img src="https://www.researchgate.net/profile/Max-Ferguson/publication/322512435/figure/fig3/AS:697390994567179@1543282378794/Fig-A1-The-standard-VGG-16-network-architecture-as-proposed-in-32-Note-that-only.png" width=800 />

* 작은(3x3) 합성 필터를 사용하여 매우 간단하고 균일하게 설계
* 네트워크의 깊이를 늘리면 성능이 크게 향상됨
* 사전 학습된 VGG 모델은 다른 작업을 위한 강력한 기능 추출기로 널리 사용됨

* ref.: neurohive, VGG16 - Convolutional Network for Classification and Detection, 2018, https://neurohive.io/en/popular-networks/vgg16/
* ref.: Simonyan, Karen, and Andrew Zisserman. 2015. "Very Deep Convolutional Networks for Large-Scale Image Recognition." arXiv preprint arXiv:1409.1556.



## 1. torch.rand 를 이용하여 (32, 1, 28, 28) 크기의 데이터를 생성해 input 변수에 저장하세요.

In [18]:
input = torch.rand(32, 1, 28, 28)
input.shape

torch.Size([32, 1, 28, 28])

## 2. torch.nn.Conv2d 를 이용하여 (32, 8, 28, 28) 출력을 내는 CNN 레이어를 생성하여 cnn1 변수에 저장하세요. (hint: padding='same' 사용해 보기)

In [19]:
from torch.nn import Conv2d

In [21]:
cnn1 = Conv2d(1, 8, 5, padding='same')
cnn1(input).shape

torch.Size([32, 8, 28, 28])

## 3. input 데이터를 cnn1 레이어에 통과시킨 후, activation function(torch.nn.ReLU) 레이어를 생성하여 relu1 변수에 저장하고, x 를 여기에 적용한 결과를 다시 x 변수에 저장하세요.

In [22]:
from torch.nn import ReLU

In [23]:
relu1 = ReLU()
x = relu1(cnn1(input))
x.shape

torch.Size([32, 8, 28, 28])

## 4. x 변수에 저장된 feature maps 데이터의 width, height 의 크기를 절반으로 만드는 torch.nn.MaxPool2D 를 생성하여 pool1 변수에 저장합니다. 다음으로 생성한 풀링 레이어에 x 변수를 통과시켜 그 결과를 다시 x 변수에 저장하세요. 단, x 변수의 입력 전과 입력 후의 shape 을 출력하여 크기가 절반으로 줄어 들었는지 확인해 봅니다.

In [24]:
from torch.nn import MaxPool2d

In [25]:
print(f'전 : {x.shape}')
pool1 = MaxPool2d(2)
x = pool1(x)
print(f'후 : {x.shape}')

전 : torch.Size([32, 8, 28, 28])
후 : torch.Size([32, 8, 14, 14])


### Inception (2014)

<img src='./img/Inception1.png' width=1400/>

* Inception의 핵심 개념은 모듈에서 여러 계층을 결합하여 계산 리소스를 효율적으로 활용하는 방법
* 이 아키텍처는 계산 비용을 크게 증가시키지 않고도 네트워크의 깊이와 너비(더 많은 계층과 계층당 더 많은 필터)를 모두 늘릴 수 있음
    * 다양한 필터 크기(1x1, 3x3 및 5x5)의 convolutions 을 포함
    * 이미지의 세부 사항 뿐만 아니라 전반적인 맥락을 학습하고 더 풍부한 표현을 만듬   
    * ☆핵심 : 1x1 컨볼루션을 사용하여 채널 수를 줄여 계산 오버헤드를 제한함 
    * AlexNet보다 10배 적은 매개변수를 사용 (61.1M -> 6.6M)

* ref.: Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 2014. "Going Deeper with Convolutions." arXiv preprint arXiv:1409.4842.

<img src='./img/Inception2.png' width=1000/>





## 1. Inception Module with demension reductions 버전을 구현하여 inception 변수에 저장하세요. 이때 마지막 출력 전에 각 레이어의 출력을 모으기 위해 torch.cat([x1, x2, x3, x4], dim=1) 코드를 사용해 보세요. 다음으로 (1, 192, 224, 224) 입력 데이터를 torch.rand 로 생성 후, inception 모듈의 입력으로 전달합니다. 마지막으로 출력이 (1, 256, 224, 224)  가 나오는지 확인하세요.
32, 128, 64, 32 (sum = 256)

In [34]:
x = torch.rand(1, 192, 224, 224)

In [36]:
conv1 = Conv2d(192, 32, 1)
conv3 = nn.Sequential(
          Conv2d(192, 128, 1),
          Conv2d(128, 128, 3, padding='same')
        )
conv5 = nn.Sequential(
          Conv2d(192, 64, 1),
          Conv2d(64, 64, 5, padding='same')
        )
maxpool3 = MaxPool2d(kernel_size=3, stride=1, padding=1)
conv = Conv2d(192, 32, 1)

In [37]:
conv1(x).shape, conv3(x).shape, conv5(x).shape, conv(maxpool3(x)).shape

(torch.Size([1, 32, 224, 224]),
 torch.Size([1, 128, 224, 224]),
 torch.Size([1, 64, 224, 224]),
 torch.Size([1, 32, 224, 224]))

In [38]:
x1 = conv1(x)
x2 = conv3(x)
x3 = conv5(x)
x4 = conv(maxpool3(x))

In [40]:
x_result = torch.cat([x1, x2, x3, x4], dim=1)
x_result.shape

torch.Size([1, 256, 224, 224])

### Resnet (2015)

<img src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/resnet_architecture.png" width=800 />

- 심층 신경망은 레이어 수가 증가함에 따라 학습이 더 어려워지며, 깊이가 추가됨에 따라 정확도가 포화 상태(accuracy saturates)가 된 후 감소하는 Degradation Problem 가 발생 (vanishing/exploding gradients)
-  새로운 잔차 학습 프레임워크 (residual learning framework) 를 제시하여 이 문제를 효과적으로 해결하여 훨씬 더 깊은 네트워크를 학습할 수 있도록 함  
    * 레이어가 원하는 전체 매핑(full mappings)을 직접 학습하는 대신 잔차 매핑 (residual mappings)을 학습하도록 하는 것 F(x) + x = H(x)
    * 잔차 매핑은 지름길 연결 (shortcut connections)로 실현
- 최대 152개의 레이어를 가진 ResNet 아키텍처를 성공적으로 학습하고 좋은 성능을 보임
- COCO 데이터셋에 대한 object detection 에서 향상된 성능을 보임 (28% relative improvement)
- 110 레이어 버전의 ResNet이 CIFAR-10에서 성공적으로 훈련되고 다른 모델의 성능을 능가하여 작은 데이터 세트 설정에서도 깊이를 늘리는 데 도움이 될 수 있음을 보임

- ref: He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. "Deep Residual Learning for Image Recognition." In Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.

#### Bottleneck Building Block

<img src='./img/ResNet.png' width=800/>

## 1. 그림 5의 오른쪽 residual 모듈을 구현하여 residual 변수에 저장해 보세요. 지름길 경로는 shorcut 변수에 저장해 보세요. 내부의 output channels 은 64 를 사용해 보세요. 다음으로 입력 데이터 x 를 (32, 256, 224, 224) residual 모듈의 입력으로 받아 출력 데이터를 (32, 256, 224, 224) 생성해 보세요.


In [45]:
import torch
from torch.nn import Conv2d, ReLU, Sequential

In [50]:
residual = nn.Sequential(
            Conv2d(256, 64, 1),
            ReLU(),
            Conv2d(64, 64, 3, padding='same'),
            ReLU(),
            Conv2d(64, 256, 1)
          )
shortcut = Conv2d(256, 256, 1)

In [62]:
x = torch.rand(32, 256, 224, 224)
residual(x).shape, shortcut(x).shape, type(residual(x))

(torch.Size([32, 256, 224, 224]),
 torch.Size([32, 256, 224, 224]),
 torch.Tensor)

In [61]:
x = residual(x) + shortcut(x)
relu = ReLU()
x = relu(x)
x.shape
# x = ReLU(x)
# type(x)

torch.Size([32, 256, 224, 224])

In [65]:
# import torch.nn.functional as F 
# x = residual(x) + shortcut(x)
# x = F.relu(x)
# x.shape

torch.Size([32, 256, 224, 224])

객체를 생성하고 x에 ```x = nn.ReLU(x)```하면 shape error : torch.nn.modules.activation.ReLU  
그래서 relu 인스턴스를 따로 선언해서 결과만 x에 할당하거나  
torch.nn.functional 불러서 처리