## Image Classification Overview

- 하나의 특징을 뽑기 위해서, 모든 픽셀을 고려하는 FC Layer 대신에,   
- 하나의 특징을 영상의 공간 특성을 고려해서, 국부적인 영역들만 connection을 고려한 layer가 Locally connected nerual networks라 한다.
- 특징을 뽑을 때, 필요한 파라미터가 획기적으로 줄게 된다.
- 이런 지역적인 특징들이 영상 여러군데에서 나타나기 때문에, Sliding Window처럼 전 영역을 순회하면서 feature를 뽑는 것이 CNN이다.
- 이러면 파라미터를 재활용 가능해져서 더 효과적으로 특징을 추출할 수 있게 된다.

![image.png](attachment:image.png)

---
## AlexNet
- 레이어가 deep해지기 시작하고, 파라미터도 많아짐.
- 학습 데이터도 커지기 시작함 (ImageNet을 사용)
- ReLU activation function을 사용함.
- 이 당시에는 GPU 메모리가 부족했기 때문에 Network path가 2가지로 나눠져 있고, 일부 Layer에서 Cross Communication이 일어나고 있다.

![image.png](attachment:image.png)

- MaxPooling된 2D activation map이 Linear Layer로 가기 위해서 벡터화라는 특별한 작업이 필요하다.
- `AveragePooling`과 `flatten` 2가지 방법이 있다. (AlexNet은 flatten을 사용)

![image.png](attachment:image.png)

---
## VGGNet
- AlexNet보다 더 깊어짐
- 3x3 conv layer와 2x2 pooling layer로만 쌓았기 때문에 모델도 심플해짐
- 작은 커널사이즈의 layer를 많이 쌓으면, 큰 receptive field size를 얻을 수 있게 됨
- 이미지 영역의 많은 부분을 고려해서 결론을 낼 수 있다는 뜻이다.

![image.png](attachment:image.png)

---
### Deeper Layer
- 레이어가 깊어질수록 더 복잡한 관계를 학습할 수 있다. 
- receptive fields가 커진다.
- 근데, 레이어를 깊게 쌓을수록 생기는 문제도 있음.

### Problems
- Gradient vanishing and exploding 현상
- 계산 복잡도의 증가
- 더 큰 메모리가 필요해짐
- Degradation problem 발생

---
## GoogLeNet
- 하나의 layer에서 다양한 크기의 conv filter를 사용했음 (수평확장)
- 이렇게 나온 activation map들을 채널축으로 concat해서 다음 블록으로 넘김
- `1x1 conv`를 통해서 channel dimension을 줄여서 계산량을 줄여준다.(bottleneck layer)
- **이를 Inception Module이라 한다.**

![image.png](attachment:image.png)

- gradient vanishing 문제를 해결하기 위해서, Auxiliary classifiers를 사용함
- gradient를 중간중간 주사기처럼 꽂아준다.
- test에서는 사용하지 않음

![image.png](attachment:image.png)

---
## ResNet
- 최초로 100개 이상의 layer를 쌓은 모델
- `shortcut connection`을 도입함.
- $2^n$만큼 paths의 경우의 수가 생긴다. 따라서 출력단에서 입력단까지 다양한 경로를 통해 mapping을 학습할 수가 있게 된다.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

- Identity connection을 고려해서 He initialization으로 시작을 한다.
- 3x3 conv filter만 사용해서 연산이 빠름.
- 블록으로 나눠짐. 다음 블록으로 넘어갈 때마다 공간 해상도는 절반으로 줄고, 채널은 2배씩 늘어나게 된다.
- 출력은 하나의 fc layer로 한다.

![image.png](attachment:image.png)

---
## Beyond ResNet (최근 모델)

### DenseNet
- 바로 이전 뿐만 아니라 훨씬 이전의 layer 정보들도 앞으로 넘긴다.
- 채널축으로 concat을 한다. (신호를 보존하는 것, feature를 보존함)
- 채널이 늘어나기 때문에 메모리량이 증가함.

![image.png](attachment:image.png)

### SENet
- 현재 주어진 activation간에 관계를 명확해지도록, 채널간에 관계를 모델링함.
- 중요도를 파악해서 New Weighting에서 중요 특징을 attention하도록 한다.


- attention을 생성하기 위해 squeeze와 excitation을 한다.
- `Squeeze` : GAP를 통해 각 채널의 공간정보를 없애고, 각 채널의 분포를 구하게 된다.(magnitude). 즉, 높이와 너비에 해당하는 공간정보를 GAP로 1로 만들고, 채널의 평균정보들만 포함하게 함.
- `Excitation` : FC layer 하나를 통해서 채널간에 연관성을 고려하고자 한다. 채널을 new-weighting 또는 gating 하기 위한 attention score를 생성한다.(채널별로 하나씩 갖게 된다.)


- 마지막에 activation을 rescaling해서 중요도가 떨어지는 것은 gating(닫히도록)이 되도록 한다. 중요도가 높은 것은 더 강하게 만든다.

![image.png](attachment:image.png)

### EfficientNet
- compound scaling을 사용함.(deep scaling, wide scaling, high resolution scaling을 적절한 비율로 사용)
- 적은 Flops에서도 다른 모델들보다 훨씬 좋은 성능을 보이고 있음.

![image.png](attachment:image.png)

### Deformable convolution
- 사람이나 동물을 인식할 때는 몸의 형태나 상대적인 위치가 바뀐다.(팔다리가 따로 움직임)
- 이러한 deformable한 것을 고려한 convolution이 필요해졌음.

![image.png](attachment:image.png)