# 6. Model 2 - Pretrained Model

> 일반적으로, 모델을 새로 설계 하는 데는 시간이 걸립니다. 나는 당장 서비스를 해야 하는데, 모델 설계에 시간을 많이 쏟고 있다면 비효율적일 수 있습니다. 따라서, 기존에 검증된 우수한 모델 구조와 미리 학습된 weight를 재사용하는 방법에 대해서 다룹니다.

> 지금껏 Computer vision 분야에서 훌륭한 모델 아키텍쳐가 나올 수 있게 된 배경과, 그 모델들을 어떻게 우리 태스크로 가져와서 활용할 수 있을지, 활용할 때 주의사항은 없을지 등에 대해서 알아보도록 하겠습니다.

<br>

## Further Reading

- [Torchvisions Models](https://pytorch.org/vision/stable/models.html)

<br>

## 6.1 Computer Vision 의 발전

- Computer Vision의 발전으로 현재 상당히 많은 일을 자동화할 수 있다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1zLiDIbLbB9cn-7v6IpWj1wABI69zEcXK' width=800/>

- 출처: MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving, 2018 (https://arxiv.org/pdf/1612.07695.pdf)
- 출처: YOLO9000 Better, Faster, Stronger, 2016 (https://arxiv.org/pdf/1612.08242.pdf )

<br>

### 6.1.1 ImageNet

- 획기적인 알고리즘 개발과, 검증을 위해 높은 품질의 데이터 셋은 필수적이다.
- ImageNet 이라는 데이터셋이 등장해서 CV 가 급속도로 발전할 수 있었다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=11yKTZhC_uZRp9ZlZNImF9MNjBjitOaJN' width=800/>

<br>

### 6.1.2 ImageNet 이후 발전

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1A3wP9obPfdrNGAf1fwTLpuHJclSj_HZI' width=800/>

- 출처: https://paperswithcode.com/sota/image-classification-on-imagenet

<br>

## 6.2 Pretrained Model

### 6.2.1 Pretrained Model 의 배경

- 모델 일반화를 위해 매번 수 많은 이미지를 학습시키는 것은 까다롭고 비효율적이다.
- 좋은 품질, 대용량의 데이터로 미리 학습한 모델을 바탕으로 내 목적에 맞게 다듬어서 사용하는 것이 Pretrained Model 을 사용하는 것이다.

<br>

### 6.2.2 이미 공개되어 있는 수 많은 Pretrained

- 미리 학습된 좋은 성능이 검증되어 있는 모델을 사용하면 시간적으로 매우 효율적

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1f2CMCBPP6YkJIanLxeKiLPuOXyU4wWBe' width=800/>

<br>

### 6.2.3 `torchvision.models`

- 너무나도 손쉽게 모델 구조와 Pretrained Weight 를 다운로드 할 수 있다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1wV0NxRfII_3GSKjjGMFpQOS9PLjPpH21' width=500/>

- 출처: https://pytorch.org/vision/0.8/models.html

<br>

## 6.3 Transfer Learning

### 6.3.1 CNN base 모델 구조 (simple)

> Input + CNN Backbone + Classifier -> Output

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=13c8ZljxZFB2io_facaaDqQVcCA0jwFzR' width=800/>

<br>

### 6.3.2 Code Check

- Torchvision model 구조

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RKvALiqJ0Lw-bJV7g8p7DdrvklCfT_l5' width=800/>

- `fc` == fully connected layer == classifier

<br>

### 6.3.3 내 데이터, 모델과의 유사성

- ex) ImageNet Pretraining
  - 실생활에 존재하는 이미지를 1000개의 다른 Class 로 구분하자.
    - ex) 강아지, 고양이, 사과, 휴대폰, 의자, 화분, 안경, 컵, etc

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1cn7og2OeDRvpJZ3D9NLv-fM75EAhS7o1' width=800/>



<br>

- 내가 설정한 문제와 비교
- Pretrained 할 때 설정했던 문제와 현재 문제와의 유사성을 고려

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1Pj_fHil_dFPTa4N-25mWq9_eeW-SaWvB' width=800/>

<br>

### 6.3.4 Case by Case

#### 6.3.4.1 Case 1. 문제를 해결하기 위한 학습 데이터가 충분한 경우

- 데이터가 충분히 있을 경우, 뭐든지 할 수 있다.
- pretrained model 과 데이터가 유사한 경우 (high similarity)
  - CNN Backbone 은 freeze 하고 classifier 만 학습
  - 이러한 경우를 <font color="yellow">feature extraction</font> 이라고 한다.
- pretrained model 과 데이터가 유사하지 않은 경우 (low similarity)
  - ex) 차 종을 분류하는 경우
  - CNN Backbone 과 classifier 를 모두 학습
  - 이러한 방식을 <font color="yellow">fine tuning</font> 이라고 한다. (미세조정)


&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1yeHY35HzXbaZH6HTTRvRFAKJZ9NO8lgv' width=800/>

<br>

#### 6.3.4.2 Case 2. 학습 데이터가 충분하지 않은 경우

- pretrained model 과 데이터가 유사한 경우 (high similarity)
  - CNN Backbone 은 freeze 하고 classifier 만 학습
  - 우리가 가진 데이터만으로는 feature 를 업데이트하기 힘들다.
- pretrained model 과 데이터가 유사하지 않은 경우 (low similarity)
  - 이럴 경우에는 pretrained model 을 사용하는 것을 추천하지 않는다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1oqnCfRj4Vc3oYLcoWIygsOkZDJx8PW3T' width=800/>