## **Pretrained Model**
- 이미 어떤 데이터로 학습(pretraining)되어 있는 모델
- 즉, 처음부터 학습하지 않고도 특정 작업에 바로 사용하거나, 추가 학습(fine-tuning) 하여 쓸 수 있는 모델

### **Pretrained model을 사용하는 이유**

| 이유       | 설명                                     |
| -------- | -------------------------------------- |
| 시간 절약 | 수백 시간, 수천 GPU 시간이 드는 학습 과정을 생략할 수 있음   |
| 비용 절감 | 대규모 데이터셋 없이도 좋은 성능                     |
|    성능    | 이미 언어/이미지의 일반적인 패턴을 잘 이해하고 있음          |
|   재사용성  | 여러 작업에 쉽게 전이 학습 가능 (transfer learning) |


### **Pretrain model을 사용하는 방식**
 -   제로샷 전이학습(Zero shot transfer learning)
        -   추가 학습없어 Pretrained 모델을 해결하려는 문제에 그대로 사용한다.
 -   전이학습 (Transfer learning)
        -   Pretrained 모델의 일부분을 재학습 시킨다. 주로 출력 Layer를 학습시킨다.(classifier와 같은.)
 -   미세조정 (Fine tuning)
     -   Pretrained 모델의 파라미터를 초기 파라미터로 사용하여 Custom Dataset(내가 사용하는 데이터 셋 -기존에 학습하지 않은)으로 학습을 진행하여 모델의 모든 파라미터를 업데이트 시킨다.

> **Custom dataset:** 모델을 학습 시킬 dataset으로 pretrained model이 학습한 dataset과 구별하여 부르는 용어.

## **Transfer learning(전이학습)**
- 기존에 학습된 모델(또는 그 일부)을 새로운 문제에 재사용하는 학습 방법

### **Transfer learning 장점**
| 장점          | 설명                        |
| ----------- | ------------------------- |
|  빠른 학습    | 이미 대부분의 학습이 되어 있어서 속도가 빠름 |
|  적은 데이터   | 적은 데이터만으로도 좋은 성능을 낼 수 있음  |
|  자원 절약    | GPU/메모리/시간 등을 크게 줄일 수 있음  |
|  좋은 초기 성능 | 기존 모델의 일반화된 지식을 활용 가능     |


### **Transfer Learning의 주요 방식**
- 1. Feature Extraction (특징 추출)
    - 기존 모델의 앞쪽 레이어는 그대로 사용 (고정)
    - 마지막 출력 레이어만 새 작업에 맞게 교체 후 학습
    - 빠르고 간단
- 2. Fine-tuning (미세조정)
    - 기존 모델 전체 또는 일부 레이어를 새 데이터로 다시 학습
    - 더 좋은 성능을 낼 수 있지만 학습 비용이 큼

![transfer_learning](figures/transfer_learning_1.png)


![transfer02](figures/transfer_learning_2.png)

### **Transfer Learning의 단계**
- Pretraining (사전학습): 대규모 데이터로 일반적인 지식을 학습

- Task 정의: 새로운 문제와 데이터 준비

- Feature Extract 또는 Fine-tuning 선택

- Training & Evaluation

> ## Backbone, Head
> -  Backbone: 전체 모델 구조에서 Feature Extraction를 역할을 담당하는 부분.
> -  Head: 추론을 담당하는 layer block을 Head (Network) 이라고 한다.


| 항목    | Backbone               | Head               |
| ----- | ---------------------- | ------------------ |
| 역할    | 특징 추출기                 | Task 수행기           |
| 학습 여부 | 보통 Freeze 또는 Fine-tune | 새로 학습              |
| 예시    | ResNet, BERT, ViT      | Linear, MLP, CRF 등 |
| 위치    | 입력 직후                  | 출력 직전              |


## **Fine tuning(미세조정)**

-   Pretrained 모델을 내가 학습시켜야 하는 데이터셋(Custom Dataset)으로 **추가 학습**시키는 것을 fine tuning 이라고 한다.
-   주어진 문제에 더 적합하도록 Feature Extractor의 가중치들 추가로 학습하여 조정 한다.

### **Fine tuning 전략**

![fine tuning](figures/finetuning_1.png)
-   **세 전략 모두 추론기는 trainable로 한다.**
   
**<span style='font-size:1.2em'>1. 전체 모델을 전부 학습시킨다.(1번)</span>**

-   Pretrained 모델의 weight는 Feature extraction 의 초기 weight 역할을 한다.
-   **Train dataset의 양이 많고** Pretrained 모델이 학습했던 dataset과 Custom dataset의 class간의 유사성이 **낮은 경우** 적용.
-   학습에 시간이 많이 걸린다.

**<span style='font-size:1.2em'>2. Pretrained 모델 Bottom layer들(Input과 가까운 Layer들)은 고정시키고 Top layer의 일부를 재학습시킨다.(2번)<span>**

-   **Train dataset의 양이 많고** Pretrained 모델이 학습했던 dataset과 Custom dataset의 class간의 유사성이 **높은 경우** 적용.
-   **Train dataset의 양이 적고** Pretained 모델이 학습했던 dataset과 custom dataset의 class간의 유사성이 **낮은 경우** 적용

**<span style='font-size:1.2em'>3. Pretrained 모델 전체를 고정시키고 classifier layer들만 학습시킨다.(3번)</span>**

-   **Train dataset의 양이 적고** Pretrained 모델이 학습했던 dataset과 Custom dataset의 class간의 유사성이 **높은 경우** 적용.

> 1번 2번 전략을 Fine tuning 이라고 한다.

![fine tuning](figures/finetuning_2.png)

### **Hugging Face**
<br>= AI 모델의 GitHub + Python 라이브러리 생태계

- 연구자, 개발자, 기업 모두가 AI 모델을 쉽게 찾고, 쓰고, 공유할 수 있게 해주는 플랫폼

- 특히 자연어 처리 분야에서는 사실상 표준 도구로 자리 잡고 있음