# LLM 모델 파인튜닝(Fine tuning)

## 파운데이션 모델(Foundation 모델)
**파운데이션 모델**(**foundation model**)은 **대규모 데이터**(**텍스트, 이미지, 오디오, 비디오 등**)로 사전 학습(pre-training)된 **범용 인공지능 모델**로, 다양한 하위 작업(Downstream task)를 위한 **파인튜닝**이나 **프롬프트**(**prompt**) 기반의 응답 모델에 적용할 수 있는 모델을 말한다.

### 파운데이션 모델의 특징
- **광범위한 대규모 데이터로 사전 학습**
    - 대형 언어 모델(LLM)은 방대한 양의 텍스트 데이터로 사전 학습(pre-training)되며, 그 결과 **다양한 주제와 여러 언어에 대한 일반적인 지식과 언어 패턴등 언어에 대한 범용적 지식**을 포함하고 있다.
    - 이미지 기반 파운데이션 모델(image-based foundation model) 또한 대규모 이미지·영상 데이터에서 사물, 장면, 물체 구조의 시각적 특징을 학습하여, **개별 사물의 특성(예: 형태, 질감, 맥락)과 물체들이 공유하는 일반적 물리 특성(예: 경계, 입체감, 재질, 공간 관계)을 표현 공간(representation space)에 반영**한다.
- **대규모 모델**
    - 파운데이션 모델은 대부분 **Transformer** 구조를 기반(특히 자연어 모델)으로 하며, **수십억에서 수조개의 파라미터** 규모를 가지고 있다.
    - **모델의 크기가 클 수록 성능과 표현력이 향상된다.** 
- **범용성**
    - **특정 작업에 국한 되지 않고**, 다양한 자연어 처리 작업에 적용될 수 있는 기초 역량을 제공한다.
    - 일반적인 NLP task인 문장 생성, 문서요약, 번역, 질의응답에서 좋은 성능을 보인다.
- **프롬프트 기반 실행**
    - 추가적인 학습(파인튜닝) 없이도 **프롬프트 엔지니어링**을 통해 다양한 태스크를 수행할 수 있다.
    - 프롬프트 엔지니어링이란 **AI 모델로부터 최상의 결과물을 얻어내기 위해 질문을 정교하게 설계하고 최적화하는 기술을 말한다.** LLM은 사전학습을 통해 다양한 주제에 대해 학습했기 때문에 파인튜닝 없이도 프롬프트(질문)을 잘 작성하면 답을 얻을 수 있다.
- **전이 학습/파인튜닝의 기반 모델**
    - 모델의 기본 능력(언어/사물에 대한 일반적 특성)을 가지고 있으며 이를 **특정 도메인 작업에 맞게 조정**할 수 있다.
    - 비유하자면 파운데이션 모델이 초/중/고등 학교에서 폭 넓은 분야에 대한 기초 지식을 공부한 것이라면 전이학습이나 파인튜닝은 그 기초지식을 바탕으로 대학이나 대학원에서 특정 전공(의료, 법률, 금융등)에 대한 전문 지식을 공부하는 것으로 볼 수 있다.



## 파인튜닝(Fine Tuning)의 필요성
파인튜닝은 사전 학습된 모델(Foundation 모델)을 **특정 태스크나 도메인 데이터로 추가 학습 최적화 하는 과정**이다.   

-  **특정 작업/도메인에 최적화**  
    - 파운데이션 모델은 범용적인 언어 이해와 생성 능력을 가지지만, 특정 도메인(업무)이나 작업에 맞춰져 있지 않다.  
    - 파인튜닝은 특정 목적에 맞게 모델을 조정하여 성능을 극대화 할 수 있다.
    - 예시
       - 파운데이션 모델에 **의료 문서, 진단 기록**등으로 추가 학습하면 **의료 전문 AI 모델**을 만들 수 있다.
       - 회사에서 LLM을 사용할 경우, 범용 모델은 그 회사의 내부 데이터(업무 문서, 매뉴얼, 정책 등)를 학습하지 못했기 때문에 해당 내용에 대한 지식이 없다. 이러한 자료들로 파인튜닝하여 **사내 특화 QA 모델**을 만들 수 있다.

-  **사용자 맞춤형 톤앤매너(Tone & Manner) 적용**
    - 특정 브랜드의 페르소나나 고객 응대 매뉴얼을 학습시켜, 조직이 원하는 **일관된 언어 스타일과 답변 형식을 제공**한다.

- **안전성과 윤리 강화**  
    - 편향된 응답, 유해 콘텐츠, 민감한 정보 노출 등을 방지하도록 추가 학습을 통해 모델 동작을 제어할 수 있다.

## LLM Fine tuning으로 발생할 수 있는 문제
- **고성능 하드웨어 필요**
    - LLM은 최소 수십억개에서 조단위의 매개변수를 가지는 모델이다. 그래서 파인튜닝을하려면  이전의 딥러닝 모델에 비해 많은  GPU를 가지는 고성능 하드웨어가 필요하다.
- **오랜 학습시간**
    - 파인튜닝은 데이터 전처리, 학습, 평가에 많은 시간이 소요된다.
- **큰 비용**
    - 위와 같은 이유로 파인튜닝은 많은 비용이 소요된다.
- **도메인 한정성**
    - 파인튜닝 후 **범용적인 성능이 떨어질 수 있다**.
      - 파인튜닝 과정에서 파라미터가 업데이트 되면서 기존 파운데이션 모델의 범용적인 지식을 일부 덮어쓰거나 왜곡할 가능성이 있다.

# 효율적 Fine tuning을 위한 방법

1. 모델의 크기 줄이기 - 양자화
2. 학습양을 줄일 수 있는 다양한 학습방법 개발 - PEFT(Parameter Efficient Fine Tuning)


# 양자화(Quantization) 개요
- 양자화(Quantization)는 **모델의 메모리 사용량과 저장 크기를 줄이기** 위해, 모델 파라미터(가중치)의 수치 정보를 가능한 한 보존하면서 데이터 타입의 비트 수(정밀도)를 낮추는 변환 기법이다. 이를 통해 **모델 크기를 줄이고 연산 속도를 향상**시킬 수 있다.
  - 예: 32비트 부동소수점(FP32) → **16비트 부동소수점(FP16/BF16) 또는 8비트 정수**(**INT8**)로 변환
  - 성능(정확도) 손실을 최소화하면서 메모리 사용량과 연산량을 대폭 감소시킨다.
  - 이 개념은 우리가 시간을 물어볼 때, "10시 28분 22초" 대신 "10시 28분" 또는 "10시 반" 이라고 말해도 충분히 이해할 수 있는 상황과 같다. 약간의 정보 손실은 있지만, 질문에 대한 답으로는 충분하다는 점에서 유사하다.
- 양자화는 **학습(파인튜닝) 단계**와 **추론(배포) 단계** 모두에서 활용될 수 있다.
  - **학습 중 양자화**: 파인튜닝 시 메모리 요구량을 줄여 더 큰 모델을 학습 가능하게 함
  - **추론 최적화**: 배포된 모델의 응답 속도를 높이고 서버 비용을 절감

## 양자화 방법
### Float32 bit를 16bit로 변환
- 딥러닝 모델들은 **파라미터를 부동소수점(floating point) 타입**으로 저장한다 그리고 일반적으로 **FP32**(float 32bit)를 사용한다.
    - 부동 소수점 타입은 값을 지수와 가수로 나눠 저장한다.
    - **지수**: 표현할 수 있는 숫자의 범위(scale)를 결정한다.
    - **가수**: 유효숫자의 개수(정밀도)를 결정한다.
    - 예) 1234를 부동소수점으로 표현: 1.234 X 10^3
        - 지수: 3 (10^3), 가수: 1.234
        - Note) 컴퓨터 내부에서는 10진법이 아니라 **2진법으로 저장**된다. ($2^{지수} \times 2진\;가수$ )
- **FP32**
    - 지수: 8 bit, 가수: 23 bit, 부호: 1 bit
- **FP16**
    - 지수: 5 bit, 가수: 10 bit, 부호: 1 bit
- **BF16** (Brain Floating Point)
    - FP16이 FP32에 비해 표현할 수있는 수의 범위가 좁아서 타입 변환시 정보가 많이 사라지는 문제가 있다. 
    - 그래서 이를 보완하기 위해 google brain에서 제안한 타입으로 **지수부의 크기를 FP32와 동일하게 8bit를 사용**한다. 가수부의 크기가 줄어 들어 정밀도를 낮아지지만 더 넓은 범위의 값(FP32와 거의 비슷한 범위)을 표현하도록 하였다.
    - 지수: 8bit, 가수: 7bit, 부호: 1 bit

  ![floating_type](figures/quantize1.png)

  - **FP16으로 줄이면** FP32에 비해 1/2로 크기가 줄어든다. 그러나 FP16이 표현할 수 있는 값의 범위(scale)가 줄어 들면서 정보의 손실이 크게 발생할 수있다.
  - **BF16으로 줄이면** FP32에 비해 1/2로 크기가 줄어든다. 그리고 FP32와 거의 비슷한 범위(scale)의 값을 표현할 수 있다. 그러나 정밀도가 낮아 진다.

In [None]:
# uv venv .venv --python=3.12
# uv pip install bitsandbytes transformers accelerate hf_xet tqdm ipywidgets  ipykernel

In [1]:
import torch
from transformers import AutoModelForCausalLM

model_id = 'gpt2'

model = AutoModelForCausalLM.from_pretrained(model_id)


# model.get_memory_footprint(): 현재 모델이 사용하고 있는 메모리양을 바이트 단위로 반환
print(f"Model size: {model.get_memory_footprint():,} bytes, {model.get_memory_footprint()/1024/1024:,} MB") 

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Model size: 510,342,192 bytes, 486.7002410888672 MB


In [2]:
#########################
# FP16 타입으로 로딩
#########################
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    dtype=torch.float16
)

print(f"Model size: {model.get_memory_footprint():,} bytes, {model.get_memory_footprint()/1024/1024:,} MB") 

Model size: 261,462,552 bytes, 249.3501205444336 MB


In [3]:
#########################
# BF16 타입으로 로딩
#########################

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    dtype=torch.bfloat16
)

print(f"Model size: {model.get_memory_footprint():,} bytes, {model.get_memory_footprint()/1024/1024:,} MB") 

Model size: 261,462,552 bytes, 249.3501205444336 MB


### Int 8 Quantization
- INT8 양자화는 딥러닝 **모델의 파라미터와 활성화 값(뉴런의 출력값)을** 32비트 부동소수점(FP32)에서 **8비트 정수(INT8)로 변환**하는 기법이다.
- 이를 통해 모델의 메모리 사용량을 대략 75% 정도 감소시킬 수있다. 또한 추론 속도가 하드웨어와 모델에 따라 2 ~ 4배 정도 향상된다.

#### **Absmax Quantization**
- fp32를 int8(-128 ~ 127)로 양자화하는 가장 단순한 기법. 
  
![figure](figures/quantize2.png)

**주요 단계:**
1. **최대 절대값 찾기**
   - 주어진 텐서(fp32)에서 **절대값이 가장 큰 값**을 찾는다.

1. **스케일 팩터 계산**
   - **스케일 팩터(scale factor)는** 값의 scale을 변경하기 위해 값에 곱해주는 값을 말한다. 
   - 변경하려는 데이터타입(int8)의 최대값을 1에서 구한 절대값으로 나눠 스케일 팩터를 계산한다. 
   - `int8`의 경우 최대값은 127이다.
     - $s = \frac{127}{\max(|W|)}$

1. **양자화**
   - 각 원소에 스케일 팩터를 곱하고 반올림하여 정수형으로 변환한다.
     - -128이 넘어가면 -128로 클리핑한다.
   - $Q = round(W \times s)$
1. **학습/추론 단계에서는 데이터 복원**(**역양자화, dequantization**)를 통해 **FP16/BF16/FP32 으로 변환**하여 계산한다.
   -  가중치 전체를 통째로 FP16/FP32로 변환해 메모리에 다시 저장한 뒤 계산하지 않고, GPU의 행렬곱 커널(GEMM)이 8비트(INT8) 값을 작은 블록 단위로 읽어 그때그때 FP16/BF16/FP32로 복원 → 곱셈 → 덧셈을 묶어서 계산을 수행한다.
   -  **데이터 복원 + 곱셈(multiply) + 누산**(**accumulation, add**)이 하나의 실행 흐름/커널 안에서 결합되어 처리되는 것을 퓨전된 연산(FUSED operation)이라고 한다.
1. **예**

    - 주어진 텐서: `[1.2, -0.5, -4.3, 1.2, -3.1, 0.8, 2.4, 5.4]`
    - 최대 절대값: `5.4`
    - 스케일 팩터: `127 / 5.4 ≈ 23.5`
    - 양자화된 값: `[28, -12, -101, 28, -73, 19, 56, 127]`
    - 역양자화: $\cfrac{양자화된 값}{스케일 팩터}$

- **장단점**
  -  **장점:**
       - 연산량이 적다.
       - 데이터의 분포가 0을 중심으로 대칭적일 때 효과적이다.

  - **단점:**
    - 데이터에 **이상치(Outlier)가** 에 취약하다.
        - 스케일 팩터가 왜곡되어 양자화의 정확도가 떨어질 수 있다.
        - 공간의 낭비가 발생한다.
  
  ![figure](figures/quantize3.png)

  - **absmax 양자화 단점 보완**
    - 전체를 기준으로 변환을 수행하는 것이 아니라 K개씩 데이터를 묶어서 block 단위로 양자화 한다.
    - 대상 텐서를 K개 씩 묶은 뒤 그 안에서 절대 최댓값을 구해서 변환을 수행한다. 
    - 이렇게 하면 이상치와 같이 묶인 block의 tensor 들만 이상치에 영향을 받는다.
 

## 4-bit NormalFloat Quantization (NF4)
- QLoRA 튜닝 방법에서 제안한 양자화 방식으로, 모델의 메모리 사용량을 대폭 줄이면서도 성능을 유지하는 기법이다.
- NF4는 일반적으로 사용되는 32비트 부동소수점(FP32) 대신 **4비트만**을 사용하여 데이터를 표현한다.
- 이는 분위수 양자화(Quantile Quantization)를 기반으로 하며, 각 양자화 구간에 동일한 수의 값이 할당되도록 설계되었다.
    - 분위수 양자화(Quantile Quantization)는 양자화시 분위수로 구간을 나누고 각 구간에 동일한 수의 값이 포함하도록 하는 방식이다.

### 양자화 과정

1. **정규분포 가정**: 
   - 딥러닝 모델의 파라미터들은 일반적으로 **평균 0 근처의 정규분포**를 따른다.
   - NF4는 이러한 특성을 활용하여 효율적인 양자화 구간을 설계한다.

1. **양자화 구간 설정**: 
   - 표준 정규분포를 **분위수로 16등분**한다. 각 구간에 동일한 개수의 파라미터들(1/16)이 포함되도록 한다.
   - 평균(0) 근처는 좁은 구간, 양 끝은 넓은 구간이 형성된다.
       - 정규분포를 따르므로 평균 근처에 많은 양의 파라미터가 있기 때문이다.
      
        <img src="figures/quantize4.png" height="250">


1. **대표값 계산**:
   - 각 구간의 대표값(조건부 기댓값)을 계산한다.
   - 이 대표값들을 [-1, 1] 범위로 정규화하여 **NF4 룩업 테이블**을 생성/저장 한다.

1. **실제 파라미터 양자화**:
   - 대상 텐서의 **absmax**로 나눠 [-1, 1] 범위로 스케일링한다.
   - 각 값을 3에서 생성한 NF4 룩업 테이블에서 **가장 가까운 NF4 대표값**으로 매핑한다.
   - 복원을 위해서 **4bit 인덱스(0~15)와 absmax 값**을 저장한다.
       - 4bit 인덱스: **NF4 룩업테이블에서의 위치**(16 분위이므로 0 ~ 15. 4bit)
       - absmax: 파라미터 절대값 중 최댓값으로 FP32 원래값

1. **역양자화** (**추론 시 FP16/BF16/FP32 타입으로 복원하여 계산**):
   - 4bit 인덱스 → NF4 대표값 변환
   - 원래 스케일로 복원 (× absmax)


## NF4/INT8 양자화 모델 load

### BitsAndBytesConfig 이용한 양자화 설정

- `bitsandbytes` 라이브러리에서 제공하는 설정(Config) 클래스
- 트랜스포머 모델을 저비트 양자화(Quantization)로 로딩할 때 설정을 하는 설정클래스
- 주요 파라미터

| 파라미터                               | 타입            |설명                                                 |
| -------------------------------------- | ------------- | ------------------------------------------------------------------------- |
| `load_in_4bit`                         | `bool`        | 4비트 양자화(**4-bit quantization**) 로딩을 활성화한다. `True`이면 모델 가중치(**Weights**)를 4비트 포맷으로 GPU/CPU에 로딩한다.  |
| `load_in_8bit`                     | `bool`        | 8비트 양자화(**8-bit quantization**) 로딩을 활성화한다. `True`이면 8비트 INT8 방식으로 로딩된다. 4비트와 동시에 `True`로 설정하면 4비트가 우선 적용된다. |
| `bnb_4bit_quant_type`              | `str`         | 4비트 양자화 포맷을 선택한다. `"nf4"`(**NormalFloat4**) 또는 `"fp4"`(**Float4**)를 지정한다. LLM에서는 `"nf4"`가 품질 면에서 더 안정적이다.|
| `bnb_4bit_compute_dtype`           | `torch.dtype` | 추론단계에서 역양자화를 통해 float 타입으로 변환할 때 타입 지정. `torch.bfloat16` 또는 `torch.float16`을 중 하나로 설정한다.       |
| `bnb_4bit_use_double_quant`        | `bool`        | 이중 양자화(**Double Quantization**) 적용 여부. `True`이면 추가 압축 단계를 수행해 메모리(**VRAM**)를 더 절감하지만, 연산 비용이 약간 증가할 수 있다. |
|`bnb_4bit_quant_storage`            | `torch.dtype`| 4비트 가중치를 저장(Storage)할 때의 dtype. 보통 torch.uint8(기본)을 사용. CPU/GPU는 메모리에 주소를 할 당할 때 1byte(8bit) 단위로 한다. 4bit 로 양자화 하면 단독 변수로 메모리를 배정받아 저장할 수 없다. 그래서 저장할 때 uint8로 지정하면 4bit 두개의 값을 8bit 공간에 붙여서 저장한다. 그 타입을 지정한다.|
| `llm_int8_threshold`               | `float`       | 8비트 INT8 양자화에서 **이상치(outlier) 가중치**를 판정하는 임계값이다. 이상치로 판정 된 값은 Float타입으로 보존한다. 값이 클수록 더 많은 가중치를 8비트로 처리하여 메모리를 더 절약할 수 있다. 값이 작을수록 더 많은 가중치를 FP16/BF16로 보존하여 품질을 올릴 수 있다. 기본은 `6.0`. |
| `llm_int8_has_fp16_weight`         | `bool`        | 8비트 양자화에서 outlier 가중치를 FP16로 유지할지 여부. `True`이면 이상치 부분을 `float16`로 보존해 품질을 더 안정적으로 유지한다. `False` 이면 `INT8`포멧으로 동일하게 처리한다.    |
| `llm_int8_compute_dtype`           | `torch.dtype` | 추론단계에서 역양자화를 통해 float 타입으로 변환할 때 타입 지정. `torch.bfloat16` 또는 `torch.float16`을 중 하나로 설정한다.       |

In [4]:
import torch 
from transformers import AutoModelForCausalLM

model_id = 'gpt2'

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto"
)

print(f"Model size: {model.get_memory_footprint():,} bytes, {model.get_memory_footprint()/1024/1024} MB") 

Model size: 510,342,192 bytes, 486.7002410888672 MB


In [5]:
##################################################
# INT8 8bit 양자화 적용 후 메모리 크기
##################################################
from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
    # llm_int8_compute_dtype=torch.float16 # 연산시 역직렬화 타입지정 (bfloat16).
)

model_8bit = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto"
)

print(f"model_8bit Model size: {model_8bit.get_memory_footprint():,} bytes, {model_8bit.get_memory_footprint()/1024/1024:,} MB")

model_8bit Model size: 176,527,896 bytes, 168.3501205444336 MB


In [8]:
##################################################
# NF4 4bit 양자화 적용 후 메모리 크기
##################################################

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    # bnb_4bit_compute_type='float16',  # 연산시 역직렬화 타입지정 (bfloat16).
)

model_4bit = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto"
)
print(f"model_4bit Model size: {model_4bit.get_memory_footprint():,} bytes, {model_4bit.get_memory_footprint()/1024/1024:,} MB")

model_4bit Model size: 134,060,568 bytes, 127.8501205444336 MB


# [PEFT - Parameter-Efficient Fine-Tuning](https://github.com/huggingface/peft)

- 딥러닝 모델의 크기가 커질수록 태스크별로 모든 파라미터를 조정하는 full-fine-tuning 방식은 자원 소모와 시간, 비용적인 측면에서 점점 힘들어 지고 있다.  
  - 예: 대규모 언어 모델(LLM)에서 full-fine-tuning 시 수십억 개에서 수천억 개의 파라미터를 업데이트해야 함.  
- 이를 해결하기 위해 PEFT(Parameter-Efficient Fine-Tuning) 방법이 주목받고 있다.  
  - PEFT는 다운스트림 작업의 성능을 유지하거나 향상시키면서 계산량과 모델 크기를 줄이는 것이 목표다.  
  - 예: LoRA(Low-Rank Adaptation), Adapter Tuning 같은 기술이 대표적인 PEFT 방식이다.  

## 주요 기법

1. **어댑터 튜닝(Adapter Tuning)**
    - 기존 사전학습 모델에 어댑터 레이어를 추가하고, 어댑터 레이어만 학습시키는 방식.
    - 이를 통해 모델의 주요 파라미터를 수정하지 않으면서도 새로운 작업에 맞게 미세 조정할 수 있다.
    - LoRA(Low-Rank Adaptation)이 대표적인 어댑터 튜닝 방식이다.
  
2. **프롬프트 튜닝(Prompt Tuning)**
    - 모델의 입력 앞에 학습 가능한 프롬프트를 추가하여 해당 프롬프트만 학습하는 방식.
    - 이를 통해 기존 모델의 파라미터를 수정하지 않고도 다양한 작업에 빠르게 적응할 수 있다.

3. **P-튜닝(P-Tuning)**
    - 입력 시퀀스 전체에 학습 가능한 연속적인 프롬프트 벡터를 삽입하여 해당 벡터들만 학습하는 방식.
    - 프롬프트 튜닝과 달리, P-튜닝은 입력의 다양한 위치에 프롬프트 벡터를 삽입하여 모델의 출력을 조정한다.


# [LoRA (Low-Rank Adaptation)](https://arxiv.org/abs/2106.09685)
- LoRA는 **기존(사전학습) 모델의 가중치(W)를 동결**(**freeze**)한 채, Transformer의 일부 선형층에 저랭크(low-rank) 어댑터($\Delta W$)를 추가해  학습함으로써 **학습 파라미터 수와 학습 메모리 요구량을 크게 줄이**는 PEFT(Parameter-Efficient Fine-Tuning) 기법이다.
- LoRA의 저랭크 어댑터는 기존 파라미터와 동일한 크기의 output 이 나오도록 두개의 행렬로 구성한다. ($\Delta W = BA$)
  - 행렬 $B$ 는 $d_{out} \times r$, $A$는 $r \times d_{in}$ 로 구성되며 큰 행렬 $W$ 가 아니라 **작은 두 행렬 A, B** 만 학습하도록 구성한다.

![LoRA](figures/LoRA.png)

- 위의 그림을 보면 파란색이 사전학습 모델의 파라미터($W$)고 주황색이 재구성된 파라미터($\Delta W$) 이다.
- 예를 들어 모델이 d차원의 입력 $X$와 `d x d` 차원의 파라미터 $W$를 곱해 최종적으로 d차원의 결과 h를 출력한다.
    - 만약 d차원이 100이라면 파라미터는 10000 개의 파라미터를 가진다. 
- LoRA는 모델의 파라미터 $W$를 고정(freezon)시키고 $r \times d_{in}$인 행렬 A와 $d_{out} \times r$ 인 행렬 B 로 구성된 **LoRA adapter** 추가한다.
- 입력을 모델의 파라미터와 LoRA adaptor에 각각 입력 해서 나온 출력들을 더해 최종 결과를 출력한다.
- LoRA adapter를 구성하는 행렬 A와 B의 **r을 d보다 작은 값으로 설정하면 d x d 인 행렬 모델 weight 보다 훨씬 적은 파라미터로 학습**시킬 수 있다.
- Adaptor가 추가 되어 전체 모델의 파라미터는 조금 늘어난다. 하지만 학습 과정에서는 adpator만 학습하므로 gradient와 옵티마이저의 파라미터 양이 줄어들어 GPU 메모리를 적게 사용할 수있다.

## LoRA 설정
- **r**: 
  - 행렬 A와 B를 만들때 r을 몇으로 할지 설정한다.
- **alpah**: 
  - adaptor 파라미터의 결과를 모델의 파라미터의 결과에 얼마나 반영할지를 결정하는 하이퍼파라미터.
    - alpha/r 을 결과 d에 곱해 기존 파라미터의 결과와 더한다. 
        - alpha가 16이고 r이 8인 경우 행렬 A, B에 2(16/8)을 곱해 기존 파라미터에 더해준다.
    - **alpha가 커질 수록 새롭게 학습한 파라미터(ex: LoRA Adaptor)의 중요성을 더 크게 고려**한다.
- 모델의 파라미터어 중 **어디에 adaptor를 적용해 파라미터를 재구성**(LoRA 어댑터를 적용)할지 결정해야 한다.
    - transformer의 self-attention layer는 query, key, value, feed-forward의 linear layer로 구성되있다. 
    - 이 중 특정 파라미터에만 LoRA를 적용할 수있고 전체에 적용할 수도 있다.

# QLoRA(Quantized Low-Rank Adaptation)

- QLoRA는 LoRA의 "저랭크 어댑터 학습" 방식을 그대로 사용하되, **동결된 베이스 모델 파라미터**($W$) 자체를 **4-bit로 양자화**(**quantization**) 해서 GPU 메모리를 크게 줄인 뒤, 그 위에서 **LoRA 어댑터만 학습**한다.
  - 학습시 **4-bit로 양자화된(동결된) 모델을 통과해 gradient를 흘려보내고** 업데이트는 **LoRA 어댑터로만** 일어나게 한다.