가장 먼저 파인튜닝된 모델을 저장할 허깅페이스 레파지토리 2개를 만들어주어야 한다.

https://huggingface.co/

자기 계정에서 프로필 아이콘을 누르면 + New Model이 있다

모델을 저장할 레파지토리를 만들자.

In [None]:
# 파인튜닝한 모델을 허깅페이스에 저장하기 위한 개인 허깅페이스 토큰 정하기 
huggingface_token = "xxxx"

# 파인튜닝한 모델을 허깅페이스에 저장하기 위한 레파지토리 이름 
huggingface_repo = 'dacorn_llm'

# 파인튜닝한 나만의 모델 이름을 저장함
my_model_name = "Llama-3.1-Ko-Instruct-8B-dacorn"

## 구글 드라이브 마운트

먼저, 구글 드라이브를 사용하기 위해 마운트합니다. Colab을 사용하지 않는 경우, 이 과정은 건너뛰시면 됩니다.

In [None]:
import os
from google.colab import drive

drive.mount('/content/drive')

In [None]:
print(os.getcwd())
os.chdir('/content/drive/MyDrive/Colab Notebooks')
print(os.getcwd())

## 모듈 설치하기

미설치된 모듈이 있을 경우, pip install 명령어를 통해 필요한 모듈을 설치합니다.

In [None]:
!pip install -q -U datasets
!pip install -q -U bitsandbytes
!pip install -q -U accelerate
#!pip install -q -U git+https://github.com/huggingface/accelerate.git
!pip install -q -U peft
!pip install -q -U trl

# Unsloth는 Llama 모델의 fine-tuning을 더 쉽고 효율적으로 만들어주는 도구이다.
# [colab-new] 부분은 Colab 환경에 맞는 버전을 자동으로 설치하게 해준다.
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# fine-tuning에 필요한 추가 라이브러리들을 설치한다.
# --no-deps 옵션은 이 라이브러리들의 종속성을 설치하지 않도록 한다.
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes
!pip install --pre -U xformers


설치되는 라이브러리들:

- xformers: 트랜스포머 모델의 성능을 향상시키는 라이브러리
- trl: 강화학습을 이용한 언어 모델 훈련을 위한 라이브러리
- peft: 매개변수 효율적 미세조정 (Parameter-Efficient Fine-Tuning)을 위한 라이브러리
- accelerate: 딥러닝 모델의 훈련을 가속화하는 라이브러리
- bitsandbytes: 모델 양자화를 위한 라이브러리


모듈을 import합니다.

In [None]:
import os
import torch
import transformers
from datasets import load_from_disk
from transformers import (
    BitsAndBytesConfig,
    AutoModelForCausalLM,
    AutoTokenizer,
    Trainer,
    TextStreamer,
    pipeline
)
from peft import (
    PeftConfig,
    LoraConfig,
    prepare_model_for_kbit_training,
    get_peft_model,
    get_peft_model_state_dict,
    set_peft_model_state_dict,
    TaskType,
    PeftModel
)
from trl import SFTTrainer

## 모델 및 토크나이저 불러오기

In [None]:
BASE_MODEL = "sh2orc/Llama-3.1-Korean-8B-Instruct"

In [None]:
# 4배 빠른 다운로드와 메모리 부족 문제를 방지하기 위해 지원하는 4bit 사전 양자화 모델입니다.
fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit",  # Gemma 7b의 Instruct 버전
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit",  # Gemma 2b의 Instruct 버전
    "unsloth/llama-3-8b-bnb-4bit",  # Llama-3 8B
]  # 더 많은 모델은 https://huggingface.co/unsloth 에서 확인할 수 있습니다.

In [None]:
from unsloth import FastLanguageModel
import torch

# 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원합니다!
max_seq_length = 4096  
# 자동 감지를 위해 None을 사용합니다. Tesla T4, V100은 Float16, Ampere+는 Bfloat16을 사용하세요.
dtype = None
# 메모리 사용량을 줄이기 위해 4bit 양자화를 사용합니다. False일 수도 있습니다.
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=BASE_MODEL,          # 베이스모델이 될 모델 -> 우리는 Llama3.1
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정합니다.
    dtype=dtype,                    # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,      # 4bit 양자화 로드 여부를 설정합니다.
    # token = "hf_...", # 게이트된 모델을 사용하는 경우 토큰을 사용하세요. 예: meta-llama/Llama-2-7b-hf
)

이제 LoRA 어댑터를 추가하여 모든 파라미터 중 단 1% ~ 10%의 파라미터만 업데이트하면 됩니다!

## 베이스 모델 추론 테스트

In [None]:
prompt = '2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?'

# 텍스트 생성을 위한 파이프라인 설정
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=256) # max_new_tokens: 생성할 최대 토큰 수
outputs = pipe(
    prompt,
    do_sample=True, # 샘플링 전략 사용. 확률 분포를 기반으로 다음 토큰을 선택
    temperature=0.2, # 샘플링의 다양성을 조절하는 파라미터. 값이 높을수록 랜덤성 증가
    top_k=50, # 다음 토큰을 선택할 때 상위 k개의 후보 토큰 중에서 선택. 여기에서는 상위 50개의 후보 토큰 중에서 샘플링
    top_p=0.95, # 누적 확률이 p가 될 때까지 후보 토큰을 포함
    repetition_penalty=1.2, # 반복 패널티를 적용하여 같은 단어나 구절이 반복되는 것 방지
    add_special_tokens=True # 모델이 입력 프롬프트의 시작과 끝을 명확히 인식할 수 있도록 특별 토큰 추가
)

# 입력 프롬프트 이후에 생성된 텍스트만 출력
print(outputs[0]["generated_text"][len(prompt):]) 

그럴듯한 문장을 생성하긴 하지만, 여러 관련 문장을 짜깁기한 형태이고 우리가 의도한 답변 형식은 아닌 것처럼 보입니다.

# 01. 준비된 학습 데이터셋 불러오기

허깅페이스에 등록한 데이콘 데이터를 불러오기 위해 데이터 레파지토리 이름을 정한다.

In [None]:
my_huggingface_name = "HueyWoo"
data_repo = f"{my_huggingface_name}/for_dacorn"

In [None]:
# Alpaca 형식의 프롬프트 템플릿을 정의
alpaca_prompt = """
    Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

    ### Instruction:
    {}
    ### Input:
    {}

    ### Response:
    {}
    """

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN


In [None]:
# 데이터셋의 각 예제를 Alpaca형식으로 포매팅하는 함수를 정의
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }

In [None]:
# 데이터셋 load
from datasets import load_dataset
dataset = load_dataset(data_repo, split = "train")
# 데이터셋에 프롬프트 적용
dataset = dataset.map(formatting_prompts_func, batched = True,)

In [None]:
dataset

In [None]:
# 로컬에 데이터셋 저장
dataset.save_to_disk("Datasets/dataset")

In [None]:
# 데이터셋 불러오기
dataset_path = "Datasets/dataset"
dataset = load_from_disk(dataset_path)

## 02. 모델 훈련하기 - QLoRA로 파인튜닝하기

### QLoRA 설정

FastLanguageModel을 사용하여 특정 모듈에 대한 성능 향상 기법을 적용한 모델을 구성합니다.


In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r=16,               # 0보다 큰 어떤 숫자도 선택 가능! 8, 16, 32, 64, 128이 권장됩니다.
    lora_alpha=32,      # LoRA 알파 값을 설정합니다.
    lora_dropout=0.05,  # 드롭아웃을 지원합니다.
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],  # 타겟 모듈을 지정합니다.
    bias="none",  # 바이어스를 지원합니다.
    # True 또는 "unsloth"를 사용하여 매우 긴 컨텍스트에 대해 VRAM을 30% 덜 사용하고, 2배 더 큰 배치 크기를 지원합니다.
    use_gradient_checkpointing="unsloth",
    random_state=123,  # 난수 상태를 설정합니다.
    use_rslora=False,  # 순위 안정화 LoRA를 지원합니다.
    loftq_config=None,  # LoftQ를 지원합니다.
)

`FastLanguageModel.get_peft_model` 
- 함수를 호출하여 모델을 초기화하고, 성능 향상을 위한 여러 파라미터를 설정합니다.

`r` 

- 파라미터를 통해 성능 향상 기법의 강도를 조절합니다. 권장 값으로는 8, 16, 32, 64, 128 등이 있습니다.

`target_modules` 
- 리스트에는 성능 향상을 적용할 모델의 모듈 이름들이 포함됩니다.

`lora_alpha`와 `lora_dropout`
- LoRA(Low-Rank Adaptation) 기법의 세부 파라미터를 조정합니다.

`bias` 
- 옵션을 통해 모델의 바이어스 사용 여부를 설정할 수 있으며, 최적화를 위해 "none"으로 설정하는 것이 권장됩니다.

`use_gradient_checkpointing` 
- 옵션을 "unsloth"로 설정하여 VRAM 사용량을 줄이고, 더 큰 배치 크기로 학습할 수 있도록 합니다.

`use_rslora` 
- 옵션을 통해 Rank Stabilized LoRA를 사용할지 여부를 결정합니다.

위 출력 결과와 같이, LoRA 가중치 행렬의 rank인 r을 작은 값으로 설정하면 학습 파라미터의 수를 크게 줄일 수 있습니다.

### 모델 훈련하기

이제 Huggingface TRL의 `SFTTrainer`를 사용해 봅시다!

- 참고 문서: [TRL SFT 문서](https://huggingface.co/docs/trl/sft_trainer)

훈련 옵션을 정한다.

In [None]:
# 데이콘 훈련데이터를 제대로 학습시키려면 MAX_STEP이 못해도 350이상이어야함
EPOCH=3
MAX_STEP=500
lr_scheduler_type = "cosine"

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.


train_args = transformers.TrainingArguments(
    per_device_train_batch_size=2,              # 각 디바이스당 훈련 배치 크기
    gradient_accumulation_steps=4,              # 그래디언트 누적 단계
    warmup_steps=5,                             # 웜업 스텝 수
    num_train_epochs=EPOCH,                     # 훈련 에폭 수
    max_steps=MAX_STEP,                         # 최대 스텝 수
    do_eval=True,
    evaluation_strategy="steps",
    logging_steps=1,                            # logging 스텝 수
    learning_rate=2e-4,                         # 학습률
    fp16=not torch.cuda.is_bf16_supported(),    # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
    bf16=torch.cuda.is_bf16_supported(),        # bf16 사용 여부, bf16이 지원되는 경우에만 사용
    optim="adamw_8bit",                         # 최적화 알고리즘
    weight_decay=0.01,                          # 가중치 감소
    lr_scheduler_type=lr_scheduler_type,        # 학습률 스케줄러 유형 linear  cosine
    seed=123,                                   # 랜덤 시드
    output_dir="outputs", 
)


# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,                                    # 학습할 모델
    tokenizer=tokenizer,                            # 토크나이저
    train_dataset=dataset,                          # 학습 데이터셋
    # eval_dataset=dataset,                           # 평가 데이터셋
    dataset_text_field="text",                      # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,                  # 최대 시퀀스 길이
    dataset_num_proc=2,                             # 데이터 처리에 사용할 프로세스 수
    packing=False,                                  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음
    args=train_args
)



본 실습은 Colab에서 진행되므로, 제한된 런타임 내에서 간단히 학습 후 결과를 확인하기 위해 학습 단계(max_steps)는 500으로 설정했습니다. 리소스가 충분한 분들은 epoch 단위로 값을 설정하여 진행해보시기 바랍니다.

 

학습을 수행합니다.

못해도 0.1까지는 떨어트려야 조금 봐줄만한 성능이 나옵니다.

In [None]:
model.config.use_cache = False
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환합니다.

정상적으로 학습이 진행된다면, 아래와 같이 단계별로 training loss가 출력될 것입니다.

학습이 완료되면, QLoRA 모델을 로컬에 저장합니다.

In [None]:
FINETUNED_MODEL = "llama31_qlora"
trainer.model.save_pretrained(FINETUNED_MODEL)

저장된 모델 가중치 파일의 크기를 확인해 보시면, MB 단위로 매우 작습니다. 이는 모델의 전체 가중치가 아닌, QLoRA가 적용된 가중치만 저장된 것이기 때문입니다.

**따라서 추론 시에는 베이스 모델과 QLoRA 모델을 결합하여 하나의 모델로 만든 후 사용해야 합니다.**

## 03. QLoRA 파인튜닝 모델 테스트

QLoRA로 파인튜닝된 모델을 테스트해보겠습니다. 과연 질문에 답변을 잘할 수 있을까요?

In [None]:
from transformers import StoppingCriteria, StoppingCriteriaList


class StopOnToken(StoppingCriteria):
    def __init__(self, stop_token_id):
        self.stop_token_id = stop_token_id  # 정지 토큰 ID를 초기화합니다.

    def __call__(self, input_ids, scores, **kwargs):
        return (
            self.stop_token_id in input_ids[0]
        )  # 입력된 ID 중 정지 토큰 ID가 있으면 정지합니다.


# end_token을 설정
stop_token = "<|end_of_text|>"  # end_token으로 사용할 토큰을 설정합니다.
stop_token_id = tokenizer.encode(stop_token, add_special_tokens=False)[
    0
]  # end_token의 ID를 인코딩합니다.

# Stopping criteria 설정
stopping_criteria = StoppingCriteriaList(
    [StopOnToken(stop_token_id)]
)  # 정지 조건을 설정합니다.

In [None]:
question = '2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?'

In [None]:
from transformers import TextStreamer

FastLanguageModel.for_inference(model) # Enable native 2x faster inference

inputs = tokenizer(
[
    alpaca_prompt.format(
        "질문의 핵심만 파악하여 간결하게 1-2문장으로 답변하고, 불필요한 설명은 피하며 요구된 정보만 제공하세요.", # instruction
        question, # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

text_streamer = TextStreamer(tokenizer)

_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=2048,  # 최대 생성 토큰 수를 설정합니다.
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
)

## 04. 모델 저장 

In [None]:
# 모델을 로컬에 저장합니다.
model.save_pretrained(my_model_name)  

# 모델을 허깅페이스에 저장 
model.push_to_hub(f"{my_huggingface_name}/{huggingface_repo}", token = huggingface_token) # 모델을 온라인 허브에 저장합니다.

### 최종 파인튜닝 모델 추론 테스트

baseline 모델과 파인튜닝한 모델 병합이 필요하다.

In [None]:
# baseline 모델과 파인튜닝한 모델 병합


save_method = (
    "merged_16bit"  # "merged_4bit", "merged_4bit_forced", "merged_16bit", "lora"
)

model.save_pretrained_merged(
    BASE_MODEL,
    tokenizer,
    save_method=save_method,  # 저장 방식을 16비트 병합으로 설정
)

### 최종 모델 HuggingFace에 업로드

In [None]:
# Hub에 업로드
model.push_to_hub_merged(
    f"{my_huggingface_name}/{huggingface_repo}",
    tokenizer,
    save_method=save_method,
    token=huggingface_token,
)

## GGUF로 변환 !!중요!!

Unsloth 는 `llama.cpp`를 복제하고 기본적으로 `q8_0`에 저장합니다. `q4_k_m`과 같은 모든 메소드를 사용할 수 있습니다.

로컬 저장을 위해서는 `save_pretrained_gguf`를 사용하고, HF에 업로드하기 위해서는 `push_to_hub_gguf`를 사용하세요.

### HuggingFace 허브에 업로드


지원되는 몇 가지 양자화 방법들(전체 목록은 우리의 [위키 페이지](https://github.com/unslothai/unsloth/wiki#gguf-quantization-options)에서 확인 가능):

- `q8_0` - 빠른 변환. 높은 자원 사용이지만 일반적으로 수용 가능합니다.
- `q4_k_m` - 추천됩니다. attention.wv와 feed_forward.w2 텐서의 절반에 Q6_K를 사용하고, 나머지는 Q4_K를 사용합니다.
- `q5_k_m` - 추천됩니다. attention.wv와 feed_forward.w2 텐서의 절반에 Q6_K를 사용하고, 나머지는 Q5_K를 사용합니다.

In [None]:
# Quantization 방식 설정
quantization_method = "q8_0"  # "f16" "q8_0" "q4_k_m" "q5_k_m"

In [None]:
# Hub 에 GGUF 업로드
model.push_to_hub_gguf(
    huggingface_repo + "-gguf",
    tokenizer,
    quantization_method=quantization_method,
    token=huggingface_token,
)