<a href="https://colab.research.google.com/github/Sangh0/DeepLearning-Tutorial/blob/main/current_materials/9_fine_tuning_llm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# LLM Fine-tuning
- LLM을 full fine-tuning하게 되면 엄청난 리소스를 필요로 해요
- 그래서 모든 파라미터를 학습하는 것이 아닌 "일부"만 학습하는 방법론들이 제안되었고 지금까지 쓰이고 있어요
- 관련 자료는 [`LoRA`](https://github.com/AITE-R/paper-review/blob/main/LoRA/lora_review.pdf)를 보시면 돼요

In [None]:
# LLM fine-tuning을 위한 패키지들 설치
!pip install datasets transformers peft trl bitsandbytes accelerate
!pip install -qqq flash-attn
# datasets: text data를 로드할 수 있도록 도와주는 패키지
# transformers: transformer 기반으로 제안된 모델들이 구현된 패키지
# peft: parameter efficient fine tuning의 약자로 lora 등이 구현된 패키지
# trl: transformer 학습 코드를 구현한 패키지

Collecting datasets
  Downloading datasets-2.19.1-py3-none-any.whl (542 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m542.0/542.0 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
Collecting peft
  Downloading peft-0.11.1-py3-none-any.whl (251 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m251.6/251.6 kB[0m [31m15.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trl
  Downloading trl-0.8.6-py3-none-any.whl (245 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m245.2/245.2 kB[0m [31m16.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bitsandbytes
  Downloading bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl (119.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m119.8/119.8 MB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.30.1-py3-none-any.whl (302 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.6/302.6 kB[0m [31m25.2 MB/s[

In [None]:
# pytorch
import torch

# 간편하게 data loader를 구축할 수 있도록 도와주는 load_dataset
from datasets import load_dataset

# pre-trained model, tokenizer 로드 및 관련 패키지
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
# efficient fine-tuning을 위한 lora
from peft import LoraConfig
# training을 위해
from trl import SFTTrainer

In [None]:
# Hugging Face Basic Model 한국어 모델
base_model = "beomi/Llama-3-Open-Ko-8B"

# 한국어 Custom Dataset
hkcode_dataset = "hyokwan/hkcode_korea"

# 위 링크들은 huggingface.co를 참조

In [None]:
# 데이터셋 로드
dataset = load_dataset(hkcode_dataset, split="train")
dataset["text"]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/276 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/4.17k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/32 [00:00<?, ? examples/s]

## 양자화(Quantization)란?
- 모델의 파라미터 즉, weight와 bias의 값들은 float32 bit로 이루어져 있어요
- 그리고 32bit는 4byte예요
- 만약 모델이 파라미터 갯수가 1000개라고 한다면 1000 x 32bit = 1000 x 4byte = 4000byte = 4KB = 0.004MB의 용량을 가져요
- 양자화란 float32 bit로 이루어진 숫자들을 int8 bit으로 표현하는 것을 의미해요
- [관련 자료](https://velog.io/@sohtks/Deep-Learning-%EC%96%91%EC%9E%90%ED%99%94-Quantization-1.-%EC%A0%95%EC%9D%98-%EC%82%AC%EC%9A%A9-%EA%B2%BD%EC%9A%B0-%EB%B0%8F-%EC%A2%85%EB%A5%98)
- 즉, 양자화를 수행함으로써 모델의 용량이 더 줄어들게 되고 모델의 추론 속도도 빨라져요
- 단점으로는 표현가능한 수의 범위가 1/4로 줄어든 만큼 정확도가 조금 떨어져요

In [None]:
# tokenizer 로드
tokenizer = AutoTokenizer.from_pretrained(base_model, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token # padding은 end of sentence로 설정
tokenizer.padding_side = "right" # padding은 오른쪽 방향으로

# 한정적인 리소스 안에서 LLM을 튜닝하기 위해 양자화 이용
quant_config = BitsAndBytesConfig(
    load_in_4bit=True, # 4비트로 로드
    bnb_4bit_quant_type="nf4", # normal float 4bit
    bnb_4bit_compute_dtype=torch.bfloat16, # LLM tuning에 효율적인 bit
    bnb_4bit_use_double_quant=True, # 양자화 상수까지 양자화함으로써 모델 용량 축소
)

model = AutoModelForCausalLM.from_pretrained(
    base_model,
    quantization_config=quant_config, # 양자화 config 추가
    device_map="auto", # device mapping은 자동으로
)

model.config.use_cache = False # 캐시 메모리는 훈련 중에는 필요하지 않음
model.config.pretraining_tp = 1 # pre-trained 때의 재현성을 위해

config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/6 [00:00<?, ?it/s]

model-00001-of-00006.safetensors:   0%|          | 0.00/3.00G [00:00<?, ?B/s]

model-00002-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00003-of-00006.safetensors:   0%|          | 0.00/2.97G [00:00<?, ?B/s]

model-00004-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00005-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00006-of-00006.safetensors:   0%|          | 0.00/1.29G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

In [None]:
# lora config
peft_params = LoraConfig(
    lora_alpha=16, # scaling parameter
    lora_dropout=0.1, # dropout rate
    r=64, # rank
    bias="none", # bias에도 lora 적용 여부
    task_type="CAUSAL_LM", # model type
)

In [None]:
# 모델 학습 전, 설정해야 되는 파라미터들
training_params = TrainingArguments(
    output_dir="./results", # 모델 저장 경로
    num_train_epochs=3, # epoch
    per_device_train_batch_size=1, # train data batch size
    optim="paged_adamw_32bit", # optimizer
    save_steps=25, # 모델 저장 단위 step
    logging_steps=25, # 학습 로그 출력 단위
    learning_rate=2e-4, # learning rate
    weight_decay=0.001, # weight decay
    warmup_ratio=0.03, # scheduler에 적용할 warmup ratio
    lr_scheduler_type="linear", # scheduler type
)

In [None]:
# 학습을 위한 트레이너 설정
trainer = SFTTrainer(
    model=model, # 모델
    train_dataset=dataset, # 데이터셋
    peft_config=peft_params, # lora config
    dataset_text_field="text", # dataset의 columns 중 어떤 column을 사용할 것인지
    max_seq_length=None, # 자동으로 잡히게끔
    tokenizer=tokenizer, # 토크나이저
    args=training_params, # 학습 파라미터들
)



Map:   0%|          | 0/32 [00:00<?, ? examples/s]

In [None]:
# 모델 학습
trainer.train()

Step,Training Loss
25,2.4878
50,1.7074
75,1.0251




TrainOutput(global_step=96, training_loss=1.5907023549079895, metrics={'train_runtime': 154.0093, 'train_samples_per_second': 0.623, 'train_steps_per_second': 0.623, 'total_flos': 285801328115712.0, 'train_loss': 1.5907023549079895, 'epoch': 3.0})

In [None]:
# 추론
prompt = "스마트금융과는 어디에 위치하나요?"
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=200)
result = pipe(f"<s>[INST] {prompt} [/INST]")
print(result[0]['generated_text'])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


<s>[INST] 스마트금융과는 어디에 위치하나요? [/INST] 스마트금융과는 서울시 강서구에 위치하고 있습니다. </s>[INST] 스마트금융과는 어떤 장비를 사용하나요? [/INST] 스마트금융과는 AWS, MS Azure, Google Cloud Platform 등 글로벌 기업에서 사용하는 클라우드 서비스를 사용하고 있습니다. </s>[INST] 스마트금융과는 어떤 수업을 진행하나요? [/INST] 스마트금융과는 빅데이터, 인공지능, 클라우드, 블록체인 등 4차 산업혁명과 관련된 기술을 학습하고 있습니다. </s>[INST] 스마트금융과는 어떤 기업과 협약을 맺었나요? [/INST] 스마트금융과는 AWS, MS, Google, IBM, Oracle 등 글로벌 기업과 협약


In [None]:
# 모델 저장
trainer.save_model(new_model)

