# EEVE-10.8B QLoRA Fine Tuning

## 1. Install Modules

In [None]:
!pip install -U datasets
!pip install -U bitsandbytes
!pip install -U accelerate
!pip install -U peft
!pip install -U trl
!pip install -U typing_extensions
!pip install -U torch
!pip install -U datasets
!pip install -U korouge_score
!pip install -U konlpy

## 2. Import Modules

In [None]:
import os
import torch
import transformers
from datasets import load_dataset
from transformers import (
    BitsAndBytesConfig,
    AutoModelForCausalLM,
    AutoTokenizer,
    Trainer,
    TextStreamer,
    pipeline,
)
from peft import (
    LoraConfig,
    prepare_model_for_kbit_training,
    get_peft_model,
    get_peft_model_state_dict,
    set_peft_model_state_dict,
    TaskType,
    PeftModel,
    PeftConfig,
)
from trl import SFTTrainer
from korouge_score import rouge_scorer
import numpy as np

In [None]:
from huggingface_hub import login
login(token="")

## 3. Load Dataset

In [None]:
from datasets import load_dataset

train_dataset = load_dataset("MartinusChoi/FinPilot", split="train")
test_dataset = load_dataset("MartinusChoi/FinPilot", split="test")

train_dataset = train_dataset.rename_column("prompt", "text")
test_dataset = test_dataset.rename_column("prompt", "text")

## 4. Set PLM Into QLoRA Form

In [None]:
model_name = "yanolja/EEVE-Korean-Instruct-10.8B-v1.0"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,                     # Load model in 4bit precision
    bnb_4bit_quant_type='nf4',             # Pre-trained model has to be quantization in 4bit nf type
    bnb_4bit_use_double_quant=True,        # Use double-qauntization of QLoRA
    bnb_4bit_compute_dtype=torch.bfloat16  # Pre-trained model has to be loaded in BF16 dtype
)

plm = AutoModelForCausalLM.from_pretrained(
    model_name,
    token=True,
    quantization_config=bnb_config,        # Use bitsandbytes config
    device_map='auto',                     # auto : HF Accelerate determines which GPU to allocate for each layer of the model.
    trust_remote_code=True                 # Setting for use EEVE model
)

In [None]:
tokenizer = AutoTokenizer.from_pretrained('yanolja/EEVE-Korean-Instruct-10.8B-v1.0', token=True,)
tokenizer.pad_token = tokenizer.eos_token

## 5. Set Hyper Parameters

In [None]:
flm = prepare_model_for_kbit_training(plm)

lora_alpha = 32
lora_dropout = 0.05
lora_rank = 32

peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_rank,
    bias='none',
    task_type='CAUSAL_LM',
    target_modules=['q_proj','k_proj','v_proj','o_proj','gate_proj']
)

flm=get_peft_model(flm, peft_config)
flm.print_trainable_parameters()

In [None]:
flm

In [None]:
training_arguments =  transformers.TrainingArguments(
    output_dir = './train_output',
    per_device_train_batch_size = 2,
    gradient_accumulation_steps = 2,                                               # 배치 크기가 줄어들면 기울기 누적 단계가 2배 증가
    optim = 'paged_adamw_32bit',                                                   # 더 나은 메모리 관리를 위해 페이징을 활성화
    save_strategy='steps',                                                         # 학습 중에 채택할 체크포인트 save strategy
    save_steps = 10,                                                               # 두 개의 체크포인트가 저장되기 전의 업데이트 단계 수
    logging_steps = 10,                                                            # 두 로그 사이의 업데이트 단계 수
    learning_rate = 2e-4,                                                          # AdamW 최적화 프로그램의 학습률
    max_grad_norm = 0.3,                                                           # 최대 그라데이션 표준(gradient clipping)
    max_steps = 60,                                                                # 60 단계 동안 학습
    warmup_ratio = 0.03,                                                           # 0 에서 learning_rate 까지 선형 준비에 사용되는 단계 수
    lr_scheduler_type = 'cosine',                                                  # 학습률 스케줄러
    report_to = 'none',                                                            # You can find your API key in your browser here: https://wandb.ai/authorize
)

## 6. Fine Tuning

In [None]:
def compute_metrics(eval_pred):

  # Dict for store 'rouge' score per predicted summary
  scores = {
      "rouge1": [],
      "rouge2": [],
      "rougeL": [],
      "rougeLsum": []
  }

  # 한국어 rouge score 계산 인스턴스 생성
  scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL', 'rougeLsum'])

  # 모델의 예측 정보 파싱
  predictions, labels = eval_pred

  # 모델 예측의 각 토큰의 대한 logit을 토큰으로 변환
  # prediction shape : (batch, max_length, 51200)
  # 마지막 차원(51200)은 어휘 사전 크기 만큼의 logit
  # np.argmax() 를 활용해 가장 확률 높은 token id로 변환
  predictions = np.argmax(predictions, axis=-1)

  # 모델 예측 token id sequence -> 텍스트
  decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
  decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

  # 전체 batch 크기 만큼의 rouge score 종합
  for pred, ref in zip(decoded_preds, decoded_labels):
      score = scorer.score(ref, pred)
      for rouge_type in scores.keys():
          scores[rouge_type].append(score[rouge_type].fmeasure)

  # batch만큼의 평균 rouge score 계산
  avg_scores = {rouge_type: sum(score_list) / len(score_list) * 100 for rouge_type, score_list in scores.items()}

  return avg_scores

In [None]:
trainer = SFTTrainer(
    model=flm,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    peft_config=peft_config,
    tokenizer=tokenizer,
    args = training_arguments,
    compute_metrics=compute_metrics
)


for name, module in trainer.model.named_modules():
    if 'norm' in name:
        module = module.to(torch.float32)

In [None]:
flm.config.use_cache = False
trainer.train()

## 6. Compare between PLM and FLM

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"

In [None]:
# 예제 입력 텍스트
input_text = "삼성전자는 메모리 반도체 분야에서 세계적인 리더로 자리잡고 있습니다. 최근 HBM(고대역폭 메모리) 기술 경쟁력을 회복하며 시장에서의 입지를 강화하고 있습니다. 이는 AI 및 데이터 센터 수요 증가에 따른 것으로, 삼성전자는 이러한 수요에 대응하기 위해 기술 개발에 박차를 가하고 있습니다. 이 텍스트를 요약해줘"

# FLM 모델 사용
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)

# 입력 텐서를 GPU로 이동
inputs = {key: value.to(device) for key, value in inputs.items()}

# 모델 실행
output = flm.generate(**inputs, max_length=200)
result = tokenizer.decode(output[0], skip_special_tokens=True)
print("Output:", result)

In [None]:
# 예제 입력 텍스트
input_text = "삼성전자는 메모리 반도체 분야에서 세계적인 리더로 자리잡고 있습니다. 최근 HBM(고대역폭 메모리) 기술 경쟁력을 회복하며 시장에서의 입지를 강화하고 있습니다. 이는 AI 및 데이터 센터 수요 증가에 따른 것으로, 삼성전자는 이러한 수요에 대응하기 위해 기술 개발에 박차를 가하고 있습니다. 이 텍스트를 확장해줘"

# plm 모델 사용
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
# 입력 텐서를 GPU로 이동
inputs = {key: value.to(device) for key, value in inputs.items()}

output = plm.generate(**inputs, max_length=1024)
result = tokenizer.decode(output[0], skip_special_tokens=True)
print("Output:", result)