In [None]:
!pip install -U accelerate==0.29.3	# PyTorch 모델의 학습 속도 향상과 추론 최적화를 위한 라이브러리
!pip install peft==0.10.0	#대규모 언어 모델을 효율적으로 미세 조정할 수 있는 PEFT 기술 구현
!pip install bitsandbytes==0.43.1	# 모델 매개변수 양자화로 메모리 사용량 절감
!pip install transformers==4.40.1
!pip install trl==0.8.6	# Transformer Reinforcement Learning의 약자로 강화 학습 기반 언어 모델 미세 조정 기술 구현
!pip install datasets==2.19.0

In [None]:
import os
import torch
from datasets import load_dataset

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig
from trl import SFTTrainer

import huggingface_hub
huggingface_hub.login("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")

In [None]:
# Hugging Face Basic Model 한국어 모델
base_model = "beomi/Llama-3-Open-Ko-8B"	# beomi님의 Llama3 한국어 파인튜닝 모델

# 보험문서 pdf json파일로 변환한거
YTcode_dataset = "/content/dataset"

# 새로운 모델 이름
new_model = "finetuning_model"

In [None]:
dataset = load_dataset(YTcode_dataset, split="train")

# dataset = dataset.select(range(200))

# 데이터 확인
print(len(dataset))
print(dataset[0])

In [None]:
# 현재 사용중인 GPU의 CUDA 연산 능력을 확인한다.
# 8이상이면 고성능 GPU 로 판단한다.
if torch.cuda.get_device_capability()[0] >= 8:
    !pip install -qqq flash-attn
    # 고성능 Attention인 flash attention 2 을 사용
    attn_implementation = "flash_attention_2"
    # 데이터 타입을 bfloat16으로 설정해준다.
    # bfloat16은 메모리 사용량을 줄이면서도 계산의 정확성을 유지할 수 있는 데이터 타입이다.
    torch_dtype = torch.bfloat16
else:
    attn_implementation = "eager"
    torch_dtype = torch.float16

In [None]:
# QLoRA config
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,	# 모델 가중치를 4비트로 로드
    bnb_4bit_quant_type="nf4",	# 양자화 유형으로는 “nf4”를 사용한다.
    bnb_4bit_compute_dtype=torch_dtype,	# 양자화를 위한 컴퓨팅 타입은 직전에 정의 했던 torch_dtype으로 지정 해준다.
    bnb_4bit_use_double_quant=False,	# 이중 양자화는 사용하지 않는다.
)

In [None]:
# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    quantization_config=quant_config,
    device_map={"": 0}	# 0번째 gpu 에 할당
)
# 모델의 캐시 기능을 비활성화 한다. 캐시는 이전 계산 결과를 저장하기 때문에 추론 속도를 높이는 역할을 한다. 그러나 메모리 사용량을 증가시킬 수 있기 때문에, 메모리부족 문제가 발생하지 않도록 하기 위해 비활성화 해주는 것이 좋다.
model.config.use_cache = False
# 모델의 텐서 병렬화(Tensor Parallelism) 설정을 1로 지정한다. 설정값 1은 단일 GPU에서 실행되도록 설정 해주는 의미이다.
model.config.pretraining_tp = 1

In [None]:
# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(
              base_model,
              trust_remote_code=True)
# 시퀀스 길이를 맞추기 위해 문장 끝에 eos_token를 사용
tokenizer.pad_token = tokenizer.eos_token
# 패딩 토큰을 시퀀스의 어느 쪽에 추가할지 설정
tokenizer.padding_side = "right"

In [None]:
peft_params = LoraConfig(
    lora_alpha=16,	# LoRA의 스케일링 계수를 설정 한다. 값이 클 수록 학습 속도가 빨라질 수 있지만, 너무 크게 되면 모델이 불안정해질 수 있다.
    lora_dropout=0.1,	#  과적합을 방지하기 위한 드롭아웃 확률을 설정한다. 여기서는 10%(0.1)의 드롭아웃 확률을 사용하여 모델의 일반화 성능을 향상시킨다.
    r=64,	# LoRA 어댑터 행렬의 Rank를 나타낸다. 랭크가 높을수록 모델의 표현 능력은 향상되지만, 메모리 사용량과 학습 시간이 증가한다. 일반적으로 4, 8, 16, 32, 64 등의 값을 사용한다.
    bias="none",	# LoRA 어댑터 행렬에 대한 편향을 추가할지 여부를 결정한다. “none”옵션을 사용하여 편향을 사용하지 않는다.
    task_type="CAUSAL_LM",	# LoRA가 적용될 작업 유형을 설정한다. CAUSAL_LM은 Causal Language Modeling 작업을 의미한다. 이는 특히 GPT 같은 텍스트 생성 모델에 주로 사용된다.
)

In [None]:
import torch

# CUDA 메모리 캐시 비우기
torch.cuda.empty_cache()

training_params = TrainingArguments(
    output_dir="/results",
    num_train_epochs=1,  # epoch는 1로 설정
    max_steps=100,  # max_steps을 더 줄이기
    per_device_train_batch_size=1,
    gradient_accumulation_steps=2,  # 누적 배치 크기 줄이기
    optim="paged_adamw_8bit",  # 메모리 효율적인 optimizer 사용
    warmup_steps=0,  # warmup steps를 0으로 설정
    learning_rate=2e-4,
    fp16=True,  # mixed precision training
    logging_steps=100,
    push_to_hub=False,
    report_to='none',
)

In [None]:
# 토큰화 함수
def tokenize_function(examples):
    # 'pages' 필드가 리스트로 되어있기 때문에 이를 문자열로 합침
    combined_pages = " ".join(examples['pages'])  # 리스트를 문자열로 결합
    return tokenizer(combined_pages, padding="max_length", truncation=True, max_length=256)

# 데이터셋 토큰화
tokenized_dataset = dataset.map(tokenize_function)

# 파인튜닝용 Trainer 설정
trainer = SFTTrainer(
    model=model,                   # 미리 로드된 모델을 여기에 넣어야 함
    train_dataset=tokenized_dataset,  # 토큰화된 데이터셋 사용
    peft_config=peft_params,
    dataset_text_field="pages",        # 'pages' 필드를 학습에 사용
    max_seq_length=256,              # 원하는 최대 시퀀스 길이
    tokenizer=tokenizer,
    args=training_params,
    packing=False,
)

In [None]:
trainer.train()

In [None]:
trainer.save_model(new_model)

In [None]:
# 프롬프트 설정
prompt = "댕댕이 보험에 대한 상세 정보를 알려주세요"

# pipeline 설정 (모델과 토크나이저를 미리 정의)
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer)

# 텍스트 생성
result = pipe(
    f"<s>[INST] {prompt} [/INST]",
    max_length=200,              # 생성되는 텍스트의 최대 길이 설정
    do_sample=True,              # 샘플링 방식 사용 (무작위성 도입)
    temperature=0.7,             # 온도 설정 (값이 낮을수록 보수적인 결과)
    top_k=50,                    # 상위 50개의 후보 토큰만 고려
    top_p=0.9,                   # 상위 확률의 합이 0.9인 후보 토큰들만 고려 (nucleus sampling)
    repetition_penalty=1.2        # 반복 억제 설정 (반복되는 토큰에 페널티)
)

# 결과 출력
print(result[0]['generated_text'])
