# 사용자 선호에 맞는 시 창작 모델

### 0. 환경 설정

In [1]:
!python -m pip install --upgrade pip



In [2]:
!pip install typing-extensions pydantic openai



In [None]:
# !pip install typing_extensions



In [4]:
!pip install datasets transformers peft trl bitsandbytes

Collecting trl
  Downloading trl-0.25.1-py3-none-any.whl.metadata (11 kB)
Downloading trl-0.25.1-py3-none-any.whl (465 kB)
Installing collected packages: trl
Successfully installed trl-0.25.1


In [3]:
import os
import torch

os.environ["WANDB_DISABLED"] = "true"                     # 모델 학습 추적 비활성화
os.environ["TOKENIZERS_PARALLELISM"] = "false"            # 토크나이저 병렬 처리 비활성화

device = "cuda" if torch.cuda.is_available() else "cpu"   # GPU 설정 변수 : 사용 가능한 장치 선택


### 1. 지도학습 (기반모델 Q-LoRA 파인튜닝)

(1) 학습용 데이터 준비

In [4]:
import json
from datasets import Dataset

# 데이터 로드 및 데이터셋 변환
dataset_path = './korean_poetry_dataset.json'

with open("./korean_poetry_dataset.json", "r", encoding="utf-8") as f:
    poem_data = json.load(f)

processed_data = [{'topic': item['text']['topic'], 'poem': item['text']['poem']} for item in poem_data]

train_dataset = Dataset.from_list(processed_data)

In [5]:
from transformers import AutoTokenizer

model_name = "Bllossom/llama-3.2-Korean-Bllossom-3B"

tokenizer = AutoTokenizer.from_pretrained(model_name)

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

In [None]:
# 데이터 전처라 함수 (토큰화 + Labels 추가)
def preprocessed_text(sample):
    input_texts = [f"topic: {t}\npoem: {p}" for t, p in zip(sample['topic'], sample['poem'])]

    model_inputs = tokenizer(
        input_texts,
        padding='max_length',
        max_length=512,
        truncation=True
    )
    model_inputs['labels'] = model_inputs['input_ids'].copy()
    pad_token_id = tokenizer.pad_token_id
    model_inputs['labels'] = [
        [(l if l != pad_token_id else -100) for l in label] for label in model_inputs['labels']
    ]

    return model_inputs

In [None]:
# 데이터 셋 변환
train_dataset = train_dataset.map(
    preprocessed_text,
    batched=True,
    remove_columns=["topic", "poem"]
)

# 데이터 셋 확인
train_dataset[0]

Map:   0%|          | 0/2600 [00:00<?, ? examples/s]

{'input_ids': [128000,
  16816,
  25,
  108466,
  49531,
  198,
  5481,
  336,
  25,
  108466,
  49531,
  34804,
  62398,
  119873,
  21028,
  103213,
  107335,
  11,
  2355,
  102837,
  49085,
  81673,
  110578,
  13094,
  125693,
  107054,
  123637,
  11,
  2355,
  41381,
  104374,
  109580,
  74177,
  54542,
  53400,
  119873,
  21028,
  101003,
  29102,
  107335,
  11,
  31879,
  123849,
  22035,
  21121,
  105164,
  66965,
  21028,
  122352,
  41953,
  105220,
  19954,
  11,
  2355,
  101314,
  29102,
  106646,
  105250,
  103843,
  17835,
  101266,
  116129,
  124742,
  13094,
  2355,
  54059,
  102436,
  49085,
  124301,
  86503,
  126690,
  112795,
  13,
  31879,
  26799,
  11,
  113857,
  16969,
  23955,
  121385,
  119873,
  18359,
  75086,
  41381,
  35495,
  11,
  2355,
  101532,
  20565,
  94772,
  39250,
  108922,
  18359,
  67236,
  119443,
  101203,
  11,
  2355,
  110955,
  109723,
  116548,
  105642,
  23955,
  21028,
  87134,
  43139,
  31879,
  108307,
  114149,
  1

In [8]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer, model=None)

### 2. 파인튜닝 학습 준비

- 양자화 설정 > 모델 로드
- 학습 모드로 전환
- LoRA 학습 설정
- TrainingArguments 설정

In [9]:
from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

In [10]:
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto"
)

model.gradient_checkpointing_enable()
model.config.use_cache = False
model.config.attn_implementation = 'flash_attention_2'

Exception in thread Thread-46 (_readerthread):
Traceback (most recent call last):
  File "c:\Users\Playdata\anaconda3\envs\llm_env\Lib\threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "c:\Users\Playdata\anaconda3\envs\llm_env\Lib\threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "c:\Users\Playdata\anaconda3\envs\llm_env\Lib\subprocess.py", line 1599, in _readerthread
    buffer.append(fh.read())
                  ^^^^^^^^^
  File "<frozen codecs>", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 6: invalid start byte


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [11]:
from peft import LoraConfig

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

In [12]:
# 양자화모델을 훈련하기 위한 준비
from peft import get_peft_model

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# 모델 학습 모드 설정
model.train()

trainable params: 4,587,520 || all params: 3,217,337,344 || trainable%: 0.1426


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 3072)
        (layers): ModuleList(
          (0-27): 28 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=3072, out_features=3072, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3072, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=3072, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): Lin

In [13]:
# TrainingArguments 설정
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./q_lora_poem",
    save_strategy="epoch",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_dir="./logs",
    logging_steps=100,
    save_total_limit=2,
    optim="adamw_bnb_8bit",
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator
)

  trainer = Trainer(


(3) 학습 진행

In [None]:
trainer.train()

### 2. 학습된 모델로 시(응답) 생성

(1) 모델 로드

In [14]:
from transformers import pipeline

qlora_checkpoint = './q_lora_poem/checkpoint-975'

model = AutoModelForCausalLM.from_pretrained(qlora_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_name)

generate_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    pad_token_id=tokenizer.eos_token_id,
    batch_size=2
)


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cpu


In [15]:
topics = ["바람", "비", "노을", "달빛", "안개", "사랑", "이별", "운명", "기다림", "후회", "추억", "시간", "청춘", "변화", "마지막 순간", "군중", "밤거리", "버스", "인생", "빌딩", "사람들", "거짓말", "욕망", "돈", "권력", "비밀", "죽음", "희망", "동물", "자연", "도시", "바다", "산", "하늘", "별", "꽃", "나무", "강", "바위", "흙", "눈", "빗방울", "눈물", "웃음"]

eval_file = 'rlhf_eval_data.json'

try:
    with open(eval_file, 'r', encoding='utf-8') as f:
        eval_dataset = json.load(f)
except FileNotFoundError:
    eval_dataset = []

In [16]:
num_batches = 5
batch_size = 20
total_samples = num_batches * batch_size
generated_samples = len(eval_dataset)

(2) 시 생성

In [18]:
import time
import random
from tqdm import tqdm

def generate_poem_batch():
    batch_data = []

    with tqdm(total=batch_size, desc='<시 생성 중>', leave=False) as t:
        for _ in range(batch_size):
            topic = random.choice(topics)
            input_text = f"topic: {topic}\npoem:"

            start_time = time.time()
            poem = generate_pipeline(
                input_text,
                max_new_tokens=100,
                top_p=0.9,
                # top_k=50,
                temperature=0.8
            )[0]['generated_text']
            end_time = time.time()

            gen_time = end_time - start_time

            batch_data.append({
                'topic': topic,
                'poem': poem,
                'selected': None
            })

            t.update(1)
            
            global generated_samples
            generated_samples += 1
            complete_rate = (generated_samples / total_samples) * 100
            remaining_time = ((total_samples - generated_samples) * gen_time) / 60

            print(f"\n{generated_samples}/{total_samples}개 완료 | ({complete_rate:.2f}%) | 예상 완료 시간: {remaining_time:.2f}분")
            print('-' * 100)

    return batch_data

In [21]:
for _ in tqdm(range(num_batches), desc='<전체 진행 상황>', position=0, leave=False):
    eval_dataset.extend(generate_poem_batch())

    with open(eval_file, 'w', encoding='utf-8') as f:
        json.dump(eval_dataset, f, ensure_ascii=False, indent=4)

<전체 진행 상황>:   0%|          | 0/5 [00:00<?, ?it/s]


1/100개 완료 | (1.00%) | 예상 완료 시간: 175.03분
----------------------------------------------------------------------------------------------------





2/100개 완료 | (2.00%) | 예상 완료 시간: 269.58분
----------------------------------------------------------------------------------------------------





3/100개 완료 | (3.00%) | 예상 완료 시간: 270.02분
----------------------------------------------------------------------------------------------------





4/100개 완료 | (4.00%) | 예상 완료 시간: 267.78분
----------------------------------------------------------------------------------------------------





5/100개 완료 | (5.00%) | 예상 완료 시간: 261.65분
----------------------------------------------------------------------------------------------------





6/100개 완료 | (6.00%) | 예상 완료 시간: 263.05분
----------------------------------------------------------------------------------------------------





7/100개 완료 | (7.00%) | 예상 완료 시간: 240.81분
----------------------------------------------------------------------------------------------------





8/100개 완료 | (8.00%) | 예상 완료 시간: 225.18분
----------------------------------------------------------------------------------------------------





9/100개 완료 | (9.00%) | 예상 완료 시간: 251.51분
----------------------------------------------------------------------------------------------------





10/100개 완료 | (10.00%) | 예상 완료 시간: 251.69분
----------------------------------------------------------------------------------------------------





11/100개 완료 | (11.00%) | 예상 완료 시간: 249.42분
----------------------------------------------------------------------------------------------------





12/100개 완료 | (12.00%) | 예상 완료 시간: 245.39분
----------------------------------------------------------------------------------------------------





13/100개 완료 | (13.00%) | 예상 완료 시간: 239.62분
----------------------------------------------------------------------------------------------------





14/100개 완료 | (14.00%) | 예상 완료 시간: 237.85분
----------------------------------------------------------------------------------------------------





15/100개 완료 | (15.00%) | 예상 완료 시간: 239.64분
----------------------------------------------------------------------------------------------------





16/100개 완료 | (16.00%) | 예상 완료 시간: 231.95분
----------------------------------------------------------------------------------------------------





17/100개 완료 | (17.00%) | 예상 완료 시간: 232.46분
----------------------------------------------------------------------------------------------------





18/100개 완료 | (18.00%) | 예상 완료 시간: 200.66분
----------------------------------------------------------------------------------------------------





19/100개 완료 | (19.00%) | 예상 완료 시간: 170.73분
----------------------------------------------------------------------------------------------------


<전체 진행 상황>:  20%|██        | 1/5 [52:30<3:30:03, 3150.76s/it]


20/100개 완료 | (20.00%) | 예상 완료 시간: 177.57분
----------------------------------------------------------------------------------------------------





21/100개 완료 | (21.00%) | 예상 완료 시간: 201.96분
----------------------------------------------------------------------------------------------------





22/100개 완료 | (22.00%) | 예상 완료 시간: 210.98분
----------------------------------------------------------------------------------------------------





23/100개 완료 | (23.00%) | 예상 완료 시간: 201.44분
----------------------------------------------------------------------------------------------------





24/100개 완료 | (24.00%) | 예상 완료 시간: 197.97분
----------------------------------------------------------------------------------------------------





25/100개 완료 | (25.00%) | 예상 완료 시간: 187.79분
----------------------------------------------------------------------------------------------------





26/100개 완료 | (26.00%) | 예상 완료 시간: 194.77분
----------------------------------------------------------------------------------------------------





27/100개 완료 | (27.00%) | 예상 완료 시간: 181.72분
----------------------------------------------------------------------------------------------------





28/100개 완료 | (28.00%) | 예상 완료 시간: 187.79분
----------------------------------------------------------------------------------------------------





29/100개 완료 | (29.00%) | 예상 완료 시간: 179.47분
----------------------------------------------------------------------------------------------------





30/100개 완료 | (30.00%) | 예상 완료 시간: 122.05분
----------------------------------------------------------------------------------------------------





31/100개 완료 | (31.00%) | 예상 완료 시간: 89.68분
----------------------------------------------------------------------------------------------------





32/100개 완료 | (32.00%) | 예상 완료 시간: 111.27분
----------------------------------------------------------------------------------------------------





33/100개 완료 | (33.00%) | 예상 완료 시간: 110.92분
----------------------------------------------------------------------------------------------------





34/100개 완료 | (34.00%) | 예상 완료 시간: 97.09분
----------------------------------------------------------------------------------------------------





35/100개 완료 | (35.00%) | 예상 완료 시간: 144.89분
----------------------------------------------------------------------------------------------------





36/100개 완료 | (36.00%) | 예상 완료 시간: 102.34분
----------------------------------------------------------------------------------------------------





37/100개 완료 | (37.00%) | 예상 완료 시간: 117.14분
----------------------------------------------------------------------------------------------------





38/100개 완료 | (38.00%) | 예상 완료 시간: 86.66분
----------------------------------------------------------------------------------------------------





39/100개 완료 | (39.00%) | 예상 완료 시간: 75.55분
----------------------------------------------------------------------------------------------------


<전체 진행 상황>:  40%|████      | 2/5 [1:33:27<2:17:07, 2742.40s/it]


40/100개 완료 | (40.00%) | 예상 완료 시간: 94.03분
----------------------------------------------------------------------------------------------------





41/100개 완료 | (41.00%) | 예상 완료 시간: 93.01분
----------------------------------------------------------------------------------------------------





42/100개 완료 | (42.00%) | 예상 완료 시간: 80.50분
----------------------------------------------------------------------------------------------------





43/100개 완료 | (43.00%) | 예상 완료 시간: 83.54분
----------------------------------------------------------------------------------------------------





44/100개 완료 | (44.00%) | 예상 완료 시간: 71.55분
----------------------------------------------------------------------------------------------------





45/100개 완료 | (45.00%) | 예상 완료 시간: 80.89분
----------------------------------------------------------------------------------------------------





46/100개 완료 | (46.00%) | 예상 완료 시간: 70.32분
----------------------------------------------------------------------------------------------------





47/100개 완료 | (47.00%) | 예상 완료 시간: 78.21분
----------------------------------------------------------------------------------------------------





48/100개 완료 | (48.00%) | 예상 완료 시간: 79.63분
----------------------------------------------------------------------------------------------------





49/100개 완료 | (49.00%) | 예상 완료 시간: 74.04분
----------------------------------------------------------------------------------------------------





50/100개 완료 | (50.00%) | 예상 완료 시간: 73.55분
----------------------------------------------------------------------------------------------------





51/100개 완료 | (51.00%) | 예상 완료 시간: 60.85분
----------------------------------------------------------------------------------------------------





52/100개 완료 | (52.00%) | 예상 완료 시간: 76.12분
----------------------------------------------------------------------------------------------------





53/100개 완료 | (53.00%) | 예상 완료 시간: 71.85분
----------------------------------------------------------------------------------------------------





54/100개 완료 | (54.00%) | 예상 완료 시간: 72.66분
----------------------------------------------------------------------------------------------------





55/100개 완료 | (55.00%) | 예상 완료 시간: 71.99분
----------------------------------------------------------------------------------------------------





56/100개 완료 | (56.00%) | 예상 완료 시간: 82.17분
----------------------------------------------------------------------------------------------------





57/100개 완료 | (57.00%) | 예상 완료 시간: 113.65분
----------------------------------------------------------------------------------------------------





58/100개 완료 | (58.00%) | 예상 완료 시간: 84.61분
----------------------------------------------------------------------------------------------------





59/100개 완료 | (59.00%) | 예상 완료 시간: 52.83분
----------------------------------------------------------------------------------------------------


<전체 진행 상황>:  60%|██████    | 3/5 [2:04:21<1:17:53, 2336.72s/it]


60/100개 완료 | (60.00%) | 예상 완료 시간: 45.53분
----------------------------------------------------------------------------------------------------





61/100개 완료 | (61.00%) | 예상 완료 시간: 61.73분
----------------------------------------------------------------------------------------------------





62/100개 완료 | (62.00%) | 예상 완료 시간: 50.18분
----------------------------------------------------------------------------------------------------





63/100개 완료 | (63.00%) | 예상 완료 시간: 61.48분
----------------------------------------------------------------------------------------------------





64/100개 완료 | (64.00%) | 예상 완료 시간: 60.14분
----------------------------------------------------------------------------------------------------





65/100개 완료 | (65.00%) | 예상 완료 시간: 57.94분
----------------------------------------------------------------------------------------------------





66/100개 완료 | (66.00%) | 예상 완료 시간: 54.34분
----------------------------------------------------------------------------------------------------





67/100개 완료 | (67.00%) | 예상 완료 시간: 87.16분
----------------------------------------------------------------------------------------------------





68/100개 완료 | (68.00%) | 예상 완료 시간: 75.10분
----------------------------------------------------------------------------------------------------





69/100개 완료 | (69.00%) | 예상 완료 시간: 77.73분
----------------------------------------------------------------------------------------------------





70/100개 완료 | (70.00%) | 예상 완료 시간: 49.83분
----------------------------------------------------------------------------------------------------





71/100개 완료 | (71.00%) | 예상 완료 시간: 66.26분
----------------------------------------------------------------------------------------------------





72/100개 완료 | (72.00%) | 예상 완료 시간: 54.53분
----------------------------------------------------------------------------------------------------





73/100개 완료 | (73.00%) | 예상 완료 시간: 42.58분
----------------------------------------------------------------------------------------------------





74/100개 완료 | (74.00%) | 예상 완료 시간: 40.19분
----------------------------------------------------------------------------------------------------





75/100개 완료 | (75.00%) | 예상 완료 시간: 42.57분
----------------------------------------------------------------------------------------------------





76/100개 완료 | (76.00%) | 예상 완료 시간: 64.00분
----------------------------------------------------------------------------------------------------





77/100개 완료 | (77.00%) | 예상 완료 시간: 48.49분
----------------------------------------------------------------------------------------------------





78/100개 완료 | (78.00%) | 예상 완료 시간: 59.56분
----------------------------------------------------------------------------------------------------





79/100개 완료 | (79.00%) | 예상 완료 시간: 47.08분
----------------------------------------------------------------------------------------------------


<전체 진행 상황>:  80%|████████  | 4/5 [2:43:24<38:59, 2339.19s/it]  


80/100개 완료 | (80.00%) | 예상 완료 시간: 32.38분
----------------------------------------------------------------------------------------------------





81/100개 완료 | (81.00%) | 예상 완료 시간: 52.13분
----------------------------------------------------------------------------------------------------





82/100개 완료 | (82.00%) | 예상 완료 시간: 43.29분
----------------------------------------------------------------------------------------------------





83/100개 완료 | (83.00%) | 예상 완료 시간: 43.84분
----------------------------------------------------------------------------------------------------





84/100개 완료 | (84.00%) | 예상 완료 시간: 35.39분
----------------------------------------------------------------------------------------------------





85/100개 완료 | (85.00%) | 예상 완료 시간: 21.08분
----------------------------------------------------------------------------------------------------





86/100개 완료 | (86.00%) | 예상 완료 시간: 16.38분
----------------------------------------------------------------------------------------------------





87/100개 완료 | (87.00%) | 예상 완료 시간: 17.94분
----------------------------------------------------------------------------------------------------





88/100개 완료 | (88.00%) | 예상 완료 시간: 18.17분
----------------------------------------------------------------------------------------------------





89/100개 완료 | (89.00%) | 예상 완료 시간: 14.52분
----------------------------------------------------------------------------------------------------





90/100개 완료 | (90.00%) | 예상 완료 시간: 11.25분
----------------------------------------------------------------------------------------------------





91/100개 완료 | (91.00%) | 예상 완료 시간: 14.16분
----------------------------------------------------------------------------------------------------





92/100개 완료 | (92.00%) | 예상 완료 시간: 12.76분
----------------------------------------------------------------------------------------------------





93/100개 완료 | (93.00%) | 예상 완료 시간: 13.35분
----------------------------------------------------------------------------------------------------





94/100개 완료 | (94.00%) | 예상 완료 시간: 12.83분
----------------------------------------------------------------------------------------------------





95/100개 완료 | (95.00%) | 예상 완료 시간: 8.30분
----------------------------------------------------------------------------------------------------





96/100개 완료 | (96.00%) | 예상 완료 시간: 6.38분
----------------------------------------------------------------------------------------------------





97/100개 완료 | (97.00%) | 예상 완료 시간: 4.97분
----------------------------------------------------------------------------------------------------





98/100개 완료 | (98.00%) | 예상 완료 시간: 5.33분
----------------------------------------------------------------------------------------------------





99/100개 완료 | (99.00%) | 예상 완료 시간: 1.92분
----------------------------------------------------------------------------------------------------


                                                                   


100/100개 완료 | (100.00%) | 예상 완료 시간: 0.00분
----------------------------------------------------------------------------------------------------




(3) 피드백

- 생성된 시에 대해 selected = true 로 수정해 피드백 반영

### 3. Reward Model 학습

(1) 데이터 로드 및 처리

In [26]:
with open(eval_file, 'r', encoding='utf-8') as f:
    evaluation_data = json.load(f)

    reward_data = [
        {'text_a': f"주제: {item['topic']}", 'text_b': item['poem']} for item in evaluation_data if item['selected']
    ]

    reward_dataset = Dataset.from_list(reward_data)

In [27]:
# 데이터 전처리 함수 추가 (batch 처리 가능)
def preprocessed_reward_text(sample):
    model_inputs = tokenizer(
        sample['text_a'],
        text_pair=sample['text_b'],
        padding='max_length',
        max_length=512,
        truncation=True
    )
    model_inputs['labels'] = model_inputs['input_ids'].copy()
    pad_token_id = tokenizer.pad_token_id
    model_inputs['labels'] = [
        [(l if l != pad_token_id else -100) for l in label] for label in model_inputs['labels']
    ]

    return model_inputs

In [28]:
tokenizer.pad_token = tokenizer.eos_token

reward_dataset = reward_dataset.map(
    preprocessed_reward_text,
    batched=True,
    remove_columns=['text_a', 'text_b']
)

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

(2)

- 양자화 설정 > 모델 로드
- LoRA 학습 설정
- TrainingArguments 설정

In [29]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    device_map="auto"
)

In [30]:
from peft import get_peft_model, prepare_model_for_kbit_training

reward_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
)

reward_model = prepare_model_for_kbit_training(reward_model)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

In [None]:
reward_model = get_peft_model(reward_model, lora_config)

In [None]:
reward_training_args = TrainingArguments(
    output_dir="./reward_model",
    save_strategy="epoch",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_dir="./logs",
    logging_steps=100,
    save_total_limit=2,
    remove_unused_columns=False,
    fp16=True
)

reward_trainer = Trainer(
    model=reward_model,
    args=reward_training_args,
    train_dataset=reward_dataset,
    tokenizer=tokenizer
)

### 4. RLHF (ORPO)

(1) 모델 로드

In [None]:
model = AutoModelForCausalLM.from_pretrained(qlora_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_name)

model.train()
model.cuda()

for param in model.parameters():
    param.requires_grad = True

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token


In [None]:
!export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

(2) ORPO 데이터셋 준비

In [None]:
with open(eval_file, "r", encoding="utf-8") as f:
    evaluation_data = json.load(f)

orpo_data = []

for item in evaluation_data:
    if item['selected']:
        prompt_text = f'주제: {item["topic"]}\n이 주제에 맞는 시를 작성해 주세요.'
        chosen_text = item['poem']
        rejected_text = ""

        tokenized_prompt = tokenizer(prompt_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")
        tokenized_chosen = tokenizer(chosen_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")
        tokenized_rejected = tokenizer(rejected_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")

        orpo_data.append({
            "prompt": prompt_text,
            "chosen": chosen_text,
            "rejected": rejected_text,
            "prompt_input_ids": tokenized_prompt['input_ids'].squeeze(0).cuda(),
            "prompt_attention_mask": tokenized_prompt['attention_mask'].squeeze(0).cuda(),
            "chosen_input_ids": tokenized_chosen['input_ids'].squeeze(0).cuda(),
            "chosen_attention_mask": tokenized_chosen['attention_mask'].squeeze(0).cuda(),
            "rejected_input_ids": tokenized_rejected['input_ids'].squeeze(0).cuda(),
            "rejected_attention_mask": tokenized_rejected['attention_mask'].squeeze(0).cuda(),
        })

        orpo_dataset = Dataset.from_list(orpo_data)

(3) ORPO 설정

In [None]:
from trl import ORPOConfig

orpo_config = ORPOConfig(
    output_dir='./orpo_output',
    per_device_train_batch_size=1,
    num_train_epochs=5,
    learning_rate=2e-6,
    gradient_accumulation_steps=4,
    logging_steps=50,
    fp16=False,
    bf16=True,
    remove_unused_columns=False,
    gradient_checkpointing=True,
    max_grad_norm=1.0,
    warmup_steps=100,
    save_steps=500,
    save_total_limit=2
)

In [None]:
from trl.trainer.utils import DPODataCollatorWithPadding

data_collator = DPODataCollatorWithPadding(
    pad_token_id=tokenizer.pad_token_id,
    label_pad_token_id=-100,
    is_encoder_decoder=False
)

In [None]:
from trl import ORPOTrainer

orpo_trainer = ORPOTrainer(
    model=model,
    args=orpo_config,
    train_dataset=orpo_dataset,
    data_collator=data_collator,
    processing_class=tokenizer
)

In [None]:
import random

def generate_poem_final(num_samples=5):
    topics = ["바람", "비", "노을", "달빛", "안개", "사랑", "이별", "운명", "기다림", "후회", "추억", "시간", "청춘", "변화", "마지막 순간", "군중", "밤거리", "버스", "인생", "빌딩", "사람들", "거짓말", "욕망", "돈", "권력", "비밀", "죽음", "희망", "동물", "자연", "도시", "바다", "산", "하늘", "별", "꽃", "나무", "강", "바위", "흙", "눈", "빗방울", "눈물", "웃음"]
    result = []

    for _ in range(num_samples):
        topic = random.choice(topics)
        input_text = f'주제: {topic}\n시:'
        poem = generate_pipeline(
                                    input_text,
                                    max_new_tokens=100,
                                    temperature=0.8,
                                    top_p=0.9
                                )[0]['generated_text']
        result.append({"topic": topic, "poem": poem})

    return result

In [None]:
generated_poem = generate_poem_final(num_samples=10)
generated_poem