# 사용자 선호에 맞는 시 창작 모델

### 0. 환경 설정

In [1]:
!python -m pip install --upgrade pip

Collecting pip
  Downloading pip-25.2-py3-none-any.whl.metadata (4.7 kB)
Downloading pip-25.2-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m17.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 25.0.1
    Uninstalling pip-25.0.1:
      Successfully uninstalled pip-25.0.1
Successfully installed pip-25.2
[0m

In [2]:
!pip install typing_extensions pydantic openai

Collecting pydantic
  Downloading pydantic-2.11.7-py3-none-any.whl.metadata (67 kB)
Collecting openai
  Downloading openai-1.107.1-py3-none-any.whl.metadata (29 kB)
Collecting annotated-types>=0.6.0 (from pydantic)
  Downloading annotated_types-0.7.0-py3-none-any.whl.metadata (15 kB)
Collecting pydantic-core==2.33.2 (from pydantic)
  Downloading pydantic_core-2.33.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.8 kB)
Collecting typing-inspection>=0.4.0 (from pydantic)
  Downloading typing_inspection-0.4.1-py3-none-any.whl.metadata (2.6 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.10.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.2 kB)
Collecting tqdm>4 (from openai)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading pydantic-2.11.7-py3-none-any.whl (444 kB)
Downloading pydantic_core-2.33.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━

In [3]:
!pip install datasets transformers peft trl bitsandbytes

Collecting datasets
  Downloading datasets-4.0.0-py3-none-any.whl.metadata (19 kB)
Collecting transformers
  Downloading transformers-4.56.1-py3-none-any.whl.metadata (42 kB)
Collecting peft
  Downloading peft-0.17.1-py3-none-any.whl.metadata (14 kB)
Collecting trl
  Downloading trl-0.23.0-py3-none-any.whl.metadata (11 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.47.0-py3-none-manylinux_2_24_x86_64.whl.metadata (11 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-21.0.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting pandas (from datasets)
  Downloading pandas-2.3.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (91 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Download

In [None]:
import os
import torch

os.environ["WANDB_DISABLED"] = "true"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

device = "cuda" if torch.cuda.is_available() else "cpu"

### 1. 지도학습 (기반모델 Q-LoRA 파인튜닝)

##### (1) 학습용 데이터 준비

In [5]:
import json
from datasets import Dataset

# 데이터 로드 및 Dataset 변환
dataset_path = "./korean_poetry_dataset.json"

with open(dataset_path, "r", encoding="utf-8") as f:
    poem_data = json.load(f)

processed_data = [{"topic": item["text"]["topic"], "poem":item["text"]["poem"]} 
                  for item in poem_data]

train_dataset = Dataset.from_list(processed_data)

In [None]:
from transformers import AutoTokenizer

model_name = "Bllossom/llama-3.2-Korean-Bllossom-3B"
# model_name = 'NCSOFT/Llama-VARCO-8B-Instruct'

tokenizer = AutoTokenizer.from_pretrained(model_name)

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [None]:
def preprocess_text(sample):
    input_texts = [f"주제: {t}\n시: {p}" for t, p in zip(sample["topic"], sample["poem"])]
    model_inputs = tokenizer(
                        input_texts, 
                        padding="max_length", 
                        max_length=512, 
                        truncation=True
                    )
    
    model_inputs['labels'] = model_inputs["input_ids"].copy()
    pad_token_id = tokenizer.pad_token_id
    model_inputs['labels'] = [
        [(l if l != pad_token_id else -100) for l in label] 
        for label in model_inputs['labels']
    ]
    
    return model_inputs

In [None]:
train_dataset = train_dataset.map(
    preprocess_text, 
    batched=True, 
    remove_columns=["topic", "poem"]
)

Map:   0%|          | 0/2600 [00:00<?, ? examples/s]

In [None]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer, model=None)

##### (2) 파인튜닝 학습 준비

- 양자화 설정 > 모델 로드
- 학습 모드로 전환
- LoRA 학습 설정
- TrainingArguments 설정

In [None]:
from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

In [None]:
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto"
)

model.gradient_checkpointing_enable()
model.config.use_cache = False
model.config.attn_implementation = "flash_attention_2"

config.json:   0%|          | 0.00/904 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.46G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/180 [00:00<?, ?B/s]

In [None]:
from peft import LoraConfig

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

In [None]:
from peft import prepare_model_for_kbit_training

model = prepare_model_for_kbit_training(model)

In [None]:
from peft import get_peft_model

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

model.train()

trainable params: 4,587,520 || all params: 3,217,337,344 || trainable%: 0.1426


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 3072)
        (layers): ModuleList(
          (0-27): 28 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=3072, out_features=3072, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3072, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=3072, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): Lin

In [None]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./q_lora_poem",
    save_strategy="epoch",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_dir='./logs',
    logging_steps=100,
    save_total_limit=2,
    optim="adamw_bnb_8bit",
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator
)

  trainer = Trainer(


##### (3) 학습 진행

In [16]:
trainer.train()

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 128009, 'pad_token_id': 128009}.
  return fn(*args, **kwargs)


Step,Training Loss
100,2.0588
200,1.2313
300,1.1359
400,1.0843
500,1.0114
600,0.9628
700,0.8807
800,0.8835
900,0.9253


  return fn(*args, **kwargs)
  return fn(*args, **kwargs)


TrainOutput(global_step=975, training_loss=1.107200442583133, metrics={'train_runtime': 2022.2313, 'train_samples_per_second': 3.857, 'train_steps_per_second': 0.482, 'total_flos': 6.76516218273792e+16, 'train_loss': 1.107200442583133, 'epoch': 3.0})

### 2. 학습된 모델로 시(응답) 생성

##### (1) 모델 로드

In [None]:
from transformers import pipeline

qlora_checkpoint = "./q_lora_poem/checkpoint-975"

model = AutoModelForCausalLM.from_pretrained(qlora_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_name)

generate_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    pad_token_id=tokenizer.eos_token_id,
    batch_size=2
)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:0


In [19]:
topics = ["바람", "비", "노을", "달빛", "안개", "사랑", "이별", "운명", "기다림", "후회", "추억", "시간", "청춘", "변화", "마지막 순간", "군중", "밤거리", "버스", "인생", "빌딩", "사람들", "거짓말", "욕망", "돈", "권력", "비밀", "죽음", "희망", "동물", "자연", "도시", "바다", "산", "하늘", "별", "꽃", "나무", "강", "바위", "흙", "눈", "빗방울", "눈물", "웃음"]

eval_file = 'rlhf_evaluation_data.json'

try:
    with open(eval_file, "r", encoding="utf-8") as f:
        eval_dataset = json.load(f)
except FileNotFoundError:
    eval_dataset = []

In [None]:
num_batches = 5
batch_size = 20
total_samples = num_batches * batch_size
generated_samples = len(eval_dataset)

##### (2) 시 생성

In [None]:
import time
import random
from tqdm import tqdm

def generate_poem_batch():
    batch_data = []

    with tqdm(total=batch_size, desc="<시 생성 중>", leave=False) as t:
        for _ in range(batch_size):
            topic = random.choice(topics)
            input_text = f"주제: {topic}\n시:"

            start_time = time.time()
            poem = generate_pipeline(
                                        input_text,
                                        max_new_tokens=100,
                                        temperature=0.8,
                                        top_p=0.9
                                    )[0]['generated_text']
            end_time = time.time()

            gen_time = end_time - start_time
            batch_data.append({
                "topic": topic,
                "poem": poem,
                "selected": None
            })

            t.update(1)

            global generated_samples
            generated_samples += 1
            complete_rate = (generated_samples / total_samples) * 100
            remaining_time = ((total_samples - generated_samples) * gen_time) / 60

            print(f'\n{generated_samples}/{total_samples}개 완료 ({complete_rate:.2f}%)')
            print(f'- 예상 남은 시간 : {remaining_time:.1f}분')
            print('-' * 50)

    return batch_data

In [None]:
for _ in tqdm(range(num_batches), desc="<전체 진행 상황>", position=0):
    eval_dataset.extend(generate_poem_batch())

    with open(eval_file, 'w', encoding='utf-8') as f:
        json.dump(eval_dataset, f, ensure_ascii=False, indent=4)

<전체 진행 상황>:   0%|          | 0/5 [00:00<?, ?it/s]
<시 생성 중>:   0%|          | 0/20 [00:00<?, ?it/s][A
<시 생성 중>:   5%|▌         | 1/20 [00:02<00:56,  3.00s/it][A


1/100개 완료 (1.00%)
- 예상 남은 시간 : 4.9분
--------------------------------------------------



<시 생성 중>:  10%|█         | 2/20 [00:05<00:50,  2.82s/it][A


2/100개 완료 (2.00%)
- 예상 남은 시간 : 4.4분
--------------------------------------------------



<시 생성 중>:  15%|█▌        | 3/20 [00:08<00:47,  2.77s/it][A


3/100개 완료 (3.00%)
- 예상 남은 시간 : 4.4분
--------------------------------------------------



<시 생성 중>:  20%|██        | 4/20 [00:11<00:43,  2.74s/it][A


4/100개 완료 (4.00%)
- 예상 남은 시간 : 4.3분
--------------------------------------------------



<시 생성 중>:  25%|██▌       | 5/20 [00:13<00:41,  2.73s/it][A


5/100개 완료 (5.00%)
- 예상 남은 시간 : 4.3분
--------------------------------------------------



<시 생성 중>:  30%|███       | 6/20 [00:16<00:38,  2.72s/it][A


6/100개 완료 (6.00%)
- 예상 남은 시간 : 4.2분
--------------------------------------------------



<시 생성 중>:  35%|███▌      | 7/20 [00:19<00:35,  2.75s/it][A


7/100개 완료 (7.00%)
- 예상 남은 시간 : 4.4분
--------------------------------------------------



<시 생성 중>:  40%|████      | 8/20 [00:22<00:33,  2.79s/it][A


8/100개 완료 (8.00%)
- 예상 남은 시간 : 4.4분
--------------------------------------------------



<시 생성 중>:  45%|████▌     | 9/20 [00:24<00:30,  2.76s/it][A


9/100개 완료 (9.00%)
- 예상 남은 시간 : 4.1분
--------------------------------------------------



<시 생성 중>:  50%|█████     | 10/20 [00:27<00:27,  2.77s/it][AYou seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset



10/100개 완료 (10.00%)
- 예상 남은 시간 : 4.2분
--------------------------------------------------



<시 생성 중>:  55%|█████▌    | 11/20 [00:30<00:25,  2.79s/it][A


11/100개 완료 (11.00%)
- 예상 남은 시간 : 4.2분
--------------------------------------------------



<시 생성 중>:  60%|██████    | 12/20 [00:33<00:22,  2.80s/it][A


12/100개 완료 (12.00%)
- 예상 남은 시간 : 4.1분
--------------------------------------------------



<시 생성 중>:  65%|██████▌   | 13/20 [00:36<00:19,  2.84s/it][A


13/100개 완료 (13.00%)
- 예상 남은 시간 : 4.2분
--------------------------------------------------



<시 생성 중>:  70%|███████   | 14/20 [00:39<00:17,  2.86s/it][A


14/100개 완료 (14.00%)
- 예상 남은 시간 : 4.2분
--------------------------------------------------



<시 생성 중>:  75%|███████▌  | 15/20 [00:41<00:14,  2.82s/it][A


15/100개 완료 (15.00%)
- 예상 남은 시간 : 3.9분
--------------------------------------------------



<시 생성 중>:  80%|████████  | 16/20 [00:44<00:11,  2.81s/it][A


16/100개 완료 (16.00%)
- 예상 남은 시간 : 3.9분
--------------------------------------------------



<시 생성 중>:  85%|████████▌ | 17/20 [00:47<00:08,  2.77s/it][A


17/100개 완료 (17.00%)
- 예상 남은 시간 : 3.7분
--------------------------------------------------



<시 생성 중>:  90%|█████████ | 18/20 [00:50<00:05,  2.74s/it][A


18/100개 완료 (18.00%)
- 예상 남은 시간 : 3.7분
--------------------------------------------------



<시 생성 중>:  95%|█████████▌| 19/20 [00:52<00:02,  2.73s/it][A


19/100개 완료 (19.00%)
- 예상 남은 시간 : 3.6분
--------------------------------------------------



<시 생성 중>: 100%|██████████| 20/20 [00:55<00:00,  2.73s/it][A
<전체 진행 상황>:  20%|██        | 1/5 [00:55<03:42, 55.51s/it]    [A


20/100개 완료 (20.00%)
- 예상 남은 시간 : 3.7분
--------------------------------------------------



<시 생성 중>:   0%|          | 0/20 [00:00<?, ?it/s][A
<시 생성 중>:   5%|▌         | 1/20 [00:02<00:50,  2.66s/it][A


21/100개 완료 (21.00%)
- 예상 남은 시간 : 3.5분
--------------------------------------------------



<시 생성 중>:  10%|█         | 2/20 [00:05<00:48,  2.67s/it][A


22/100개 완료 (22.00%)
- 예상 남은 시간 : 3.5분
--------------------------------------------------



<시 생성 중>:  15%|█▌        | 3/20 [00:08<00:45,  2.69s/it][A


23/100개 완료 (23.00%)
- 예상 남은 시간 : 3.5분
--------------------------------------------------



<시 생성 중>:  20%|██        | 4/20 [00:10<00:42,  2.68s/it][A


24/100개 완료 (24.00%)
- 예상 남은 시간 : 3.4분
--------------------------------------------------



<시 생성 중>:  25%|██▌       | 5/20 [00:13<00:40,  2.68s/it][A


25/100개 완료 (25.00%)
- 예상 남은 시간 : 3.3분
--------------------------------------------------



<시 생성 중>:  30%|███       | 6/20 [00:16<00:37,  2.70s/it][A


26/100개 완료 (26.00%)
- 예상 남은 시간 : 3.4분
--------------------------------------------------



<시 생성 중>:  35%|███▌      | 7/20 [00:18<00:35,  2.71s/it][A


27/100개 완료 (27.00%)
- 예상 남은 시간 : 3.3분
--------------------------------------------------



<시 생성 중>:  40%|████      | 8/20 [00:21<00:32,  2.71s/it][A


28/100개 완료 (28.00%)
- 예상 남은 시간 : 3.2분
--------------------------------------------------



<시 생성 중>:  45%|████▌     | 9/20 [00:23<00:28,  2.56s/it][A


29/100개 완료 (29.00%)
- 예상 남은 시간 : 2.7분
--------------------------------------------------



<시 생성 중>:  50%|█████     | 10/20 [00:26<00:26,  2.61s/it][A


30/100개 완료 (30.00%)
- 예상 남은 시간 : 3.2분
--------------------------------------------------



<시 생성 중>:  55%|█████▌    | 11/20 [00:29<00:23,  2.64s/it][A


31/100개 완료 (31.00%)
- 예상 남은 시간 : 3.1분
--------------------------------------------------



<시 생성 중>:  60%|██████    | 12/20 [00:32<00:21,  2.68s/it][A


32/100개 완료 (32.00%)
- 예상 남은 시간 : 3.1분
--------------------------------------------------



<시 생성 중>:  65%|██████▌   | 13/20 [00:34<00:18,  2.67s/it][A


33/100개 완료 (33.00%)
- 예상 남은 시간 : 3.0분
--------------------------------------------------



<시 생성 중>:  70%|███████   | 14/20 [00:37<00:16,  2.68s/it][A


34/100개 완료 (34.00%)
- 예상 남은 시간 : 3.0분
--------------------------------------------------



<시 생성 중>:  75%|███████▌  | 15/20 [00:40<00:13,  2.68s/it][A


35/100개 완료 (35.00%)
- 예상 남은 시간 : 2.9분
--------------------------------------------------



<시 생성 중>:  80%|████████  | 16/20 [00:42<00:10,  2.69s/it][A


36/100개 완료 (36.00%)
- 예상 남은 시간 : 2.9분
--------------------------------------------------



<시 생성 중>:  85%|████████▌ | 17/20 [00:45<00:08,  2.69s/it][A


37/100개 완료 (37.00%)
- 예상 남은 시간 : 2.8분
--------------------------------------------------



<시 생성 중>:  90%|█████████ | 18/20 [00:48<00:05,  2.72s/it][A


38/100개 완료 (38.00%)
- 예상 남은 시간 : 2.9분
--------------------------------------------------



<시 생성 중>:  95%|█████████▌| 19/20 [00:50<00:02,  2.71s/it][A


39/100개 완료 (39.00%)
- 예상 남은 시간 : 2.7분
--------------------------------------------------



<시 생성 중>: 100%|██████████| 20/20 [00:53<00:00,  2.70s/it][A
<전체 진행 상황>:  40%|████      | 2/5 [01:49<02:43, 54.40s/it]    [A


40/100개 완료 (40.00%)
- 예상 남은 시간 : 2.7분
--------------------------------------------------



<시 생성 중>:   0%|          | 0/20 [00:00<?, ?it/s][A
<시 생성 중>:   5%|▌         | 1/20 [00:02<00:51,  2.69s/it][A


41/100개 완료 (41.00%)
- 예상 남은 시간 : 2.6분
--------------------------------------------------



<시 생성 중>:  10%|█         | 2/20 [00:05<00:48,  2.69s/it][A


42/100개 완료 (42.00%)
- 예상 남은 시간 : 2.6분
--------------------------------------------------



<시 생성 중>:  15%|█▌        | 3/20 [00:08<00:45,  2.68s/it][A


43/100개 완료 (43.00%)
- 예상 남은 시간 : 2.5분
--------------------------------------------------



<시 생성 중>:  20%|██        | 4/20 [00:10<00:43,  2.72s/it][A


44/100개 완료 (44.00%)
- 예상 남은 시간 : 2.6분
--------------------------------------------------



<시 생성 중>:  25%|██▌       | 5/20 [00:13<00:40,  2.71s/it][A


45/100개 완료 (45.00%)
- 예상 남은 시간 : 2.5분
--------------------------------------------------



<시 생성 중>:  30%|███       | 6/20 [00:16<00:37,  2.70s/it][A


46/100개 완료 (46.00%)
- 예상 남은 시간 : 2.4분
--------------------------------------------------



<시 생성 중>:  35%|███▌      | 7/20 [00:18<00:35,  2.70s/it][A


47/100개 완료 (47.00%)
- 예상 남은 시간 : 2.4분
--------------------------------------------------



<시 생성 중>:  40%|████      | 8/20 [00:21<00:32,  2.70s/it][A


48/100개 완료 (48.00%)
- 예상 남은 시간 : 2.3분
--------------------------------------------------



<시 생성 중>:  45%|████▌     | 9/20 [00:24<00:29,  2.71s/it][A


49/100개 완료 (49.00%)
- 예상 남은 시간 : 2.3분
--------------------------------------------------



<시 생성 중>:  50%|█████     | 10/20 [00:27<00:27,  2.74s/it][A


50/100개 완료 (50.00%)
- 예상 남은 시간 : 2.3분
--------------------------------------------------



<시 생성 중>:  55%|█████▌    | 11/20 [00:29<00:24,  2.73s/it][A


51/100개 완료 (51.00%)
- 예상 남은 시간 : 2.2분
--------------------------------------------------



<시 생성 중>:  60%|██████    | 12/20 [00:32<00:21,  2.72s/it][A


52/100개 완료 (52.00%)
- 예상 남은 시간 : 2.2분
--------------------------------------------------



<시 생성 중>:  65%|██████▌   | 13/20 [00:35<00:19,  2.71s/it][A


53/100개 완료 (53.00%)
- 예상 남은 시간 : 2.1분
--------------------------------------------------



<시 생성 중>:  70%|███████   | 14/20 [00:36<00:13,  2.22s/it][A


54/100개 완료 (54.00%)
- 예상 남은 시간 : 0.8분
--------------------------------------------------



<시 생성 중>:  75%|███████▌  | 15/20 [00:39<00:11,  2.37s/it][A


55/100개 완료 (55.00%)
- 예상 남은 시간 : 2.0분
--------------------------------------------------



<시 생성 중>:  80%|████████  | 16/20 [00:41<00:09,  2.47s/it][A


56/100개 완료 (56.00%)
- 예상 남은 시간 : 2.0분
--------------------------------------------------



<시 생성 중>:  85%|████████▌ | 17/20 [00:44<00:07,  2.56s/it][A


57/100개 완료 (57.00%)
- 예상 남은 시간 : 2.0분
--------------------------------------------------



<시 생성 중>:  90%|█████████ | 18/20 [00:47<00:05,  2.59s/it][A


58/100개 완료 (58.00%)
- 예상 남은 시간 : 1.9분
--------------------------------------------------



<시 생성 중>:  95%|█████████▌| 19/20 [00:49<00:02,  2.63s/it][A


59/100개 완료 (59.00%)
- 예상 남은 시간 : 1.9분
--------------------------------------------------



<시 생성 중>: 100%|██████████| 20/20 [00:52<00:00,  2.65s/it][A
<전체 진행 상황>:  60%|██████    | 3/5 [02:41<01:47, 53.56s/it]    [A


60/100개 완료 (60.00%)
- 예상 남은 시간 : 1.8분
--------------------------------------------------



<시 생성 중>:   0%|          | 0/20 [00:00<?, ?it/s][A
<시 생성 중>:   5%|▌         | 1/20 [00:02<00:52,  2.79s/it][A


61/100개 완료 (61.00%)
- 예상 남은 시간 : 1.8분
--------------------------------------------------



<시 생성 중>:  10%|█         | 2/20 [00:05<00:49,  2.73s/it][A


62/100개 완료 (62.00%)
- 예상 남은 시간 : 1.7분
--------------------------------------------------



<시 생성 중>:  15%|█▌        | 3/20 [00:07<00:44,  2.61s/it][A


63/100개 완료 (63.00%)
- 예상 남은 시간 : 1.5분
--------------------------------------------------



<시 생성 중>:  20%|██        | 4/20 [00:10<00:42,  2.64s/it][A


64/100개 완료 (64.00%)
- 예상 남은 시간 : 1.6분
--------------------------------------------------



<시 생성 중>:  25%|██▌       | 5/20 [00:13<00:39,  2.65s/it][A


65/100개 완료 (65.00%)
- 예상 남은 시간 : 1.6분
--------------------------------------------------



<시 생성 중>:  30%|███       | 6/20 [00:15<00:37,  2.66s/it][A


66/100개 완료 (66.00%)
- 예상 남은 시간 : 1.5분
--------------------------------------------------



<시 생성 중>:  35%|███▌      | 7/20 [00:18<00:34,  2.67s/it][A


67/100개 완료 (67.00%)
- 예상 남은 시간 : 1.5분
--------------------------------------------------



<시 생성 중>:  40%|████      | 8/20 [00:21<00:32,  2.68s/it][A


68/100개 완료 (68.00%)
- 예상 남은 시간 : 1.4분
--------------------------------------------------



<시 생성 중>:  45%|████▌     | 9/20 [00:24<00:29,  2.70s/it][A


69/100개 완료 (69.00%)
- 예상 남은 시간 : 1.4분
--------------------------------------------------



<시 생성 중>:  50%|█████     | 10/20 [00:26<00:26,  2.70s/it][A


70/100개 완료 (70.00%)
- 예상 남은 시간 : 1.3분
--------------------------------------------------



<시 생성 중>:  55%|█████▌    | 11/20 [00:29<00:24,  2.69s/it][A


71/100개 완료 (71.00%)
- 예상 남은 시간 : 1.3분
--------------------------------------------------



<시 생성 중>:  60%|██████    | 12/20 [00:32<00:21,  2.71s/it][A


72/100개 완료 (72.00%)
- 예상 남은 시간 : 1.3분
--------------------------------------------------



<시 생성 중>:  65%|██████▌   | 13/20 [00:34<00:18,  2.71s/it][A


73/100개 완료 (73.00%)
- 예상 남은 시간 : 1.2분
--------------------------------------------------



<시 생성 중>:  70%|███████   | 14/20 [00:37<00:16,  2.71s/it][A


74/100개 완료 (74.00%)
- 예상 남은 시간 : 1.2분
--------------------------------------------------



<시 생성 중>:  75%|███████▌  | 15/20 [00:40<00:13,  2.72s/it][A


75/100개 완료 (75.00%)
- 예상 남은 시간 : 1.1분
--------------------------------------------------



<시 생성 중>:  80%|████████  | 16/20 [00:43<00:10,  2.72s/it][A


76/100개 완료 (76.00%)
- 예상 남은 시간 : 1.1분
--------------------------------------------------



<시 생성 중>:  85%|████████▌ | 17/20 [00:45<00:08,  2.72s/it][A


77/100개 완료 (77.00%)
- 예상 남은 시간 : 1.0분
--------------------------------------------------



<시 생성 중>:  90%|█████████ | 18/20 [00:48<00:05,  2.71s/it][A


78/100개 완료 (78.00%)
- 예상 남은 시간 : 1.0분
--------------------------------------------------



<시 생성 중>:  95%|█████████▌| 19/20 [00:51<00:02,  2.70s/it][A


79/100개 완료 (79.00%)
- 예상 남은 시간 : 0.9분
--------------------------------------------------



<시 생성 중>: 100%|██████████| 20/20 [00:53<00:00,  2.69s/it][A
<전체 진행 상황>:  80%|████████  | 4/5 [03:35<00:53, 53.69s/it]    [A


80/100개 완료 (80.00%)
- 예상 남은 시간 : 0.9분
--------------------------------------------------



<시 생성 중>:   0%|          | 0/20 [00:00<?, ?it/s][A
<시 생성 중>:   5%|▌         | 1/20 [00:02<00:52,  2.77s/it][A


81/100개 완료 (81.00%)
- 예상 남은 시간 : 0.9분
--------------------------------------------------



<시 생성 중>:  10%|█         | 2/20 [00:05<00:48,  2.72s/it][A


82/100개 완료 (82.00%)
- 예상 남은 시간 : 0.8분
--------------------------------------------------



<시 생성 중>:  15%|█▌        | 3/20 [00:08<00:46,  2.73s/it][A


83/100개 완료 (83.00%)
- 예상 남은 시간 : 0.8분
--------------------------------------------------



<시 생성 중>:  20%|██        | 4/20 [00:10<00:43,  2.71s/it][A


84/100개 완료 (84.00%)
- 예상 남은 시간 : 0.7분
--------------------------------------------------



<시 생성 중>:  25%|██▌       | 5/20 [00:13<00:40,  2.70s/it][A


85/100개 완료 (85.00%)
- 예상 남은 시간 : 0.7분
--------------------------------------------------



<시 생성 중>:  30%|███       | 6/20 [00:16<00:37,  2.70s/it][A


86/100개 완료 (86.00%)
- 예상 남은 시간 : 0.6분
--------------------------------------------------



<시 생성 중>:  35%|███▌      | 7/20 [00:19<00:35,  2.71s/it][A


87/100개 완료 (87.00%)
- 예상 남은 시간 : 0.6분
--------------------------------------------------



<시 생성 중>:  40%|████      | 8/20 [00:21<00:32,  2.70s/it][A


88/100개 완료 (88.00%)
- 예상 남은 시간 : 0.5분
--------------------------------------------------



<시 생성 중>:  45%|████▌     | 9/20 [00:24<00:29,  2.70s/it][A


89/100개 완료 (89.00%)
- 예상 남은 시간 : 0.5분
--------------------------------------------------



<시 생성 중>:  50%|█████     | 10/20 [00:27<00:27,  2.70s/it][A


90/100개 완료 (90.00%)
- 예상 남은 시간 : 0.5분
--------------------------------------------------



<시 생성 중>:  55%|█████▌    | 11/20 [00:29<00:24,  2.70s/it][A


91/100개 완료 (91.00%)
- 예상 남은 시간 : 0.4분
--------------------------------------------------



<시 생성 중>:  60%|██████    | 12/20 [00:32<00:21,  2.69s/it][A


92/100개 완료 (92.00%)
- 예상 남은 시간 : 0.4분
--------------------------------------------------



<시 생성 중>:  65%|██████▌   | 13/20 [00:35<00:18,  2.71s/it][A


93/100개 완료 (93.00%)
- 예상 남은 시간 : 0.3분
--------------------------------------------------



<시 생성 중>:  70%|███████   | 14/20 [00:37<00:16,  2.71s/it][A


94/100개 완료 (94.00%)
- 예상 남은 시간 : 0.3분
--------------------------------------------------



<시 생성 중>:  75%|███████▌  | 15/20 [00:40<00:13,  2.71s/it][A


95/100개 완료 (95.00%)
- 예상 남은 시간 : 0.2분
--------------------------------------------------



<시 생성 중>:  80%|████████  | 16/20 [00:43<00:10,  2.70s/it][A


96/100개 완료 (96.00%)
- 예상 남은 시간 : 0.2분
--------------------------------------------------



<시 생성 중>:  85%|████████▌ | 17/20 [00:46<00:08,  2.71s/it][A


97/100개 완료 (97.00%)
- 예상 남은 시간 : 0.1분
--------------------------------------------------



<시 생성 중>:  90%|█████████ | 18/20 [00:48<00:05,  2.70s/it][A


98/100개 완료 (98.00%)
- 예상 남은 시간 : 0.1분
--------------------------------------------------



<시 생성 중>:  95%|█████████▌| 19/20 [00:51<00:02,  2.73s/it][A


99/100개 완료 (99.00%)
- 예상 남은 시간 : 0.0분
--------------------------------------------------



<시 생성 중>: 100%|██████████| 20/20 [00:54<00:00,  2.72s/it][A
<전체 진행 상황>: 100%|██████████| 5/5 [04:29<00:00, 53.96s/it]    [A


100/100개 완료 (100.00%)
- 예상 남은 시간 : 0.0분
--------------------------------------------------





##### (3) 피드백
- 생성된 시에 대해 selected="True"로 수정해 피드백 반영

### 3. Reward Model 학습

##### (1) 데이터 로드 및 처리

In [None]:
with open(eval_file, "r", encoding="utf-8") as f:
    evaluation_data = json.load(f)

reward_data = [
    {'text_a': f'주제: {item["topic"]}', 'text_b': item['poem']}
    for item in evaluation_data if item['selected']
]

reward_dataset = Dataset.from_list(reward_data)

In [None]:
def preprocess_reward_data(sample):    
    model_inputs = tokenizer(
                        sample["text_a"],
                        text_pair=sample["text_b"],
                        padding="max_length", 
                        max_length=512, 
                        truncation=True
                    )
    
    model_inputs['labels'] = model_inputs["input_ids"].copy()
    pad_token_id = tokenizer.pad_token_id
    model_inputs['labels'] = [
        [(l if l != pad_token_id else -100) for l in label] 
        for label in model_inputs['labels']
    ]
    
    return model_inputs

In [None]:
tokenizer.pad_token = tokenizer.eos_token

reward_dataset = reward_dataset.map(
    preprocess_reward_data,
    batched=True,
    remove_columns=['text_a', 'text_b']
)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

##### (2) 학습 준비

- 양자화 설정 > 모델 로드
- LoRA 학습 설정
- TrainingArguments 설정

In [None]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    device_map="auto"
)

In [None]:
reward_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config
)

reward_model = prepare_model_for_kbit_training(reward_model)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

In [None]:
reward_model = get_peft_model(reward_model, lora_config)

In [None]:
reward_training_args = TrainingArguments(
    output_dir="./reward_model",
    save_strategy="epoch",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_dir='./logs',
    logging_steps=100,
    save_total_limit=2,
    remove_unused_columns=False,
    fp16=True
)

reward_trainer = Trainer(
    model=reward_model,
    args=reward_training_args,
    train_dataset=reward_dataset,
    tokenizer=tokenizer
)

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
  reward_trainer = Trainer(


##### (3) 학습 진행

In [34]:
reward_trainer.train()

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 128009, 'pad_token_id': 128009}.
  return fn(*args, **kwargs)


Step,Training Loss


  return fn(*args, **kwargs)
  return fn(*args, **kwargs)


TrainOutput(global_step=6, training_loss=3.3420845667521157, metrics={'train_runtime': 9.3087, 'train_samples_per_second': 3.223, 'train_steps_per_second': 0.645, 'total_flos': 260198545489920.0, 'train_loss': 3.3420845667521157, 'epoch': 3.0})

### 4. RLHF (ORPO)

##### (1) 모델 로드

In [None]:
model = AutoModelForCausalLM.from_pretrained(qlora_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_name)

model.train()
model.cuda()

for param in model.parameters():
    param.requires_grad = True

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
# !export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

##### (2) ORPO 데이터셋 준비

In [None]:
with open(eval_file, "r", encoding="utf-8") as f:
    evaluation_data = json.load(f)

orpo_data = []

for item in evaluation_data:
    if item['selected']:
        prompt_text = f'주제: {item["topic"]}\n이 주제에 맞는 시를 작성해 주세요.'
        chosen_text = item['poem']
        rejected_text = ""

        tokenized_prompt = tokenizer(prompt_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")
        tokenized_chosen = tokenizer(chosen_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")
        tokenized_rejected = tokenizer(rejected_text, truncation=True, padding="max_length", max_length=64, return_tensors="pt")

        orpo_data.append({
            "prompt": prompt_text,
            "chosen": chosen_text,
            "rejected": rejected_text,
            "prompt_input_ids": tokenized_prompt['input_ids'].squeeze(0).cuda(),
            "prompt_attention_mask": tokenized_prompt['attention_mask'].squeeze(0).cuda(),
            "chosen_input_ids": tokenized_chosen['input_ids'].squeeze(0).cuda(),
            "chosen_attention_mask": tokenized_chosen['attention_mask'].squeeze(0).cuda(),
            "rejected_input_ids": tokenized_rejected['input_ids'].squeeze(0).cuda(),
            "rejected_attention_mask": tokenized_rejected['attention_mask'].squeeze(0).cuda(),
        })

        orpo_dataset = Dataset.from_list(orpo_data)

##### (3) ORPO 설정

In [None]:
from trl import ORPOConfig

orpo_config = ORPOConfig(
    output_dir='./orpo_output',
    per_device_train_batch_size=1,
    num_train_epochs=5,
    learning_rate=2e-6,
    gradient_accumulation_steps=4,
    logging_steps=50,
    fp16=False,
    bf16=True,
    remove_unused_columns=False,
    gradient_checkpointing=True,
    max_grad_norm=1.0,
    warmup_steps=100,
    save_steps=500,
    save_total_limit=2
)

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


In [None]:
from trl.trainer.utils import DPODataCollatorWithPadding

data_collator = DPODataCollatorWithPadding(
    pad_token_id=tokenizer.pad_token_id,
    label_pad_token_id=-100,
    is_encoder_decoder=False
)

In [None]:
from trl import ORPOTrainer

orpo_trainer = ORPOTrainer(
    model=model,
    args=orpo_config,
    train_dataset=orpo_dataset,
    data_collator=data_collator,
    processing_class=tokenizer
)

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

##### (4) ORPO 적용

In [None]:
# torch.cuda.empty_cache()
orpo_trainer.train()
# torch.cuda.empty_cache()

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 128009, 'pad_token_id': 128009}.


Step,Training Loss


Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


### 최종 시 생성

In [42]:
orpo_checkpoint = './orpo_output/checkpoint-15'

model = AutoModelForCausalLM.from_pretrained(orpo_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_name)

generate_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    pad_token_id=tokenizer.eos_token_id
)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:0


In [43]:
import random

def generate_poem_final(num_samples=5):
    topics = ["바람", "비", "노을", "달빛", "안개", "사랑", "이별", "운명", "기다림", "후회", "추억", "시간", "청춘", "변화", "마지막 순간", "군중", "밤거리", "버스", "인생", "빌딩", "사람들", "거짓말", "욕망", "돈", "권력", "비밀", "죽음", "희망", "동물", "자연", "도시", "바다", "산", "하늘", "별", "꽃", "나무", "강", "바위", "흙", "눈", "빗방울", "눈물", "웃음"]
    result = []

    for _ in range(num_samples):
        topic = random.choice(topics)
        input_text = f'주제: {topic}\n시:'
        poem = generate_pipeline(
                                    input_text,
                                    max_new_tokens=100,
                                    temperature=0.8,
                                    top_p=0.9
                                )[0]['generated_text']
        result.append({"topic": topic, "poem": poem})

    return result

In [None]:
generated_poem = generate_poem_final(num_samples=10)
generated_poem