In [1]:
import os
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training
)
from datasets import load_dataset
import bitsandbytes as bnb
from torch.utils.data import DataLoader



In [2]:
# 모델과 토크나이저 로드
model_name = "../Qwen2.5-1.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map='cuda:0',
)

Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.


In [3]:
model

Qwen2ForCausalLM(
  (model): Qwen2Model(
    (embed_tokens): Embedding(151936, 1536)
    (layers): ModuleList(
      (0-27): 28 x Qwen2DecoderLayer(
        (self_attn): Qwen2Attention(
          (q_proj): Linear(in_features=1536, out_features=1536, bias=True)
          (k_proj): Linear(in_features=1536, out_features=256, bias=True)
          (v_proj): Linear(in_features=1536, out_features=256, bias=True)
          (o_proj): Linear(in_features=1536, out_features=1536, bias=False)
        )
        (mlp): Qwen2MLP(
          (gate_proj): Linear(in_features=1536, out_features=8960, bias=False)
          (up_proj): Linear(in_features=1536, out_features=8960, bias=False)
          (down_proj): Linear(in_features=8960, out_features=1536, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): Qwen2RMSNorm((1536,), eps=1e-06)
        (post_attention_layernorm): Qwen2RMSNorm((1536,), eps=1e-06)
      )
    )
    (norm): Qwen2RMSNorm((1536,), eps=1e-06)
    (rotary_emb): Qw

In [4]:
# PEFT 설정
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 모델 준비
model = get_peft_model(model, peft_config)

In [5]:
model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): Qwen2ForCausalLM(
      (model): Qwen2Model(
        (embed_tokens): Embedding(151936, 1536)
        (layers): ModuleList(
          (0-27): 28 x Qwen2DecoderLayer(
            (self_attn): Qwen2Attention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=1536, out_features=1536, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=1536, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=1536, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lora.Linear(

In [6]:
dataset = load_dataset("csv", data_files="hrm8k_dataset.csv")  # 실제 데이터셋으로 교체 필요
print(f"Dataset load 직후:\n {dataset['train'][0]}")

Dataset load 직후:
 {'question': 'Janet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?', 'answer': 18.0, 'original': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?"}


In [7]:
# 데이터셋 로드 및 전처리
def dataset_to_text(data):
    new_data = {}
    new_data['messages'] = [{'role':'user','content':data['question']},
                           {'role':'assistant','content':str(data['answer'])}]
    new_data['text'] = tokenizer.apply_chat_template(new_data['messages'], tokenize=False)
    return new_data

def tokenize_text(examples):
    return tokenizer(examples["text"], truncation=True, max_length=512)

In [8]:
dataset = dataset.map(dataset_to_text, 
                      remove_columns=dataset['train'].column_names)
print(f"Text column 추가:\n {dataset['train'][0]}")

Text column 추가:
 {'messages': [{'content': 'Janet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?', 'role': 'user'}, {'content': '18.0', 'role': 'assistant'}], 'text': '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nJanet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?<|im_end|>\n<|im_start|>assistant\n18.0<|im_end|>\n'}


In [10]:
tokenized_dataset = dataset.map(tokenize_text, 
                                remove_columns=dataset['train'].column_names)
print(f"Tokenizer 통과:\n {tokenized_dataset['train'][0]}")

Tokenizer 통과:
 {'input_ids': [151644, 8948, 198, 2610, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 18315, 295, 20401, 73077, 132920, 53900, 126746, 19391, 220, 16, 21, 59761, 20401, 125214, 17877, 37195, 111, 38231, 13, 54825, 132751, 16560, 126932, 32077, 48408, 130436, 42039, 220, 18, 59761, 18411, 137767, 117, 34395, 11, 90711, 250, 88259, 129125, 130039, 137767, 116, 144355, 17877, 58777, 126893, 53618, 220, 19, 59761, 18411, 40720, 60838, 13, 129624, 33704, 94203, 129804, 33704, 126932, 32077, 5140, 228, 235, 85057, 126251, 44518, 40853, 56475, 128753, 125519, 23573, 73077, 28002, 125214, 125703, 64795, 220, 17, 129062, 60294, 19391, 140568, 129865, 60838, 13, 54825, 132751, 16560, 126932, 32077, 5140, 228, 235, 85057, 126251, 44518, 40853, 56475, 138666, 18411, 86831, 60315, 35711, 30, 151645, 198, 151644, 77091, 198, 16, 23, 13, 15, 151645, 198], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [11]:
# 데이터셋 로드 및 전처리
def dataset_to_text(data):
    new_data = {}
    new_data['messages'] = [{'role':'user','content':data['question']},
                           {'role':'assistant','content':str(data['answer'])}]
    new_data['text'] = tokenizer.apply_chat_template(new_data['messages'], tokenize=False)
    return new_data

def tokenize_text(examples):
    return tokenizer(examples["text"], truncation=True, max_length=512)

dataset = load_dataset("csv", data_files="hrm8k_dataset.csv")  # 실제 데이터셋으로 교체 필요
# if int(os.envionr["RANK"])==0:
print(f"Dataset load 직후:\n {dataset['train'][0]}")
dataset = dataset.map(dataset_to_text, 
                      remove_columns=dataset['train'].column_names)
print(f"Text column 추가:\n {dataset['train'][0]}")
tokenized_dataset = dataset.map(tokenize_text, 
                                remove_columns=dataset['train'].column_names)
print(f"Tokenizer 통과:\n {tokenized_dataset['train'][0]}")

Dataset load 직후:
 {'question': 'Janet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?', 'answer': 18.0, 'original': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?"}
Text column 추가:
 {'messages': [{'content': 'Janet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?', 'role': 'user'}, {'content': '18.0', 'role': 'assistant'}], 'text': '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nJanet의 오리는 하루에 16개의 알을 낳습니다. 그녀는 매일 아침으로 3개를 먹고, 친구들을 위해 머핀을 구울 때 4개를 사용합니다. 남은 계란은 매일 농산물 시장에서 신선한 오리 알 하나당 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 얼마를 버나요?<|im_end|>\n<|im_start|>

In [5]:
# 학습 설정
training_args = TrainingArguments(
    output_dir="./train_results",
    num_train_epochs=1,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    learning_rate=2e-4,
    fp16=True,
    save_steps=100,
    logging_steps=10,
    optim="adamw_torch",
    lr_scheduler_type="cosine",
    warmup_ratio=0.05,
)

# 데이터 콜레이터 설정
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    data_collator=data_collator,
)

# 학습 실행
trainer.train()

# 모델 저장
model.save_pretrained("./final_model")
tokenizer.save_pretrained("./final_model")

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Step,Training Loss
10,1.538
20,1.2107
30,1.0218
40,1.0246
50,0.8822


('./final_model/tokenizer_config.json',
 './final_model/special_tokens_map.json',
 './final_model/vocab.json',
 './final_model/merges.txt',
 './final_model/added_tokens.json',
 './final_model/tokenizer.json')