transformers: 사전학습된 NLP 모델과 토크나이저 제공 라이브러리

  - AutoTokenizer: 모델 적합 토크나이저(text->token ID) 자동 로딩

  - AutoModelForCausalLM: CausalLanguageModeling(자연어 생성, **왼->오 순차적 단어 예측 및 생성**) 적합 모델 자동 로딩

peft: 유효한 파라미터 파인 튜닝을 돕는 모듈 라이브러리. Prefix 튜닝도 PEFT 기법 中 하나

  - get_peft_model: PEFT 설정을 통해 모델에 적용되는(감싸는) 함수

  - PrefixTuningConfig: Prefix Tuning 설정을 위한 구성 클래스

  - TaskType: 작업 유형(ex.Causal_LM, Seq_CLS)에 따라 적용 PEFT 결정

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import get_peft_model, PrefixTuningConfig, TaskType

# KoGPT-2 모델 및 토크나이저 로드
model_name = "skt/kogpt2-base-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name) # 모델 적합 토크나이저 자동 로드
model = AutoModelForCausalLM.from_pretrained(model_name) # causalLM 작업에 적절한 모델(KoGPT2) 로드

# pad_token이 없으면 추가
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})  # 새롭게 PAD 토큰 추가
    model.resize_token_embeddings(len(tokenizer))         # 모델 vocab 크기도 늘려줌


**Pad Token**

=> Prefix 튜닝에서 padding(여러 문장 입력 시, **가장 긴 문장을 기준으로 입력 길이 통일**) 요구됨.


---


ex. 입력 문장 토큰 길이=5 지정 시,

["나는", "간다", "[PAD]", "[PAD]", "[PAD]"]

attention_mask = [1, 1, 0, 0, 0]

=> [PAD] 는 무시하고 유효한 실제 토큰만 계산

---



=> GPT 계열 모델에서 PAD 토큰이 없는 경우 多

=> Pad 토큰 직접 추가 -> 모델 vocab 크기 늘어남 -> 모델 embedding 테이블 크기(embedding layer)도 늘려줘야 함.

In [None]:
# Prefix 튜닝 세팅
prefix_config = PrefixTuningConfig(
    task_type=TaskType.CAUSAL_LM, # Task 종류(Causal_LM) 지정
    num_virtual_tokens=25, # Prefix 토큰 수 지정
    prefix_projection=True, # Prefix 토큰 선형(Projection layer) 변환 여부
    inference_mode=False # True: 학습없이 생성만, False: 학습모드
)
model = get_peft_model(model, prefix_config) # Prefix 튜닝 구조로 모델 적용(감싸기)

내부구조

=> [Input Text] → [Prefix Embeddings (10개)] → [KoGPT2 (고정)] → [Output]

**List comperhension** (반복되는 객체를 새로운 리스트로 생성)

  - [표현식 for 변수 in 반복 가능한 객체]


  - ex. numbers = [x * 2 for x in range(5)] → [0, 2, 4, 6, 8]


In [None]:
import pandas as pd

# 학습용 정제된 시, 발라드 데이터 로드(200, 100개씩 제한)
poem_df = pd.read_csv("poems_final_pp_4040.csv",encoding="utf-8-sig")
# ballard_df = pd.read_csv("Ballard_Lyrics_Cleaned_517.csv", encoding="utf-8-sig")
# indie_df = pd.read_csv("Indie_Lyrics_Cleaned_567.csv", encoding="utf-8-sig")
hiphop_df = pd.read_csv("HipHop_Lyrics_Cleaned_600.csv", encoding="utf-8-sig")

# list comperhension(반복되는 객체를 새로운 리스트로 생성)
# 시 데이터셋을 poems_texts로 구성
poem_texts = [f"제목: {row['제목']}\n내용: {row['내용']}" for _, row in poem_df.iterrows()]
# _ : 사용하지 않는 변수에 대해 생략의 의미
# df.iterrows(): df의 한 행씩 반복 => (index, row Series data)
# 발라드/인디/힙합 장르별 가사 데이터셋을 ()_texts로 구성
# ballard_texts = [f"제목: {row['제목']}\n가사: {row['가사']}" for _, row in ballard_df.iterrows()]
# indie_texts = [f"제목: {row['제목']}\n가사: {row['가사']}" for _, row in indie_df.iterrows()]
hiphop_texts = [f"제목: {row['제목']}\n가사: {row['가사']}" for _, row in hiphop_df.iterrows()]

In [None]:
from datasets import Dataset
from sklearn.model_selection import train_test_split

poem_train, poem_test = train_test_split(poem_texts, test_size=0.2, random_state=42)
# ballard_train, ballard_test = train_test_split(ballard_texts, test_size=0.2, random_state=42)
# indie_train, indie_test = train_test_split(indie_texts, test_size=0.2, random_state=42)
hiphop_train, hiphop_test = train_test_split(hiphop_texts, test_size=0.2, random_state=42)

# 시 데이터 리스트와 발라드 가사 데이터 리스트 합치기
# combined_train_texts = poem_train + ballard_train
# combined_test_texts = poem_test + ballard_test
# 시 데이터 리스트와 인디 가사 데이터 리스트 합치기
# combined_train_texts = poem_train + indie_train
# combined_test_texts = poem_test + indie_test
# 시 데이터 리스트와 힙합 가사 데이터 리스트 합치기
combined_train_texts = poem_train + hiphop_train
combined_test_texts = poem_test + hiphop_test

# Train / Test Dataset 객체 생성
train_dataset = Dataset.from_dict({"text": combined_train_texts})
test_dataset = Dataset.from_dict({"text": combined_test_texts})

토크나이저 사용

-> "key:text" 일 때 토크나이저가 데이터로 인식함.

-> input_ids(입력 데이터의 벡터 인덱스) 자동 생성

-> input_ids를 기반으로 labels(예측해야하는 데이터의 벡터 인덱스) 세팅이 가능함.

In [None]:
# 토크나이징
def tokenize(example):
    enc = tokenizer(example["text"], truncation=True, padding="max_length", max_length=512)
    # truncation=True : 최대 토큰 길이보다 길면 자름
    # 문장 최대 토큰 길이 = max_length(256) -> PAD 토큰 사용의 기준
    enc["labels"] = enc["input_ids"].copy()
    return enc

# 전체 Dataset(train/test 모두) 토크나이징 적용
tokenized_train = train_dataset.map(tokenize)
tokenized_test = test_dataset.map(tokenize)
# batched=True(text 데이터를 리스트로 입력받아 빠르게 학습, 보편적으로 성능 높아짐) => 추후 시도해볼것

Map:   0%|          | 0/3712 [00:00<?, ? examples/s]

Map:   0%|          | 0/928 [00:00<?, ? examples/s]

***dataset 데이터셋 구조***

DatasetDict(300)({

  train: Dataset({

    features: ['text'],
    
    num_rows: 240
  
  }),
  
  test: Dataset({
    
    features: ['text'],
    
    num_rows: 60
  
  })

})

***tokenized 데이터셋 구조***

DatasetDict(300)({

  train: Dataset({

    features: ['input_ids', 'attention_mark', 'labels'],
    
    num_rows: 240
  
  }),
  
  test: Dataset({
    
    features: ['input_ids', 'attention_mask', 'labels'],
    
    num_rows: 60
  
  })

})

dataset["train"][0]["text"]  => 실제 데이터 확인

tokenized["train"][0]["input_ids"]  => 토큰 ID(입력 데이터의 벡터 변환값) 확인

In [None]:
from transformers import TrainingArguments, Trainer, EarlyStoppingCallback

training_args = TrainingArguments(
    output_dir="./kogpt_skt_results", # 학습 결과물 저장할 디렉토리 지정
    num_train_epochs=10, # 학습 에폭 수(= 전체 데이터 반복학습 횟수), 일반적 3~5
    per_device_train_batch_size=8, # 한번에 학습할 데이터 개수
    per_device_eval_batch_size=8,
    learning_rate=5e-6, # 안정적 학습률 추가
    logging_strategy="steps", # Train loss log 남기기 위함
    logging_steps=10, # 기록할 스텝 단위
    logging_dir="./logs",
    eval_strategy = "epoch", # logging_steps 마다 평가 진행
    save_total_limit=1, # 체크포인트 저장 개수
    save_strategy="epoch", # epoch 마다 모델 저장, 최종적으로 가장 성능 좋은 모델 1개 유지
    load_best_model_at_end=False,
    # Trainer: 전체 모델 weight 포함 저장, peft: Prefix adapter만 저장 -> mismatch -> 모델 수동 로드
    report_to="none"
)

# Trainer(AdamW 옵티마이저 사용) 학습
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_test,
    tokenizer=tokenizer
)

trainer.train()

  trainer = Trainer(
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Epoch,Training Loss,Validation Loss
1,8.5416,8.677663
2,8.5693,8.589561
3,8.6381,8.553997
4,8.6106,8.532522
5,8.4597,8.519883
6,8.5164,8.512033
7,8.6399,8.506444
8,8.62,8.503527




In [None]:
# evaluation loss 기반 최적의 checkpoint 모델 찾기
# log_history 중 eval_loss 있는 것만 추출
eval_logs = [log for log in trainer.state.log_history if 'eval_loss' in log]

# eval_loss 기준 가장 낮은 로그 탐색
best_model_log = min(eval_logs, key=lambda x: x['eval_loss'])

# 해당 스텝
best_model_step = best_model_log['step']

# 해당 checkpoint 경로
best_ckpt_path = f"./kogpt_skt_results/checkpoint-{best_model_step}"
print(f"최적 모델 경로(checkpoint): {best_ckpt_path}")

최적 모델 경로(checkpoint): ./kogpt_skt_results/checkpoint-4610


모델 평가 지표

- Training Loss: Train data set에 대한 모델 학습 정도(낮을수록 Train data set에 대해 잘 학습된 모델)

- Evaluation Loss: Validation data set에 대한 모델 예측 정도(낮을수록 일반화 성능 굿)

- Perplexity: 생성 결과의 혼란도 측정(낮을수록 문맥 예측 성능 굿)

In [None]:
# 가장 낮은 eval_loss 모델과 토크나이저 로드
from peft import PeftModelForCausalLM
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(best_ckpt_path)

base_model = AutoModelForCausalLM.from_pretrained("skt/kogpt2-base-v2")
base_model.resize_token_embeddings(len(tokenizer))
model = PeftModelForCausalLM.from_pretrained(base_model, best_ckpt_path)

In [None]:
import torch
import math
from torch.utils.data import DataLoader

# best checkpoint 모델 기반 trainer 재정의
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_test,
    tokenizer=tokenizer
)

trainer.train(resume_from_checkpoint=None)

# evaluation 수행 및 evaluation loss, Perplexity 계산
eval_result = trainer.evaluate()
eval_loss = eval_result["eval_loss"]
perplexity = math.exp(eval_loss)

# trainer의 log_history에서 최종 training loss 추출
train_loss_log = [log["loss"] for log in trainer.state.log_history if "loss" in log and "eval_loss" not in log]
final_train_loss = train_loss_log[-1] if train_loss_log else None

print(f"[최종 모델 성능]")
print(f"Training Loss:  {final_train_loss:.4f}")
print(f"Evaluation Loss:  {eval_loss:.4f}")
print(f"Perplexity(PPL):  {perplexity:.4f}")

  trainer = Trainer(
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Epoch,Training Loss,Validation Loss
1,7.0199,7.067742
2,7.4118,7.067658
3,7.6007,7.06759
4,7.2277,7.067533
5,7.3975,7.067489
6,7.0703,7.067447
7,7.2702,7.067418
8,7.4905,7.067399
9,7.0481,7.067383
10,7.2853,7.067379




[최종 모델 성능]
Training Loss:  7.2853
Evaluation Loss:  7.0674
Perplexity(PPL):  1173.0699


Trainer는 내부적으로

- DataLoader 구성
- Optimizer 생성
- input_ids / attention_mask / labels 세 가지 키 자동 확인 후 loss 계산
- eval_dataset 존재 시, 평가 수행


---

*About Hugging Face, Trainer, TrainingArguments*

: https://sangwonyoon.tistory.com/entry/HuggingFace-Trainer%EB%A1%9C-%EB%AA%A8%EB%8D%B8-%ED%95%99%EC%8A%B5-%EB%B0%8F-%ED%8F%89%EA%B0%80%ED%95%98%EA%B8%B0

In [None]:
import torch

input_title = "제목: 초록빛 향연\n내용:" # 명시적 프롬프트 제시
inputs = tokenizer(input_title, return_tensors="pt", padding=True) # "pt" : PyTorch 텐서 형식으로 변환
input_ids = inputs["input_ids"]
attention_mask = inputs["attention_mask"]

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 입력 텐서를 모두 동일한 디바이스(GPU)로 이동
input_ids = input_ids.to(device)
attention_mask = attention_mask.to(device)
model = model.to(device)

output = model.generate(
    input_ids=input_ids,
    attention_mask=attention_mask,
    max_new_tokens=100,
    do_sample=True, # 샘플링 기반 랜덤 생성
    temperature=0.8, # 확률 분포 정도 조절(높을수록 창의적)
    top_p=0.9, # 누적 확률 p(여기서는 0.9) 이하까지만 후보로 고려
    top_k=50, # 상위 k개 토큰만 고려
    pad_token_id=tokenizer.pad_token_id, # PAD 토큰 없는 경우 강제 추가
    repetition_penalty=1.2 # 반복 방지 추가
) # 모델이 생성한 토큰 ID(백테 변환값)

print(tokenizer.decode(output[0], skip_special_tokens=True))
# skip_special_tokens=True : PAD, EOS 토큰 생략


In [None]:
# 추가해보면 좋을 것들
# 02. 학습 후 모델/토크나이저 저장(파라미터 보존)
trainer.save_model("./kogpt_prefix_model")
tokenizer.save_pretrained("./kogpt_prefix_model")

# 03. input 키워드 리스트로 확장하기
input_keywords = ["좋아", "행복", "겨울"]
inputs = tokenizer(input_keywords, return_tensors="pt", padding=True)