# Generation for NLP Baseline Code

## Install Packages

In [44]:
#!pip install -r requirements.txt

## Import Necessary Libraries

In [45]:
import torch
import transformers
from ast import literal_eval
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM, SFTConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
import json
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt
import evaluate
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm
from peft import AutoPeftModelForCausalLM, LoraConfig
from huggingface_hub import HfFolder
from transformers import BitsAndBytesConfig

pd.set_option('display.max_columns', None)

In [46]:
# 난수 고정
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)

set_seed(42) # magic number :)

In [47]:
HfFolder.save_token("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")

### Load Data

In [48]:
import pandas as pd

# 데이터셋 읽기
kmmlu_dataset = pd.read_csv('./kmmlu/kmmlu_korean_history_processed.csv')
mmmlu_history_dataset = pd.read_csv('./mmmlu/mmmlu_history.csv')
mmmlu_others_dataset = pd.read_csv('./mmmlu/mmmlu_others.csv')

# 각 데이터셋을 동일한 형식으로 변환
def process_dataset(dataset):
    records = []
    for _, row in dataset.iterrows():
        record = {
            'id': row['id'],
            'paragraph': row['paragraph'],
            'question': row['question'],
            'choices': row['choices'],
            'answer': row.get('answer', None),
        }
        records.append(record)
    return pd.DataFrame(records)

kmmlu_df = process_dataset(kmmlu_dataset)
mmmlu_history_df = process_dataset(mmmlu_history_dataset)
mmmlu_others_df = process_dataset(mmmlu_others_dataset)

# 3개의 데이터프레임 연결
df = pd.concat([kmmlu_df, mmmlu_history_df, mmmlu_others_df], ignore_index=True)

# 결과 확인
print(df.shape)

(2276, 5)


In [49]:
df.tail()

Unnamed: 0,id,paragraph,question,choices,answer
2271,mmlu_high_school_psychology_1559,,학생을 장애자로 분류하는 것에 대한 일반적인 비판은 개인들은 하나의 분류와 관련된 ...,"['자기실현적 예언', '효과의 법칙', '초두효과', '사회적 태만']",1
2272,mmlu_high_school_psychology_1560,,Scott은 맞는 단어의 철자를 찾기 위해 NEBOTYA라는 글자를 20분 동안 고...,"['고전적 조건화', '조작적 조건화', '효과의 법칙', '통찰']",4
2273,mmlu_high_school_psychology_1561,,처음 성격검사에서는 극도로 외향적이었고 다음 번 검사에서는 극도로 내성적이었다고 알...,"['이 성격검사는 신뢰도는 낮지만 타당도는 높습니다.', '이 검사는 아마도 구성 ...",4
2274,mmlu_high_school_psychology_1562,,"정서적 애착에 대한 할로우(Harlow)의 연구에서 새끼 원숭이들을 우리에 넣고 ""...","['우유병이 배치된 ""엄마""', '""철사로 만든"" 엄마 대 ""헝겊으로 만든"" 엄마'...",1
2275,mmlu_high_school_psychology_1563,,Zoe의 신경성 식욕부진증을 치료하기 위해 그녀의 의사는 그녀에게 정맥주사로 영양을...,"['인지행동적.', '생물학적.', '정신역동적.', '절충주의적.']",4


### Print missing values

In [50]:
# Check for missing values
print("\nMissing values in each column:")
print(df.isnull().sum())


Missing values in each column:
id              0
paragraph    1564
question        0
choices         0
answer          0
dtype: int64


## Model Training

### Baseline Model

- https://huggingface.co/beomi/gemma-ko-2b

In [51]:
# 본인의 Huggingface auth token 입력
## Jupyter lab에서 로그인 하는 textbox가 나오지 않을 경우, terminal에서 로그인 하실 수 있습니다.
#!huggingface-cli login

모델과 토크나이저를 불러옵니다.

In [52]:
model_name = "Qwen/Qwen2.5-7B-Instruct"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    trust_remote_code=True,
    device_map="auto",  # 양자화 지원 장치에 자동 매핑
    quantization_config=bnb_config
)

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True,)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [53]:
tokenizer.chat_template = "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<start_of_turn>user\n' + content + '<end_of_turn>\n<start_of_turn>model\n' }}{% elif message['role'] == 'assistant' %}{{ content + '<end_of_turn>\n' }}{% endif %}{% endfor %}"

### Prepare LoRA

In [54]:
peft_config = LoraConfig(
    r=6,
    lora_alpha=8,
    lora_dropout=0.05,
    target_modules=['q_proj', 'k_proj'],
    bias="none",
    task_type="CAUSAL_LM",
)

### Data Processing

In [55]:
dataset = Dataset.from_pandas(df)

In [None]:
PROMPT_PARAGRAPH = """지문: 
{paragraph}

질문: 
{question}

선택지: 
{choices}

풀이 과정:
1) 먼저 지문을 꼼꼼히 읽고 핵심 내용을 파악합니다.
2) 질문이 요구하는 바를 정확히 이해합니다.
3) 지문의 내용과 질문을 연결지어 생각합니다.
4) 각 선택지를 하나씩 검토하며 지문의 내용과 부합하는지 확인합니다.
5) 가장 적절한 답을 선택하고, 그 이유를 설명합니다.
정답:"""

PROMPT_NO_PARAGRAPH = """질문: 
{question}

선택지: 
{choices}

풀이 과정:
1) 질문이 요구하는 바를 정확히 이해합니다.
2) 질문과 관련된 배경 지식을 떠올립니다.
3) 각 선택지를 하나씩 검토하며 질문의 맥락에 부합하는지 확인합니다.
4) 논리적으로 가장 타당한 답을 선택하고, 그 이유를 설명합니다.
5) 다른 선택지들이 왜 적절하지 않은지도 간단히 설명합니다.
정답:"""

In [95]:
dataset
dataset[0]['choices']

"['ㄱ, ㄴ', 'ㄱ, ㄷ', 'ㄴ, ㄹ', 'ㄷ, ㄹ']"

In [105]:
import ast
processed_dataset = []
for i in range(len(dataset)):
    choices_string = "\n".join([f"{idx + 1} - {choice}" for idx, choice in enumerate(ast.literal_eval(dataset[i]['choices']))])

    # <보기>가 있을 때
    if dataset[i]["paragraph"]:
        user_message = PROMPT_PARAGRAPH.format(
            paragraph=dataset[i]["paragraph"],
            question=dataset[i]["question"],
            choices=choices_string,
        )
    # <보기>가 없을 때
    else:
        user_message = PROMPT_NO_PARAGRAPH.format(
            question=dataset[i]["question"],
            choices=choices_string,
        )

    # chat message 형식으로 변환
    processed_dataset.append(
        {
            "id": dataset[i]["id"],
            "messages": [
                {"role": "system", "content": "당신은 수능을 준비하는 고등학생입니다. 차근차근 생각하면서 가장 적절한 답을 고르십시오."},
                {"role": "user", "content": user_message},
                {"role": "assistant", "content": f"{dataset[i]['answer']}"}
            ],
            "label": dataset[i]["answer"],
        }
    )


In [106]:
processed_dataset[0]

{'id': 'kmmlu_korean_history_0',
 'messages': [{'role': 'system',
   'content': '당신은 수능을 준비하는 고등학생입니다. 차근차근 생각하면서 가장 적절한 답을 고르십시오.'},
  {'role': 'user',
   'content': '지문: \n상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때 문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .－현종실록 －ㄱ.기 사환국으로 정권을 장악하였다 .ㄴ.인 조반정을 주도 하여 집권세력이 되었다 .ㄷ.정조 시기에 탕평 정치의 한 축을 이루었다 .ㄹ.이 이와 성혼의 문인을 중심으로 형성되었다 .\n\n질문: \n다음과 같이 상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면 ?\n\n선택지: \n1 - ㄱ, ㄴ\n2 - ㄱ, ㄷ\n3 - ㄴ, ㄹ\n4 - ㄷ, ㄹ\n\n정답:'},
  {'role': 'assistant', 'content': '2'}],
 'label': 2}

In [107]:
processed_dataset = Dataset.from_pandas(pd.DataFrame(processed_dataset))
processed_dataset

Dataset({
    features: ['id', 'messages', 'label'],
    num_rows: 2276
})

In [108]:
def formatting_prompts_func(example):
    output_texts = []
    for i in range(len(example["messages"])):
        output_texts.append(
            tokenizer.apply_chat_template(
                example["messages"][i],
                tokenize=False,
            )
        )
    return output_texts

def tokenize(element):
    outputs = tokenizer(
        formatting_prompts_func(element),
        truncation=False,
        padding=False,
        return_overflowing_tokens=False,
        return_length=False,
    )
    return {
        "input_ids": outputs["input_ids"],
        "attention_mask": outputs["attention_mask"],
    }

# 데이터 토큰화
tokenized_dataset = processed_dataset.map(
    tokenize,
    remove_columns=list(processed_dataset.features),
    batched=True,
    num_proc=4,
    load_from_cache_file=True,
    desc="Tokenizing",
)

Tokenizing (num_proc=4):   0%|          | 0/2276 [00:00<?, ? examples/s]

In [109]:
# 데이터 분리
# vram memory 제약으로 인해 인풋 데이터의 길이가 1024 초과인 데이터는 제외하였습니다. *힌트: 1024보다 길이가 더 긴 데이터를 포함하면 더 높은 점수를 달성할 수 있을 것 같습니다!
# over_tokenized_dataset = tokenized_dataset.filter(lambda x: len(x["input_ids"]) > 1024)
tokenized_dataset = tokenized_dataset.filter(lambda x: len(x["input_ids"]) <= 1024)
tokenized_dataset = tokenized_dataset.train_test_split(test_size=0.1, seed=42)

train_dataset = tokenized_dataset['train']
eval_dataset = tokenized_dataset['test']
# 데이터 확인
print(tokenizer.decode(train_dataset[100]["input_ids"], skip_special_tokens=True))

Filter:   0%|          | 0/2276 [00:00<?, ? examples/s]

당신은 수능을 준비하는 고등학생입니다. 차근차근 생각하면서 가장 적절한 답을 고르십시오.<start_of_turn>user
지문: 
이 질문은 다음 정보를 참조한다.
그러나 로마의 쇠락은 지나친 위대함의 자연스럽고 필연적인 결과였다. 번영은 부패의 법칙을 익어가게 했다. 정복 범위가 넓은 만큼 파멸의 원인이 더 늘어났으며 시간 또는 사건이 인공의 지지를 제거하자마자 로마라는 거대한 무언가는 스스로의 무게를 버티지 못했다. 먼 옛날의 전쟁에서 이방인과 용병의 악행으로 승리한 부대는 먼저 공화국의 자유를 억압했고 그 다음엔 보라색의 왕권을 위협했다. 자신의 안위와 공공의 평화를 잃을까 두려워한 황제들은 자신들을 국가 내외부로 단결시켜주던 엄격한 규율을 타락시키는 기초 방편으로 전락했다. 이로 인해 군의 사기는 바닥을 쳤다. 이렇게 로마의 세상은 몰려오는 야만인들에게 정복당했다.
—에드워드 기번, <로마제국 쇠망사>에서 발췌

질문: 
위 글의 저자는 다음과 같이 주장했습니다. “번영은 부패의 법칙을 익어가게 했다. 정복 범위가 넓은 만금 파멸의 원인이 더 늘어났다.” 저자가 위 문구에서 의미한 바는?

선택지: 
1 - 지배자들이 지나치게 부유해져서 전복되었다.
2 - 제국을 효과적으로 지배하기엔 너무 커졌다.
3 - 무언가 자라기 시작하면서 부패가 시작되었다.
4 - 정복과 번영은 상호 배타적이다.

정답:<end_of_turn>
<start_of_turn>model
2<end_of_turn>



In [110]:
print(tokenizer.decode(train_dataset[0]["input_ids"], skip_special_tokens=False))

당신은 수능을 준비하는 고등학생입니다. 차근차근 생각하면서 가장 적절한 답을 고르십시오.<start_of_turn>user
질문: 
1954년 브라운 대 교육위원회 사건에 따르면, 1896년 플레시 대 퍼거슨 사건에서 확립된 “분리 평등 정책” 원칙이 위반한 수정헌법은 다음 중 어느 것입니까?

선택지: 
1 - 수정헌법 제1조
2 - 수정헌법 제6조
3 - 수정헌법 제9조
4 - 수정헌법 제14조

정답:<end_of_turn>
<start_of_turn>model
4<end_of_turn>



Completion 부분만 학습하기 위한 data collator 설정

- 텍스트 중 response_template 까지는 ignore_index 로 loss 계산에서 제외
- 텍스트 중 response_template 이후는 학습에 포함 (정답 + eos 토큰)

In [111]:
response_template = "<start_of_turn>model"
data_collator = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    tokenizer=tokenizer,
)

### Metric 설정

In [112]:
# 모델의 logits 를 조정하여 정답 토큰 부분만 출력하도록 설정
def preprocess_logits_for_metrics(logits, labels):
    logits = logits if not isinstance(logits, tuple) else logits[0]
    logit_idx = [tokenizer.vocab["1"], tokenizer.vocab["2"], tokenizer.vocab["3"], tokenizer.vocab["4"], tokenizer.vocab["5"]]
    logits = logits[:, -2, logit_idx] # -2: answer token, -1: eos token
    logits = logits.float()
    return logits

# metric 로드
acc_metric = evaluate.load("accuracy")

# 정답 토큰 매핑
int_output_map = {"1": 0, "2": 1, "3": 2, "4": 3, "5": 4}

# metric 계산 함수
def compute_metrics(evaluation_result):
    logits, labels = evaluation_result

    # 토큰화된 레이블 디코딩
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    labels = list(map(lambda x: x.split("<end_of_turn>")[0].strip(), labels))
    labels = list(map(lambda x: int_output_map[x], labels))

    # 소프트맥스 함수를 사용하여 로그트 변환
    probs = torch.nn.functional.softmax(torch.tensor(logits), dim=-1)
    predictions = np.argmax(probs, axis=-1)

    # 정확도 계산
    acc = acc_metric.compute(predictions=predictions, references=labels)
    return acc

### Train

In [113]:
# pad token 설정
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id
tokenizer.special_tokens_map

{'eos_token': '<|im_end|>',
 'pad_token': '<|im_end|>',
 'additional_special_tokens': ['<|im_start|>',
  '<|im_end|>',
  '<|object_ref_start|>',
  '<|object_ref_end|>',
  '<|box_start|>',
  '<|box_end|>',
  '<|quad_start|>',
  '<|quad_end|>',
  '<|vision_start|>',
  '<|vision_end|>',
  '<|vision_pad|>',
  '<|image_pad|>',
  '<|video_pad|>']}

In [116]:
tokenizer.padding_side = 'right'

sft_config = SFTConfig(
    do_train=True,
    do_eval=True,
    lr_scheduler_type="cosine",
    max_seq_length=1024,
    output_dir="outputs_finetune",
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    num_train_epochs=3,
    learning_rate=2e-5,
    weight_decay=0.01,
    logging_steps=1,
    save_strategy="epoch",
    eval_strategy="epoch",
    save_total_limit=2,
    save_only_model=True,
    push_to_hub=True,
    hub_model_id="chris40461/qwen-finetuned-korean-exam-mcq",
    report_to="none",
)

trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
    preprocess_logits_for_metrics=preprocess_logits_for_metrics,
    peft_config=peft_config,
    args=sft_config,
)

Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


In [117]:
%%time

trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy
1,0.0007,0.176178,0.197368
2,0.2198,0.176522,0.201754
3,0.0899,0.185353,0.20614


No files have been modified since last commit. Skipping to prevent empty commit.


CPU times: user 1h 13min, sys: 28min 42s, total: 1h 41min 42s
Wall time: 1h 42min 3s


TrainOutput(global_step=6132, training_loss=0.16208461944469138, metrics={'train_runtime': 6122.1663, 'train_samples_per_second': 1.002, 'train_steps_per_second': 1.002, 'total_flos': 6.92006916088535e+16, 'train_loss': 0.16208461944469138, 'epoch': 3.0})

## Inference

In [None]:
trainer.push_to_hub()

CommitInfo(commit_url='https://huggingface.co/chris40461/qwen-finetuned-korean-exam-mcq/commit/7b042da62fc02c3957253776de3eff38ca6f6c4a', commit_message='End of training', commit_description='', oid='7b042da62fc02c3957253776de3eff38ca6f6c4a', pr_url=None, repo_url=RepoUrl('https://huggingface.co/chris40461/qwen-finetuned-korean-exam-mcq', endpoint='https://huggingface.co', repo_type='model', repo_id='chris40461/qwen-finetuned-korean-exam-mcq'), pr_revision=None, pr_num=None)

: 