In [1]:
import torch
import transformers
from ast import literal_eval
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM, SFTConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
import json
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt
import evaluate
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm
from peft import AutoPeftModelForCausalLM, LoraConfig
import re

# from src.utils.arguments import parse_args # todo: fix it when it's on server

from datasets import load_dataset

pd.set_option('display.max_columns', None)

In [2]:
# 난수 고정
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)

set_seed(42) 

In [3]:
# args = parse_args() # todo: fix it when it's on server

In [4]:
# # Load the train dataset from hugging face
# ds4 = load_dataset(
#     args_util.hf_dataset_with_4choices,
#     token=args_util.hf_token,
#     )
# ds5 = load_dataset(
#     args_util.hf_dataset_with_5choices,
#     token=args_util.hf_token
#     )
# todo: fix it when it's on server
ds4 = load_dataset(
    "yhkimmy/4_choices",
    token="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",
    )
ds5 = load_dataset(
    "yhkimmy/5_choices",
    token="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"
    )

In [5]:
# load model
model_name = "Qwen/Qwen3-8B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
)

`torch_dtype` is deprecated! Use `dtype` instead!


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the disk.


In [26]:
peft_config = LoraConfig(
    r=8,
    lora_alpha=16,
    lora_dropout=0.05,
    target_modules=['q_proj', 'k_proj'],
    bias="none",
    task_type="CAUSAL_LM",
)

In [27]:
PROMPT_NO_QUESTION_PLUS = """지문:
{paragraph}

질문:
{question}

선택지:
{choices}

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.
정답:"""

PROMPT_QUESTION_PLUS = """지문:
{paragraph}

질문:
{question}

<보기>:
{question_plus}

선택지:
{choices}

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.
정답:"""

In [33]:
def make_prompt(dataset):  
    processed_dataset = []
    for i in range(len(dataset)):
        choices_string = "\n".join([f"{idx + 1} - {choice}" for idx, choice in enumerate(dataset[i]["choices"])])

        # <보기>가 있을 때
        if dataset[i]["question_plus"]:
            user_message = PROMPT_QUESTION_PLUS.format(
                paragraph=dataset[i]["paragraph"],
                question=dataset[i]["question"],
                question_plus=dataset[i]["question_plus"],
                choices=choices_string,
            )
        # <보기>가 없을 때
        else:
            user_message = PROMPT_NO_QUESTION_PLUS.format(
                paragraph=dataset[i]["paragraph"],
                question=dataset[i]["question"],
                choices=choices_string,
            )

        # chat message 형식으로 변환
        processed_dataset.append(
            {
                "id": dataset[i]["id"],
                "messages": [
                    {"role": "system", "content": "지문을 읽고 질문의 답을 구하세요."},
                    {"role": "user", "content": user_message},
                    {"role": "assistant", "content": f"{dataset[i]['answer']}"}
                ],
                "label": dataset[i]["answer"],
            }
        )
    return processed_dataset


In [34]:
# The dataset has already been split into train and eval.
train_4choices_with_prompt = make_prompt(ds4['train'])
eval_4choices_with_prompt = make_prompt(ds4['validation']) 

train_5choices_with_prompt = make_prompt(ds5['train'])
eval_5choices_with_prompt = make_prompt(ds5['validation'])

In [35]:
train_4choices_with_prompt[1]

{'id': 'generation-for-nlp-1224',
 'messages': [{'role': 'system', 'content': '지문을 읽고 질문의 답을 구하세요.'},
  {'role': 'user',
   'content': '지문:\n여성들이여, 깨어나라. 이성의 종소리가 우주 전체에 울려 퍼지노니, 당신의 권리를 찾아라. 노예가 된 남성은 자신의 힘을 몇 배로 키웠으나, 자유의 몸이 되고 난 뒤에는 자신의 동반자를 부당하게 대했다. 오, 여성들이여, 여성들이여! 그대들은 언제 눈을 뜰 것인가? 그대들이 혁명으로부터 얻은 이익은 무엇인가? 더욱 두드러진 냉소, 더욱 확실한 경멸. 지도자들이 계속해서 고집한다면, 우월성을 주장하는 그들의 공허한 가식에 이성의 힘으로 용기 있게 맞서라. 어떤 장애물이 당신 앞을 가로막든, 스스로를 해방할 힘은 본인에게 있다! 올랭프 드 구주, “여성과 여성 시민의 권리 선언”, 1791 독립? 내가 원했던 그 어떤 것도 성취되지 않았습니다. 내 아이들이 교육 받을 기회가 있으리라 기대했건만 그들은 교육 받지 못했습니다. 우리는 과거에도 가난한 소작농이었고, 지금도 가난한 소작농입니다. 변한 건 아무 것도 없습니다. 모든 게 똑같습니다. 우리가 자유롭고, 전쟁이 끝났으며, 두려움 없이 일할 수 있다는 사실. 오직 그것 말고는 변한 게 아무 것도 없습니다. 할리마 곰리, 알제리 독립 전쟁 이후 1970년대 인터뷰\n\n질문:\n두 번째 문단의 화자가 희망했던 종류의 진보를 막은 요소는 무엇입니까?\n\n선택지:\n1 - 이슬람 전통주의 철폐 실패\n2 - 산업 자산 및 인프라의 부재\n3 - 여성의 권리에 대한 새 엘리트층의 반감\n4 - 사회개혁이 아닌 민족해방을 우선시 함\n\n1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.\n정답:'},
  {'role': 'assistant', 'content': '4'}],
 'label': 4}

In [11]:
train_5choices_with_prompt[0]

{'id': 'generation-for-nlp-2853',
 'messages': [{'role': 'system', 'content': '지문을 읽고 질문의 답을 구하세요.'},
  {'role': 'user',
   'content': '지문:\n지난 27일 오후 6시 서울 불광동 ‘고양삼송 우남퍼스트빌’ 모델하우스. 저녁 시간인데도 방문객 행렬이 계속 이어졌다. 아이 손을 잡고 온 가족이 눈에 많이 띄었다. ‘4·1 부동산대책’ 이후 실수요자들이 서서히 내집 마련에 관심을 갖기 시작했다는 점을 느낄 수 있었다. 우남건설이 삼송지구의 명품 아파트를 표방하며 선보인 이 단지는 고객평가단 800여명의 의견을 반영해 세 차례나 설계를 바꿨다. 그래서인지 현관과 다용도실, 팬트리(식품저장소) 등 비주거공간을 최소화하는 대신 거실과 방을 널찍하게 확보한 게 눈에 들어왔다.○고객 평가단 800명 의견을 설계로모델하우스를 찾은 사람들은 소비자를 배려한 평면 설계에 좋은 반응을 보였다. 모든 주택형은 거실과 방 세 칸을 나란히 전면에 배치하는 4~4.5베이로 구성된다. 분양가에 포함되지 않는 서비스면적을 대폭 늘렸기 때문에 가능한 평면이다. 전용 64·74㎡의 서비스면적은 약 35㎡이고 84㎡B는 48㎡에 이른다. 자녀 방에는 수납 공간을 넉넉히 넣는 등 실속형 평면으로 꾸몄다. 벽지와 인테리어 등을 화이트 계열로 처리, 내부가 더 넓게 보였다. 이처럼 내부 공간을 넓게 설계할 수 있었던 건 우남건설이 침체된 시장 상황을 고려해 소비자의 의견을 끊임없이 반영했기 때문이다. 우남건설은 당초 전용 85㎡ 초과 부지인 이곳에 가구 수 변동 없이 소비자의 눈높이에 맞게 중소형 위주의 단지로 설계했다. 그 결과 내부 평면뿐 아니라 전반적인 단지 모양도 좋아졌다. 축구장 크기의 중앙광장이 조성되면서 동 간 거리가 70~90m로 넓어져 사생활 침해 요소가 줄었다. 녹지율은 대지 면적의 절반에 가까운 47%다. 각 동 1층(27가구)은 복층형 테라스하우스로 공급된다. 최상층 펜트하우

In [36]:
train_4choices_with_prompt = Dataset.from_pandas(pd.DataFrame(train_4choices_with_prompt))
eval_4choices_with_prompt = Dataset.from_pandas(pd.DataFrame(eval_4choices_with_prompt))

train_5choices_with_prompt = Dataset.from_pandas(pd.DataFrame(train_5choices_with_prompt))
eval_5choices_with_prompt = Dataset.from_pandas(pd.DataFrame(eval_5choices_with_prompt))

In [37]:
def formatting_prompts_func(example):
    output_texts = []
    for i in range(len(example["messages"])):
        output_texts.append(
            tokenizer.apply_chat_template(
                example["messages"][i],
                tokenize=False,
                add_generation_prompt=False,
                enable_thinking=False, # off
            )
        )
    return output_texts

def tokenize(element):
    outputs = tokenizer(
        formatting_prompts_func(element),
        truncation=False,
        padding=False,
        return_overflowing_tokens=False,
        return_length=False,
    )
    return {
        "input_ids": outputs["input_ids"],
        "attention_mask": outputs["attention_mask"],
    }
    
def tokenized_dataset(dataset):
    return dataset.map(
        tokenize,
        remove_columns=list(dataset.features),
        batched=True,
        num_proc=4,
        load_from_cache_file=True,
        desc="Tokenizing",
    )

In [38]:
# 데이터 토큰화
train_dataset_with_4choices = tokenized_dataset(train_4choices_with_prompt)
eval_dataset_with_4choices = tokenized_dataset(eval_4choices_with_prompt)

train_dataset_with_5choices = tokenized_dataset(train_5choices_with_prompt)
eval_dataset_with_5choices = tokenized_dataset(eval_5choices_with_prompt)

Tokenizing (num_proc=4):   0%|          | 0/712 [00:00<?, ? examples/s]

Tokenizing (num_proc=4):   0%|          | 0/80 [00:00<?, ? examples/s]

Tokenizing (num_proc=4):   0%|          | 0/1115 [00:00<?, ? examples/s]

Tokenizing (num_proc=4):   0%|          | 0/124 [00:00<?, ? examples/s]

In [None]:
# vram memory 제약으로 인해 인풋 데이터의 길이가 1024 초과인 데이터는 제외하였습니다. *힌트: 1024보다 길이가 더 긴 데이터를 포함하면 더 높은 점수를 달성할 수 있을 것 같습니다!
train_dataset_with_4choices = train_dataset_with_4choices.filter(lambda x: len(x["input_ids"]) <= 1024)  
eval_dataset_with_4choices = eval_dataset_with_4choices.filter(lambda x: len(x["input_ids"]) <= 1024) 
 
train_dataset_with_5choices = train_dataset_with_5choices.filter(lambda x: len(x["input_ids"]) <= 1024)  
eval_dataset_with_5choices = eval_dataset_with_5choices.filter(lambda x: len(x["input_ids"]) <= 1024)

# 확인
print(tokenizer.decode(train_dataset_with_5choices[0]["input_ids"], skip_special_tokens=True))

Filter:   0%|          | 0/712 [00:00<?, ? examples/s]

Filter:   0%|          | 0/80 [00:00<?, ? examples/s]

Filter:   0%|          | 0/1115 [00:00<?, ? examples/s]

Filter:   0%|          | 0/124 [00:00<?, ? examples/s]

system
지문을 읽고 질문의 답을 구하세요.
user
지문:
국내 조선업체들이 건조한 드릴십의 시추시험을 하루 만에 마치게 될 수 있을 전망이다. 지금은 통상 4개월 이상 걸리는 작업이다.산업통상자원부는 시추를 했지만 석유가 발견되지 않은 동해 울릉분지의 1860ｍ 수면 아래 폐시추공인 ‘주작-1’에서 시추시스템을 시험할 수 있게 하는 사업을 시범적으로 개시한다고 30일 발표했다. 이에 따라 글로벌 시추선사인 머스크드릴링은 이날 삼성중공업이 건조해 인도한 드릴십 머스크벤처러를 울릉분지 해역으로 출항시켰다.원유 시추선인 드릴십은 건조 후 시추 연결장치 등에 이상이 없는지 해저에서 시험을 해야 한다. 국내 조선사들은 주변에서 이 시험을 할 마땅한 장소가 없었다. 2만8000㎞가량 떨어진 멕시코만이나 스칸디나비아반도 근처 북해에서 해야 했다. 드릴십 속도를 감안하면 왕복에만 126일 걸렸고, 선주는 드릴십 이동비용으로 총 360억원(하루 5억5000만원) 이상을 부담해야 했다. 시험과정에서 문제가 발견되면 국내 조선소를 다시 왕복해야 한다.그러나 시범사업이 실시되는 곳은 경북 포항에서 불과 89㎞, 경남 거제에서 217㎞ 떨어진 해역에 있다. 선주로서도 드릴십 이동비용 부담이 줄어들어 국내 조선업체들의 드릴십 수주 경쟁력이 높아질 수 있다. 문승욱 산업부 시스템산업정책관은 “세계 최초의 시도이기 때문에 아직 1회 사용 수수료 등은 정해지지 않았다”며 “통상 비용으로 계산하면 2020년까지 6392억원에 이르는 시험시장이 창출될 수 있을 것으로 본다”고 말했다.

질문:
국내 조선업체들이 드릴십 시추시험을 하루 만에 마칠 수 있게 된 이유는 무엇인가?

선택지:
1 - 시추시험 장소가 가까워졌기 때문
2 - 드릴십의 성능이 향상되었기 때문
3 - 국내 조선업체의 기술력이 높아졌기 때문
4 - 시추시험 비용이 감소했기 때문
5 - 해양 자원의 발견 가능성이 높아졌기 때문

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.
정답:
assistant
<think

In [40]:
print(tokenizer.decode(train_dataset_with_4choices[0]["input_ids"], skip_special_tokens=False))

<|im_start|>system
지문을 읽고 질문의 답을 구하세요.<|im_end|>
<|im_start|>user
지문:
1914년 참사의 책임은 독일인에게 있다. … 이 부분에서 안타깝게도 독일은 (원래 위장술이 뛰어남에도 불구하고) 특유의 극단성으로 인해 지나치게 솔직한 민낯을 드러내고 말았다. Deutschland über alles. 가장 위대한 독일! …이것은 역사는 길지만 유치한 인종의 궁극적 틀인 것이다.
조르주 클레망소, 승리의 웅장함과 비참함, 1930년

질문:
위 글에서 유추할 수 있는 클레망소의 생각은 무엇입니까?

선택지:
1 - 인기 가요(결국 독일의 국가(國歌)가 된) ‘Deutschland über alles’의 가사는 독일이 전쟁을 시작한 이유다.
2 - 인기 가요(결국 독일의 국가(國歌)가 된) ‘Deutschland über alles’의 가사는 독일의 공격적인 태도의 근거다.
3 - 독일이 전쟁에서 진 이유는 내부로부터의 배신 때문이다.
4 - 독일이 현대 전쟁의 궁극적 틀을 제시했다.

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.
정답:<|im_end|>
<|im_start|>assistant
<think>

</think>

2<|im_end|>



In [41]:
print(tokenizer.chat_template)

{%- if tools %}
    {{- '<|im_start|>system\n' }}
    {%- if messages[0].role == 'system' %}
        {{- messages[0].content + '\n\n' }}
    {%- endif %}
    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
    {%- for tool in tools %}
        {{- "\n" }}
        {{- tool | tojson }}
    {%- endfor %}
    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
{%- else %}
    {%- if messages[0].role == 'system' %}
        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
    {%- endif %}
{%- endif %}
{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
{%- for message in messages[::-1] %}
    {%- set index = (messages|length - 

In [42]:
response_template = "<|im_start|>assistant"
data_collator = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    tokenizer=tokenizer,
)

In [44]:
def make_preprocess_logits_for_metrics(choices=4):
    vocab = tokenizer.get_vocab()
    digits = [str(i) for i in range(1, choices + 1)]
    logit_idx = [vocab[d] for d in digits]

    def preprocess(logits, labels):
        logits = logits[0] if isinstance(logits, tuple) else logits
        return logits[:, -2, logit_idx]
    return preprocess


def make_compute_metrics(choices=4):
    digits = [str(i) for i in range(1, choices + 1)]
    int_output_map = {d: i for i, d in enumerate(digits)}
    pattern = re.compile(rf"[{''.join(digits)}]")  

    metric = evaluate.load("f1")

    def compute_metrics(eval_pred):
        logits, labels = eval_pred

        labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
        texts = tokenizer.batch_decode(labels, skip_special_tokens=True)

        gold = []
        for t in texts:
            m = pattern.search(t)    
            gold.append(int_output_map[m.group(0)] if m else -1)

        preds = np.argmax(logits, axis=-1)

        valid = [i for i, g in enumerate(gold) if g != -1]
        if not valid:
            return {"metric": 0.0}

        preds = preds[valid]
        gold  = np.array(gold)[valid]

        return metric.compute(predictions=preds, references=gold, average="macro")

    return compute_metrics


In [45]:
# pad token 설정
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id
tokenizer.special_tokens_map

{'eos_token': '<|im_end|>',
 'pad_token': '<|im_end|>',
 'additional_special_tokens': ['<|im_start|>',
  '<|im_end|>',
  '<|object_ref_start|>',
  '<|object_ref_end|>',
  '<|box_start|>',
  '<|box_end|>',
  '<|quad_start|>',
  '<|quad_end|>',
  '<|vision_start|>',
  '<|vision_end|>',
  '<|vision_pad|>',
  '<|image_pad|>',
  '<|video_pad|>']}

In [46]:
tokenizer.padding_side = 'right'

sft_config = SFTConfig(
    do_train=True,
    do_eval=True,
    lr_scheduler_type="cosine",
    max_seq_length=1024,
    output_dir="test",
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    num_train_epochs=3,
    learning_rate=2e-5,
    weight_decay=0.01,
    logging_steps=1,
    save_strategy="epoch",
    eval_strategy="epoch",
    save_total_limit=2,
    save_only_model=True,
    report_to="none",
)

trainer_for_4choices = SFTTrainer(
    model=model,
    train_dataset=train_dataset_with_4choices,
    eval_dataset=eval_dataset_with_4choices,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=make_compute_metrics(choices=4),
    preprocess_logits_for_metrics=make_preprocess_logits_for_metrics(4),
    peft_config=peft_config,
    args=sft_config,
)

trainer_for_5choices = SFTTrainer(
    model=model,
    train_dataset=train_dataset_with_5choices,
    eval_dataset=eval_dataset_with_5choices,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=make_compute_metrics(choices=5),
    preprocess_logits_for_metrics=make_preprocess_logits_for_metrics(5),
    peft_config=peft_config,
    args=sft_config,
)

The model is already on multiple devices. Skipping the move to device specified in `args`.
The model is already on multiple devices. Skipping the move to device specified in `args`.


In [47]:
%%time

# trainer_for_4choices.train()
trainer_for_5choices.train()

TypeError: Trying to convert BFloat16 to the MPS backend but it does not have support for that dtype.

In [None]:
# Inferencing
checkpoint_path = "outputs_gemma/checkpoint-4491"

model = AutoPeftModelForCausalLM.from_pretrained(
    checkpoint_path,
    trust_remote_code=True,
    # torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(
    checkpoint_path,
    trust_remote_code=True,
)

ValueError: Can't find 'adapter_config.json' at 'outputs_gemma/checkpoint-4491'

In [None]:
# Load the test dataset
# TODO Test Data 경로 입력
test_df = pd.read_csv('test.csv')

# Flatten the JSON dataset
records = []
for _, row in test_df.iterrows():
    problems = literal_eval(row['problems'])
    record = {
        'id': row['id'],
        'paragraph': row['paragraph'],
        'question': problems['question'],
        'choices': problems['choices'],
        'answer': problems.get('answer', None),
        "question_plus": problems.get('question_plus', None),
    }
    # Include 'question_plus' if it exists
    if 'question_plus' in problems:
        record['question_plus'] = problems['question_plus']
    records.append(record)
        
# Convert to DataFrame
test_df = pd.DataFrame(records)