# Generation for NLP Baseline Code

## Install Packages

## Import Necessary Libraries

In [None]:
import torch
import transformers
from ast import literal_eval
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM, SFTConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
import json
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt
import evaluate
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm
from peft import AutoPeftModelForCausalLM, LoraConfig

pd.set_option('display.max_columns', None)

In [None]:
# 난수 고정
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)

set_seed(42) # magic number :)

## EDA

### Load Data

In [None]:
 # Load the train dataset
# TODO Train Data 경로 입력
dataset = pd.read_csv('../../data/train.csv') 
dataset

In [None]:
paragraph = dataset.loc[0]['paragraph']
problem = dataset.loc[0]['problems']

print(paragraph)
print(problem)

In [None]:
for problem in dataset['problems'] :
    print(problem)

In [None]:

# Flatten the JSON dataset
records = []
for _, row in dataset.iterrows():
    problems = literal_eval(row['problems'])
    record = {
        'id': row['id'],
        'paragraph': row['paragraph'],
        'question': problems['question'],
        'choices': problems['choices'],
        'answer': problems.get('answer', None),
        "question_plus": problems.get('question_plus', None),
    }
    # Include 'question_plus' if it exists
    if 'question_plus' in problems:
        record['question_plus'] = problems['question_plus']
    records.append(record)
        
# Convert to DataFrame
df = pd.DataFrame(records)

In [None]:
df.head()

### Print missing values

In [None]:
# Check for missing values
print("\nMissing values in each column:")
print(df.isnull().sum())

### Basic information about the dataset

In [None]:
print("\nDataset Information:")
df.info()

### EDA on 'question' and 'choices'

In [None]:
# Combine 'question' and 'question_plus' if available
df['question_plus'] = df['question_plus'].fillna('')
df['full_question'] = df.apply(lambda x: x['question'] + ' ' + x['question_plus'] if x['question_plus'] else x['question'], axis=1)

# Calculate the length of each question
df['question_length'] = df['full_question'].apply(len)

In [None]:
df['full_question']

### Question Length Distribution

In [None]:
plt.figure(figsize=(5, 3))
plt.hist(df['question_length'], bins=30, edgecolor='black', alpha=0.7)
plt.title('Distribution of Question Lengths')
plt.xlabel('Question Length')
plt.ylabel('Frequency')
plt.show()

## Feature Engineering using TF-IDF

- TF-IDF 참고 링크: https://ko.wikipedia.org/wiki/Tf-idf

### Initialize TF-IDF Vectorizer

In [None]:
tfidf_vectorizer = TfidfVectorizer(max_features=1000)

### Fit and transform the text data

In [None]:
tfidf_matrix = tfidf_vectorizer.fit_transform(df['full_question'])
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

### Display the TF-IDF features

In [None]:
print("\nTF-IDF Features:")
display(tfidf_df.head(20))

## Model Training

### Baseline Model

- https://huggingface.co/beomi/gemma-ko-2b

In [None]:
# 본인의 Huggingface auth token 입력
## Jupyter lab에서 로그인 하는 textbox가 나오지 않을 경우, terminal에서 로그인 하실 수 있습니다.
!huggingface-cli login --token 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
# from huggingface_hub import notebook_login
# notebook_login()

모델과 토크나이저를 불러옵니다.

In [20]:
model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    trust_remote_code=True,
)

model.gradient_checkpointing_enable()

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
tokenizer.chat_template

In [None]:
test_messages = [{'role': 'system', 'content': '지문을 읽고 질문의 답을 구하세요.'},
  {'role': 'user',
   'content': '지문:\n상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .－현종실록 －ㄱ.기 사환국으로 정권을 장악하였다 .ㄴ.인 조반정을 주도 하여 집권세력이 되었다 .ㄷ.정조 시기에 탕평 정치의 한 축을 이루었다 .ㄹ.이 이와 성혼의 문인을 중심으로 형성되었다.\n\n질문:\n상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?\n\n선택지:\n1 - ㄱ, ㄴ\n2 - ㄱ, ㄷ\n3 - ㄴ, ㄹ\n4 - ㄷ, ㄹ\n\n1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요.\n정답:'},
  {'role': 'assistant', 'content': '2'}]
 
tokenizer.apply_chat_template(
                test_messages[0],
                tokenize=False,
            )

gemma-ko-2b 모델에는 chat template 이 없기 때문에 직접 입력해주어야 합니다.

### Prepare LoRA

In [21]:
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=['q_proj', 'k_proj'],
    bias="none",
    task_type="CAUSAL_LM",
)

### Data Processing

In [22]:
dataset = Dataset.from_pandas(df)

In [23]:
PROMPT_NO_QUESTION_PLUS = """지문:
{paragraph}

질문:
{question}

선택지:
{choices}

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요. 
정답:"""

PROMPT_QUESTION_PLUS = """지문:
{paragraph}

질문:
{question}

<보기>:
{question_plus}

선택지:
{choices}

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요. 
정답:"""

In [None]:
dataset

In [24]:
processed_dataset = []
for i in range(len(dataset)):
    choices_string = "\n".join([f"{idx + 1} - {choice}" for idx, choice in enumerate(dataset[i]["choices"])])

    # <보기>가 있을 때
    if dataset[i]["question_plus"]:
        user_message = PROMPT_QUESTION_PLUS.format(
            paragraph=dataset[i]["paragraph"],
            question=dataset[i]["question"],
            question_plus=dataset[i]["question_plus"],
            choices=choices_string,
        )
    # <보기>가 없을 때
    else:
        user_message = PROMPT_NO_QUESTION_PLUS.format(
            paragraph=dataset[i]["paragraph"],
            question=dataset[i]["question"],
            choices=choices_string,
        )

    # chat message 형식으로 변환
    processed_dataset.append(
        {
            "id": dataset[i]["id"],
            "messages": [
                {"role": "system", "content": "이 문제에 대한 답을 맞히면 보상으로 1억 달러를 얻게 됩니다. 최선을 다해 정확한 답을 구하세요."},
                {"role": "user", "content": user_message},
                {"role": "assistant", "content": f"{dataset[i]['answer']}"}
            ],
            "label": dataset[i]["answer"],
        }
    )


In [None]:
processed_dataset[0]

In [25]:
processed_dataset = Dataset.from_pandas(pd.DataFrame(processed_dataset))
processed_dataset

Dataset({
    features: ['id', 'messages', 'label'],
    num_rows: 2031
})

In [26]:
def formatting_prompts_func(example):
    output_texts = []
    for i in range(len(example["messages"])):
        output_texts.append(
            tokenizer.apply_chat_template(
                example["messages"][i],
                tokenize=False,
            )
        )
    return output_texts

def tokenize(element):
    outputs = tokenizer(
        formatting_prompts_func(element),
        truncation=False,
        padding=False,
        return_overflowing_tokens=False,
        return_length=False,
    )
    return {
        "input_ids": outputs["input_ids"],
        "attention_mask": outputs["attention_mask"],
    }

# 데이터 토큰화
tokenized_dataset = processed_dataset.map(
    tokenize,
    remove_columns=list(processed_dataset.features),
    batched=True,
    num_proc=4,
    load_from_cache_file=True,
    desc="Tokenizing",
)

Tokenizing (num_proc=4):   0%|          | 0/2031 [00:00<?, ? examples/s]

In [27]:
from sklearn.model_selection import KFold, train_test_split


dataset_indices = list(range(len(tokenized_dataset)))

# 데이터 분할
train_index, test_index = train_test_split(
    dataset_indices, test_size=0.2, shuffle=True, random_state=42
)

train_dataset = tokenized_dataset.select(train_index)
eval_dataset = tokenized_dataset.select(test_index)

print(tokenizer.decode(train_dataset[0]["input_ids"], skip_special_tokens=False))
print(tokenizer.decode(train_dataset[1]["input_ids"], skip_special_tokens=False))

[|system|]이 문제에 대한 답을 맞히면 보상으로 1억 달러를 얻게 됩니다. 최선을 다해 정확한 답을 구하세요.[|endofturn|]
[|user|]지문:
다음달 초까지 서울 등 전국의 낮 최고기온이 20도를 넘는 때 이른 초여름 날씨가 계속될 전망이다. 기상청은 “이동성 고기압의 영향으로 16일까지 전국에 맑은 날씨가 이어지겠다”며 “전국의 낮 최고기온이 20도를 넘는 고온 현상이 계속될 것”이라고 13일 예보했다. 기상청은 14일 서울의 낮 최고기온이 최근 30년래 평년치(17.3도)를 웃도는 23도를 기록하고, 대구와 창원의 경우 평년치(19~20도)를 웃도는 27도까지 오르겠다고 밝혔다.목요일인 17일부터는 서쪽에서 다가오는 기압골의 영향으로 전국에 비가 내리면서 고온 현상이 잠시 주춤할 전망이다. 다만 18일 비가 그친 뒤 주말부터는 또다시 고온 현상이 이어진다.기상청은 이달 하순에는 남쪽으로부터 따뜻한 기류가 유입되면서 기온이 크게 오를 때가 있겠다고 내다봤다. 남부 지역은 곳에 따라 낮 최고기온이 30도까지 치솟을 전망이다. 기상청은 다음달 초순에도 이동성 고기압의 영향을 받아 맑고 건조한 날이 이어지면서 평년에 비해 높은 기온을 기록할 것으로 예상했다.

질문:
기상청이 예보한 서울의 낮 최고기온은 최근 30년래 평년치보다 몇 도 높은가?

선택지:
1 - 20도
2 - 21도
3 - 22도
4 - 23도
5 - 24도

1, 2, 3, 4, 5 중에 하나를 정답으로 고르세요. 
정답:
[|assistant|]4[|endofturn|]

[|system|]이 문제에 대한 답을 맞히면 보상으로 1억 달러를 얻게 됩니다. 최선을 다해 정확한 답을 구하세요.[|endofturn|]
[|user|]지문:
"나는 우리와 우리 조상이 영적인 문제에서 행동하며 속세의 권력을 행사하는 크고 놀라운 실수를 목격합니다. 주 예수의 마지막 유언장을 여러 번 읽었으나 예수께서 기꺼이 속세의 면류관과 정부를 받아들이셨더라면 예수의 영적인 사안과 왕국의 문제에 속

In [None]:
train_dataset_token_lengths = [len(train_dataset[i]["input_ids"]) for i in range(len(train_dataset))]
print(f"max token length: {max(train_dataset_token_lengths)}")
print(f"min token length: {min(train_dataset_token_lengths)}")
print(f"avg token length: {np.mean(train_dataset_token_lengths)}")

In [None]:
print(tokenizer.chat_template)

Completion 부분만 학습하기 위한 data collator 설정

- 텍스트 중 response_template 까지는 ignore_index 로 loss 계산에서 제외
- 텍스트 중 response_template 이후는 학습에 포함 (정답 + eos 토큰)

In [28]:
response_template = "[|assistant|]"
data_collator = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    tokenizer=tokenizer,
)

### Metric 설정

In [29]:
# 모델의 logits 를 조정하여 정답 토큰 부분만 출력하도록 설정
def preprocess_logits_for_metrics(logits, labels):
    logits = logits if not isinstance(logits, tuple) else logits[0]
    logit_idx = [tokenizer.vocab["1"], tokenizer.vocab["2"], tokenizer.vocab["3"], tokenizer.vocab["4"], tokenizer.vocab["5"]]
    logits = logits[:, -2, logit_idx] # -2: answer token, -1: eos token
    return logits

# metric 로드
acc_metric = evaluate.load("accuracy")

# 정답 토큰 매핑
int_output_map = {"1": 0, "2": 1, "3": 2, "4": 3, "5": 4}

# metric 계산 함수
def compute_metrics(evaluation_result):
    logits, labels = evaluation_result

    # 토큰화된 레이블 디코딩
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    labels = list(map(lambda x: x.split("[|endofturn|]")[0].strip(), labels))
    labels = list(map(lambda x: int_output_map[x], labels))

    # 소프트맥스 함수를 사용하여 로그트 변환
    probs = torch.nn.functional.softmax(torch.tensor(logits), dim=-1)
    predictions = np.argmax(probs, axis=-1)

    # 정확도 계산
    acc = acc_metric.compute(predictions=predictions, references=labels)
    return acc

### Train

In [30]:
# pad token 설정
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id
tokenizer.special_tokens_map

{'bos_token': '[BOS]',
 'eos_token': '[|endofturn|]',
 'unk_token': '[UNK]',
 'pad_token': '[|endofturn|]'}

In [31]:
%%time
from sklearn.model_selection import KFold, train_test_split

tokenizer.padding_side = 'right'

dataset_indices = list(range(len(tokenized_dataset)))

# 데이터 분할
train_index, test_index = train_test_split(
    dataset_indices, test_size=0.2, shuffle=True, random_state=42
)

train_dataset = tokenized_dataset.select(train_index)
eval_dataset = tokenized_dataset.select(test_index)    


current_output_dir = "outputs_exaone"
    
sft_config = SFTConfig(
    do_train=True,
    do_eval=True,
    lr_scheduler_type="cosine_with_restarts",
    max_seq_length=1024,
    output_dir=current_output_dir,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=4,
    num_train_epochs=3,
    learning_rate=1.5e-5,
    weight_decay=0.01,
    logging_steps=100,
    evaluation_strategy="steps",
    eval_steps=500,
    save_total_limit=2,
    save_only_model=True,
    report_to="none",
    fp16=True,
    fp16_full_eval=True,
    warmup_ratio=0.1,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
)

trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
    preprocess_logits_for_metrics=preprocess_logits_for_metrics,
    peft_config=peft_config,
    args=sft_config,
)



Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


KeyboardInterrupt: 

In [None]:
# 모델 학습
trainer.train()

# 모델 평가
metrics = trainer.evaluate()

## Inference

In [33]:
import torch, gc
gc.collect()
torch.cuda.empty_cache()

In [32]:
# TODO 학습된 Checkpoint 경로 입력
checkpoint_path = "../../data/outputs_exaone/checkpoint-1218"

model = AutoPeftModelForCausalLM.from_pretrained(
    checkpoint_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)
model = model.to('cuda')  
tokenizer = AutoTokenizer.from_pretrained(
    checkpoint_path,
    trust_remote_code=True,
)

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

In [34]:
for name, param in model.named_parameters():
    if "transformer.h.0" in name:  # 예: 초기 레이어를 동결
        param.requires_grad = False

In [35]:
# Load the test dataset
# TODO Test Data 경로 입력
test_df = pd.read_csv('../../data/test.csv')

# Flatten the JSON dataset
records = []
for _, row in test_df.iterrows():
    problems = literal_eval(row['problems'])
    record = {
        'id': row['id'],
        'paragraph': row['paragraph'],
        'question': problems['question'],
        'choices': problems['choices'],
        'answer': problems.get('answer', None),
        "question_plus": problems.get('question_plus', None),
    }
    # Include 'question_plus' if it exists
    if 'question_plus' in problems:
        record['question_plus'] = problems['question_plus']
    records.append(record)
        
# Convert to DataFrame
test_df = pd.DataFrame(records)

In [36]:
test_dataset = []
for i, row in test_df.iterrows():
    choices_string = "\n".join([f"{idx + 1} - {choice}" for idx, choice in enumerate(row["choices"])])
    len_choices = len(row["choices"])
    
    # <보기>가 있을 때
    if row["question_plus"]:
        user_message = PROMPT_QUESTION_PLUS.format(
            paragraph=row["paragraph"],
            question=row["question"],
            question_plus=row["question_plus"],
            choices=choices_string,
        )
    # <보기>가 없을 때
    else:
        user_message = PROMPT_NO_QUESTION_PLUS.format(
            paragraph=row["paragraph"],
            question=row["question"],
            choices=choices_string,
        )

    test_dataset.append(
        {
            "id": row["id"],
            "messages": [
                {"role": "system", "content": "지문을 읽고 질문의 답을 구하세요."},
                {"role": "user", "content": user_message},
            ],
            "label": row["answer"],
            "len_choices": len_choices,
        }
    )

In [None]:
test_dataset

In [37]:
import os

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:4"

In [38]:
%%time

infer_results = []
pred_choices_map = {0: "1", 1: "2", 2: "3", 3: "4", 4: "5"}
model.eval()

batch_size = 1  # 적절한 배치 크기를 설정하세요
with torch.inference_mode():
    for i in tqdm(range(0, len(test_dataset), batch_size)):
        batch = test_dataset[i:i+batch_size]
        batch_ids = [data["id"] for data in batch]
        batch_messages = [data["messages"] for data in batch]
        batch_len_choices = [data["len_choices"] for data in batch]

        inputs = tokenizer.apply_chat_template(
            batch_messages,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt",
            padding=True,
        ).to("cuda")

        outputs = model(inputs)

        for j, (_id, len_choices) in enumerate(zip(batch_ids, batch_len_choices)):
            logits = outputs.logits[j, -1].flatten().cpu()
            target_logit_list = [logits[tokenizer.vocab[str(i + 1)]] for i in range(len_choices)]
            probs = torch.nn.functional.softmax(torch.tensor(target_logit_list, dtype=torch.float32)).detach().cpu().numpy()
            predict_value = pred_choices_map[np.argmax(probs, axis=-1)]
            infer_results.append({"id": _id, "answer": predict_value})

        # 메모리 정리
        del inputs, outputs
        torch.cuda.empty_cache()

  0%|          | 0/869 [00:00<?, ?it/s]We detected that you are passing `past_key_values` as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate `Cache` class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache)
100%|██████████| 869/869 [21:13<00:00,  1.47s/it]

CPU times: user 15min 12s, sys: 6min, total: 21min 12s
Wall time: 21min 13s





In [None]:
"""%%time

infer_results = []

pred_choices_map = {0: "1", 1: "2", 2: "3", 3: "4", 4: "5"}

model.eval()
with torch.inference_mode():
    for data in tqdm(test_dataset):
        _id = data["id"]
        messages = data["messages"]
        len_choices = data["len_choices"]

        outputs = model(
            tokenizer.apply_chat_template(
                messages,
                tokenize=True,
                add_generation_prompt=True,
                return_tensors="pt",
            ).to("cuda")
        )

        logits = outputs.logits[:, -1].flatten().cpu()

        target_logit_list = [logits[tokenizer.vocab[str(i + 1)]] for i in range(len_choices)]

        probs = (
            torch.nn.functional.softmax(
                torch.tensor(target_logit_list, dtype=torch.float32)
            )
            .detach()
            .cpu()
            .numpy()
        )

        predict_value = pred_choices_map[np.argmax(probs, axis=-1)]
        infer_results.append({"id": _id, "answer": predict_value})"""

In [39]:
pd.DataFrame(infer_results).to_csv("output_exaone_2.csv", index=False)

In [None]:
pd.DataFrame(infer_results)