In [1]:
import json 
import torch
from datasets import Dataset, load_dataset
from transformers import (AutoTokenizer, 
                          AutoModelForCausalLM, 
                          pipeline, 
                          StoppingCriteria, 
                          StoppingCriteriaList)

In [2]:
model_name = "../output"
model = AutoModelForCausalLM.from_pretrained(model_name, 
                                            device_map="auto",
                                            torch_dtype=torch.bfloat16
                                            )
tokenizer = AutoTokenizer.from_pretrained(model_name)

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

In [11]:
class StopOnTokens(StoppingCriteria):
    def __init__(self, stop_token_ids):
        super().__init__()
        self.stop_token_ids = stop_token_ids

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_id in self.stop_token_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

user_token_id = tokenizer.encode("user", add_special_tokens=False)
inst_token_id = tokenizer.encode("[/INST]", add_special_tokens=False)
stop_words_ids = [user_token_id, inst_token_id]
stopping_criteria = StoppingCriteriaList([StopOnTokens(stop_token_ids=stop_words_ids)])

In [12]:
inst_token_id

[733, 28748, 16289, 28793]

In [9]:
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto",
    return_full_text=False,
    do_sample=True,
    max_new_tokens=512,
    temperature=0.2,
)

In [5]:
dataset = load_dataset("json", data_files="../data/train_dataset_pipa.jsonl")
dataset

DatasetDict({
    train: Dataset({
        features: ['texts'],
        num_rows: 140
    })
})

In [24]:
# train_text = dataset["train"][0]["texts"]["instruction"]
train_text = "개인정보 보호법의 목적은?"
# train_text = """개인정보보호법 제76조에 따르면, 제64조의2에 따라 과징금을 부과한 행위에 대해 과태료를 부과할 수 없는 이유는 무엇인가?
# 1 동일한 위반 행위에 대해 형사처벌이 이미 이루어졌기 때문에
# 2 과태료 부과가 법적으로 금지되어 있기 때문에
# 3 과징금이 이미 부과되었기 때문에
# 4 과태료가 과징금보다 낮기 때문에
# 5 과태료 부과가 불필요하기 때문에"""

In [26]:
prompt = f"<s>[INST] {train_text} [/INST]"  # 답변 직전에 [/INST]
input_ids = tokenizer(prompt, return_tensors="pt").to(model.device)

# generate 호출 시 start_index 지정
prompt_len = input_ids.input_ids.shape[1]
out_ids = model.generate(
    **input_ids,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.2,
    pad_token_id=tokenizer.eos_token_id,
)
# prompt_len 이후부터만 디코딩 → 첫 [/INST]는 자연히 제거됨
print(tokenizer.decode(out_ids[0][prompt_len:], skip_special_tokens=True))


이 법은 개인정보의 처리 및 보호에 관한 사항을 정함으로써 개인의 자유와 권리를 보호하고, 개인의 존엄과 개인의 가치를 실현함을 목적으로 한다. 제2장 개인정보 보호정책의 수립 및 시행 제1조 보호위원회의 설치 및 구
