<b> Rubric 평가 </b>

|평가문항|상세기준|
|:------|:---|
|1. 기존 데이터셋을 추가 정제하고, generation 성능을 끌어올리기 위한 기법들을 실험해 모델 perfomance를 향상시켜보았는가? |기존 데이터셋의 문제점을 분석하고 전처리 전략을 수립해 추가 정제를 진행했다. Beam search, Top-k(p) sampling 등 최선의 디코딩 전략을 수립해 향상된 모델 추론 결과를 제시했다. BLEU, ROUGE 등 생성된 텍스트를 평가하기 위한 메트릭을 적용한 정량적인 평가 결과와 주관적인 평가를 비교분석하였다.|
|2. 새로운 데이터를 수집해 전처리를 수행하여 모델을 재학습시켜보았는가?|모두의 말뭉치, AI hub 등에 공개된 데이터를 사용해 추가 데이터셋을 구축하기 위한 기준과 근거를 수립했다. ChatGPT API나 다양한 한국어 benchmark 데이터셋을 활용해 Human Feedback 을 대체할 수 있는 아이디어를 구현했다. 위를 바탕으로 SFT, RM, PPO 세 단계에 필요한 각 데이터셋을 적절히 구축하여, 모델 추론 결과와 수립한 가설을 비교해보았다.|
|3. 학습 전략 또는 foundation model을 변경해 모델을 재학습시켜보았는가?| 더 적절한 Instruction Tuning 기법을 적용해 SFT를 해보거나, Reward Model의 ranking algorithm을 개선해보았다. KoGPT-2가 아닌 다른 모델을 initial model로 사용하여 모델 학습을 성공시켰다. 허깅페이스의 accelerate, bitsandbytes 라이브러리 등을 사용하여 더 큰 스케일의 모델로 ChatGPT를 re-building해 모델 성능을 향상시켰다.|

In [38]:
!pip install -q nltk rouge-score



In [39]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import pandas as pd
import numpy

import torch
import torch.nn as nn
from torch.utils.data import Dataset
from torch.optim import Adam
from datasets import load_dataset

import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from transformers import Trainer, TrainingArguments

from copy import deepcopy
import copy
import logging
import json 
from dataclasses import dataclass

from typing import Optional, Dict, Sequence
from nltk.translate.bleu_score import corpus_bleu, sentence_bleu

In [4]:
model = AutoModelForCausalLM.from_pretrained('skt/kogpt2-base-v2')
tokenizer = AutoTokenizer.from_pretrained(
    'skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', unk_token='</s>', pad_token='</s>',
    padding_side="right",
    model_max_length=512,
)

print(tokenizer)

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

GPT2TokenizerFast(name_or_path='skt/kogpt2-base-v2', vocab_size=51200, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '</s>', 'eos_token': '</s>', 'unk_token': '</s>', 'pad_token': '</s>'}, clean_up_tokenization_spaces=True)


In [17]:
from typing import Optional, Dict, Sequence

class SFT_dataset(Dataset):

    def __init__(self, tokenizer: transformers.PreTrainedTokenizer, verbose=False):
        super(SFT_dataset, self).__init__()
        logging.warning("Loading data...")
        
        sources = []
        targets = []
        
        ###############################################
        
        data_path_1_SFT = '/aiffel/KoChatGPT/data_kochatgpt/kochatgpt_1_SFT.jsonl'
        with open(data_path_1_SFT, "r", encoding='utf-8-sig') as json_file:
            list_data_dict_1 = json.load(json_file)

        PROMPT_DICT_1 = {
            "prompt_input": (
                "### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
            )
        }

        prompt_input_1 = PROMPT_DICT_1["prompt_input"]

        for example in list_data_dict_1:
            tmp = prompt_input_1.format_map(example)
            sources.append(tmp)

        for example in list_data_dict_1:
            targets.append(f"{example['completion']}{tokenizer.eos_token}")
        
        ###############################################
        
        data_path_2_SFT = './data/KoAlpaca_v1.1.jsonl'
        list_data_dict_2 = []
        with open(data_path_2_SFT, "r", encoding='utf-8-sig') as json_file:
            for line in json_file:
                list_data_dict_2.append(json.loads(line))
                
        PROMPT_DICT_2 = {
            "prompt_input": (
                "### Instruction(명령어):\n{instruction}\n\n### Response(응답):"
            )
        }

        prompt_input_2 = PROMPT_DICT_2["prompt_input"]
        
        for example in list_data_dict_2:
            tmp = prompt_input_2.format_map(example)
            sources.append(tmp)

        for example in list_data_dict_2:
            targets.append(f"{example['output']}{tokenizer.eos_token}")
        
        ###############################################
        
        examples = [s + t for s, t in zip(sources, targets)]
        
        sources_tokenized = self._tokenize_fn(sources, tokenizer)  # source
        examples_tokenized = self._tokenize_fn(examples, tokenizer)  # source + target

        input_ids = examples_tokenized["input_ids"]
        labels = copy.deepcopy(input_ids)
        for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):
            label[:source_len] = -100

        data_dict = dict(input_ids=input_ids, labels=labels)

        self.input_ids = data_dict["input_ids"]
        self.labels = data_dict["labels"]
        logging.warning("Loading data done!!: %d"%(len(self.labels)))


    def _tokenize_fn(self, strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer) -> Dict:
        tokenized_list = [
            tokenizer(
                text,
                return_tensors="pt",
                padding="longest",
                max_length=tokenizer.model_max_length,
                truncation=True,
            )
            for text in strings
        ]
        input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]
        input_ids_lens = labels_lens = [
            tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item() for tokenized in tokenized_list
        ]
        return dict(
            input_ids=input_ids,
            labels=labels,
            input_ids_lens=input_ids_lens,
            labels_lens=labels_lens,
        )


    def __len__(self):
        return len(self.input_ids)


    def __getitem__(self, i) -> Dict[str, torch.Tensor]:
        return dict(input_ids=self.input_ids[i], labels=self.labels[i])

In [26]:
from typing import Optional, Dict, Sequence

class SFT_dataset(Dataset):

    def __init__(self, data_path_1_SFT: str, tokenizer: transformers.PreTrainedTokenizer, verbose=False):
        super(SFT_dataset, self).__init__()
        logging.warning("Loading data...")

        pattern_instruction = 'prompt'  # instruction
        pattern_output = 'completion'  # response

        data_path_1_SFT = '/aiffel/KoChatGPT/data_kochatgpt/kochatgpt_1_SFT.jsonl'
        with open(data_path_1_SFT, "r", encoding='utf-8-sig') as json_file:
            list_data_dict = json.load(json_file)

        PROMPT_DICT = {
            "prompt_input": (
                "### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
            )
        }

        prompt_input = PROMPT_DICT["prompt_input"]

        sources = []
        for example in list_data_dict:
            tmp = prompt_input.format_map(example)
            sources.append(tmp)

        targets = []
        for example in list_data_dict:
            targets.append(f"{example[pattern_output]}{tokenizer.eos_token}")
        examples = [s + t for s, t in zip(sources, targets)]

        sources_tokenized = self._tokenize_fn(sources, tokenizer)  # source
        examples_tokenized = self._tokenize_fn(examples, tokenizer)  # source + target

        input_ids = examples_tokenized["input_ids"]
        labels = copy.deepcopy(input_ids)
        for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):
            label[:source_len] = -100

        data_dict = dict(input_ids=input_ids, labels=labels)

        self.input_ids = data_dict["input_ids"]
        self.labels = data_dict["labels"]
        logging.warning("Loading data done!!: %d"%(len(self.labels)))


    def _tokenize_fn(self, strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer) -> Dict:
        tokenized_list = [
            tokenizer(
                text,
                return_tensors="pt",
                padding="longest",
                max_length=tokenizer.model_max_length,
                truncation=True,
            )
            for text in strings
        ]
        input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]
        input_ids_lens = labels_lens = [
            tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item() for tokenized in tokenized_list
        ]
        return dict(
            input_ids=input_ids,
            labels=labels,
            input_ids_lens=input_ids_lens,
            labels_lens=labels_lens,
        )


    def __len__(self):
        return len(self.input_ids)


    def __getitem__(self, i) -> Dict[str, torch.Tensor]:
        return dict(input_ids=self.input_ids[i], labels=self.labels[i])

In [27]:
@dataclass
class DataCollatorForSupervisedDataset(object): 

    tokenizer: transformers.PreTrainedTokenizer

    def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:
        input_ids, labels = tuple([instance[key] for instance in instances] for key in ("input_ids", "labels"))
        input_ids = torch.nn.utils.rnn.pad_sequence(
            input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id
        )
        labels = torch.nn.utils.rnn.pad_sequence(labels, batch_first=True, padding_value= -100)
        return dict(
            input_ids=input_ids,
            labels=labels,
            attention_mask=input_ids.ne(self.tokenizer.pad_token_id),
        )

In [28]:
train_dataset = SFT_dataset(data_path_1_SFT='./aiffel/KoChatGPT/data_kochatgpt/kochatgpt_1_SFT.jsonl', tokenizer=tokenizer)
data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)

print('input : %s'%train_dataset.input_ids[0])
print('output: %s'%train_dataset.labels[0])



input : tensor([  739,   378,   378,   378, 14659, 13394, 37091, 10651,   383, 25841,
         8006, 14914,   375,  7673, 20479,  8091, 22311,  9036, 30902, 13675,
          375,   378,   378,   378, 41951,   454,  9549, 20549,   383,  8142,
         7192, 14914,   382, 37767, 13753,  8263,  7166,   739,  8352,  7659,
         9594, 25585, 13600,  8022,  9378, 11532,  9887, 11218,  9111, 16691,
        10351, 10561,  9128, 20479,  8091,  9065,  9446,  9036, 28420, 26521,
        10163, 26367,  6958,  9030,  9882, 12317, 25882,  9209, 37194, 10351,
         9036, 12168, 10529, 15989,  9719, 15434, 10552, 11188, 13362,  9036,
        15805, 11300, 11846,  9146, 16691,  9181,  7397, 15806, 13480, 11342,
        17596,  9161, 19996,  9025, 25006, 18595,  9966, 12592, 10751, 11814,
         8711,  9046, 12450,  9117,  7377, 12521,     1])
output: tensor([ -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,
         -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -10

In [29]:
training_args = TrainingArguments(
    output_dir="aiffel/KoChatGPT/test",
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=5,
    prediction_loss_only=True,
    fp16 = True
    )
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset
)

In [30]:
trainer.train()
model.save_pretrained('/aiffel/KoChatGPT/output_1_SFT')



Step,Training Loss
500,2.9841
1000,2.7768
1500,2.6872


In [35]:
generator = pipeline('text-generation', model='/aiffel/KoChatGPT/output_1_SFT', tokenizer=tokenizer)

generation_args = dict(   
    num_beams=4,
    repetition_penalty=2.0,
    no_repeat_ngram_size=4,
    eos_token_id=375, # \n   
    max_new_tokens=64,
    do_sample=True,
    top_k=50,
    early_stopping=True
)

PROMPT_DICT = {
    "prompt_input": (
        "### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
    )
}

list_prompt = ['불고기용 고기 한우에요?',
               '리처드 닉슨이 43대 부통령직을 수행한 년도는?',
               '시카고 오헤어 국제공항은 어디에 있어?',
               '오늘 미세먼지 어때?']

list_prompt = [PROMPT_DICT['prompt_input'].format_map({'prompt' : tmp}) for tmp in list_prompt]

list_result = generator(list_prompt, **generation_args)   
for prompt, result in zip(list_prompt, list_result):
    print()
    print((result[0]['generated_text']))




### Instruction(명령어):
불고기용 고기 한우에요?

### Response(응답):'저는 인공지능 어시스턴트이기 때문에 불고기용 고기의 종류와 양에 대한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기는 쇠고기와 함께 먹는 음식 중 하나입니다. 따라서 불고기를 먹을 수 있는 종류는 다양합니다. 예를 들어, 닭가슴살 스테이크, 오므라이스 샐러드 등이 있습니다.

### Instruction(명령어):
리처드 닉슨이 43대 부통령직을 수행한 년도는?

### Response(응답):'리처드 닉슨은 42대 부통령직을 수행했습니다.作)作)은 "리처드 닉슨"이 41대 부통령을 수행한 년도를 가리키는 말입니다.作)는 "리처드 닉슨"이 40대 부통령을 맡았던 년도를 의미합니다.作은 "리처드슨"이 50대 부통령

### Instruction(명령어):
시카고 오헤어 국제공항은 어디에 있어?

### Response(응답):'시카고 오 헤어 국제공항은 미국 캘리포니아주 샌프란시스코에 위치해 있습니다.子供共和國際空港)이라고 불립니다.子供公和国際空港이라는 뜻입니다.子供空和國際公港이라는 이름을 가진 항공사는 다음과 같습니다.\n\n1. 대한항공

### Instruction(명령어):
오늘 미세먼지 어때?

### Response(응답):'저는 인공지능 챗봇으로써 미세먼지 정보를 알 수 없습니다. 미세먼지 예보를 확인해 보시는 것이 좋겠습니다.\n\n미세먼지 예보: 일반적으로 미세먼지는 주로 중국에서 발원하여 중국 전역으로 퍼져나가기 때문에 중국발 미세먼지가 유입될


In [36]:
list_data_label = [
    '저는 인공지능 챗봇이며, 직접적으로 식품에 관한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기용 고기는 한우, 쇠고기, 돼지고기 등 다양한 종류의 고기를 사용합니다. 하지만 한우는 대표적인 고급 육류로 알려져 있기 때문에, 한우를 사용하는 경우도 많습니다. 알러지나 개별 건강 상태에 따라 다를 수 있으니 충분한 정보 수집 후에 선택해 주시기 바랍니다.',
    '1953년입니다.',
    '시카고 오헤어 국제공항은 미국 일리노이 주 시카고에 위치해 있습니다.',
    '미세먼지 농도는 어제와 비교해서 개선되었지만 아직도 나쁜 수준이며, 마스크 착용과 실외 활동 자제를 권장합니다. 정확한 미세먼지 농도를 확인하려면 해당 지역의 미세먼지 측정소에서 확인해보시기 바랍니다.',
]

In [40]:
for prompt, result, label in zip(list_prompt, list_result, list_data_label):
    q = prompt[prompt.index('\n')+1:prompt.rindex('\n')]
    print('Q.', q )
    g = result[0]['generated_text'][result[0]['generated_text'].rindex('(응답):')+5:]
    print('G.', g )
    print()
    a = label # 정답
    print('A.', label)
    print()
    print("1-Gram BLEU :", sentence_bleu(a.split(), g.split(), weights=(1, 0, 0, 0 )))  
    print("2-Gram BLEU :", sentence_bleu(a.split(), g.split(), weights=(0, 1, 0 ,0 )))  
    print("3-Gram BLEU :", sentence_bleu(a.split(), g.split(), weights=(0, 0, 1 ,0 )))  
    print("4-Gram BLEU :", sentence_bleu(a.split(), g.split(), weights=(0, 0, 0, 1 ))) 
    print('-'*50)

Q. 불고기용 고기 한우에요?

G. '저는 인공지능 어시스턴트이기 때문에 불고기용 고기의 종류와 양에 대한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기는 쇠고기와 함께 먹는 음식 중 하나입니다. 따라서 불고기를 먹을 수 있는 종류는 다양합니다. 예를 들어, 닭가슴살 스테이크, 오므라이스 샐러드 등이 있습니다.

A. 저는 인공지능 챗봇이며, 직접적으로 식품에 관한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기용 고기는 한우, 쇠고기, 돼지고기 등 다양한 종류의 고기를 사용합니다. 하지만 한우는 대표적인 고급 육류로 알려져 있기 때문에, 한우를 사용하는 경우도 많습니다. 알러지나 개별 건강 상태에 따라 다를 수 있으니 충분한 정보 수집 후에 선택해 주시기 바랍니다.

1-Gram BLEU : 0.02702702702702703
2-Gram BLEU : 2.2250738585072626e-308
3-Gram BLEU : 2.2250738585072626e-308
4-Gram BLEU : 2.2250738585072626e-308
--------------------------------------------------
Q. 리처드 닉슨이 43대 부통령직을 수행한 년도는?

G. '리처드 닉슨은 42대 부통령직을 수행했습니다.作)作)은 "리처드 닉슨"이 41대 부통령을 수행한 년도를 가리키는 말입니다.作)는 "리처드 닉슨"이 40대 부통령을 맡았던 년도를 의미합니다.作은 "리처드슨"이 50대 부통령

A. 1953년입니다.

1-Gram BLEU : 0
2-Gram BLEU : 0
3-Gram BLEU : 0
4-Gram BLEU : 0
--------------------------------------------------
Q. 시카고 오헤어 국제공항은 어디에 있어?

G. '시카고 오 헤어 국제공항은 미국 캘리포니아주 샌프란시스코에 위치해 있습니다.子供共和國際空港)이라고 불립니다.子供公和国際空港이라는 뜻입니다.子供空和國際公港이라는 이름을 

The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [42]:
torch.cuda.empty_cache()

In [None]:
PROMPT_DICT = {
"prompt_input": (
"### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
)
}

list_prompt = [
'불고기용 고기 한우에요?',
'리처드 닉슨이 43대 부통령직을 수행한 년도는?',
'시카고 오헤어 국제공항은 어디에 있어',
'오늘 미세먼지 어때?']

list_prompt = [PROMPT_DICT['prompt_input'].format_map({'prompt': tmp}) for tmp in list_prompt]

for input_text in list_prompt:
output = generation(input_text)
# 불고기용 고기 한우에요?
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

# 모델이 생성한 텍스트
model_output = "저는 인공지능 언어모델로써 답변을 작성하거나 직접 대화를 나눌 수 없습니다. 그러나 일반적으로 불고기용은 1인분, 6인분 정도라고 생각합니다. 이 정도면 불고기가 되는지 여부는 어떤 종류의 불고기와 어떤 종류의 불고기인지 등 여러 측면에서 답변됩니다. 따라서 궁금한 사항을 물어보시거나 질문해 주시기 바랍니다. 고기를 판매하는 식당이나 판매처에 문의하시면 더욱 정확한 대답을 드릴 수 있습니다.子)는 조선시대의 대표적인 어류 중 하나로 불고기, 불고기가 어떤 종류에 해당하는지 알 수 없습니다.祠神下)子)는 조선시대의 대표적 어류 중 하나로, 한국 전역에 판매되고 있습니다.子)는 조선시대의 대표적인 어류 중 하나로, 조선 시대의 가장 유명한 어류 중 하나입니다.自\는 불고기용 고기 중 가장 인기 있는 어종으로, 불고기는 대체로 쇠고기로도 인기가 있습니다.子)는 조선시대의 대표적인 어류 중 하나로, 주로 상추, 초밥, 우치 등 많은 종류의 불고기를 먹었습니다.子者)는 고려시대의 대표적인 어류로 불고기가 인기 있는 대표적인 어"

# 참조 텍스트 (리스트 형태로 여러 개의 참조 텍스트를 제공할 수도 있습니다)
reference_text = ["아니요, 이 고기는 미국산입니다.", "네 맞아요.", "네, 무려 한우 에이쁠 등급 고기입니다. 오늘만 싸게 팔고 있어요."]

# BLEU 스코어를 계산하는 함수
def calculate_bleu_score(model_output, reference_text):
# Smoothing 함수를 사용하여 0으로 나누는 것을 방지합니다.
smoothing = SmoothingFunction().method1
# BLEU 스코어 계산
bleu_score = sentence_bleu(reference_text, model_output, smoothing_function=smoothing)
return bleu_score

# BLEU 스코어 계산
score1 = calculate_bleu_score(model_output.split(), [ref.split() for ref in reference_text])
print(score1)


#### RM

In [47]:
!pip install chatgpt

Collecting chatgpt
  Downloading chatgpt-2.2212.0-py3-none-any.whl (24 kB)
Collecting tls-client
  Downloading tls_client-0.2.2-py3-none-any.whl (36.9 MB)
     |████████████████████████████████| 36.9 MB 10.3 MB/s            
Installing collected packages: tls-client, chatgpt
Successfully installed chatgpt-2.2212.0 tls-client-0.2.2


In [50]:
!pip install "$HOME/aiffel/KoChatGPT/colossalai_ChatGPT_230319/"

Processing /aiffel/aiffel/KoChatGPT/colossalai_ChatGPT_230319
  Preparing metadata (setup.py) ... [?25ldone


Building wheels for collected packages: chatgpt
  Building wheel for chatgpt (setup.py) ... [?25ldone
[?25h  Created wheel for chatgpt: filename=chatgpt-0.1.0-py3-none-any.whl size=46664 sha256=305f32d86af8b15235092c0f029c310b4d1916f91c08101d94a38766305e3f1d
  Stored in directory: /tmp/pip-ephem-wheel-cache-78v28_sn/wheels/79/25/c3/338e0c56a2253a8ea6c41e8692f6eb2409a3898c63b234b103
Successfully built chatgpt
Installing collected packages: chatgpt
  Attempting uninstall: chatgpt
    Found existing installation: chatgpt 2.2212.0
    Uninstalling chatgpt-2.2212.0:
      Successfully uninstalled chatgpt-2.2212.0
Successfully installed chatgpt-0.1.0


In [51]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import json
from typing import Optional

import torch
import torch.nn as nn
from torch.optim import Adam
from chatgpt.dataset import RewardDataset
from chatgpt.models.base import RewardModel
from chatgpt.trainer import RewardModelTrainer
from chatgpt.trainer.strategies import NaiveStrategy
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModel, AutoConfig
from transformers.models.gpt2.configuration_gpt2 import GPT2Config
from transformers.models.gpt2.modeling_gpt2 import GPT2Model
import loralib as lora

In [52]:
class GPTRM_custom(RewardModel):

    def __init__(self,
                 pretrained: Optional[str] = None,
                 config: Optional[GPT2Config] = None,
                 checkpoint: bool = False,
                 lora_rank: int = 0,
                 lora_train_bias: str = 'none',
                 tokenizer=None) -> None:
        if pretrained is not None:
            model = GPT2Model.from_pretrained(pretrained)
            model.resize_token_embeddings(len(tokenizer))
        elif config is not None:
            model = GPT2Model(config)
        else:
            model = GPT2Model(GPT2Config())
        if checkpoint:
            model.gradient_checkpointing_enable()

        value_head = nn.Linear(model.config.n_embd, 1)
        super().__init__(model, value_head, lora_rank, lora_train_bias)

        if pretrained is not None:
            self.model = model
            self.pretrained = pretrained


    def save_pretrained(self, dir):
        if self.pretrained is not None:
            self.model.save_pretrained(dir)

In [53]:
model = AutoModelForCausalLM.from_pretrained('skt/kogpt2-base-v2')
tokenizer = AutoTokenizer.from_pretrained(
    'skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', unk_token='</s>', pad_token='</s>',
    padding_side="right",
    model_max_length=512,
)

with NaiveStrategy().model_init_context():
        model = GPTRM_custom(pretrained='skt/kogpt2-base-v2', lora_rank=0, tokenizer=tokenizer).cuda()

Some weights of the model checkpoint at skt/kogpt2-base-v2 were not used when initializing GPT2Model: ['lm_head.weight']
- This IS expected if you are initializing GPT2Model from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing GPT2Model from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [55]:
with open('/aiffel/KoChatGPT/data_kochatgpt/kochatgpt_2_RM.jsonl', "r", encoding='utf-8-sig') as json_file:
    list_data_dict = json.load(json_file)

total_data_ranking2chosen = []
for tmp in list_data_dict:
    one_data_ranking2chosen = []

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][0] < tmp['ranking'][1]:
        data['chosen'] = tmp['completion_0']
        data['rejected'] = tmp['completion_1']
    else:
        data['chosen'] = tmp['completion_1']
        data['rejected'] = tmp['completion_0']
    one_data_ranking2chosen.append(data)

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][0] < tmp['ranking'][2]:
        data['chosen'] = tmp['completion_0']
        data['rejected'] = tmp['completion_2']
    else:
        data['chosen'] = tmp['completion_2']
        data['rejected'] = tmp['completion_0']
    one_data_ranking2chosen.append(data)

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][1] < tmp['ranking'][2]:
        data['chosen'] = tmp['completion_1']
        data['rejected'] = tmp['completion_2']
    else:
        data['chosen'] = tmp['completion_2']
        data['rejected'] = tmp['completion_1']
    one_data_ranking2chosen.append(data)



    total_data_ranking2chosen.extend(one_data_ranking2chosen)

print('before data num: %d'%(len(list_data_dict)))
print('after  data num: %d'%(len(total_data_ranking2chosen)))
print('data example: \n%s'%total_data_ranking2chosen[45])

before data num: 10220
after  data num: 30660
data example: 
{'prompt': '애플은 리사를 어떻게 처리했어', 'chosen': '애플이 누구인지 명확히 알 수 없어서, 리사가 누구인지와 어떤 상황에서 처리되었는지에 대한 추가적인 정보가 필요합니다. 따라서, 보다 정확한 답변을 제공할 수 없습니다.', 'rejected': '애플은 리사를 위해 고객 서비스 부서에서 고객 다양한 컴퓨터 관련 문제에 대해 응답하는 데 필요한 모든 지원을 제공했습니다. 사용자가 하드웨어 문제를 경험할 때, 전문가들은 필요한 수리(수리, 추가 부품 제공, 소프트웨어 업그레이드 등)을 제공해 드릴 수 있습니다. 또한, 사용자가 사용 방법 문제나 기타 문제를 경험할 때, 대화 상대로 사용자를 지원할 수 있는 전문 고객 서비스 직원들이 사용자에게 상담하고 도움을 주는 데 도움이 될 수 있는 정보를 제공합니다. 또한, 인터넷에서 제공되는 정보를 통해 문제를 해결하거나 고객 서비스 웹 사이트를 통해 자신의 문제를 진단할 수 있도록 하는 등 다양한 방법으로 리사를 처리해 왔습니다.'}


In [56]:
import random
random.seed(230319)
random.shuffle(total_data_ranking2chosen)
print(total_data_ranking2chosen[45])

{'prompt': '유아인이 류승완 감독을 만나 영화 베테랑의 시나리오를 받았던 곳은?', 'chosen': '유아인이 류승완 감독을 만나 영화 베테랑의 시나리오를 받았던 곳은 류승완의 사무실입니다.', 'rejected': '대구 영화사옥'}


In [57]:
train_data = total_data_ranking2chosen[:1000] 
eval_data = total_data_ranking2chosen[1000:1200]

print(len(train_data))
print(len(eval_data))

train_dataset = RewardDataset(train_data, tokenizer, 512)
eval_dataset = RewardDataset(eval_data, tokenizer, 512)

1000
200


100%|██████████| 1000/1000 [00:00<00:00, 1320.93it/s]
100%|██████████| 200/200 [00:00<00:00, 1237.72it/s]


In [58]:
idx = 1
print('#'*70)
print('## prompt ##')
print(train_data[idx]['prompt'])
print('#'*70)
print('## chosen ##')
print(train_data[idx]['chosen'])
print('#'*70)
print('## rejected ##')
print(train_data[idx]['rejected'])

######################################################################
## prompt ##
흑고래의 무게는 어느 정도야
######################################################################
## chosen ##
흑고래의 평균 몸무게는 약 25~40톤 정도이지만, 최대 몸무게는 50톤 이상에 이를 수 있습니다.
######################################################################
## rejected ##
흑고래의 무게는 매우 다양하게 달라집니다. 약 200kg에서 10톤까지 달라질 수 있습니다.


In [59]:
trainer = RewardModelTrainer(model=model,
                             strategy=NaiveStrategy(),
                             optim=Adam(model.parameters(), lr=5e-5),
                             train_dataset=train_dataset,
                             eval_dataset=eval_dataset,
                             batch_size=4,
                             max_epochs=1)

In [60]:
trainer.fit(use_lora=0)

model.save_pretrained('/aiffel/KoChatGPT/output_2_RM')

Train epoch:   0%|          | 0/1 [00:00<?, ?it/s]
Train step of epoch 0:   0%|          | 0/250 [00:00<?, ?it/s][A
Train step of epoch 0:   0%|          | 1/250 [00:01<05:36,  1.35s/it][A
Train step of epoch 0:   0%|          | 1/250 [00:01<05:36,  1.35s/it, loss=0.671][A
Train step of epoch 0:   1%|          | 2/250 [00:02<04:22,  1.06s/it, loss=0.671][A
Train step of epoch 0:   1%|          | 2/250 [00:02<04:22,  1.06s/it, loss=0.621][A
Train step of epoch 0:   1%|          | 3/250 [00:03<03:56,  1.04it/s, loss=0.621][A
Train step of epoch 0:   1%|          | 3/250 [00:03<03:56,  1.04it/s, loss=0.287][A
Train step of epoch 0:   2%|▏         | 4/250 [00:03<03:44,  1.09it/s, loss=0.287][A
Train step of epoch 0:   2%|▏         | 4/250 [00:03<03:44,  1.09it/s, loss=0.546][A
Train step of epoch 0:   2%|▏         | 5/250 [00:04<03:38,  1.12it/s, loss=0.546][A
Train step of epoch 0:   2%|▏         | 5/250 [00:04<03:38,  1.12it/s, loss=0.183][A
Train step of epoch 0:   2%|▏      

Train step of epoch 0:  19%|█▉        | 47/250 [00:40<02:56,  1.15it/s, loss=0.595][A
Train step of epoch 0:  19%|█▉        | 48/250 [00:41<02:56,  1.15it/s, loss=0.595][A
Train step of epoch 0:  19%|█▉        | 48/250 [00:41<02:56,  1.15it/s, loss=0.924][A
Train step of epoch 0:  20%|█▉        | 49/250 [00:42<02:55,  1.15it/s, loss=0.924][A
Train step of epoch 0:  20%|█▉        | 49/250 [00:42<02:55,  1.15it/s, loss=0.598][A
Train step of epoch 0:  20%|██        | 50/250 [00:43<02:54,  1.14it/s, loss=0.598][A
Train step of epoch 0:  20%|██        | 50/250 [00:43<02:54,  1.14it/s, loss=0.864][A
Train step of epoch 0:  20%|██        | 51/250 [00:44<02:54,  1.14it/s, loss=0.864][A
Train step of epoch 0:  20%|██        | 51/250 [00:44<02:54,  1.14it/s, loss=0.361][A
Train step of epoch 0:  21%|██        | 52/250 [00:45<02:53,  1.14it/s, loss=0.361][A
Train step of epoch 0:  21%|██        | 52/250 [00:45<02:53,  1.14it/s, loss=0.636][A
Train step of epoch 0:  21%|██        | 53/

Train step of epoch 0:  38%|███▊      | 94/250 [01:22<02:20,  1.11it/s, loss=0.725][A
Train step of epoch 0:  38%|███▊      | 95/250 [01:23<02:19,  1.11it/s, loss=0.725][A
Train step of epoch 0:  38%|███▊      | 95/250 [01:23<02:19,  1.11it/s, loss=0.454][A
Train step of epoch 0:  38%|███▊      | 96/250 [01:24<02:18,  1.11it/s, loss=0.454][A
Train step of epoch 0:  38%|███▊      | 96/250 [01:24<02:18,  1.11it/s, loss=0.731][A
Train step of epoch 0:  39%|███▉      | 97/250 [01:25<02:17,  1.11it/s, loss=0.731][A
Train step of epoch 0:  39%|███▉      | 97/250 [01:25<02:17,  1.11it/s, loss=0.755][A
Train step of epoch 0:  39%|███▉      | 98/250 [01:26<02:16,  1.11it/s, loss=0.755][A
Train step of epoch 0:  39%|███▉      | 98/250 [01:26<02:16,  1.11it/s, loss=0.765][A
Train step of epoch 0:  40%|███▉      | 99/250 [01:27<02:15,  1.11it/s, loss=0.765][A
Train step of epoch 0:  40%|███▉      | 99/250 [01:27<02:15,  1.11it/s, loss=0.593][A
Train step of epoch 0:  40%|████      | 100

Train step of epoch 0:  56%|█████▋    | 141/250 [02:04<01:36,  1.13it/s, loss=0.528][A
Train step of epoch 0:  56%|█████▋    | 141/250 [02:04<01:36,  1.13it/s, loss=0.657][A
Train step of epoch 0:  57%|█████▋    | 142/250 [02:05<01:35,  1.13it/s, loss=0.657][A
Train step of epoch 0:  57%|█████▋    | 142/250 [02:05<01:35,  1.13it/s, loss=0.801][A
Train step of epoch 0:  57%|█████▋    | 143/250 [02:06<01:34,  1.13it/s, loss=0.801][A
Train step of epoch 0:  57%|█████▋    | 143/250 [02:06<01:34,  1.13it/s, loss=0.556][A
Train step of epoch 0:  58%|█████▊    | 144/250 [02:07<01:33,  1.13it/s, loss=0.556][A
Train step of epoch 0:  58%|█████▊    | 144/250 [02:07<01:33,  1.13it/s, loss=0.48] [A
Train step of epoch 0:  58%|█████▊    | 145/250 [02:07<01:32,  1.13it/s, loss=0.48][A
Train step of epoch 0:  58%|█████▊    | 145/250 [02:07<01:32,  1.13it/s, loss=0.651][A
Train step of epoch 0:  58%|█████▊    | 146/250 [02:08<01:31,  1.13it/s, loss=0.651][A
Train step of epoch 0:  58%|█████

Train step of epoch 0:  75%|███████▍  | 187/250 [02:45<00:55,  1.13it/s, loss=0.356][A
Train step of epoch 0:  75%|███████▌  | 188/250 [02:46<00:55,  1.13it/s, loss=0.356][A
Train step of epoch 0:  75%|███████▌  | 188/250 [02:46<00:55,  1.13it/s, loss=0.634][A
Train step of epoch 0:  76%|███████▌  | 189/250 [02:46<00:54,  1.13it/s, loss=0.634][A
Train step of epoch 0:  76%|███████▌  | 189/250 [02:46<00:54,  1.13it/s, loss=0.906][A
Train step of epoch 0:  76%|███████▌  | 190/250 [02:47<00:53,  1.13it/s, loss=0.906][A
Train step of epoch 0:  76%|███████▌  | 190/250 [02:47<00:53,  1.13it/s, loss=0.397][A
Train step of epoch 0:  76%|███████▋  | 191/250 [02:48<00:52,  1.13it/s, loss=0.397][A
Train step of epoch 0:  76%|███████▋  | 191/250 [02:48<00:52,  1.13it/s, loss=0.292][A
Train step of epoch 0:  77%|███████▋  | 192/250 [02:49<00:51,  1.13it/s, loss=0.292][A
Train step of epoch 0:  77%|███████▋  | 192/250 [02:49<00:51,  1.13it/s, loss=0.564][A
Train step of epoch 0:  77%|████

Train step of epoch 0:  94%|█████████▎| 234/250 [03:26<00:14,  1.13it/s, loss=0.509][A
Train step of epoch 0:  94%|█████████▎| 234/250 [03:26<00:14,  1.13it/s, loss=0.524][A
Train step of epoch 0:  94%|█████████▍| 235/250 [03:27<00:13,  1.13it/s, loss=0.524][A
Train step of epoch 0:  94%|█████████▍| 235/250 [03:27<00:13,  1.13it/s, loss=0.915][A
Train step of epoch 0:  94%|█████████▍| 236/250 [03:28<00:12,  1.13it/s, loss=0.915][A
Train step of epoch 0:  94%|█████████▍| 236/250 [03:28<00:12,  1.13it/s, loss=0.475][A
Train step of epoch 0:  95%|█████████▍| 237/250 [03:29<00:11,  1.13it/s, loss=0.475][A
Train step of epoch 0:  95%|█████████▍| 237/250 [03:29<00:11,  1.13it/s, loss=0.526][A
Train step of epoch 0:  95%|█████████▌| 238/250 [03:30<00:10,  1.13it/s, loss=0.526][A
Train step of epoch 0:  95%|█████████▌| 238/250 [03:30<00:10,  1.13it/s, loss=0.734][A
Train step of epoch 0:  96%|█████████▌| 239/250 [03:31<00:09,  1.13it/s, loss=0.734][A
Train step of epoch 0:  96%|████

In [61]:
def inference_RM(input_text):
    input_ids = tokenizer.encode(input_text, return_tensors='pt').to(
        torch.cuda.current_device())
    output = model(input_ids)
    output_reward = output.cpu().detach().numpy()[0]

    print('input: %s\nreward score: %.1f'%(input_text, output_reward))

    return output_reward

input_text = '인공지능은 똥멍청이 입니다'
output_reward = inference_RM(input_text=input_text)

input: 인공지능은 똥멍청이 입니다
reward score: -1.3


In [62]:
input_text = '인공지능(AI)은 컴퓨터에서 음성 및 작성된 언어를 보고 이해하고 번역하고 데이터를 분석하고 추천하는 기능을 포함하여 다양한 고급 기능을 수행할 수 있는 일련의 기술입니다.'

output_reward = inference_RM(input_text=input_text)

input: 인공지능(AI)은 컴퓨터에서 음성 및 작성된 언어를 보고 이해하고 번역하고 데이터를 분석하고 추천하는 기능을 포함하여 다양한 고급 기능을 수행할 수 있는 일련의 기술입니다.
reward score: -1.0


#### PPO