In [1]:
import torch
import transformers

print("Torch version:{}".format(torch.__version__)) # Torch version:1.12.1
print("Cuda version: {}".format(torch.version.cuda)) # Cuda version: 11.3
print("transformers version: {}".format(transformers.__version__)) # transformers 4.28.0
print("GPU 사용 가능여부: {}".format(torch.cuda.is_available()))



Torch version:1.13.1
Cuda version: None
transformers version: 4.39.1
GPU 사용 가능여부: False


In [2]:
print (f"PyTorch version:{torch.__version__}") # 1.12.1 이상
print(f"MPS 장치를 지원하도록 build 되었는지: {torch.backends.mps.is_built()}") # True 여야 합니다.
print(f"MPS 장치가 사용 가능한지: {torch.backends.mps.is_available()}") # True 여야 합니다.

PyTorch version:2.2.1
MPS 장치를 지원하도록 build 되었는지: True
MPS 장치가 사용 가능한지: True


In [3]:
import torch
from torch import nn
import torch.nn.functional as F
 
class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.lin1 = nn.Linear(5,5)
 
    def forward(self,x):
        net = self.lin1(x)
        return net
 
device = torch.device("mps") if torch.backends.mps.is_available() else "cpu"
print(f"device: {device}")
 
# MPS 장치에 바로 tensor를 생성합니다.
x = torch.ones(5, device=device)
 
# GPU 상에서 연산 진행
y = x * 2
 
# 또는, 다른 장치와 마찬가지로 MPS로 이동할 수도 있습니다.
model = Net()# 어떤 모델의 객체를 생성한 뒤,
model.to(device) # MPS 장치로 이동합니다.
 
# 이제 모델과 텐서를 호출하면 GPU에서 연산이 이뤄집니다.
pred = model(x)
print(pred)

# MPS 장치를 사용하는 경우, torch.cuda.is_available()은 False를 반환합니다.
# 예측 결과에 device='mps:0'로 나오면 간단한 모델을 통한 예측에서 mps를 정상적으로 사용한 것입니다

device: mps
tensor([-0.5661, -0.0711,  0.1146,  0.1991, -0.7503], device='mps:0',
       grad_fn=<LinearBackward0>)


# 1- Base model and Dataset for RLHF

### 1-1 Importing tokenizer and model using Huggingface's transformers

In [4]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import pandas as pd
import numpy

# device = "cuda" if torch.cuda.is_available() else "cpu"
device = torch.device("mps") if torch.backends.mps.is_available() else "cpu"
print(f"device: {device}")

model_name = "skt/kogpt2-base-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to(device)

device: mps


![image.png](attachment:image.png)

### 1-2 Maximum tokens by the imported tokenizer

In [5]:
tokenizer.max_model_input_sizes

{'openai-community/gpt2': 1024,
 'openai-community/gpt2-medium': 1024,
 'openai-community/gpt2-large': 1024,
 'openai-community/gpt2-xl': 1024,
 'distilbert/distilgpt2': 1024}

### 1-3 Testing tokenization

In [6]:
input_txt = "이제 봄이 오네요. 꽃들이 피어나기 시작했습니다."

In [7]:
tokens = tokenizer(input_txt).tokens()
input_ids = tokenizer(input_txt, return_tensors="pt")["input_ids"].numpy()

In [8]:
pd.options.display.max_columns = 40
pd.options.display.max_rows = 60
df = pd.DataFrame([tokens, input_ids[0]], index=["kogpt-2_tokens", "Input_IDs"])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
kogpt-2_tokens,▁이제,▁봄이,▁오,네,요.,▁꽃,들이,▁피,어나,기,▁시작,했,습니다.
Input_IDs,12857,46339,9114,7098,25856,9718,9136,9301,9537,6958,9347,8718,16691


### 1-4 Testing decoder

In [9]:
max_length=128
input_ids = tokenizer(input_txt, return_tensors="pt")["input_ids"].to(device)
output_greedy = model.generate(input_ids, max_length=max_length, do_sample=False) # greedy decoding
print(tokenizer.decode(output_greedy[0]))

이제 봄이 오네요. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피어나기 시작했습니다. 네. 꽃들이 피


In [10]:
input_ids = tokenizer(input_txt, return_tensors="pt")["input_ids"].to(device)
output_beam = model.generate(input_ids, max_length=max_length, num_beams=10, no_repeat_ngram_size=2, # beam search decoding with n-gram penalty
                             do_sample=False)
print(tokenizer.decode(output_beam[0]))

이제 봄이 오네요. 꽃들이 피어나기 시작했습니다. 네. 봄이 왔습니다. 예. 꽃샘추위가 기승을 부리고 있는데요. 어서 오셔야겠습니다. 자 오늘 날씨 전해주시죠. 오늘은 전국이 대체로 맑은 날씨를 보이겠고요.
낮기온은 서울이 영하 십오 도 등 어제와 비슷하거나 조금 높겠습니다.
다음 주 월요일에는 전국에 또 한 차례 봄비가 내릴 것으로 전망됩니다.</d> 오늘 아침신문 살펴보는 시간입니다.
먼저 중앙일보입니다.
지난 주말 서울 도심에서 대규모 촛불집회가 열렸습니다.
이번 집회에는 주최 측


In [11]:
output_beam = model.generate(input_ids, max_length=max_length, num_beams=7, no_repeat_ngram_size=2,
                             do_sample=True, temperature=2.0, top_k=50) # beam search decoding with n-gram penalty and sampling
print(tokenizer.decode(output_beam[0]))

이제 봄이 오네요. 꽃들이 피어나기 시작했습니다. 그죠? 예. 봄꽃이 피기 시작한 겁니다. 네. 자 오늘 두 번째 키워드 보겠습니다. 자 첫 번째 키워드는 한여름 폭염입니다.
올해 삼월에 폭염이 시작됐습니다.
폭염이 예년보다 훨씬 더 오래 지속될 것으로 예상이 돼서 그렇죠. 지난 이월 십오일부터 이십삼일까지 일 점 오 퍼센트 이상 올랐다고 하는데요.
그런데 이 폭염은 올해로 일년째 이어지고 있는데요.
네. 올해는 이백육십팔일에서 삼십육일 사이 더 높다고 합니다.
예


In [12]:
output_beam = model.generate(input_ids, max_length=max_length, num_beams=7, no_repeat_ngram_size=2,
                             do_sample=True, top_p=0.90) # beam search decoding with n-gram penalty and nucleus sampling
print(tokenizer.decode(output_beam[0]))

이제 봄이 오네요. 꽃들이 피어나기 시작했습니다. 예. 네. 봄기운이 완연해지는 것 같습니다. 아~ 그렇군요. 그렇죠. 예예. 자~ 오늘은 여기까지 듣겠습니다. 고맙습니다. 감사합니다. 감사합니다.
네. 지금까지 티비에스 앱 오십 원 유료 문자 샵 영구오일 카카오톡 플러스 친구 맺으시면 무료 메시지 보내실 수 있구요. 또 무료 쿠폰도 함께 보내주시기 바랍니다.</d> 오늘 아침신문 보겠습니다.
먼저 조선일보입니다.
이천십육년 십일월 이십구일 서울 광화문 광


### 1-5 Loading SFT dataset

In [13]:
import json 
data_path_1_SFT = '/Users/kenny_jung/aiffel/data/KoChatGPT/data_kochatgpt/kochatgpt_1_SFT.jsonl' 
with open(data_path_1_SFT, "r", encoding='utf-8-sig') as json_file:
    list_data_dict = json.load(json_file)

print(len(list_data_dict))
list_data_dict[:3]

12000


[{'prompt': '불고기용 고기 한우에요?',
  'completion': "'저는 인공지능 챗봇이며, 직접적으로 식품에 관한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기용 고기는 한우, 쇠고기, 돼지고기 등 다양한 종류의 고기를 사용합니다. 하지만 한우는 대표적인 고급 육류로 알려져 있기 때문에, 한우를 사용하는 경우도 많습니다. 알러지나 개별 건강 상태에 따라 다를 수 있으니 충분한 정보 수집 후에 선택해 주시기 바랍니다.",
  'tokens': 193},
 {'prompt': '쓰던 앱이 유료로 전환됐어',
  'completion': "'어떤 앱인지 모르기 때문에 정확한 답변을 드리기 어렵습니다. 하지만, 일반적으로 유료 전환된 앱은 기존 무료 앱에서 추가적인 기능이나 서비스를 제공하는 경우가 많습니다. 이 경우, 유료 전환 이전 가격이 매우 저렴하거나 무료인 경우가 많으므로, 앱을 계속 사용하려면 추가적인 비용을 지불해야 할 수 있습니다. 하지만, 유료 전환 이후에는 기존 사용자 또는 새로운 사용자 모두가 추가 기능과 높은 품질의 서비스를 이용할 수 있게 됩니다. 따라서, 앱 개발자는 유료 모델로 전환함으로써 앱의 수익을 증가시키고 더 나은 서비스를 제공할 수 있습니다.",
  'tokens': 288},
 {'prompt': '여친이랑 다툼',
  'completion': "'저는 인공지능이기 때문에 여친과의 다툼에 대해서는 조언을 드릴 수는 없습니다. 하지만 다투게 되면 상대방의 말을 경청하는 태도와 서로의 감정을 존중하는 것이 중요합니다. 논리적이고 차분한 대화를 통해 문제를 해결해보세요. 그리고 서로를 이해하고 서로의 의견을 수용하는 것이 중요합니다.",
  'tokens': 153}]

### 1-6 Loading RM dataset

In [14]:
data_path_2_RM = '/Users/kenny_jung/aiffel/data/KoChatGPT/data_kochatgpt/kochatgpt_2_RM.jsonl'
with open(data_path_2_RM, "r", encoding='utf-8-sig') as json_file:
    list_data_dict = json.load(json_file)

print(len(list_data_dict))
list_data_dict[:3]

10220


[{'prompt': '번디는 자신이 탐정잡지, 범죄소설 그리고 성범죄 관련 실제 범죄 다큐멘터리들을 탐독했다고 누구에게 말했나?',
  'completion_0': 'Allow me to answer your question. I know that you are curious about me.',
  'completion_1': '번디는 다양한 인터뷰자들과 뉴스홍보 담당자들과의 면담 때 밝혔다.',
  'completion_2': '라이언에게 말했다.',
  'ranking': [2, 1, 0]},
 {'prompt': '개포주공아파트는 몇 단지로 이루어져 있나?',
  'completion_0': '개포주공아파트는 다섯 단지로 이루어져 있습니다.',
  'completion_1': '이날 목송에서 구글상위노',
  'completion_2': '개포주공아파트는 총 27개 단지로 이루어져 있습니다.',
  'ranking': [2, 0, 1]},
 {'prompt': '김영삼의 후보 시절 지역표심을 겨냥한 발언을 문제삼은 후보는?',
  'completion_0': 'The diameter of the Metallic domain is bigger than the Hyperonic domain.',
  'completion_1': '이 질문은 조금 불분명합니다. 김영삼 대통령이 후보 시절에 어떤 발언을 했고, 누가 그 발언을 문제삼았는지에 따라 답이 다를 수 있습니다.\\n\\n만약 김영삼 대통령이 후보 시절에 지역표심을 겨냥한 발언을 했다는 가정하에, 그 발언을 문제삼은 후보가 누구였는지를 대답하자면, 그 답은 이화선 당시 민주당 대통령 후보가 될 것입니다. 1992년 총선 때, 김영삼 대선후보는 "집값이 오른 노량진역 부근의 부동산 가격은 세월호 폭침 후 \\\'강남 도시재생\\\' 일환으로 상승했다"는 발언을 했습니다. 하지만 이화선 후보는 이 발언을 "전국적으로 경제적 발전이 이루어지지 않은 지방민의 마음을 멀리해지려는 무례한 발언"이라고 비판하며 문

### 1-7 Loading PPO dataset

In [15]:
data_path_3_PPO = '/Users/kenny_jung/aiffel/data/KoChatGPT/data_kochatgpt/kochatgpt_3_PPO.jsonl'
with open(data_path_3_PPO, "r", encoding='utf-8-sig') as json_file:
    list_data_dict = json.load(json_file)

print(len(list_data_dict))
list_data_dict[:3]

12000


[{'prompt': '번디는 자신이 탐정잡지, 범죄소설 그리고 성범죄 관련 실제 범죄 다큐멘터리들을 탐독했다고 누구에게 말했나?'},
 {'prompt': '개포주공아파트는 몇 단지로 이루어져 있나?'},
 {'prompt': '김영삼의 후보 시절 지역표심을 겨냥한 발언을 문제삼은 후보는?'}]

# 2- Supervised Fine-Tuning

### 2-1 SFT kogpt-2 with instruction dataset

In [16]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import torch
import torch.nn as nn
from torch.utils.data import Dataset
from torch.optim import Adam
from datasets import load_dataset
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from transformers import Trainer, TrainingArguments
from copy import deepcopy
import copy
import logging
import json
from dataclasses import dataclass

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


### 2-2 Import model and tokenizer

In [17]:
model = AutoModelForCausalLM.from_pretrained('skt/kogpt2-base-v2')
tokenizer = AutoTokenizer.from_pretrained(
    'skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', unk_token='</s>', pad_token='</s>',
    padding_side="right",
    model_max_length=512,
)

print(tokenizer)

GPT2TokenizerFast(name_or_path='skt/kogpt2-base-v2', vocab_size=51200, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '</s>', 'eos_token': '</s>', 'unk_token': '</s>', 'pad_token': '</s>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("<usr>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	4: AddedToken("<sys>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	5: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	6: AddedToken("<mask>", rstrip=False, lstrip=False, single_word

### 2-3 Prompt dictionary template, SFT dataset class

In [18]:
from typing import Optional, Dict, Sequence

class SFT_dataset(Dataset):

    def __init__(self, data_path_1_SFT: str, tokenizer: transformers.PreTrainedTokenizer, verbose=False):
        super(SFT_dataset, self).__init__()
        logging.warning("Loading data...")

        pattern_instruction = 'prompt'  # instruction
        pattern_output = 'completion'  # response

        with open(data_path_1_SFT, "r", encoding='utf-8-sig') as json_file:
            list_data_dict = json.load(json_file)

        PROMPT_DICT = {
            "prompt_input": (
                "### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
            )
        }

        prompt_input = PROMPT_DICT["prompt_input"]

        sources = []
        for example in list_data_dict:
            tmp = prompt_input.format_map(example)
            sources.append(tmp)

        targets = []
        for example in list_data_dict:
            targets.append(f"{example[pattern_output]}{tokenizer.eos_token}")
        examples = [s + t for s, t in zip(sources, targets)]

        sources_tokenized = self._tokenize_fn(sources, tokenizer)  # source
        examples_tokenized = self._tokenize_fn(examples, tokenizer)  # source + target

        input_ids = examples_tokenized["input_ids"]
        labels = copy.deepcopy(input_ids)
        for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):
            label[:source_len] = -100
        
        # https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html

        data_dict = dict(input_ids=input_ids, labels=labels)

        self.input_ids = data_dict["input_ids"]
        self.labels = data_dict["labels"]
        logging.warning("Loading data done!!: %d"%(len(self.labels)))


    def _tokenize_fn(self, strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer) -> Dict:
        tokenized_list = [
            tokenizer(
                text,
                return_tensors="pt",
                padding="longest",
                max_length=tokenizer.model_max_length,
                truncation=True,
            )
            for text in strings
        ]
        input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]
        input_ids_lens = labels_lens = [
            tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item() for tokenized in tokenized_list
        ]
        return dict(
            input_ids=input_ids,
            labels=labels,
            input_ids_lens=input_ids_lens,
            labels_lens=labels_lens,
        )


    def __len__(self):
        return len(self.input_ids)


    def __getitem__(self, i) -> Dict[str, torch.Tensor]:
        return dict(input_ids=self.input_ids[i], labels=self.labels[i])

In [19]:
@dataclass
class DataCollatorForSupervisedDataset(object): 

    tokenizer: transformers.PreTrainedTokenizer

    def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:
        input_ids, labels = tuple([instance[key] for instance in instances] for key in ("input_ids", "labels"))
        input_ids = torch.nn.utils.rnn.pad_sequence(
            input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id
        )
        labels = torch.nn.utils.rnn.pad_sequence(labels, batch_first=True, padding_value= -100)
        return dict(
            input_ids=input_ids,
            labels=labels,
            attention_mask=input_ids.ne(self.tokenizer.pad_token_id),
        )

### 2-4 Training dataset with SFT_dataset

In [20]:
train_dataset = SFT_dataset(data_path_1_SFT='/Users/kenny_jung/aiffel/data/KoChatGPT/data_kochatgpt/kochatgpt_1_SFT.jsonl', tokenizer=tokenizer)
data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)

print('input : %s'%train_dataset.input_ids[0])
print('output: %s'%train_dataset.labels[0])



input : tensor([  739,   378,   378,   378, 14659, 13394, 37091, 10651,   383, 25841,
         8006, 14914,   375,  7673, 20479,  8091, 22311,  9036, 30902, 13675,
          375,   378,   378,   378, 41951,   454,  9549, 20549,   383,  8142,
         7192, 14914,   382, 37767, 13753,  8263,  7166,   739,  8352,  7659,
         9594, 25585, 13600,  8022,  9378, 11532,  9887, 11218,  9111, 16691,
        10351, 10561,  9128, 20479,  8091,  9065,  9446,  9036, 28420, 26521,
        10163, 26367,  6958,  9030,  9882, 12317, 25882,  9209, 37194, 10351,
         9036, 12168, 10529, 15989,  9719, 15434, 10552, 11188, 13362,  9036,
        15805, 11300, 11846,  9146, 16691,  9181,  7397, 15806, 13480, 11342,
        17596,  9161, 19996,  9025, 25006, 18595,  9966, 12592, 10751, 11814,
         8711,  9046, 12450,  9117,  7377, 12521,     1])
output: tensor([ -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,
         -100,  -100,  -100,  -100,  -100,  -100,  -100,  -100,  -10

In [21]:
print(tokenizer.decode(train_dataset.input_ids[0]))

### Instruction(명령어):
불고기용 고기 한우에요?

### Response(응답):'저는 인공지능 챗봇이며, 직접적으로 식품에 관한 정보를 가지고 있지 않습니다. 하지만 일반적으로 불고기용 고기는 한우, 쇠고기, 돼지고기 등 다양한 종류의 고기를 사용합니다. 하지만 한우는 대표적인 고급 육류로 알려져 있기 때문에, 한우를 사용하는 경우도 많습니다. 알러지나 개별 건강 상태에 따라 다를 수 있으니 충분한 정보 수집 후에 선택해 주시기 바랍니다.</s>


### 2-5 Training arguments, trainer

In [22]:
training_args = TrainingArguments(
    output_dir="/Users/kenny_jung/aiffel/data/KoChatGPT/test",
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_steps=5,
    prediction_loss_only=True,
    # fp16 = True
    )
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


### 2-6 Training SFT

In [23]:
trainer.train()
model.save_pretrained('/Users/kenny_jung/aiffel/data/KoChatGPT/output_1_SFT')

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  0%|          | 0/750 [00:00<?, ?it/s]

{'loss': 2.8593, 'grad_norm': 5.097161293029785, 'learning_rate': 1.6778523489932888e-05, 'epoch': 0.67}
{'train_runtime': 1477.3997, 'train_samples_per_second': 8.122, 'train_steps_per_second': 0.508, 'train_loss': 2.799871419270833, 'epoch': 1.0}


### 2-7 Generator with Huggingface pipeline

In [26]:
generator = pipeline('text-generation', model='/Users/kenny_jung/aiffel/data/KoChatGPT/output_1_SFT', tokenizer=tokenizer)

generation_args = dict(   
    num_beams=4,                # beam search를 사용하는 경우, 몇 개의 beam을 사용할지 결정합니다.
    repetition_penalty=2.0,     # 중복을 얼마나 허용할지에 대한 penalty 값입니다.
    no_repeat_ngram_size=4,     # 중복을 허용하지 않을 n-gram 크기입니다.
    eos_token_id=375,           # 문장의 끝을 알려주는 token의 id 값입니다.   
    max_new_tokens=64,          # 생성할 token의 최대 개수입니다.
    do_sample=True,             # 다양성을 위해 sampling을 사용할지 여부입니다.
    top_k=50,                   # 다양성을 위한 top-k sampling의 k 값입니다.
    early_stopping=True         # 생성된 문장이 끝났다고 판단할지 여부입니다.
)

PROMPT_DICT = {
    "prompt_input": (
        "### Instruction(명령어):\n{prompt}\n\n### Response(응답):"
    )
}

list_prompt = ['불고기용 고기 한우에요?',
               '리처드 닉슨이 43대 부통령직을 수행한 년도는?',
               '시카고 오헤어 국제공항은 어디에 있어?',
               '오늘 미세먼지 어때?',
               '봄이 오면 뭘 할까?',
               '미래 데이터 사이언스의 전망은?']

list_prompt = [PROMPT_DICT['prompt_input'].format_map({'prompt' : tmp}) for tmp in list_prompt]

list_result = generator(list_prompt, **generation_args)   
for prompt, result in zip(list_prompt, list_result):
    print()
    print((result[0]['generated_text']))


### Instruction(명령어):
불고기용 고기 한우에요?

### Response(응답):'저는 인공지능 어시스턴트이기 때문에 불고기용 고기의 종류와 양을 알 수 없습니다. 하지만, 일반적으로 불고기용 쇠고기는 다양한 종류가 있을 수 있습니다. 예를 들어, 소고기, 돼지고기, 양파, 마늘, 고추장, 참기름 등이 있을 수 있습니다.\n\n일반적으로 불

### Instruction(명령어):
리처드 닉슨이 43대 부통령직을 수행한 년도는?

### Response(응답):'리처드 닉슨은 41대 부통령직을 수행했습니다. Johnson, George B. Richardson, Robert D. Lewis, Michael F. Smith, David W. Knifford, Walter S. Benjamin, Pa

### Instruction(명령어):
시카고 오헤어 국제공항은 어디에 있어?

### Response(응답):'시카고 오 헤어 국제공항은 미국 캘리포니아주 로스앤젤레스에 위치해 있습니다. Canada Operator, California Pacific Airports, North Carolina Highway, Los Angeles Corporation, Translation of the

### Instruction(명령어):
오늘 미세먼지 어때?

### Response(응답):'저는 인공지능 어시스턴트이기 때문에 미세먼지 정보를 알 수 없습니다. 하지만 미세먼지 예보를 확인하려면 해당 지역의 환경청이나 보건당국에 문의하시는 것이 좋을 것 같습니다. 감사합니다.\n\n미세먼지 예보란 미세먼지 농도를 측정하고 이에

### Instruction(명령어):
봄이 오면 뭘 할까?

### Response(응답):'저는 인공지능 챗봇이므로, 계절에 대한 정보를 알 수 없습니다. 하지만, 일반적으로 봄에는 봄, 여름, 가을, 겨울 등 다양한 계절이 존재합니다. 봄에는 꽃이 만개하고, 가을에는 눈이 내립니다. 봄에는 꽃망울을 터뜨리고, 가을은 시원한 바

### 2-8 Empty cache

In [27]:
torch.cuda.empty_cache()

# 3- Reward Model

### 3-1 Import libraries

In [4]:
!pip install colossalai==0.2.7

Defaulting to user installation because normal site-packages is not writeable
Collecting colossalai==0.2.7
  Downloading colossalai-0.2.7.tar.gz (686 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m686.7/686.7 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: colossalai
  Building wheel for colossalai (setup.py) ... [?25ldone
[?25h  Created wheel for colossalai: filename=colossalai-0.2.7-py3-none-any.whl size=896497 sha256=ff2c655e9b5b2c3fcc52680474f3b24571cc6f409b7b3d09691abf5899c0d50b
  Stored in directory: /Users/kenny_jung/Library/Caches/pip/wheels/27/f9/c8/528b9395ff61730879b490615aa4c57dce8b12b4002c225b6d
Successfully built colossalai
Installing collected packages: colossalai
  Attempting uninstall: colossalai
    Found existing installation: colossalai 0.3.6
    Uninstalling colossalai-0.3.6:
      Successfully uninstalled colossalai-0.3.6
Successfully 

In [7]:
print(torch.__version__) # 1.12.1 이상

2.2.1


In [14]:
!pip install torch==1.13.1

Defaulting to user installation because normal site-packages is not writeable
Collecting torch==1.13.1
  Downloading torch-1.13.1-cp39-none-macosx_11_0_arm64.whl.metadata (23 kB)
Downloading torch-1.13.1-cp39-none-macosx_11_0_arm64.whl (53.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.2/53.2 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hInstalling collected packages: torch
  Attempting uninstall: torch
    Found existing installation: torch 1.9.0
    Uninstalling torch-1.9.0:
      Successfully uninstalled torch-1.9.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchaudio 2.2.1 requires torch==2.2.1, but you have torch 1.13.1 which is incompatible.
torchvision 0.17.1 requires torch==2.2.1, but you have torch 1.13.1 which is incompatible.[0m[31m
[0mSuccessfully installed torch-1.13.1


In [5]:
%pip list

Package                      Version
---------------------------- ---------------
absl-py                      1.4.0
accelerate                   0.28.0
affine                       2.4.0
aiohttp                      3.9.3
aiosignal                    1.3.1
altgraph                     0.17.2
annotated-types              0.6.0
anyio                        4.3.0
appnope                      0.1.3
array-record                 0.4.1
asteval                      0.9.31
asttokens                    2.4.1
astunparse                   1.6.3
async-timeout                4.0.3
attrs                        23.2.0
bcrypt                       4.1.2
beautifulsoup4               4.12.2
bs4                          0.0.1
cachetools                   5.3.2
certifi                      2023.11.17
cffi                         1.16.0
cfgv                         3.4.0
chardet                      5.2.0
charset-normalizer           3.3.2
chatgpt                      2.2212.0
click                        

In [1]:
import os
import json
from typing import Optional
import torch
import torch.nn as nn
from torch.optim import Adam
from chatgpt.dataset import RewardDataset
from chatgpt.models.base import RewardModel
from chatgpt.trainer import RewardModelTrainer
from chatgpt.trainer.strategies import NaiveStrategy
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModel, AutoConfig
from transformers.models.gpt2.configuration_gpt2 import GPT2Config
from transformers.models.gpt2.modeling_gpt2 import GPT2Model
import loralib as lora

  operator: aten::index.Tensor(Tensor self, Tensor?[] indices) -> Tensor
    registered at /Users/runner/work/pytorch/pytorch/pytorch/build/aten/src/ATen/RegisterSchema.cpp:6
  dispatch key: Meta
  previous kernel: registered at /Users/runner/work/pytorch/pytorch/pytorch/aten/src/ATen/functorch/BatchRulesScatterOps.cpp:1053
       new kernel: registered at /dev/null:228 (Triggered internally at /Users/runner/work/pytorch/pytorch/pytorch/aten/src/ATen/core/dispatch/OperatorEntry.cpp:156.)
  self.m.impl(name, dispatch_key, fn)


### 3-2 Reward Model

In [2]:
class GPTRM_custom(RewardModel):

    def __init__(self,
                 pretrained: Optional[str] = None,
                 config: Optional[GPT2Config] = None,
                 checkpoint: bool = False,
                 lora_rank: int = 0,
                 lora_train_bias: str = 'none',
                 tokenizer=None) -> None:
        if pretrained is not None:
            model = GPT2Model.from_pretrained(pretrained)
            model.resize_token_embeddings(len(tokenizer))
        elif config is not None:
            model = GPT2Model(config)
        else:
            model = GPT2Model(GPT2Config())
        if checkpoint:
            model.gradient_checkpointing_enable()

        value_head = nn.Linear(model.config.n_embd, 1)
        super().__init__(model, value_head, lora_rank, lora_train_bias)

        if pretrained is not None:
            self.model = model
            self.pretrained = pretrained


    def save_pretrained(self, dir):
        if self.pretrained is not None:
            self.model.save_pretrained(dir)

### 3-3 Model, Tokenizer

In [3]:
model = AutoModelForCausalLM.from_pretrained('skt/kogpt2-base-v2')
tokenizer = AutoTokenizer.from_pretrained(
    'skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', unk_token='</s>', pad_token='</s>',
    padding_side="right",
    model_max_length=512,
)

with NaiveStrategy().model_init_context():
        model = GPTRM_custom(pretrained='skt/kogpt2-base-v2', lora_rank=0, tokenizer=tokenizer)

### 3-4 Ranking dataset

In [4]:
with open('/Users/kenny_jung/aiffel/data/KoChatGPT/data_kochatgpt/kochatgpt_2_RM.jsonl', "r", encoding='utf-8-sig') as json_file:
    list_data_dict = json.load(json_file)

total_data_ranking2chosen = []
for tmp in list_data_dict:
    one_data_ranking2chosen = []

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][0] < tmp['ranking'][1]:
        data['chosen'] = tmp['completion_0']
        data['rejected'] = tmp['completion_1']
    else:
        data['chosen'] = tmp['completion_1']
        data['rejected'] = tmp['completion_0']
    one_data_ranking2chosen.append(data)

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][0] < tmp['ranking'][2]:
        data['chosen'] = tmp['completion_0']
        data['rejected'] = tmp['completion_2']
    else:
        data['chosen'] = tmp['completion_2']
        data['rejected'] = tmp['completion_0']
    one_data_ranking2chosen.append(data)

    data = {}
    data['prompt'] = tmp['prompt']
    if tmp['ranking'][1] < tmp['ranking'][2]:
        data['chosen'] = tmp['completion_1']
        data['rejected'] = tmp['completion_2']
    else:
        data['chosen'] = tmp['completion_2']
        data['rejected'] = tmp['completion_1']
    one_data_ranking2chosen.append(data)



    total_data_ranking2chosen.extend(one_data_ranking2chosen)

print('before data num: %d'%(len(list_data_dict)))
print('after  data num: %d'%(len(total_data_ranking2chosen)))
print('data example: \n%s'%total_data_ranking2chosen[100])

before data num: 10220
after  data num: 30660
data example: 
{'prompt': '차는 앞에 세워놔도 되죠?', 'chosen': '저는 AI 가 차량운전관련 미관없는 대화를 하는 것을 지양하고 있습니다. 차량 주차에 대한 정확한 정보를 입력하시면 그에 따른 답변을 드리도록 하겠습니다.', 'rejected': '가능합니다. 단, 뒤에 앉는 승객이 충분한 공간을 보장받을 수 있을 정도로 적절히 떨어져야 합니다.'}


### 3-5 Shuffle and ranking dataset

In [5]:
import random
random.seed(230319)
random.shuffle(total_data_ranking2chosen)
print(total_data_ranking2chosen[45])

{'prompt': '유아인이 류승완 감독을 만나 영화 베테랑의 시나리오를 받았던 곳은?', 'chosen': '유아인이 류승완 감독을 만나 영화 베테랑의 시나리오를 받았던 곳은 류승완의 사무실입니다.', 'rejected': '대구 영화사옥'}


In [6]:
train_data = total_data_ranking2chosen[:1000] 
eval_data = total_data_ranking2chosen[1000:1200]

print(len(train_data))
print(len(eval_data))

train_dataset = RewardDataset(train_data, tokenizer, 512)
eval_dataset = RewardDataset(eval_data, tokenizer, 512)

1000
200


  0%|          | 0/1000 [00:00<?, ?it/s]

100%|██████████| 1000/1000 [00:00<00:00, 2556.77it/s]
100%|██████████| 200/200 [00:00<00:00, 2695.46it/s]


In [7]:
idx = 1
print('#'*70)
print('## prompt ##')
print(train_data[idx]['prompt'])
print('#'*70)
print('## chosen ##')
print(train_data[idx]['chosen'])
print('#'*70)
print('## rejected ##')
print(train_data[idx]['rejected'])

######################################################################
## prompt ##
흑고래의 무게는 어느 정도야
######################################################################
## chosen ##
흑고래의 평균 몸무게는 약 25~40톤 정도이지만, 최대 몸무게는 50톤 이상에 이를 수 있습니다.
######################################################################
## rejected ##
흑고래의 무게는 매우 다양하게 달라집니다. 약 200kg에서 10톤까지 달라질 수 있습니다.


### 3-6 RM training

In [8]:
device = torch.device("mps") if torch.backends.mps.is_available() else "cpu"
print(f"device: {device}")

device: mps


In [10]:
trainer = RewardModelTrainer(model=model,
                             strategy=NaiveStrategy(),
                             optim=Adam(model.parameters(), lr=5e-5),
                             train_dataset=train_dataset,
                             eval_dataset=eval_dataset,
                             batch_size=4,
                             max_epochs=1,
                             device=device)

In [11]:
trainer.fit(use_lora=0)
model.save_pretrained('/Users/kenny_jung/aiffel/data/KoChatGPT/output_2_RM')

Train epoch:   0%|          | 0/1 [00:00<?, ?it/s]loc("mps_reshape_2"("(mpsFileLoc): /AppleInternal/Library/BuildRoots/4e1473ee-9f66-11ee-8daf-cedaeb4cabe2/Library/Caches/com.apple.xbs/Sources/MetalPerformanceShadersGraph/mpsgraph/MetalPerformanceShadersGraph/Core/Files/MPSGraphUtilities.mm":303:0)): error: 'anec.reshape' op failed: input tensor dimensions are not supported on ANEs.
loc("Cast back to bool"("(mpsFileLoc): /AppleInternal/Library/BuildRoots/4e1473ee-9f66-11ee-8daf-cedaeb4cabe2/Library/Caches/com.apple.xbs/Sources/MetalPerformanceShadersGraph/mpsgraph/MetalPerformanceShadersGraph/Core/Files/MPSGraphUtilities.mm":745:0)): error: 'anec.gain_offset_control' op result #0 must be 4D/5D memref of 16-bit float or 8-bit signed integer or 8-bit unsigned integer values, but got 'memref<1x1x512x512xi1>'
Train epoch:   0%|          | 0/1 [04:00<?, ?it/s]


KeyboardInterrupt: 


[A

[A[A

AssertionError: Torch not compiled with CUDA enabled