In [61]:
import traceback
import numpy as np
import json
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from pytorch_lightning import Trainer
from pytorch_lightning.callbacks import ModelCheckpoint
from torch.utils.data import DataLoader, Dataset
import re, os
from tqdm import tqdm

Q_TKN = "<usr>"
A_TKN = "<sys>"
BOS = "</s>"
EOS = "</s>"
MASK = "<unused0>"
SENT = "<unused1>"
PAD = "<pad>"

save_dir = "saved_models"
os.makedirs(save_dir, exist_ok=True)

tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-small")
model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-small")

In [62]:
class ChatbotDataset(Dataset):
    def __init__(self, chats, max_len=40):  # 데이터셋의 전처리를 해주는 부분
        self._data = chats
        self.max_len = max_len
        self.q_token = Q_TKN
        self.a_token = A_TKN
        self.sent_token = SENT
        self.eos = EOS
        self.mask = MASK
        self.tokenizer = tokenizer

    def __len__(self):  # chatbotdata 의 길이를 리턴한다.
        return len(self._data)

    def __getitem__(self, idx):  # 로드한 챗봇 데이터를 차례차례 DataLoader로 넘겨주는 메서드
        turn = self._data[idx]

        q = turn["Q"]  # 질문을 가져온다.
        q = re.sub(r"([?.!,])", r" ", q)  # 구둣점들을 제거한다.

        a = turn["A"]  # 답변을 가져온다.
        a = re.sub(r"([?.!,])", r" ", a)  # 구둣점들을 제거한다.
        
        q_toked = self.tokenizer.tokenize(self.q_token + q + self.sent_token)
        q_len = len(q_toked)

        a_toked = self.tokenizer.tokenize(self.a_token + a + self.eos)
        a_len = len(a_toked)

        # 질문의 길이가 최대길이보다 크면
        if q_len > self.max_len:
            a_len = self.max_len - q_len  # 답변의 길이를 최대길이 - 질문길이
            if a_len <= 0:  # 질문의 길이가 너무 길어 질문만으로 최대 길이를 초과 한다면
                q_toked = q_toked[-(int(self.max_len / 2)) :]  # 질문길이를 최대길이의 반으로
                q_len = len(q_toked)
                a_len = self.max_len - q_len  # 답변의 길이를 최대길이 - 질문길이
            a_toked = a_toked[:a_len]
            a_len = len(a_toked)

        # 질문의 길이 + 답변의 길이가 최대길이보다 크면
        if q_len + a_len > self.max_len:
            a_len = self.max_len - q_len  # 답변의 길이를 최대길이 - 질문길이
            if a_len <= 0:  # 질문의 길이가 너무 길어 질문만으로 최대 길이를 초과 한다면
                q_toked = q_toked[-(int(self.max_len / 2)) :]  # 질문길이를 최대길이의 반으로
                q_len = len(q_toked)
                a_len = self.max_len - q_len  # 답변의 길이를 최대길이 - 질문길이
            a_toked = a_toked[:a_len]
            a_len = len(a_toked)

        # 답변 labels = [mask, mask, ...., mask, ..., <bos>,..답변.. <eos>, <pad>....]
        labels = [
            self.mask,
        ] * q_len + a_toked[1:]

        # mask = 질문길이 0 + 답변길이 1 + 나머지 0
        mask = [0] * q_len + [1] * a_len + [0] * (self.max_len - q_len - a_len)
        # 답변 labels을 index 로 만든다.
        labels_ids = self.tokenizer.convert_tokens_to_ids(labels)
        # 최대길이만큼 PADDING
        while len(labels_ids) < self.max_len:
            labels_ids += [self.tokenizer.pad_token_id]

        # 질문 + 답변을 index 로 만든다.
        token_ids = self.tokenizer.convert_tokens_to_ids(q_toked + a_toked)
        # 최대길이만큼 PADDING
        while len(token_ids) < self.max_len:
            token_ids += [self.tokenizer.pad_token_id]

        # 질문+답변, 마스크, 답변
        return (token_ids, np.array(mask), labels_ids)


In [63]:
def collate_batch(batch):
    data = [item[0] for item in batch]
    mask = [item[1] for item in batch]
    label = [item[2] for item in batch]
    
    if not data or not mask or not label:
        print("data:", data, "mask:", mask, "label:", label)

    return torch.LongTensor(data), torch.LongTensor(mask), torch.LongTensor(label)
    

In [64]:
with open("processed/chatdata.json", "r") as f:
    chatbot_data = json.load(f)

In [65]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
train_set = ChatbotDataset(chatbot_data, max_len=40)

train_dataloader = DataLoader(
    train_set,
    batch_size=32,
    num_workers=0,
    shuffle=True,
    collate_fn=collate_batch,
)


model.to(device)

learning_rate = 3e-5
criterion = torch.nn.CrossEntropyLoss(reduction="none")
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

epoch = 10
Sneg = -1e18

try:
    for item in train_dataloader:
        print(item)
except: 
    print(traceback.format_exc())

for epoch in range(epoch):
    dataloader = tqdm(train_dataloader, desc=f"Epoch {epoch}")

    # for batch_idx, samples in enumerate(dataloader):
    #     optimizer.zero_grad()
    #     token_ids, mask, label = samples
    #     token_ids, mask, label = token_ids.to(device), mask.to(device), label.to(device)
    #     out = model(token_ids)
    #     out = out.logits
    #     mask_3d = mask.unsqueeze(dim=2).repeat_interleave(repeats=out.shape[2], dim=2)
    #     mask_out = torch.where(mask_3d == 1, out, Sneg * torch.ones_like(out))
    #     loss = criterion(mask_out.transpose(2, 1), label)
    #     avg_loss = loss.sum() / mask.sum()
    #     avg_loss.backward()
    #     optimizer.step()


# model_save_path = os.path.join(save_dir, "chatbot_model.pt")
# torch.save(
#     {
#         "model_state_dict": model.state_dict(),
#         "optimizer_state_dict": optimizer.state_dict(),
#         "epoch": epoch,
#     },
#     model_save_path,
# )

# print("Model saved at:", model_save_path)

Token indices sequence length is longer than the specified maximum sequence length for this model (1705 > 1024). Running this sequence through the model will result in indexing errors


Traceback (most recent call last):
  File "C:\Users\admin\AppData\Local\Temp\ipykernel_8088\2519630643.py", line 23, in <module>
    for item in train_dataloader:
                ^^^^^^^^^^^^^^^^
  File "c:\Users\admin\Desktop\이용교\12. 프로젝트 I\source\.venv\Lib\site-packages\torch\utils\data\dataloader.py", line 733, in __next__
    data = self._next_data()
           ^^^^^^^^^^^^^^^^^
  File "c:\Users\admin\Desktop\이용교\12. 프로젝트 I\source\.venv\Lib\site-packages\torch\utils\data\dataloader.py", line 789, in _next_data
    data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\admin\Desktop\이용교\12. 프로젝트 I\source\.venv\Lib\site-packages\torch\utils\data\_utils\fetch.py", line 55, in fetch
    return self.collate_fn(data)
           ^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\admin\AppData\Local\Temp\ipykernel_8088\3075186567.py", line 9, in collate_batch
    return torch.LongTensor(data), torch.LongTensor(mask), torch.Lo

Epoch 9:   0%|          | 0/3 [02:13<?, ?it/s]
Epoch 0:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 1:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 2:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 3:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 4:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 5:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 6:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 7:   0%|          | 0/3 [00:00<?, ?it/s]
Epoch 8:   0%|          | 0/3 [00:00<?, ?it/s]
