# Data Processing

## Open Domain conversation task for Data Processing

### dataset : https://github.com/songys/Chatbot_data

In [1]:
import sentencepiece as spm
import pandas as pd
import numpy as np

train_data = pd.read_csv('./chatbot_data/dataset/ChatbotData.csv')
train_data.head()

Unnamed: 0,Q,A,label
0,12시 땡!,하루가 또 가네요.,0
1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0
3,3박4일 정도 놀러가고 싶다,여행은 언제나 좋죠.,0
4,PPL 심하네,눈살이 찌푸려지죠.,0


In [43]:
import re

## a Voacb create with sentence piece

### Sentence Piece : A simple and language indepemdent sub tokenizer and detokenizer for Neural Text Processing

### * Taku Kudo, John Richardson, Google

RNN은 기본적으로 vocab의 크기가 계산량에 영향을 주고 있슴. 따라서 적당한 크기의 vocab을 사용하고 이때 문제가 많이 발생한다. 우리는 vocab을 만들때 미등록 단어가 발생하고 실제로 해당 단어가 들어왔을 시 UNK token으로 대체하게 된다. 이 과정에서 정보 손실이 발생하며 성능 문제가 일어날 수 있다. 이런 점을 보완하고자 sentencepiece를 tokenizer로 사용하고자 한다. sentencepiece의 기본 아이디어는 word의 subword로 모든 단어를 표현하고자 하는 것이다. 이때 사용하는게 단어들의 빈도수를 사용해 subword로 나눌지 말지를 판단한다.

In [4]:
corpus = "./chatbot_data/dataset/chit-chat_corpus.txt"
prefix = 'chatbot'
vocab_size = 16000
spm.SentencePieceTrainer.train(
    f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size + 7}"+
    " --model_type=bpe" +
    " --max_sentence_length=999999" + # max sentence length
    " --pad_id=0 --pad_piece=[PAD]" + # pad(0)
    " --unk_id=1 --unk_piece=[UNK]" + # unknown(1)
    " --bos_id=2 --bos_piece=[BOS]" + # begin of sequence(2)
    " --eos_id=3 --eos_piece=[EOS]" + # end of sequence(3)
    " --user_defined_symbols=[SEP],[CLS],[MASK]") # user define token

## Load & Test

In [7]:
vocab_file = "chatbot.model"
vocab = spm.SentencePieceProcessor()
vocab.load(vocab_file)
line = "3박4일 정도 놀러가고 싶다"
pieces = vocab.encode_as_pieces(line)
ids = vocab.encode_as_ids(line)


print(line)
print(pieces)
print(ids)

3박4일 정도 놀러가고 싶다
['▁3', '박', '4', '일', '▁정도', '▁놀러가고', '▁싶다']
[473, 15432, 15399, 14972, 982, 3503, 201]


In [8]:
import os
import sys
import json
import torch
import random
import torch.utils.data as data
import numpy as np
import pandas as pd

from torch.autograd import Variable
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

from tqdm import tqdm
from tqdm import trange

import torch.nn.functional as F
# import torch.utils.transboard import SummaryWriter

from src.model import save

In [9]:
class Processing:
    
    def __init__(self, max_len = 20):
        self.max_len = max_len
        self.PAD = 0
        
    def pad_idx_sequencing(self, q_vec):
        q_len = len(q_vec)
        diff_len = q_len - self.max_len
        
        if(diff_len > 0):
            q_vec = q_vec[:self.max_len]
            q_len = self.max_len

        else:
            pad_vac = [0] * abs(diff_len)
            q_vec += pad_vac
            
        return q_vec
    
    def make_batch(self):
        pass
    

In [10]:
class ChitChatDataset(data.Dataset):
    def __init__(self, x_tensor, y_tensor, labels):
        super(ChitChatDataset, self).__init__()
        
        self.x = x_tensor
        self.y = y_tensor
        self.labels = labels
        
    def __getitem__(self, index):
        return self.x[index], self.y[index], self.labels[index]
    
    def __len__(self):
        return len(self.x)
    

In [16]:
class MakeDataset:
    def __init__(self):
        
        self.chitchat_data_dir = './chatbot_data/dataset/ChatbotData.csv'
        
        self.prep = Processing()
        vocab_file = 'chatbot.model'
        self.transformers_tokenizer = spm.SentencePieceProcessor()
        self.transformers_tokenizer.load(vocab_file)
        
    def encode_dataset(self, dataset):
        token_dataset = []
        for data in dataset:
            token_dataset.append( [2] + self.transformers_tokenizer.encode_as_ids(data) + [3])
        return token_dataset
    
    def make_chitchat_dataset(self, train_ratio = 0.8):
        chitchat_dataset = pd.read_csv(self.chitchat_data_dir)
        Qs = chitchat_dataset['Q'].tolist()
        As = chitchat_dataset['A'].tolist()
        label = chitchat_dataset['label'].tolist()
        
        Qs = self.encode_dataset(Qs)
        As = self.encode_dataset(As)
        
        self.prep.max_len = 40
        
        x, y = [], []
        for q, a in zip(Qs, As):
            x.append(self.prep.pad_idx_sequencing(q))
            y.append(self.prep.pad_idx_sequencing(a))
            
        x = torch.tensor(x)
        y = torch.tensor(y)
        x_len = x.size()[0]
        train_size = int(x_len * train_ratio)
        
        if(train_ratio == 1.0):
            train_x = x[:train_size]
            train_y = y[:train_size]
            train_label = label[:train_size]
            train_dataset = ChitChatDataset(train_x, train_y, train_label)
            return train_dataset, None
        
        else:
            train_x = x[:train_size]
            train_y = y[:train_size]
            train_label = label[:train_size]
            
            test_x = x[train_size:]
            test_y = y[train_size:]
            test_label = label[train_size:]
            
            train_dataset = ChitChatDataset(train_x, train_y, train_label)
            test_dataset = ChitChatDataset(test_x, test_y, test_label)
            
            return train_dataset, test_dataset
            

In [17]:
dataset = MakeDataset()

train_dataset, test_dataset = dataset.make_chitchat_dataset(1.0)

train_dataloader = DataLoader(train_dataset, batch_size = 128, shuffle = True)
#test_dataloader = DataLoader(test_dataset, batch_size = 128, shuffle = True)

# Attention Is All You Need
## * Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
### tensorflow transformer chatbot code : https://blog.tensorflow.org/2019/05/transformer-chatbot-tutorial-with-tensorflow-2.html

In [18]:
from torch.nn import Transformer
from torch import nn
import torch
import math
from tqdm import tqdm

In [20]:
class Tformer(nn.Module):
    def __init__(self, num_tokens, dim_model, num_heads, dff, num_layers, dropout_p=0.5):
        super(Tformer, self).__init__()
        self.transformer = Transformer(dim_model, num_heads, dim_feedforward=dff, num_encoder_layers=num_layers, num_decoder_layers=num_layers,dropout=dropout_p)
        self.pos_encoder = PositionalEncoding(dim_model, dropout_p)
        self.encoder = nn.Embedding(num_tokens, dim_model)

        self.pos_encoder_d = PositionalEncoding(dim_model, dropout_p)
        self.encoder_d = nn.Embedding(num_tokens, dim_model)

        self.dim_model = dim_model
        self.num_tokens = num_tokens

        self.linear = nn.Linear(dim_model, num_tokens)

    def generate_square_subsequent_mask(self, sz):
        mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
        mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
        return mask

    def forward(self, src, tgt, srcmask, tgtmask, srcpadmask, tgtpadmask):
        src = self.encoder(src) * math.sqrt(self.dim_model)
        src = self.pos_encoder(src)

        tgt = self.encoder_d(tgt) * math.sqrt(self.dim_model)
        tgt = self.pos_encoder_d(tgt)

        output = self.transformer(src.transpose(0,1), tgt.transpose(0,1), srcmask, tgtmask, src_key_padding_mask=srcpadmask, tgt_key_padding_mask=tgtpadmask)
        output = self.linear(output)
        return output


In [22]:
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len = 5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p = dropout)
        
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + self.pe[:x.size(0), :]
        return self.dropout(x)

In [52]:
def gen_attention_mask(x):
    mask = torch.eq(x, 0)
    return mask

In [25]:
model = Tformer(
    num_tokens = vocab_size + 7, dim_model = 256, num_heads = 8, dff = 512, num_layers = 2, dropout_p = 0.1
).cuda()

In [27]:
lr = 1e-4
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = lr)
MAX_LENGTH = 40

In [32]:
epoch = 70
save_dir = './chatbot_data/pretraining/4_chitchat_trasnformer_model/'
save_prefix = 'chitchat_transformer'
prev_loss_all = float('inf')
train_steps = 0
test_stpes = 0
model.train()

for i in range(epoch):
    batchloss = 0.0
    progress = tqdm(train_dataloader)
    for(inputs, y, _) in progress:
        optimizer.zero_grad()
        
        dec_inputs = y[:, :-1]
        outputs = y[:,1:]
        
        src_mask = model.generate_square_subsequent_mask(MAX_LENGTH).cuda()
        src_padding_mask = gen_attension_mask(inputs).cuda()
        tgt_mask = model.generate_square_subsequent_mask(MAX_LENGTH-1).cuda()
        tgt_padding_mask = gen_attension_mask(dec_inputs).cuda()
        
        result = model(inputs.long().cuda(), dec_inputs.long().cuda(), src_mask, tgt_mask, src_padding_mask, tgt_padding_mask)
        loss = criterion(result.permute(1,2,0), outputs.long().cuda())
        progress.set_description("{:0.3f}".format(loss))
        
        train_steps += 1
        loss.backward()
        optimizer.step()
        batchloss += loss
        
    print("train epoch : ",i+1, "|","loss : ",batchloss.cpu().item() / len(train_dataloader))

0.252: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.40it/s]


train epoch :  1 | loss :  0.2763528106033161


0.280: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.71it/s]


train epoch :  2 | loss :  0.2695575837166079


0.279: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.64it/s]


train epoch :  3 | loss :  0.2634617179952642


0.285: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.60it/s]


train epoch :  4 | loss :  0.2570837082401399


0.251: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.61it/s]


train epoch :  5 | loss :  0.25099984035697037


0.196: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.60it/s]


train epoch :  6 | loss :  0.24424312960716985


0.250: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.61it/s]


train epoch :  7 | loss :  0.23843057693973665


0.226: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.60it/s]


train epoch :  8 | loss :  0.23250397302771128


0.268: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.61it/s]


train epoch :  9 | loss :  0.22735692096012894


0.238: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.60it/s]


train epoch :  10 | loss :  0.22086248090190272


0.200: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.53it/s]


train epoch :  11 | loss :  0.21477358828308762


0.236: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.63it/s]


train epoch :  12 | loss :  0.20952038098407047


0.219: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.12it/s]


train epoch :  13 | loss :  0.20389450237315188


0.195: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.14it/s]


train epoch :  14 | loss :  0.19887017691007225


0.216: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.45it/s]


train epoch :  15 | loss :  0.1931244634812878


0.200: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.87it/s]


train epoch :  16 | loss :  0.18823123234574513


0.162: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.48it/s]


train epoch :  17 | loss :  0.18272319916755922


0.177: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.44it/s]


train epoch :  18 | loss :  0.17820811528031544


0.175: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.46it/s]


train epoch :  19 | loss :  0.17324863967075144


0.212: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.98it/s]


train epoch :  20 | loss :  0.16830010567941972


0.191: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.20it/s]


train epoch :  21 | loss :  0.1636394275132046


0.155: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.99it/s]


train epoch :  22 | loss :  0.15899810996106875


0.132: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.18it/s]


train epoch :  23 | loss :  0.1543963852749076


0.153: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.21it/s]


train epoch :  24 | loss :  0.15005028632379347


0.140: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.71it/s]


train epoch :  25 | loss :  0.1466256828718288


0.152: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.18it/s]


train epoch :  26 | loss :  0.14135238688479188


0.122: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.14it/s]


train epoch :  27 | loss :  0.138052858332152


0.123: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.98it/s]


train epoch :  28 | loss :  0.13322323624805738


0.121: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.92it/s]


train epoch :  29 | loss :  0.12960755953224756


0.150: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.16it/s]


train epoch :  30 | loss :  0.12598404833065566


0.126: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.12it/s]


train epoch :  31 | loss :  0.12270651581466839


0.119: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.00it/s]


train epoch :  32 | loss :  0.11848138993786227


0.118: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.22it/s]


train epoch :  33 | loss :  0.11558063055879327


0.123: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.25it/s]


train epoch :  34 | loss :  0.11177829004103138


0.106: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.93it/s]


train epoch :  35 | loss :  0.10842477121660786


0.124: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.25it/s]


train epoch :  36 | loss :  0.10476181071291688


0.112: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.14it/s]


train epoch :  37 | loss :  0.10215080425303469


0.107: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.20it/s]


train epoch :  38 | loss :  0.09886711899952222


0.104: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.09it/s]


train epoch :  39 | loss :  0.09651817813996345


0.084: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:09<00:00,  9.55it/s]


train epoch :  40 | loss :  0.09306544642294606


0.090: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.30it/s]


train epoch :  41 | loss :  0.09015446324502269


0.080: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.47it/s]


train epoch :  42 | loss :  0.08726144606067289


0.080: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.57it/s]


train epoch :  43 | loss :  0.08489986132549983


0.072: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.61it/s]


train epoch :  44 | loss :  0.081668822996078


0.082: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.65it/s]


train epoch :  45 | loss :  0.07967700240432575


0.079: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.62it/s]


train epoch :  46 | loss :  0.07715594383978075


0.084: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:12<00:00,  7.68it/s]


train epoch :  47 | loss :  0.07535171508789062


0.076: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:08<00:00, 10.90it/s]


train epoch :  48 | loss :  0.07273582745623845


0.068: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.23it/s]


train epoch :  49 | loss :  0.07026692872406334


0.063: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.16it/s]


train epoch :  50 | loss :  0.06854471083610289


0.071: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 11.98it/s]


train epoch :  51 | loss :  0.0659976928464828


0.057: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.31it/s]


train epoch :  52 | loss :  0.06445241230790333


0.050: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.08it/s]


train epoch :  53 | loss :  0.062048491611275625


0.058: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.38it/s]


train epoch :  54 | loss :  0.06047274989466513


0.057: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.40it/s]


train epoch :  55 | loss :  0.0584888663343204


0.058: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.42it/s]


train epoch :  56 | loss :  0.05695457355950468


0.057: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.20it/s]


train epoch :  57 | loss :  0.05533288627542475


0.057: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.34it/s]


train epoch :  58 | loss :  0.053682440070695774


0.060: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.55it/s]


train epoch :  59 | loss :  0.05183704437748078


0.069: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.50it/s]


train epoch :  60 | loss :  0.05067741742698095


0.047: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.50it/s]


train epoch :  61 | loss :  0.0491843992663968


0.048: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.35it/s]


train epoch :  62 | loss :  0.047938700645200664


0.056: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.38it/s]


train epoch :  63 | loss :  0.04586177231163107


0.053: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.31it/s]


train epoch :  64 | loss :  0.04480537804224158


0.043: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.31it/s]


train epoch :  65 | loss :  0.04355938203873173


0.038: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.39it/s]


train epoch :  66 | loss :  0.041900006673669304


0.038: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.21it/s]


train epoch :  67 | loss :  0.040946158029699836


0.038: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.13it/s]


train epoch :  68 | loss :  0.039451542720999766


0.042: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.17it/s]


train epoch :  69 | loss :  0.03855082040191979


0.035: 100%|███████████████████████████████████████████████████████████████████████████| 93/93 [00:07<00:00, 12.46it/s]

train epoch :  70 | loss :  0.03776110628599762





In [33]:
loss

tensor(0.0354, device='cuda:0', grad_fn=<NllLoss2DBackward0>)

In [34]:
save(model, save_dir, save_prefix + "_" + str(round(loss.cpu().item(), 6)), i)

In [47]:
def preprocess_sentence(sentence):
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = sentence.strip()
    return sentence

In [48]:
def evaluate(sentence):
    sentence = preprocess_sentence(sentence)
    input = torch.tensor([[2] + vocab.encode_as_ids(sentence) + [3]]).cuda()
    output = torch.tensor([[2]]).cuda()

    # 디코더의 예측 시작
    model.eval()
    for i in range(MAX_LENGTH):
        src_mask = model.generate_square_subsequent_mask(input.shape[1]).cuda()
        tgt_mask = model.generate_square_subsequent_mask(output.shape[1]).cuda()

        src_padding_mask = gen_attention_mask(input).cuda()
        tgt_padding_mask = gen_attention_mask(output).cuda()

        predictions = model(input, output, src_mask, tgt_mask, src_padding_mask, tgt_padding_mask).transpose(0,1)
        # 현재(마지막) 시점의 예측 단어를 받아온다.
        predictions = predictions[:, -1:, :]
        predicted_id = torch.LongTensor(torch.argmax(predictions.cpu(), axis=-1))


        # 만약 마지막 시점의 예측 단어가 종료 토큰이라면 예측을 중단
        if torch.equal(predicted_id[0][0], torch.tensor(3)):
            break

        # 마지막 시점의 예측 단어를 출력에 연결한다.
        # 이는 for문을 통해서 디코더의 입력으로 사용될 예정이다.
        output = torch.cat([output, predicted_id.cuda()], axis=1)

    return torch.squeeze(output, axis=0).cpu().numpy()


In [49]:
def predict(sentence):
    prediction = evaluate(sentence)
    predicted_sentence = vocab.Decode(list(map(int,[i for i in prediction if i < vocab_size+7])))

    print('Input: {}'.format(sentence))
    print('Output: {}'.format(predicted_sentence))

    return predicted_sentence

In [50]:
model.load_state_dict(torch.load('./chatbot_data/pretraining/4_chitchat_trasnformer_model/chitchat_transformer_0.035401_steps_69.pt'))

model.eval()

Tformer(
  (transformer): Transformer(
    (encoder): TransformerEncoder(
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
          )
          (linear1): Linear(in_features=256, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (linear2): Linear(in_features=512, out_features=256, bias=True)
          (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (dropout1): Dropout(p=0.1, inplace=False)
          (dropout2): Dropout(p=0.1, inplace=False)
        )
        (1): TransformerEncoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
          )
          (linear1): Linear(in_features=256, out_

In [53]:
result = predict('난 뭘 해야 할까?')

Input: 난 뭘 해야 할까?
Output: 신경쓰지 말고 직접 힘들 수도 원하는 해봐요.


In [54]:
result = predict('힘들다')

Input: 힘들다
Output: 세상에 쉬운 일은 아니었나봐요.


In [55]:
result = predict('난 혼자인게 싫어')

Input: 난 혼자인게 싫어
Output: 사랑해주는 사람이 있을 거예요.


In [56]:
result = predict('뭐가 좋을까?')

Input: 뭐가 좋을까?
Output: 아무래도 확실한 의사는게 좋겠어요.


In [57]:
result = predict('재밌다')

Input: 재밌다
Output: 저도 저도 즐거워요


In [58]:
result = predict('뭐야')

Input: 뭐야
Output: 기분이 좀 풀렸길하지 말고 자신이 시작할 수 있다면 연락해보세요.
