# Data Processing

In [1]:
## Entity recognition task 

In [3]:
import os
import sys
import json
import torch
import random

import numpy as np
import pandas as pd
import torch.nn as nn
import torch.nn.functional as F
import torch.utils.data as data

from tqdm import tqdm
from tqdm import trange

from torchcrf import CRF

from torch.autograd import Variable
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

from src.dataset import Preprocessing
from src.model import EpochLogger, MakeEmbed, save

'''
PyTorch의 TensorDataset은 기본적으로 x[index], y[index]를 제공합니다.
그 외에 추가로 제공하고 싶은게 있으면 아래와 같이 커스텀이 가능합니다.
여기서는 입력되는 문장의 길이를 제공 받아야해서 아래와 같이 커스텀을 하였습니다.
'''

'\nPyTorch의 TensorDataset은 기본적으로 x[index], y[index]를 제공합니다.\n그 외에 추가로 제공하고 싶은게 있으면 아래와 같이 커스텀이 가능합니다.\n여기서는 입력되는 문장의 길이를 제공 받아야해서 아래와 같이 커스텀을 하였습니다.\n'

In [4]:
class EntityDataset(data.Dataset):
    def __init__(self, x_tensor, y_tensor, lengths):
        super(EntityDataset, self).__init__()
        
        self.x = x_tensor
        self.y = y_tensor
        self.lengths = lengths
    
    def __getitem__(self, index):
        return self.x[index], self.y[index], self.lengths[index]
    
    def __len__(self):
        return len(self.x)

In [14]:
class MakeDataset:
    def __init__(self):
        
        self.entity_label_dir = './chatbot_data/dataset/entity_label.json'
        self.entity_data_dir = './chatbot_data/dataset/entity_data.csv'
        
        self.entity_label = self.load_entity_label()
        self.prep = Preprocessing()
        
    def load_entity_label(self):
        f = open(self.entity_label_dir, encoding = 'UTF-8')
        entity_label = json.loads(f.read())
        self.entitys = list(entity_label.keys())
        return entity_label
    
    def tokenize(self, sentence):
        return sentence.split()
    
    def tokenize_dataset(self, dataset):
        token_dataset = []
        for data in dataset:
            token_dataset.append(self.tokenize(data))
        return token_dataset
    
    def make_entity_dataset(self, embed):
        entity_dataset = pd.read_csv(self.entity_data_dir)
        entity_querys = self.tokenize_dataset(entity_dataset['question'].tolist())
        labels = []
        for label in entity_dataset['label'].to_list():
            temp = []
            for entity in label.split():
                temp.append(self.entity_label[entity])
            labels.append(temp)
        dataset = list(zip(entity_querys, labels))
        entity_train_dataset, entity_test_dataset = self.word2idx_dataset(dataset, embed)
        return entity_train_dataset, entity_test_dataset
    
    def word2idx_dataset(self, dataset, embed, train_ratio=0.8):
        embed_dataset = []
        question_list, label_list, lengths = [], [], []
        flag = True
        random.shuffle(dataset)
        for query, label in dataset:
            q_vec = embed.query2idx(query)
            lengths.append(len(q_vec))
            
            q_vec = self.prep.pad_idx_sequencing(q_vec)
            
            question_list.append(torch.tensor([q_vec]))
            
            label = self.prep.pad_idx_sequencing(label)
            label_list.append(label)
            flag = False
            
        x = torch.cat(question_list)
        y = torch.tensor(label_list)
        
        x_len = x.size()[0]
        y_len = y.size()[0]
        if(x_len == y_len):
            train_size = int(x_len * train_ratio)
            
            train_x = x[:train_size]
            train_y = y[:train_size]
            
            test_x = x[train_size+1:]
            test_y = y[train_size+1:]
            
            train_length = lengths[:train_size]
            test_length = lengths[:train_size]
            
            train_dataset = EntityDataset(train_x, train_y, train_length)
            test_dataset = EntityDataset(test_x, test_y, test_length)
            
            return train_dataset, test_dataset
        
        else:
            print('ERROR x!=y')

In [15]:
dataset = MakeDataset()

In [16]:
'''
Inside, Out, Begin, End, Single
IO : TAG 라면 I , 아니면 O로 TAG
BIO : TAG의 길이가 2이상이면 첫 번째 단어는 B를 붙임 그 뒤의 단어들은 I를 붙임
BIOES : BIO에서 단어의 길이가 3이상인 단어는 마지막 단어에 E를 붙임, 그리고 단어의 길이가 1이라면 S를 붙임
S : 단독
B : 복합의 시작 -> 단독 사용 불가
I : 복합의 중간 -> 단독 사용 불가
E : 복힙의 끝 -> 단독 사용 불가
O : 의미 없음
'''
dataset.entity_label

{'O': 0,
 'B-DATE': 1,
 'B-LOCATION': 2,
 'B-PLACE': 3,
 'B-RESTAURANT': 4,
 'E-DATE': 5,
 'E-LOCATION': 6,
 'E-PLACE': 7,
 'E-RESTAURANT': 8,
 'I-DATE': 9,
 'I-RESTAURANT': 10,
 'S-DATE': 11,
 'S-LOCATION': 12,
 'S-PLACE': 13,
 'S-RESTAURANT': 14,
 '<START_TAG>': 15,
 '<STOP_TAG>': 16}

In [17]:
entity_dataset = pd.read_csv(dataset.entity_data_dir)

entity_dataset.head()

Unnamed: 0,question,label
0,야 먼지 알려주겠니,O O O
1,아니 먼지 정보 알려주세요,O O O O
2,그 때 미세먼지 어떨까,O O O O
3,그 때 먼지 좋으려나,O O O O
4,미세먼지 어떨 것 같은데,O O O O


In [18]:
entity_dataset.groupby(['label']).count()

Unnamed: 0_level_0,question
label,Unnamed: 1_level_1
B-DATE E-DATE B-LOCATION E-LOCATION O O,4
B-DATE E-DATE O,6
B-DATE E-DATE O B-LOCATION E-LOCATION O O O O,1
B-DATE E-DATE O O,42
B-DATE E-DATE O O O,31
...,...
S-RESTAURANT O S-LOCATION O O,4
S-RESTAURANT O S-RESTAURANT O,3
S-RESTAURANT S-LOCATION O,1
S-RESTAURANT S-LOCATION O O O,1


# Bidirctional LSTM - CRF Models for sequence Tagging

In [24]:
class BiLSTM_CRF(nn.Module):
    
    def __init__(self, w2v, tag_to_ix, hidden_dim, batch_size):
        super(BiLSTM_CRF, self).__init__()
        self.embedding_dim = w2v.size()[1]
        self.hidden_dim = hidden_dim
        self.vocab_size = w2v.size()[0]
        self.tag_to_ix = tag_to_ix
        self.tagset_size = len(tag_to_ix)
        self.batch_size = batch_size
        self.START_TAG = "<START_TAG>"
        self.STOP_TAG = "<STOP_TAG>"
        
        self.word_embeds = nn.Embedding(self.vocab_size+2, self.embedding_dim)
        self.word_embeds.weight[2:].data.copy_(w2v)
        # self.word_embeds.weight.requires_grad = False
        
        # LSTM Parameter Define
        # bidirectional : 2 way LSTM
        # num_layers : layer count
        # batch_first : pytorch LSTM input default value : (Length, batch, Hidden) line  then change the (batch, Length, Hidden)
        # nn.LSTM(input_size, hidden_size, batch_first, num_layers)
        # hidden_size = hidden_dim // reason the 2 because bidirectional = True
        self.lstm = nn.LSTM(self.embedding_dim, hidden_dim // 2 , batch_first = True, num_layers = 1, bidirectional = True )
        
        # LSTM output : Tag position 
        self.hidden2tag = nn.Linear(hidden_dim, self.tagset_size)
        
        self.hidden = self.init_hidden()
        
        # ouputing : rule train CRF setting
        self.crf = CRF(self.tagset_size, batch_first = True)
        
    def init_hidden(self): #(h,c)
        return (torch.randn(2, self.batch_size, self.hidden_dim // 2),
                torch.randn(2, self.batch_size, self.hidden_dim // 2))
    
    def forward(self, sentence):
        # Bi-LSTM : output score get
        self.batch_size = sentence.size()[0]
        self.hidden = self.init_hidden()
        
        #(2, 128, 128), (2, 128, 128)
        embeds = self.word_embeds(sentence)
        
        #(128, 20, 300)
        lstm_out, self.hidden = self.lstm(embeds, self.hidden)
        
        #(128, 20, 256), ((2, 128, 128), (2, 128, 128))
        lstm_feats = self.hidden2tag(lstm_out) # (batch, length, tagset_size)
        
        #(128, 20, 17)
        return lstm_feats
    
    def decode(self, logits, mask):
        """
        Viterbi Decoding의 구현체입니다.
        CRF 레이어의 출력을 prediction으로 변형합니다.
        :param logits: 모델의 출력 (로짓)
        :param mask: 마스킹 벡터
        :return: 모델의 예측 (prediction)
        
        각 단어의 자리마다
          word 1의 태그 확률        |  word2의 태그 확률
         'O': 확률0,              | 'O': 확률A,
         'B-DATE': 확률1,         | 'B-DATE': 확률B
         'B-LOCATION': 확률2,     | 'B-LOCATION': 확률C,
         'B-PLACE': 확률3,        | 'B-PLACE': 확률D,  
         'B-RESTAURANT': 확률4,   | 'B-RESTAURANT': 확률E,  
         'E-DATE': 확률5,         | 'E-DATE': 확률F,   
         'E-LOCATION': 확률6,     | 'E-LOCATION': 확률G, 
         'E-PLACE': 확률7,        | 'E-PLACE': 확률H,  
         'E-RESTAURANT': 확률8,   | 'E-RESTAURANT': 확률I, 
         'I-DATE': 확률9,         | 'I-DATE': 확률J,    
         'I-RESTAURANT': 확률10,  | 'I-RESTAURANT': 확률K,
         'S-DATE': 확률11,        | 'S-DATE': 확률L,      
         'S-LOCATION': 확률12,    | 'S-LOCATION': 확률M,
         'S-PLACE': 확률13,       | 'S-PLACE': 확률N,  
         'S-RESTAURANT': 확률14,  | 'S-RESTAURANT': 확률O,
         '<START_TAG>': 확률15,   | '<START_TAG>': 확률P, 
         '<STOP_TAG>': 확률15,    | '<STOP_TAG>': 확률Q,
         
         각각의 높은 확률을 뽑는 것은 보통의 딥러닝 방식으로 B단독이나 I단독, E단독같은 문제를 야기할 수 있습니다.
         태그들의 확률 값을 받아서 
         CRF는 태그들의 의존성을 학습할수 있어서 태그 시퀀스의 확률이 가장 높은 확률을 가지는 예측 시퀀스를 선택한다.
         그래서 B단독이나 I단독, E단독과 같은 문제를 없애줍니다.
         예를 들어 B-DATE, O 와 같은걸 출력하지 않습니다. (CRF는 S-DATE, O 라고 출력합니다.)
        """
        return self.crf.decode(logits, mask)
    
    def compute_loss(self, label, logits, mask):
        """
        학습을 위한 total loss 계산
        :param label : label
        :param logits : logits
        :param mask : mask vector
        :return : total loss
        """
        
        log_likelihood = self.crf(logits, label, mask = mask, reduction='mean')
        return - log_likelihood  # Negative log likelihood loss

In [20]:
embed = MakeEmbed()
embed.load_word2vec()

entity_train_dataset, entity_test_dataset = dataset.make_entity_dataset(embed)

train_dataloader = DataLoader(entity_train_dataset, batch_size = 128, shuffle = True)

test_dataloader = DataLoader(entity_test_dataset, batch_size = 128, shuffle = True)

In [21]:
entity_train_dataset.x

tensor([[ 75,   9, 139,  ...,   0,   0,   0],
        [405, 133,   0,  ...,   0,   0,   0],
        [428,   2,  56,  ...,   0,   0,   0],
        ...,
        [104, 303, 475,  ...,   0,   0,   0],
        [278, 255,  37,  ...,   0,   0,   0],
        [222, 210,  31,  ...,   0,   0,   0]])

In [22]:
entity_train_dataset.y

tensor([[12,  0, 13,  ...,  0,  0,  0],
        [12,  0,  0,  ...,  0,  0,  0],
        [12,  0,  0,  ...,  0,  0,  0],
        ...,
        [ 0, 12, 14,  ...,  0,  0,  0],
        [11,  0,  0,  ...,  0,  0,  0],
        [12,  4,  8,  ...,  0,  0,  0]])

In [25]:
weights = embed.word2vec.wv.vectors
weights = torch.FloatTensor(weights)

model = BiLSTM_CRF(weights, dataset.entity_label, 256, 128)
optimizer = torch.optim.Adam(model.parameters(), lr = 0.001)

model.train()

BiLSTM_CRF(
  (word_embeds): Embedding(1481, 300)
  (lstm): LSTM(300, 128, batch_first=True, bidirectional=True)
  (hidden2tag): Linear(in_features=256, out_features=17, bias=True)
  (crf): CRF(num_tags=17)
)

# Training

In [28]:
epoch = 5
prev_acc = 0
save_dir = './chatbot_data/pretraining/1_entity_recog_model'
save_prefix = 'entity_recog'
for i in range(epoch):
    steps = 0
    model.train()
    
    with tqdm(train_dataloader, unit="batch") as tepoch:
        for data in tepoch:
            tepoch.set_description(f"Epoch {i}")
            x = data[0]
            y = data[1]
            length = data[2]
            
            logits = model.forward(x)
            # padding 된 부분을 마스킹하기위한 코드
            # 우리는 length값이 존재하여 length값을 이용해서 마스크를 생성해도 가능
            # 하지만 코드 간략화를 위해 pytorch에 where 함수를 이용해 마스크 생성
            # torch.where 함수 설명 : https://runebook.dev/ko/docs/pytorch/generated/torch.where
            mask = torch.where(x > 0, torch.tensor([1.]), torch.tensor([0.])).type(torch.uint8)
            loss = model.compute_loss(y, logits, mask)
            
            loss.backward()
            optimizer.step()
            
            tepoch.set_postfix(loss=loss.item())
    
    model.eval()
    steps = 0
    accuracy_list = []
    
    with tqdm(test_dataloader, unit="batch") as tepoch:
        for data in tepoch:
            tepoch.set_description(f"Epoch {i}")
            x = data[0]
            y = data[1]
            length = data[2]
            
            mask = torch.where(x > 0, torch.tensor([1.]), torch.tensor([0.1])).type(torch.uint8)
            logits = model.forward(x)
            
            predicts = model.decode(logits, mask)
            
            corrects = []
            for target, leng, predict in zip(y, length, predicts):
                corrects.append(target[:leng].tolist() == predict)
                
            accuracy = 100.0 * sum(corrects) / len(corrects)
            accuracy_list.append(accuracy)
            
            loss = model.compute_loss(y, logits, mask)
            tepoch.set_postfix(loss=loss.item(), accuracy = sum(accuracy_list)/len(accuracy_list))
            
        acc = sum(accuracy_list)/len(accuracy_list)
        if(acc>prev_acc):
            prev_acc = acc
            save(model, save_dir, save_prefix+"_"+str(round(acc,3)),i)

Epoch 0: 100%|████████████████████████████████████████████████████████| 125/125 [00:22<00:00,  5.54batch/s, loss=0.462]
Epoch 0: 100%|████████████████████████████████████████████| 32/32 [00:02<00:00, 12.02batch/s, accuracy=20, loss=0.0908]
Epoch 1: 100%|████████████████████████████████████████████████████████| 125/125 [00:23<00:00,  5.29batch/s, loss=0.419]
Epoch 1: 100%|█████████████████████████████████████████| 32/32 [00:02<00:00, 10.94batch/s, accuracy=20.5, loss=0.00626]
Epoch 2: 100%|███████████████████████████████████████████████████████| 125/125 [00:24<00:00,  5.05batch/s, loss=0.0576]
Epoch 2: 100%|███████████████████████████████████████████| 32/32 [00:02<00:00, 11.13batch/s, accuracy=20.9, loss=0.122]
Epoch 3: 100%|████████████████████████████████████████████████████████| 125/125 [00:25<00:00,  4.91batch/s, loss=0.102]
Epoch 3: 100%|███████████████████████████████████████████| 32/32 [00:03<00:00,  9.45batch/s, accuracy=20.7, loss=0.082]
Epoch 4: 100%|██████████████████████████

# Load & Test

In [29]:
model.load_state_dict(torch.load('./chatbot_data/pretraining/1_entity_recog_model/entity_recog_20.89_steps_2.pt'))

model.eval()

BiLSTM_CRF(
  (word_embeds): Embedding(1481, 300)
  (lstm): LSTM(300, 128, batch_first=True, bidirectional=True)
  (hidden2tag): Linear(in_features=256, out_features=17, bias=True)
  (crf): CRF(num_tags=17)
)

In [30]:
%%time
q = '이번 주 날씨'
x = dataset.prep.pad_idx_sequencing(embed.query2idx(dataset.tokenize(q)))

x = torch.tensor(x)
f = model(x.unsqueeze(0))

mask = torch.where(x>0, torch.tensor([1.]), torch.tensor([0.])).type(torch.uint8)

predict = model.decode(f, mask.view(1, -1))

# s : SOLO
# B : duplicate start
# I : duplicate middle
# E : duplicate end

tag = [dataset.entitys[p] for p in predict[0]]
for i, j in zip(q.split(' '), tag):
    print('단어 : '+i+" , "+"태그 : "+j )

단어 : 이번 , 태그 : B-DATE
단어 : 주 , 태그 : E-DATE
단어 : 날씨 , 태그 : O
CPU times: total: 62.5 ms
Wall time: 6.97 ms


In [31]:
%%time
q = '나 내일 제주도 여행 가는데 미세먼지 알려줘'
x = dataset.prep.pad_idx_sequencing(embed.query2idx(dataset.tokenize(q)))

x = torch.tensor(x)
f = model(x.unsqueeze(0))

mask = torch.where(x>0, torch.tensor([1.]), torch.tensor([0.])).type(torch.uint8)

predict = model.decode(f, mask.view(1, -1))

# s : SOLO
# B : duplicate start
# I : duplicate middle
# E : duplicate end

tag = [dataset.entitys[p] for p in predict[0]]
for i, j in zip(q.split(' '), tag):
    print('단어 : '+i+" , "+"태그 : "+j )

단어 : 나 , 태그 : O
단어 : 내일 , 태그 : S-DATE
단어 : 제주도 , 태그 : S-LOCATION
단어 : 여행 , 태그 : O
단어 : 가는데 , 태그 : O
단어 : 미세먼지 , 태그 : O
단어 : 알려줘 , 태그 : O
CPU times: total: 0 ns
Wall time: 5.98 ms
