In [1]:
import os
import re
import random
from tqdm import tqdm
from collections import Counter

import pandas as pd
import numpy as np

import gensim
from konlpy.tag import Mecab
from sklearn.model_selection import train_test_split

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

import matplotlib.pyplot as plt
import warnings
# warnings.filterwarnings(action="ignore")

### 데이터 불러오기

In [2]:
file_path = os.path.join(os.getcwd(), "Chatbot_data/")

In [3]:
file_path

'/home/aiffel0042/project/GoingDeeper/GD_Chatbot/Chatbot_data/'

In [4]:
df = pd.read_csv(file_path+"ChatbotData.csv")

In [5]:
df.head()

Unnamed: 0,Q,A,label
0,12시 땡!,하루가 또 가네요.,0
1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0
3,3박4일 정도 놀러가고 싶다,여행은 언제나 좋죠.,0
4,PPL 심하네,눈살이 찌푸려지죠.,0


In [6]:
df.isnull().sum()

Q        0
A        0
label    0
dtype: int64

In [7]:
q_list = list(df.iloc[:,0])

In [8]:
len(q_list)

11823

In [9]:
q_list[:10]

['12시 땡!',
 '1지망 학교 떨어졌어',
 '3박4일 놀러가고 싶다',
 '3박4일 정도 놀러가고 싶다',
 'PPL 심하네',
 'SD카드 망가졌어',
 'SD카드 안돼',
 'SNS 맞팔 왜 안하지ㅠㅠ',
 'SNS 시간낭비인 거 아는데 매일 하는 중',
 'SNS 시간낭비인데 자꾸 보게됨']

In [10]:
a_list = list(df.iloc[:,1])

In [11]:
len(a_list)

11823

In [12]:
a_list[:10]

['하루가 또 가네요.',
 '위로해 드립니다.',
 '여행은 언제나 좋죠.',
 '여행은 언제나 좋죠.',
 '눈살이 찌푸려지죠.',
 '다시 새로 사는 게 마음 편해요.',
 '다시 새로 사는 게 마음 편해요.',
 '잘 모르고 있을 수도 있어요.',
 '시간을 정하고 해보세요.',
 '시간을 정하고 해보세요.']

### 데이터 정제

In [13]:
def preprocess_sentence(sentence):
    sentence = sentence.lower()
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = re.sub(r"[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z0-9?.!,¿¡ ]", "", sentence)
    sentence = sentence.strip()
    
    return sentence

### 데이터 토큰화
애매했던 부분임 데이터 정제를 여기서 하란건지  
위에서 하고 아래에서 토큰화만 하란건지 잘 모르겠음

In [14]:
def build_corpus(que, ans):
    questions = []
    answers = []

    for q, a in tqdm(zip(que, ans)):
        q = preprocess_sentence(q)
        a = preprocess_sentence(a)

        questions.append(q)
        answers.append(a)
    
    df = pd.DataFrame({"Q_c":questions, "A_c":answers})
    df = df.drop_duplicates(subset="Q_c")
    df = df.drop_duplicates(subset="A_c")
    
    questions=list(df.iloc[:,0])
    answers=list(df.iloc[:,1])
    
    mecab = Mecab()
#     questions = [str(tmp)[2:-2] for tmp in list(map(mecab.morphs, questions))]
#     answers = [str(tmp)[2:-2] for tmp in list(map(mecab.morphs, answers))]
    que_corpus = [tmp for tmp in list(map(mecab.morphs, questions))]
    ans_corpus = [tmp for tmp in list(map(mecab.morphs, answers))]
    
    return que_corpus, ans_corpus
#     return questions, answers
    

In [15]:
que_tokens, ans_tokens = build_corpus(q_list, a_list)

11823it [00:00, 156797.53it/s]


In [16]:
assert len(que_tokens) == len(ans_tokens)
print(len(que_tokens))

7731


In [17]:
que_tokens[:10]

[['12', '시', '땡', '!'],
 ['1', '지망', '학교', '떨어졌', '어'],
 ['3', '박', '4', '일', '놀', '러', '가', '고', '싶', '다'],
 ['ppl', '심하', '네'],
 ['sd', '카드', '망가졌', '어'],
 ['sns', '맞', '팔', '왜', '안', '하', '지', 'ㅠㅠ'],
 ['sns', '시간', '낭비', '인', '거', '아', '는데', '매일', '하', '는', '중'],
 ['sns', '보', '면', '나', '만', '빼', '고', '다', '행복', '해', '보여'],
 ['가끔', '궁금', '해'],
 ['가끔', '은', '혼자', '인', '게', '좋', '다']]

In [18]:
ans_tokens[:10]

[['하루', '가', '또', '가', '네요', '.'],
 ['위로', '해', '드립니다', '.'],
 ['여행', '은', '언제나', '좋', '죠', '.'],
 ['눈살', '이', '찌푸려', '지', '죠', '.'],
 ['다시', '새로', '사', '는', '게', '마음', '편해요', '.'],
 ['잘', '모르', '고', '있', '을', '수', '도', '있', '어요', '.'],
 ['시간', '을', '정하', '고', '해', '보', '세요', '.'],
 ['자랑', '하', '는', '자리', '니까요', '.'],
 ['그', '사람', '도', '그럴', '거', '예요', '.'],
 ['혼자', '를', '즐기', '세요', '.']]

In [19]:
# 문장 길이 분석하기
print("최대 질문 문장 길이 : ", max(len(x) for x in que_tokens))
print("최소 질문 문장 길이 : ", min(len(x) for x in que_tokens))
print("평균 질문 문장 길이 : ", sum(map(len, que_tokens))/len(que_tokens))

최대 질문 문장 길이 :  32
최소 질문 문장 길이 :  1
평균 질문 문장 길이 :  7.48260250937783


In [20]:
print("최대 대답 문장 길이 : ", max(len(x) for x in ans_tokens))
print("최소 질문 문장 길이 : ", min(len(x) for x in ans_tokens))
print("평균 대답 문장 길이 : ", sum(map(len, ans_tokens))/len(ans_tokens))

최대 대답 문장 길이 :  40
최소 질문 문장 길이 :  1
평균 대답 문장 길이 :  8.678696158323632


### 궁금한거
부끄러운 질문 : 적당히 문장을 자르는 기준이 있을까요??

In [21]:
def below_threshold_len(max_len, nested_list):
    cnt = 0
    idx = []
    for i,s in enumerate(nested_list):
        if(len(s) <= max_len):
            cnt = cnt + 1
        else:
            idx.append(i)
    print('전체 샘플 중 길이가 %s 이하인 샘플의 비율: %s'%(max_len, (cnt / len(nested_list))*100))
    return idx

In [22]:
idx_over_maxlen_q = below_threshold_len(20, que_tokens)

전체 샘플 중 길이가 20 이하인 샘플의 비율: 99.49553744664338


In [23]:
idx_over_maxlen_a = below_threshold_len(20, ans_tokens)

전체 샘플 중 길이가 20 이하인 샘플의 비율: 99.01694476781788


In [24]:
del_idx = list(set(idx_over_maxlen_a + idx_over_maxlen_q))

In [25]:
def remove_idx(del_list, que, ans):
    new_que, new_ans = [], []
    for i, (q,a) in enumerate(zip(que,ans)):
        if i not in del_list:
            new_que.append(q)
            new_ans.append(a)
    return new_que, new_ans

In [26]:
que_tokens, ans_tokens = remove_idx(del_idx, que_tokens, ans_tokens)

In [27]:
assert len(que_tokens) == len(ans_tokens)
print(len(que_tokens))

7616


In [28]:
que_tokens[:10]

[['12', '시', '땡', '!'],
 ['1', '지망', '학교', '떨어졌', '어'],
 ['3', '박', '4', '일', '놀', '러', '가', '고', '싶', '다'],
 ['ppl', '심하', '네'],
 ['sd', '카드', '망가졌', '어'],
 ['sns', '맞', '팔', '왜', '안', '하', '지', 'ㅠㅠ'],
 ['sns', '시간', '낭비', '인', '거', '아', '는데', '매일', '하', '는', '중'],
 ['sns', '보', '면', '나', '만', '빼', '고', '다', '행복', '해', '보여'],
 ['가끔', '궁금', '해'],
 ['가끔', '은', '혼자', '인', '게', '좋', '다']]

In [29]:
import gensim

ko_vec = gensim.models.Word2Vec.load('ko.bin')

In [30]:
def lexical_sub(corpus, word2vec):
    import random

    res = ""

    try:
        _from = random.choice(corpus)
        _to = word2vec.wv.most_similar(_from)[0][0]

    except:   # 단어장에 없는 단어
        return None

    for cor in corpus:
        if cor is _from: res += _to + " "
        else: res += cor + " "

    return res.split()

In [31]:
aug_que_tokens, aug_ans_tokens = [], []
for _ in range(4):
    for i, (q,a) in tqdm(enumerate(zip(que_tokens, ans_tokens))):
        aug_que_tokens.append(lexical_sub(q, ko_vec))
        aug_ans_tokens.append(lexical_sub(a, ko_vec))

7616it [00:08, 867.72it/s]
7616it [00:08, 884.32it/s]
7616it [00:08, 879.79it/s]
7616it [00:08, 864.67it/s]


In [32]:
df = pd.DataFrame({"Q":aug_que_tokens,"A":aug_ans_tokens})
df.isnull().sum()

Q    4362
A    3474
dtype: int64

In [33]:
df = df.dropna()

In [34]:
df.isnull().sum()

Q    0
A    0
dtype: int64

In [35]:
que_tokens = list(df.iloc[:,0])
ans_tokens = list(df.iloc[:,1])

In [36]:
assert len(que_tokens) == len(ans_tokens)
print(len(ans_tokens))

23186


### 데이터 벡터화

In [37]:
START_TOKEN = ["<start>"]
END_TOKEN = ["<end>"]

for i in tqdm(range(len(que_tokens))):
    que_tokens[i] = START_TOKEN + que_tokens[i] + END_TOKEN
    ans_tokens[i] = START_TOKEN + ans_tokens[i] + END_TOKEN

100%|██████████| 23186/23186 [00:00<00:00, 232586.66it/s]


In [38]:
total_tokens = que_tokens + ans_tokens
len(total_tokens)

46372

In [39]:
words = np.concatenate(total_tokens).tolist()

In [40]:
counter = Counter(words)
vocab = ['<pad>', '<unk>'] + [key for key, _ in counter.items()]
word_to_index = {word:index for index, word in enumerate(vocab)}
index_to_word = {index:word for word, index in word_to_index.items()}

In [41]:
len(vocab)

7539

In [42]:
def get_encoded_sentence(sentence, word_to_index):
    return [word_to_index[word] if word in word_to_index else word_to_index['<unk>'] for word in sentence]

In [43]:
def get_decoded_sentence(encoded_sentence, index_to_word):
    return ' '.join(index_to_word[index] if index in index_to_word else '<unk>' for index in encoded_sentence)  #[1:]를 통해 <BOS>를 제외

In [44]:
def vectorize(corpus, word_to_index):
    data = []
    for sen in corpus:
        sen = get_encoded_sentence(sen, word_to_index)
        data.append(sen)
    return data

In [45]:
enc_train = vectorize(que_tokens, word_to_index)
dec_train = vectorize(ans_tokens, word_to_index)

In [46]:
enc_train = pad_sequences(enc_train, value=word_to_index["<pad>"], padding='post', maxlen=22)

dec_train = pad_sequences(dec_train, value=word_to_index["<pad>"], padding='post', maxlen=22)

### 잘 됐나 함 보자

In [47]:
enc_train[0]

array([2, 3, 4, 5, 6, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int32)

In [48]:
dec_train[0]

array([   2,  447,   19,  935,   19, 1460,   69,    7,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0],
      dtype=int32)

In [49]:
get_decoded_sentence(enc_train[0], index_to_word)

'<start> 12 시가 땡 ! <end> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>'

In [50]:
get_decoded_sentence(dec_train[0], index_to_word)

'<start> 하루 가 각기 가 네요 . <end> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>'

### 훈련하기

In [51]:
enc_train, enc_val, dec_train, dec_val = train_test_split(enc_train, dec_train, test_size=0.01)

In [52]:
from transformer import *
from train_func import *

In [53]:
transformer = Transformer(n_layers=1,
                          d_model=368,
                          n_heads=8,
                          d_ff=1024,
                          src_vocab_size=10000,
                          tgt_vocab_size=10000,
                          pos_len=200,
                          dropout=0.2,
                          shared_fc=True,
                          shared_emb=True)

d_model = 512

In [54]:
learning_rate = LearningRateScheduler(d_model,warmup_steps=1000)

optimizer = tf.keras.optimizers.Adam(learning_rate,
                                        beta_1=0.9,
                                        beta_2=0.98, 
                                        epsilon=1e-9)

In [55]:
BATCH_SIZE = 64
EPOCHS = 10

for epoch in range(EPOCHS):
    total_loss = 0

    idx_list = list(range(0, enc_train.shape[0], BATCH_SIZE))
    random.shuffle(idx_list)
    t = tqdm(idx_list)

    for (batch, idx) in enumerate(t):
        batch_loss, enc_attns, dec_attns, dec_enc_attns = \
        train_step(enc_train[idx:idx+BATCH_SIZE],
                    dec_train[idx:idx+BATCH_SIZE],
                    transformer,
                    optimizer)

        total_loss += batch_loss

        t.set_description_str('Epoch %2d' % (epoch + 1))
        t.set_postfix_str('Loss %.4f' % (total_loss.numpy() / (batch + 1)))

Epoch  1: 100%|██████████| 359/359 [00:14<00:00, 25.08it/s, Loss 4.8527]
Epoch  2: 100%|██████████| 359/359 [00:11<00:00, 31.87it/s, Loss 3.0121]
Epoch  3: 100%|██████████| 359/359 [00:11<00:00, 32.01it/s, Loss 1.9574]
Epoch  4: 100%|██████████| 359/359 [00:11<00:00, 31.90it/s, Loss 1.2618]
Epoch  5: 100%|██████████| 359/359 [00:11<00:00, 31.87it/s, Loss 0.8478]
Epoch  6: 100%|██████████| 359/359 [00:11<00:00, 31.87it/s, Loss 0.6455]
Epoch  7: 100%|██████████| 359/359 [00:11<00:00, 31.79it/s, Loss 0.5243]
Epoch  8: 100%|██████████| 359/359 [00:11<00:00, 31.82it/s, Loss 0.4545]
Epoch  9: 100%|██████████| 359/359 [00:11<00:00, 31.97it/s, Loss 0.3970]
Epoch 10: 100%|██████████| 359/359 [00:11<00:00, 31.80it/s, Loss 0.3567]


In [56]:
from nltk.translate.bleu_score import SmoothingFunction
from nltk.translate.bleu_score import sentence_bleu

def calculate_bleu(reference, candidate, weights=[0.25, 0.25, 0.25, 0.25]):
    return sentence_bleu([reference],
                         candidate,
                         weights=weights,
                         smoothing_function=SmoothingFunction().method1)

def evaluate(sentence, model):
    pieces = sentence.split()
    tokens = get_encoded_sentence(pieces, word_to_index)

    _input = np.array(tokens).reshape((1,-1))

    
    ids = []
    output = tf.expand_dims([word_to_index["<start>"]], 0)
    
    for i in range(dec_train.shape[-1]):
        enc_padding_mask, combined_mask, dec_padding_mask = \
        generate_masks(_input, output)

        predictions, enc_attns, dec_attns, dec_enc_attns =\
        model(_input, 
              output,
              enc_padding_mask,
              combined_mask,
              dec_padding_mask)
        
        predicted_id = \
        tf.argmax(tf.math.softmax(predictions, axis=-1)[0, -1]).numpy().item()
    

        if word_to_index["<end>"] == predicted_id:
            result = get_decoded_sentence(ids, index_to_word)
            return pieces, result, enc_attns, dec_attns, dec_enc_attns

        ids.append(predicted_id)
        output = tf.concat([output, tf.expand_dims([predicted_id], 0)], axis=-1)

    result = get_decoded_sentence(ids, index_to_word)

    return pieces, result, enc_attns, dec_attns, dec_enc_attns

def translate(sentence, model):
    pieces, result, enc_attns, dec_attns, dec_enc_attns = \
    evaluate(sentence, model)

    return result

def clean_sentence(sentence):
    sentence = sentence.split()
    cleaned_sen = ""
    
    for i in range(len(sentence)):
        if (sentence[i] != "<start>") and (sentence[i] not in ['<end>', '<pad>']):
            cleaned_sen += sentence[i] + " "
        elif sentence[i] in ['<end>', '<pad>']:
            return cleaned_sen
    return cleaned_sen
    
def eval_bleu(src_corpus, tgt_corpus, verbose=True):
    total_score = 0.0
    sample_size = len(tgt_corpus)

    for idx in range(sample_size):
        src_tokens = src_corpus[idx]
        tgt_tokens = tgt_corpus[idx]

        src_sentence = get_decoded_sentence(src_tokens, index_to_word)
        tgt_sentence = get_decoded_sentence(tgt_tokens, index_to_word)
        candidate = translate(src_sentence, transformer)

        score = sentence_bleu(src_sentence, candidate,
                              smoothing_function=SmoothingFunction().method1)
        total_score += score

        if verbose:
            print("Question Sentence: ", clean_sentence(src_sentence))
            print("Model Prediction: ", clean_sentence(candidate))
            print("Real: ", clean_sentence(tgt_sentence))
            print("Score: %lf\n" % score)

    print("Num of Sample:", sample_size)
    print("Total Score:", total_score / sample_size)

In [57]:
eval_bleu(enc_val[:10], dec_val[:10], True)

Question Sentence:  4 년 를 엊그제 마무리 했 습니다 
Model Prediction:  좋 은 기억 들 그러 었 길 바랄게요 . 
Real:  좋 은데 마무리 가 되 었 길 바랍니다 . 
Score: 0.010331

Question Sentence:  허전 한 게 좀 이렇 다 
Model Prediction:  채워질 거 예요 는데 
Real:  채워질 것 예요 . 
Score: 0.018850

Question Sentence:  첫 사랑 느껴지 
Model Prediction:  소중 했 던 추억 그러 라고 생각 해 보 세요 . 
Real:  소중 했 던 추억 이 라고 생각 해 보 ㅂ시오 . 
Score: 0.006980

Question Sentence:  일 일 만보 걷 적기 
Model Prediction:  좋 은 건강 습관 그러 네요 . 
Real:  좋 은 건강 습관 그러 네요 . 
Score: 0.011503

Question Sentence:  남 사친 인데 요즘 관심 가 는데 
Model Prediction:  친구 랑 썸 의 중간 인 거 같 아요 는데 
Real:  친구 랑 썸 의 중간 인 거 똑같 아요 . 
Score: 0.012962

Question Sentence:  선글라스 말 고 렌즈 껴야 겠어 
Model Prediction:  그런 월과 은 되풀이 에 버리 세요 . 
Real:  변신 은 유죄 ! 
Score: 0.009134

Question Sentence:  붙잡 기에 싶 어 
Model Prediction:  아직 사랑 하 고 있 나 봅니다 는데 
Real:  그대로 돌아오 지 는 않 을 것 란 걸 인정 하 세요 . 
Score: 0.009630

Question Sentence:  가끔 짝사랑 시키 는 여자 애 랑 데이트 하 는 상상 을 해 . 
Model Prediction:  상상 은 보하이 상관 없 어요 . 
Real:  상상 은 보하이 상관 없 어요 . 
Score: 0.016153

Q

In [58]:
translate("내이 날씨는 어때?", transformer)

'고백 해의 지 는 단계 인가 봐요 .'

In [59]:
translate("너가 이러면 기분이 안좋아", transformer)

'고백 을 해 살펴보 세요 .'

In [60]:
translate("말이되는 소리를 좀 해줘", transformer)

'드세요 는데 는데 는데'

In [61]:
translate("이거 원래 잘 안되나요?", transformer)

'정말 나쁜 생각 하 지 말 아요 는데'

In [62]:
translate("속상하다", transformer)

'고백 해의 지 는 단계 네요 .'

In [63]:
translate("몇 일을 열심히 했는데 이 모양이니?", transformer)

'서로 를 알 면서 못했 군요 .'

In [64]:
translate("그러게 나는 널 잘 안다고 생각했는데...", transformer)

'맞 는 것 을 때 가 네요 는데'

In [68]:
translate("여사친인데 요즘 관심법이야", transformer)

'고백 해의 주 세요 .'