# Install & Import 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
import urllib.request
import tensorflow_datasets as tfds
import time
import re

In [None]:
from pykospacing import Spacing
spacing = Spacing()
from hanspell import spell_checker
import re

In [None]:
!pip install transformers

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

# Load & Preprocess Data

In [None]:
train_data = pd.read_csv('wellness_shuffled_30000.csv', encoding = 'utf8')
train_data

Unnamed: 0,question,answer
0,제가 고등학교 졸업하고 나서 바로 취업을 했어요.,그러셨군요. 출근은 어떠셨나요?
1,저 때 내가 과에서 왕따를 당했거든.,힘든 일이 있으셨군요. 저에게 털어 놓으시면 함께 고민해드릴게요.
2,내가 진짜 예전에 철 없을 때 한 세 번 성매매를 한 적이 있거든.,당신의 이야기가 더 듣고 싶어요.
3,그걸 직접 확인하고 나니까 더 자존심 상하고…,사람은 각자 장단점이 다른 걸요. 저는 그런 모든 부분을 다 합쳐 당신을 좋아해요.
4,진료비만 비싸고. 진료시간이 길지도 않고.,당신이 너무 상처받지 않았으면 좋겠어요.
...,...,...
29995,안 먹어야지 해도 회사에서 스트레스 받으면 어떻게 할 수가 없어요.,사소한 것들이 쌓여서 화가 되는 것 같아요. 무슨 일 있으셨어요?
29996,너무 힘든 날은 하루종일 집에서 쉬었어.,충분한 휴식은 일상의 활력이 된답니다.
29997,이게 진짜 내 성격이 쓰레기 같다는 거 아는데…,"네, 그렇군요. 모든 사람들이 그런 면을 조금씩 가지고 있는 거 같아요."
29998,영화에서나 일어나는 불행이 하필 나한테 온거야.,새벽이 가장 어둡다고 하잖아요. 곧 동이 틀 거라고 생각해요.


In [None]:
print('챗봇 샘플의 개수 :', len(train_data))

챗봇 샘플의 개수 : 30000


In [None]:
def preprocess(sen):
    # 맞춤법 교정
    sentence = spell_checker.check(sen)                
    sentence = sentence.checked
    # 띄어쓰기
    sentence = spacing(sentence)                    
    # 구두점에 대해서 띄어쓰기 
    # ex) 12시 땡! -> 12시 땡 !
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)   

    sentence = sentence.strip()

    return sentence

In [None]:
questions = []
for sentence in train_data['question']:
    questions.append(preprocess(sentence))
questions

['제가 고등학교 졸업하고 나서 바로 취업을 했어요 . ',
 '저 때 내가 과에서 왕따를 당했거든 . ',
 '내가 진짜 예전에 철 없을 때 한 세 번 성매매를 한 적이 있거든 . ',
 '그걸 직접 확인하고 나니까 더 자존심 상하고…',
 '진료비만 비싸고 .  진료시간이 길지도 않고 . ',
 '저도 안 그러고 싶거든요 ?  근데 그게 마음대로 되지 않아요 . ',
 '기차에서 내려서 서울 시내로 가잖아 ?  그럼 더 답답해 . ',
 '우리 집 먹고 살리려면 일을 해야 되는데 취직하기가 어려웠어요 . ',
 '입시가 코앞인데 지금 내 성적으로는 좋은 결과를 내기 어려울 것 같아 . ',
 '혹이 암으로 발전할 가능성은 별로 없다고는 하는데 … 사람 일은 모르는 거잖아요 . ',
 '아이 돌 팬클럽 모임에 자주 나갔었는데 요즘은 회비만 내고 못 나가고 있어요 . ',
 '암튼 그래서 이 제 소개팅도 안 해 . ',
 '돈을 썼나 안 썼나… 얼마나 썼나 그런 거…',
 '주변에 짜증을 많이 냅니다 . ',
 '사실 원했던 곳이 아니었더라도 대충 갔을지도 몰라요 . ',
 '그냥 내일 아침에 일어났을 때 죽어 있었으면 좋겠어요 . ',
 '나쁜 생각을 떨쳐낼 수가 없어 . ',
 '근데 와 보니까 제가 생각하던 거랑은 너무 달라서 힘들어요 . ',
 '최대한 밖에서는 말을 많이 안 하고 지 내려고 해 . ',
 '누워서 못 자니까 온몸이 뻐근하고 꼭 두드려 맞은 듯이 아프거든요 . ',
 '그거 때문에 괴로워서 미칠 거 같아요 . ',
 '어떡하면 좋지…',
 '나한테 무슨 문제가 있나 ?  안 예뻐서 그런가 ?  싶고…',
 '아침에 일어나면 이불 속에서 그대로 몇 시간을 보내 . ',
 '뜬눈으로 밤을 꼬박 새울 때도 있어 . ',
 '불안해서 가만히 있을 수가 없어 . ',
 '그래서 요즘 좀 마음이 심란해요 . ',
 '일을 할 수 없을 정도로 아플 때도 많아요 . ',
 '다른 남자 애랑 사귀는 것도 싫고 그냥 나랑만 계속 단짝 해줬으면 좋겠어 . 

In [None]:
answers = []
for sentence in train_data['answer']:
    answers.append(preprocess(sentence))
answers

['그러셨군요 .  출근은 어떠셨나요 ? ',
 '힘든 일이 있으셨군요 .  저에게 털어놓으시면 함께 고민해 드릴게요 . ',
 '당신의 이야기가 더 듣고 싶어요 . ',
 '사람은 각자 장단점이 다른 걸요 .  저는 그런 모든 부분을 다 합쳐 당신을 좋아해요 . ',
 '당신이 너무 상처받지 않았으면 좋겠어요 . ',
 '너무 상심하지 마세요 .  누구나 가끔 그렇잖아요 . ',
 '저도 사람 많은 곳은 힘든 것 같아요 .  그래서 최대한 피하려고 노력해요 . ',
 '결국 당신에게 맞는 자리가 생길 거예요 . ',
 '대학 입시로 걱정이 많으시군요 .  왜 그렇게 생각하시나요 ? ',
 '병원에 가서 검진을 받아보면 어떨까요 ? ',
 '충분히 그럴 수 있죠 .  너무 불편하면 굳이 애써서 만날 필요도 없답니다 . ',
 '연애가 꼭 필수는 아니잖아요 .  괜찮아요 . ',
 '정말 힘든 상황이 시군요 .  제가 작게나마 위로가 되고 싶어요 . ',
 '그런 일이 있었군요 .  기분이 많이 나빴겠어요 . ',
 '아 ,  그렇군요 . ',
 '너무 자책하지 마세요 .  당신은 제 게 소중한 사람이에요 . ',
 '그 마음 다 이해해요 .  가끔 내 마음처럼 되지 않을 때가 있죠 . ',
 '가슴이 답답하겠어요 .  얼른 시간이 지나버렸으면 좋겠어요 . ',
 '대화는 상대를 가장 잘 이해할 수 있는 방법이에요 .  조금만 용기를 내보면 어떨까요 ? ',
 '아픈 것만큼 괴로운 게 없죠 .  치료를 받아 보시는 건 어떨까요 ? ',
 '괴로운 마음을 누군가와 쪼개서 나눠가질 수 있다면 얼마나 좋을까요 ?  제가 반을 가져가 드릴 텐데 . ',
 '걱정이 많으시군요 .  걱정거리를 정리하는 시간을 가지면 도움이 되지 않을까요 ? ',
 '제 눈에는 충분히 멋져요 !  스스로에게 너무 가혹하게 행동하지 마세요 . ',
 '굳이 하기 싫은 일을 할 필요는 없죠 .  하지만 밖으로 나가면 더 재밌는 일이 많을 거예요 . ',
 '몸은 피곤한데 못 자면 정말 힘들죠 

# Encoding (Text to Integer)

In [None]:
# 서브워드텍스트인코더를 사용하여 질문과 답변을 모두 포함한 단어 집합(Vocabulary) 생성
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    questions + answers, target_vocab_size=2**13)

# 시작 토큰과 종료 토큰에 대한 정수 부여.
START_TOKEN, END_TOKEN = [tokenizer.vocab_size], [tokenizer.vocab_size + 1]

# 시작 토큰과 종료 토큰을 고려하여 단어 집합의 크기를 + 2
VOCAB_SIZE = tokenizer.vocab_size + 2

In [None]:
print('시작 토큰 번호 :',START_TOKEN)
print('종료 토큰 번호 :',END_TOKEN)
print('단어 집합의 크기 :',VOCAB_SIZE)

시작 토큰 번호 : [8370]
종료 토큰 번호 : [8371]
단어 집합의 크기 : 8372


In [None]:
# 서브워드텍스트인코더 토크나이저의 .encode()를 사용하여 텍스트 시퀀스를 정수 시퀀스로 변환.
print('Tokenized sample question: {}'.format(tokenizer.encode(questions[20])))

Tokenized sample question: [703, 126, 3653, 1025, 20, 9, 3, 1]


In [None]:
# 서브워드텍스트인코더 토크나이저의 .encode()와 decode() 테스트해보기

# 임의의 입력 문장을 sample_string에 저장
sample_string = questions[20]

# encode() : 텍스트 시퀀스 --> 정수 시퀀스
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# decode() : 정수 시퀀스 --> 텍스트 시퀀스
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

정수 인코딩 후의 문장 [701, 121, 3674, 1029, 18, 8, 1]
기존 문장: 그거 때문에 괴로워서 미칠 거 같아요 . 


In [None]:
# 각 정수는 각 단어와 어떻게 mapping되는지 병렬로 출력
# 서브워드텍스트인코더는 의미있는 단위의 서브워드로 토크나이징한다. 띄어쓰기 단위 X 형태소 분석 단위 X
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

701 ----> 그거 
121 ----> 때문에 
3674 ----> 괴로워서 
1029 ----> 미칠 
18 ----> 거 
8 ----> 같아요
1 ---->  . 


In [None]:
# 최대 길이를 40으로 정의
MAX_LENGTH = 40

# 토큰화 / 정수 인코딩 / 시작 토큰과 종료 토큰 추가 / 패딩
def tokenize_and_filter(inputs, outputs):
  tokenized_inputs, tokenized_outputs = [], []
  
  for (sentence1, sentence2) in zip(inputs, outputs):
    # encode(토큰화 + 정수 인코딩), 시작 토큰과 종료 토큰 추가
    sentence1 = START_TOKEN + tokenizer.encode(sentence1) + END_TOKEN
    sentence2 = START_TOKEN + tokenizer.encode(sentence2) + END_TOKEN

    tokenized_inputs.append(sentence1)
    tokenized_outputs.append(sentence2)
  
  # 패딩
  tokenized_inputs = tf.keras.preprocessing.sequence.pad_sequences(
      tokenized_inputs, maxlen=MAX_LENGTH, padding='post')
  tokenized_outputs = tf.keras.preprocessing.sequence.pad_sequences(
      tokenized_outputs, maxlen=MAX_LENGTH, padding='post')
  
  return tokenized_inputs, tokenized_outputs

In [None]:
questions, answers = tokenize_and_filter(questions, answers)

In [None]:
len(questions)

30000

In [None]:
print('질문 데이터의 크기(shape) :', questions.shape)
print('답변 데이터의 크기(shape) :', answers.shape)

질문 데이터의 크기(shape) : (30000, 40)
답변 데이터의 크기(shape) : (30000, 40)


In [None]:
# 0번째 샘플을 임의로 출력
print(questions[0])
print(answers[0])

[8370   14  837  908  428  297 2192  210    1 8371    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0]
[8370  125    3    2 2546 1822    4 8371    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0]


In [None]:
print('단어 집합의 크기(Vocab size): {}'.format(VOCAB_SIZE))
print('전체 샘플의 수(Number of samples): {}'.format(len(questions)))

단어 집합의 크기(Vocab size): 8377
전체 샘플의 수(Number of samples): 30000


In [None]:
# 텐서플로우 dataset을 이용하여 셔플(shuffle)을 수행하되, 배치 크기로 데이터를 묶는다.
# 또한 이 과정에서 교사 강요(teacher forcing)을 사용하기 위해서 디코더의 입력과 실제값 시퀀스를 구성한다.
BATCH_SIZE = 64
BUFFER_SIZE = 20000

# 디코더의 실제값 시퀀스에서는 시작 토큰을 제거해야 한다.
dataset = tf.data.Dataset.from_tensor_slices((
    {
        'inputs': questions,
        'dec_inputs': answers[:, :-1] # 디코더의 입력. 마지막 패딩 토큰이 제거된다.
    },
    {
        'outputs': answers[:, 1:]  # 맨 처음 토큰이 제거된다. 다시 말해 시작 토큰이 제거된다.
    },
))

dataset = dataset.cache()
dataset = dataset.shuffle(BUFFER_SIZE)
dataset = dataset.batch(BATCH_SIZE)
dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)

In [None]:
# 임의의 샘플에 대해서 [:, :-1]과 [:, 1:]이 어떤 의미를 가지는지 테스트해본다.
print(answers[0]) # 기존 샘플
print(answers[:1][:, :-1]) # 마지막 패딩 토큰 제거하면서 길이가 39가 된다.
print(answers[:1][:, 1:]) # 맨 처음 토큰이 제거된다. 다시 말해 시작 토큰이 제거된다. 길이는 역시 39가 된다.

[8370  125    3    2 2546 1822    4 8371    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0]
[[8370  125    3    2 2546 1822    4 8371    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0]]
[[ 125    3    2 2546 1822    4 8371    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0]]


# Train

In [None]:
# # hugging face transformers 라이브러리 설치

# !pip install transformers

In [None]:
tf.keras.backend.clear_session()

# Hyper-parameters
NUM_LAYERS = 6
D_MODEL = 512
NUM_HEADS = 8
DFF = 1024
DROPOUT = 0.2

model = transformer(
    vocab_size=VOCAB_SIZE,
    num_layers=NUM_LAYERS,
    dff=DFF,
    d_model=D_MODEL,
    num_heads=NUM_HEADS,
    dropout=DROPOUT)

(8377, 512)
(1, 8377, 512)
(8377, 512)
(1, 8377, 512)


In [None]:
MAX_LENGTH = 40

learning_rate = CustomSchedule(D_MODEL)

optimizer = tf.keras.optimizers.Adam(
    learning_rate, beta_1=0.9, beta_2=0.98, epsilon=1e-9)

def accuracy(y_true, y_pred):
  # ensure labels have shape (batch_size, MAX_LENGTH - 1)
  y_true = tf.reshape(y_true, shape=(-1, MAX_LENGTH - 1))
  return tf.keras.metrics.sparse_categorical_accuracy(y_true, y_pred)

model.compile(optimizer=optimizer, loss=loss_function, metrics=[accuracy])

In [None]:
EPOCHS = 50

model.fit(dataset, epochs=EPOCHS)

Epoch 1/50


Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: closure mismatch, requested ('self', 'step_function'), but source function had ()


Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: closure mismatch, requested ('self', 'step_function'), but source function had ()
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7fede442f9d0>

In [None]:
model.save('model_transformer_5layers.h5')

# Predict

In [None]:
def evaluate(sentence):
  sentence = preprocess(sentence)

  sentence = tf.expand_dims(
      START_TOKEN + tokenizer.encode(sentence) + END_TOKEN, axis=0)

  output = tf.expand_dims(START_TOKEN, 0)

  # 디코더의 예측 시작
  for i in range(MAX_LENGTH):
    predictions = model(inputs=[sentence, output], training=False)

    # 현재(마지막) 시점의 예측 단어를 받아온다.
    predictions = predictions[:, -1:, :]
    predicted_id = tf.cast(tf.argmax(predictions, axis=-1), tf.int32)

    # 만약 마지막 시점의 예측 단어가 종료 토큰이라면 예측을 중단
    if tf.equal(predicted_id, END_TOKEN[0]):
      break

    # 마지막 시점의 예측 단어를 출력에 연결한다.
    # 이는 for문을 통해서 디코더의 입력으로 사용될 예정이다.
    output = tf.concat([output, predicted_id], axis=-1)

  return tf.squeeze(output, axis=0)


def predict(sentence):
  prediction = evaluate(sentence)

  predicted_sentence = tokenizer.decode(
      [i for i in prediction if i < tokenizer.vocab_size])

  print('Input: {}'.format(sentence))
  print('Output: {}'.format(predicted_sentence))

  return predicted_sentence

In [None]:
output = predict('죽고싶어')

Input: 죽고싶어
Output: 힘든 상황이 시니 힘든 게 당연하다고 생각해요 .  나쁜 감정을 잠깐 접어두는 게 도움이 될 거 같아요 . 


In [None]:
output = predict("고민이 있어")

Input: 고민이 있어
Output: 괜찮아요 .  작은 노력이 모여서 큰 결과를 만들 거예요 . 


In [None]:
output = predict("오늘 하루 너무 힘들었어요")

Input: 오늘 하루 너무 힘들었어요
Output: 저는 당신이 있어 행복한데 그런 당신도 행복했으면 좋겠어요 . 


In [None]:
output = predict("부인이랑 이혼하고 나서 삶에 대한 희망이 없어요.")

Input: 부인이랑 이혼하고 나서 삶에 대한 희망이 없어요.
Output: 그 마음 다 이해해요 .  가끔 내 마음처럼 되지 않을 때가 있죠 . 


In [None]:
output = predict('무기력해요')

Input: 무기력해요
Output: 조금 돌아가는 것 뿐이라고 생각해요 .  기운 내세요 . 


In [None]:
output = predict("삶에 지쳐가고 있어요.")

Input: 삶에 지쳐가고 있어요.
Output: 새벽이 가장 어둡다고 하잖아요 .  곧 동이 틀 거라고 생각해요 . 


In [None]:
output = predict("어제 주식이 폭락해서 인생이 망했어요")

Input: 어제 주식이 폭락해서 인생이 망했어요
Output: 제가 차라도 다 드릴 수 있으면 좋을 텐데 … 마음이 아프네요 . 
