In [1]:
from tensorflow.keras.models import model_from_json


In [2]:
from tensorflow.keras.models import load_model

In [3]:
from konlpy.tag import Okt
import re
import numpy as np

In [4]:
import pickle
with open('attention5_word_to_index.pickle', 'rb') as handle:
    word_to_index = pickle.load(handle)
with open('attention5_index_to_word.pickle', 'rb') as handle:
    index_to_word = pickle.load(handle)

In [5]:
with open('attention5_okt_question.pickle', 'rb') as handle:
    okt_question = pickle.load(handle)

In [6]:
# 태그 단어
PAD = "<PADDING>"   # 패딩
STA = "<START>"     # 시작
END = "<END>"       # 끝
OOV = "<OOV>"       # 없는 단어(Out of Vocabulary)

# 태그 인덱스
PAD_INDEX = 0
STA_INDEX = 1
END_INDEX = 2
OOV_INDEX = 3

# 데이터 타입
ENCODER_INPUT  = 0
DECODER_INPUT  = 1
DECODER_TARGET = 2

# 한 문장에서 단어 시퀀스의 최대 개수
max_sequences = 20


# 임베딩 벡터 차원
embedding_dim = 100

In [7]:
def load_model(model_filename, model_weights_filename):
    with open(model_filename, 'r', encoding='utf8') as f:
        model = model_from_json(f.read())
    model.load_weights(model_weights_filename)
    return model

encoder_model = load_model('attention5_encoder_model.json', 'attention5_encoder_model_weights.h5')
decoder_model = load_model('attention5_decoder_model.json', 'attention5_decoder_model_weights.h5')

FileNotFoundError: [Errno 2] No such file or directory: 'attention5_encoder_model.json'

In [None]:
# 한국어형태소분석 함수
def pos_tag_korea(sentences):
    # KoNLPy 형태소분석기 설정
    tagger = Okt()
    # 문장 품사 변수 초기화
    sentences_pos = []
    # 모든 문장 반복
    for sentence in sentences:
        # 특수기호 제거
        RE_FILTER = re.compile("[!?#$%&()*+,-./:;<=>@[\\]^_`{|}~]")
        sentence = re.sub(RE_FILTER, "", sentence)     
        # 배열인 형태소분석의 출력을 띄어쓰기로 구분하여 붙임
        sentence = " ".join(tagger.morphs(sentence))
        sentences_pos.append(sentence)
    return sentences_pos

In [None]:
# 텍스트 생성
def generate_text(input_seq):
    
    # 입력을 인코더에 넣어 마지막 상태 구함
    H, h, c = encoder_model.predict(input_seq)
    states=[h,c]
    # 목표 시퀀스 초기화
    target_seq = np.zeros((1, 1))
    
    # 목표 시퀀스의 첫 번째에 <START> 태그 추가
    target_seq[0, 0] = STA_INDEX
    
    # 인덱스 초기화
    indexs = []
    
    # 디코더 타임 스텝 반복
    while 1:
        # 디코더로 현재 타임 스텝 출력 구함
        # 처음에는 인코더 상태를, 다음부터 이전 디코더 상태로 초기화
        decoder_outputs, h, c = decoder_model.predict(
                                                [target_seq] + [H,h,c])

        # 결과의 원핫인코딩 형식을 인덱스로 변환
        index = np.argmax(decoder_outputs[0, 0, :])
        indexs.append(index)
        
        # 종료 검사
        if index == END_INDEX or len(indexs) >= max_sequences:
            break

        # 목표 시퀀스를 바로 이전의 출력으로 설정
        target_seq = np.zeros((1, 1))
        target_seq[0, 0] = index
        
        # 디코더의 이전 상태를 다음 디코더 예측에 사용
        # states = [state_h, state_c]

    # 인덱스를 문장으로 변환
    sentence = convert_index_to_text(indexs, index_to_word)
    
    return sentence

In [None]:
# 인덱스를 문장으로 변환
def convert_index_to_text(indexs, vocabulary): 
    sentence = ''
    # 모든 문장에 대해서 반복
    for index in indexs:
        if index == END_INDEX:
            # 종료 인덱스면 중지
            break;
        if vocabulary.get(index) is not None:
            # 사전에 있는 인덱스면 해당 단어를 추가
            sentence += vocabulary[index]
        else:
            # 사전에 없는 인덱스면 OOV 단어를 추가
            sentence.extend([vocabulary[OOV_INDEX]])

        # 빈칸 추가
        sentence += ' '

    return sentence

In [None]:
## 문장 속 형태소(단어)를 벡터로 변경하는 함수 작성
def convert_text_to_index(sentences, vocabulary): 
    
    sentences_index = []
    
    # 모든 문장에 대해서 반복
    for sentence in sentences:
        sentence_index = []

        # 디코더 입력일 경우 맨 앞에 START 태그 추가
        if type == DECODER_INPUT:
            sentence_index.extend([vocabulary[STA]])
        
        # 문장의 단어들을 띄어쓰기로 분리
        for word in sentence.split():
            if vocabulary.get(word) is not None:
                # 사전에 있는 단어면 해당 인덱스를 추가
                sentence_index.extend([vocabulary[word]])
            else:
                # 사전에 없는 단어면 OOV 인덱스를 추가
                sentence_index.extend([vocabulary[OOV]])

        # 최대 길이 검사
        if type == DECODER_TARGET:
            # 디코더 목표일 경우 맨 뒤에 END 태그 추가
            if len(sentence_index) >= max_sequences:
                sentence_index = sentence_index[:max_sequences-1] + [vocabulary[END]]
            else:
                sentence_index += [vocabulary[END]]
        else:
            if len(sentence_index) > max_sequences:
                sentence_index = sentence_index[:max_sequences]
            
        # 최대 길이에 없는 공간은 패딩 인덱스로 채움
#         if type == ENCODER_INPUT:
#             sentence_index = (max_sequences - len(sentence_index)) * [vocabulary[PAD]] + sentence_index
#         else:
#             sentence_index += (max_sequences - len(sentence_index)) * [vocabulary[PAD]]
        
        sentence_index += (max_sequences - len(sentence_index)) * [vocabulary[PAD]]
        
        # 문장의 인덱스 배열을 추가
        sentences_index.append(sentence_index)

    return np.asarray(sentences_index)

In [None]:
# 예측을 위한 입력 생성 데이터(한글을 형태소 분석 한 뒤, 벡터 배열로 변경하는 함수)
def make_predict_input(sentence):

    sentences = []
    sentences.append(sentence)
    sentences = pos_tag_korea(sentences)
    input_seq = convert_text_to_index(sentences, word_to_index)
    
    return input_seq

In [None]:
korean_sentence='오늘 뭐먹을까?'
input_seq = make_predict_input(korean_sentence)

In [None]:
generate_text(input_seq)

In [None]:
input_seq

# 검증하기

### 1) 테스트 셋

In [None]:
import pandas as pd
df = pd.read_csv('./all_data.csv')
df.head()

In [None]:
# 테스트 셋 x,y 나누기
test_df=df[:100]
test_X = test_df['Q'].values
test_y = test_df['A'].values
test_X[:10]

In [None]:
x=pos_tag_korea(test_X)   # 전처리
x=convert_text_to_index(x,word_to_index)  #index, padding 

y=pos_tag_korea(test_y)   # 전처리
y=convert_text_to_index(y,word_to_index)  #index, padding 
y

In [None]:
y[:2]

### 2) 워드 임베딩

In [None]:
from tensorflow.keras.layers import Dense, Embedding
from tensorflow.keras.models import Sequential

#
vocab_len= len(word_to_index)
embedding_dim = 100

# 임베딩 모델 
emb_model = Sequential()
emb_model.add(Embedding(vocab_len, embedding_dim, input_length=1 , name='de-embedding'))

# 가중치 로드하기
emb_model.load_weights('attention5_emb_weights.h5', by_name=True)

In [None]:
# y(정답데이터) 임베딩하기
y_emb = emb_model.predict(y)
print(y_emb.shape)
y_emb

### 3) 예측하기

In [None]:
pos_tag_korea(test_X)

In [None]:
# test셋 예측값을 (단어 임베딩된 상태의) 리스트로 출력
def predict(x_set):
    y_pred = []
#     # 전처리
#     x_set=convert_text_to_index(x_set,word_to_index)
    # 예측하기
    for x in x_set:
        x = make_predict_input(x)
        pred_text = generate_text(x)
        y_pred.append(pred_text)        
    y_pred = convert_text_to_index(y_pred,word_to_index)
    print(y_pred)
    # 임베딩:(100,20) 인덱스 형태> (100,20,100)
    y_pred = emb_model.predict(y_pred)
    return y_pred

In [None]:
y_pred_emb = predict(test_X)

### 4) MSE

In [None]:
from sklearn.metrics import mean_squared_error

# 단어 임베딩 상태로 들어온다면
def model_mse(y, y_pred):
    # 3차원 > 2차원으로
    y = y.reshape(y.shape[0],-1)
    y_pred = y_pred.reshape(y_pred.shape[0],-1)
    # (y, y_pred) 각 2차원인 벡터 임베딩된 시퀀스가 들어감.
    return mean_squared_error(y, y_pred)

In [None]:
# mse 구하기
model_mse(y_emb,y_pred_emb)