In [13]:
import pandas as pd
import tensorflow as tf
import numpy as np
import os

from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import matplotlib.pyplot as plt

from preprocessing import *

In [None]:
'''
데이터 Q,A, Label
Label = 0 : 일상 대화
Label = 1 : 긍정
Label = 2 : 부정 주제
Label은 감정 분석에 활용할 수 있겠음.
'''

In [23]:
'''전처리 결과'''
seed = 99
tf.random.set_seed(seed)

# 인코더의 입력값
index_inputs = np.load(open('data_in/train_inputs.npy','rb'), allow_pickle=True)
# 디코더의 입력값
index_outputs = np.load(open('data_in/train_outputs.npy','rb'), allow_pickle=True)
# 디코더의 타깃값
index_targets = np.load(open('data_in/train_targets.npy','rb'), allow_pickle=True)
# dictonary
prepro_configs = json.load(open('data_in/data_configs.json'))

'''
인코더 Input : 최대 길이만큼 <PAD>
디코더 Input : 시작을 알리는 <SOS>
디코더 타겟 : 끝을 알리는 <END>
'''



'\n인코더 Input : 최대 길이만큼 <PAD>\n디코더 Input : 시작을 알리는 <SOS>\n디코더 타겟 : 끝을 알리는 <END>\n'

In [26]:
BATCH_SIZE = 2
MAX_SEQUENCE =25
EPOCH =30
UNITS =1024
EMBEDDING_DIM = 256
VALIDATION_SPLIT = 0.1

char2idx = prepro_configs['char2idx']
idx2char = prepro_configs['idx2char']
std_index = prepro_configs['std_symbol']
end_index = prepro_configs['end_symbol']
vocab_size = prepro_configs['vocab_size']



In [27]:
''' Encoder '''
class Encoder(tf.keras.layers.Layer):
    def __init__(self, vocab_size, embedding_dim, enc_units, batch_size):
        super(Encoder,self).__init__()
        
        self.batch_size = batch_size
        self.enc_units = enc_units
        self.vocab_size = vocab_size
        self.embedding_dim = embedding_dim
        
        self.embedding = tf.keras.layers.Embedding(self.vocab_size, self.embedding_dim)
        self.lstm = tf.keras.layers.LSTM(self.enc_units, 
                                         return_sequences= True,
                                         return_state= True,
                                         # Xavier 초기화 = Glorot 초기화 방법
                                         # 이전 노드와 다음 노드의 개수에 의존하여 초기화 하는 방법
                                         recurrent_initializer= 'glorot_uniform'
                                        )
        def call(self,x,hidden): # 입력값 X와 은닉 상태 Hidden을 받는다.
            x = self.embedding(x)
            output,state = self.lstm(x, initial_state = hidden)
            
            return output, state
        
        #초기에 사용될 Hidden state를 만듦
        def initialize_hidden_state(self, inp):
            return tf.zeros((tf.shape(inp)[0],self.enc_units))

In [25]:
# BandanauAttention : Attention 가중치도 같이 학습 시키는 것
class BandanauAttention(tf.keras.layers.Layer):
    def __init__(self,units): # 출력 벡터의 크기를 인자로 받음 
        super(BandanauAttention, self).__init__()
        self.W1 = tf.keras.layers.Dense(units)
        self.W2 = tf.keras.layers.Dense(units)
        self.V = tf.keras.layers.Dense(1)
    
    def call(self, query, values):
        # query와 w2를 행렬곱 할 수 있도록 shape을 바꿈
        hidden_with_time_axis =  tf.expand_dims(query,1)
        # W1,W2의 결과를 더하여 activation function을 취함
        # Query와 value 에 가중치를 
        score = self.V(tf.nn.tanh(
                                self.W1(values)+self.W2(hidden_with_time_axis)
                ))
        attention_wieghts = tf.nn.softmax(score,axis=1)
        
        

                      Q                   A  label
5290  1000일 만난 여자친구와 이별  더 오래 만날 사람 만날 거예요.      1
5291    10년 연애. 헤어졌습니다.       더 공허함이 크시겠네요.      1
                             Q                         A  label
8860        짝사랑만큼 고통스러운 건 없겠지.  짝사랑 만큼 감정소모가 큰 건 없을 거예요.      2
8861       1년 넘게 만났는데 지금도 불타올라         정열적인 사랑을 하고 있나봐요.      2
8862           1년 동거 중인데 계속 좋아    서로 깊게 알게되면서 더 좋아졌나봅니다.      2
8863              1년 동거하고 결혼했어                    축하합니다!      2
8864  1년 만났는데도 그 사람에 대해 잘 모르겠어                  더 만나보세요.      2
