In [1]:
#신경망들의 성능을 높이기 위한 메커니즘.

#RNN에 기반한 seq2seq모델
#인코더 부분에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터포현으로 압축하고
#디코더는 이 벡터를 통해 출력 시퀀스를 만들어냄.
# 문제1: 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생
# 문제2: RNN의 고질적인 문제인 기울기 소실문제가 존재(Vanishing gradient)

#Vanishing Gradient Problem(기울기값이 사라지는 문제)는 인공신경망을 
#기울기값을 베이스로 하는 method(backpropagation)로 학습시키려고 할 때 발생되는 어려움이다.

#어텐션 아이디어 - 디코더에서 출력 단어를 예측하는 매 시점마다
#인코더에서의 전체 입력 문장을 다시 한 번 참고한다는 점,
#전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야할 단어와
#연관이 있는 입력 단어부분을 좀 더 집중(attention)해서 보게 된다.

#Dictionary : Key-Value
dict = {"2017" : "Transformer", "2018" : "BERT"}
print(dict["2017"])

Transformer


In [2]:
#어텐션 함수는 주어진 쿼리(Query)에 대해서 모든 키와의 유사도를 구한다.
#이 유사도를 키와 맵핑되어있는 각 Value에 반영한다.
#그리고 유사도가 반영된 Value를 모두 더해서 리턴한다.
#이를 Attention Value라고 한다.


In [1]:
#양방향 LSTM과 어텐션 메커니즘
from tensorflow.keras.datasets import imdb
#IMDB 리뷰 데이터는 텍스트 분류하기에서 배움.
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.sequence import pad_sequences

vocab_size=10000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocab_size)
#훈련데이터와 레이블이 train으로 이데대한 레이블이 각각 test로 저장
#IMDB는 정수 인코딩이 되어있기 때문에(입력층을 거침)
#리뷰의 최대 길이와 평균 길이를 확인해보자.

print('리뷰의 최대 길이 : {}'.format(max(len(l) for l in X_train)))
print('리뷰의 평균 길이 : {}'.format(sum(map(len, X_train))/len(X_train)))

  x_train, y_train = np.array(xs[:idx]), np.array(labels[:idx])
  x_test, y_test = np.array(xs[idx:]), np.array(labels[idx:])


리뷰의 최대 길이 : 2494
리뷰의 평균 길이 : 238.71364


In [2]:
max_len = 500
X_train = pad_sequences(X_train, maxlen=max_len)
X_test = pad_sequences(X_test, maxlen=max_len)

In [3]:
import tensorflow as tf
class BahdanauAttention(tf.keras.Model):
  def __init__(self, units):
    super(BahdanauAttention, self).__init__()
    self.W1 = Dense(units)
    self.W2 = Dense(units)
    self.V = Dense(1)

  def call(self, values, query): # 단, key와 value는 같음
    # query shape == (batch_size, hidden size)
    # hidden_with_time_axis shape == (batch_size, 1, hidden size)
    # score 계산을 위해 뒤에서 할 덧셈을 위해서 차원을 변경해줍니다.
    hidden_with_time_axis = tf.expand_dims(query, 1)

    # score shape == (batch_size, max_length, 1)
    # we get 1 at the last axis because we are applying score to self.V
    # the shape of the tensor before applying self.V is (batch_size, max_length, units)
    score = self.V(tf.nn.tanh(
        self.W1(values) + self.W2(hidden_with_time_axis)))

    # attention_weights shape == (batch_size, max_length, 1)
    attention_weights = tf.nn.softmax(score, axis=1)

    # context_vector shape after sum == (batch_size, hidden_size)
    context_vector = attention_weights * values
    context_vector = tf.reduce_sum(context_vector, axis=1)

    return context_vector, attention_weights

In [4]:
from tensorflow.keras.layers import Dense, Embedding, Bidirectional, LSTM, Concatenate, Dropout
from tensorflow.keras import Input, Model
from tensorflow.keras import optimizers
import os

In [5]:
sequence_input = Input(shape=(max_len,), dtype='int32')
embedded_sequences = Embedding(vocab_size, 128, input_length=max_len, mask_zero = True)(sequence_input)

In [6]:
lstm = Bidirectional(LSTM(64, dropout=0.5, return_sequences = True))(embedded_sequences)

In [7]:
lstm, forward_h, forward_c, backward_h, backward_c = Bidirectional \
  (LSTM(64, dropout=0.5, return_sequences=True, return_state=True))(lstm)

In [8]:
print(lstm.shape, forward_h.shape, forward_c.shape, backward_h.shape, backward_c.shape)

(None, 500, 128) (None, 64) (None, 64) (None, 64) (None, 64)


In [9]:
state_h = Concatenate()([forward_h, backward_h]) # 은닉 상태
state_c = Concatenate()([forward_c, backward_c]) # 셀 상태

In [10]:
attention = BahdanauAttention(64) # 가중치 크기 정의
context_vector, attention_weights = attention(lstm, state_h)

In [11]:
dense1 = Dense(20, activation="relu")(context_vector)
dropout = Dropout(0.5)(dense1)
output = Dense(1, activation="sigmoid")(dropout)
model = Model(inputs=sequence_input, outputs=output)

In [12]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
history = model.fit(X_train, y_train, epochs = 3, batch_size = 256, validation_data=(X_test, y_test), verbose=1)

Epoch 1/3
Epoch 2/3
12/98 [==>...........................] - ETA: 2:29:47 - loss: 0.2567 - accuracy: 0.9188