<a href="https://colab.research.google.com/github/rlawogjs96/deeplearningnlp_starters/blob/main/SimpleRNN_%26_LSTM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### 1. 입의의 입력 생성

RNN: 

입력과 출력을 시퀀스 단위로 처리하는 Sequence Model. 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 내보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 갖고 있다. 

LSTM: 

이전의 계산 결과게 의존하는 Vanilla RNN 은 비교적 짧은 시퀀스에 대해서만 효과를 보이는 단점이 있고, 장기 의존성 문제를 갖고 있다. 이를 보완하기 위해 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할것들을 저장한다. 은닉 상태를 계산하는 식이 전통적인 RNN보다 복잡하고 cell state값을 추가한다. 


In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import SimpleRNN, GRU, LSTM, Bidirectional

RNN과 LSTM을 테스트하기 위한 임의의 입력 생성.

In [2]:
train_X = [[0.1, 4.2, 1.5, 1.1, 2.8], [1.0, 3.1, 2.5, 0.7, 1.1], [0.3, 2.1, 1.5, 2.1, 0.1], [2.2, 1.4, 0.5, 0.9, 1.1]]
print(np.shape(train_X))

(4, 5)


차원 5의 단어 벡터, 문장의 길이가 4인 경우를 가정한 입력. 4번의 timesteps 가 존재하고 각 시점마다 5차원의 단어 벡터가 입력으로 사용된다. 

In [3]:
train_X = [[[0.1, 4.2, 1.5, 1.1, 2.8], [1.0, 3.1, 2.5, 0.7, 1.1], [0.3, 2.1, 1.5, 2.1, 0.1], [2.2, 1.4, 0.5, 0.9, 1.1]]]
train_X = np.array(train_X, dtype=np.float32)
print(train_X.shape)

(1, 4, 5)


(batch_size, timesteps, input_dim) 에 해당되는 (1,4,5)의 크기를 가지는 3D 텐서 생성. 

#### 2. SimpleRNN

대표적인 인자: return_sequences & return_state. 

In [4]:
rnn = SimpleRNN(3)
# rnn = SimpleRNN(3, return_sequences = False, return_state=False)
hidden_state = rnn(train_X)

print('hidden state : {}, shape: {}'.format(hidden_state, hidden_state.shape))

hidden state : [[-0.8965507  0.5017719  0.8398456]], shape: (1, 3)


(1,3) 크기의 텐서가 출력되고 마지막 시점의 은닉 상태를 뜻한다.

In [5]:
# return_sequences = True 
rnn = SimpleRNN(3, return_sequences = True)
hidden_states = rnn(train_X)

print('hidden states: {}, shape: {}'.format(hidden_states, hidden_states.shape))

hidden states: [[[ 0.7961828  -0.53845507 -0.989022  ]
  [ 0.4177882  -0.916745   -0.5154493 ]
  [-0.54442936 -0.5303156  -0.95509654]
  [-0.945594   -0.9915304   0.34603497]]], shape: (1, 4, 3)


(1,4,3) 크기의 텐서 출력.

In [6]:
rnn = SimpleRNN(3, return_sequences=True, return_state=True)
hidden_states, last_state = rnn(train_X)

print('hidden states : {}, shape: {}'.format(hidden_states, hidden_states.shape))
print('last hidden state : {}, shape: {}'.format(last_state, last_state.shape))

hidden states : [[[-0.8411755  -0.56159264  0.29249784]
  [ 0.50252366 -0.9576726   0.96509784]
  [ 0.5242358  -0.95948493  0.9644806 ]
  [ 0.6955955  -0.8698927   0.987058  ]]], shape: (1, 4, 3)
last hidden state : [[ 0.6955955 -0.8698927  0.987058 ]], shape: (1, 3)


In [7]:
# return_sequences = False, return_state = True
rnn = SimpleRNN(3, return_sequences=False, return_state=True)
hidden_state, last_state = rnn(train_X)

print('hidden state : {}, shape: {}'.format(hidden_state, hidden_state.shape))
print('last hidden state : {}, shape: {}'.format(last_state, last_state.shape))

hidden state : [[-0.9805586  0.9934239 -0.6707047]], shape: (1, 3)
last hidden state : [[-0.9805586  0.9934239 -0.6707047]], shape: (1, 3)


#### 3. LSTM

LSTM, GRU를 주로 사용한다. 임의의 입력에 대해 LSTM 사용법을 제시.

In [8]:
# return_sequences = False, return_state = True 
lstm = LSTM(3, return_sequences=False, return_state=True)
hidden_state, last_state, last_cell_state = lstm(train_X)

print('hidden state : {}, shape: {}'.format(hidden_state, hidden_state.shape))
print('last hidden state : {}, shape: {}'.format(last_state, last_state.shape))
print('last cell state : {}, shape: {}'.format(last_cell_state, last_cell_state.shape))

hidden state : [[-0.09633814  0.25800747 -0.6241176 ]], shape: (1, 3)
last hidden state : [[-0.09633814  0.25800747 -0.6241176 ]], shape: (1, 3)
last cell state : [[-0.45223483  0.57520163 -1.1347775 ]], shape: (1, 3)


return_sequences 가 False이므로 첫번째 결과는 마지막 시점의 은닉 상태를 뜻한다. LSTM이 SimpleRNN과 다른 점은 return_state를 True로 둔 경우 마지막 시점의 은닉 상태 뿐만 아니라 셀 상태까지 반환된다는 점이다. 

In [9]:
lstm = LSTM(3, return_sequences=True, return_state=True)
hidden_states, last_hidden_state, last_cell_state = lstm(train_X)

print('hidden states : {}, shape: {}'.format(hidden_states, hidden_states.shape))
print('last hidden state : {}, shape: {}'.format(last_hidden_state, last_hidden_state.shape))
print('last cell state : {}, shape: {}'.format(last_cell_state, last_cell_state.shape))

hidden states : [[[-0.3382276   0.02623067 -0.54568684]
  [-0.49404567  0.04622558 -0.53478175]
  [-0.32339776  0.10913593 -0.44493848]
  [-0.6307183   0.35400432 -0.5973396 ]]], shape: (1, 4, 3)
last hidden state : [[-0.6307183   0.35400432 -0.5973396 ]], shape: (1, 3)
last cell state : [[-1.6650007  0.6444044 -0.7940281]], shape: (1, 3)


#### 4. BiDirectional RNN
양방향 LSTM의 출력값을 확인. return_sequences가 True인 경우와 False인 경우에 대해 은닉 상태의 값이 어떻게 바뀌는지 비교하기 위해 출력되는 은닉 상태의 값을 고정시켜준다.

In [10]:
k_init = tf.keras.initializers.Constant(value=0.1)
b_init = tf.keras.initializers.Constant(value=0)
r_init = tf.keras.initializers.Constant(value=0.1)

In [11]:
# return_sequences = False, return_state = True
bilstm = Bidirectional(LSTM(3, return_sequences=False, return_state=True, \
                            kernel_initializer=k_init, bias_initializer=b_init, recurrent_initializer=r_init))
hidden_states, forward_h, forward_c, backward_h, backward_c = bilstm(train_X)

print('hidden states : {}, shape: {}'.format(hidden_states, hidden_states.shape))
print('forward state : {}, shape: {}'.format(forward_h, forward_h.shape))
print('backward state : {}, shape: {}'.format(backward_h, backward_h.shape))

hidden states : [[0.6303139  0.6303139  0.6303139  0.70387346 0.70387346 0.70387346]], shape: (1, 6)
forward state : [[0.6303139 0.6303139 0.6303139]], shape: (1, 3)
backward state : [[0.70387346 0.70387346 0.70387346]], shape: (1, 3)


In [12]:
bilstm = Bidirectional(LSTM(3, return_sequences=True, return_state=True, \
                            kernel_initializer=k_init, bias_initializer=b_init, recurrent_initializer=r_init))
hidden_states, forward_h, forward_c, backward_h, backward_c = bilstm(train_X)

In [14]:
print('hidden states : {}, shape: {}'.format(hidden_states, hidden_states.shape))
print('forward state : {}, shape: {}'.format(forward_h, forward_h.shape))
print('backward state : {}, shape: {}'.format(backward_h, backward_h.shape))

hidden states : [[[0.35906476 0.35906476 0.35906476 0.70387346 0.70387346 0.70387346]
  [0.5511133  0.5511133  0.5511133  0.5886358  0.5886358  0.5886358 ]
  [0.5911575  0.5911575  0.5911575  0.39516988 0.39516988 0.39516988]
  [0.6303139  0.6303139  0.6303139  0.2194224  0.2194224  0.2194224 ]]], shape: (1, 4, 6)
forward state : [[0.6303139 0.6303139 0.6303139]], shape: (1, 3)
backward state : [[0.70387346 0.70387346 0.70387346]], shape: (1, 3)
