이 자료는 위키독스 딥 러닝을 이용한 자연어 처리 입문의 RNN 튜토리얼 자료입니다.  
링크 : https://wikidocs.net/22886

2021년 10월 12일에 마지막으로 테스트되었습니다.

In [1]:
import tensorflow as tf

In [2]:
tf.__version__

'2.9.3'

# 1. 케라스(Keras)로 RNN 구현하기

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN

In [4]:
model = Sequential()
model.add(SimpleRNN(3, input_shape=(2, 10)))
# model.add(SimpleRNN(3, input_length=2, input_dim=10))와 동일
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 3)                 42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


In [5]:
model = Sequential()
model.add(SimpleRNN(3, batch_input_shape=(8, 2, 10)))
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_1 (SimpleRNN)    (8, 3)                    42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


In [6]:
model = Sequential()
model.add(SimpleRNN(3, batch_input_shape=(8, 2, 10), return_sequences=True))
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_2 (SimpleRNN)    (8, 2, 3)                 42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


# 2. 파이썬으로 RNN 구현하기

In [7]:
import numpy as np

hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.
timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_dim = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.

inputs = np.random.random((timesteps, input_dim)) # 입력에 해당되는 2D 텐서

# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.
hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화

In [8]:
print(np.shape(inputs))

(10, 4)


In [9]:
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.
# # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [10]:
Wx = np.random.random((hidden_size, input_dim))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [11]:
print(np.shape(Wx)) # 은닉 상태의 크기 × 입력의 차원
print(np.shape(Wh)) # 은닉 상태의 크기 × 은닉 상태의 크기
print(np.shape(b)) # 은닉 상태의 크기

(8, 4)
(8, 8)
(8,)


In [12]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
    total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
    print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.94187713 0.88301099 0.97160341 0.93337546 0.92813526 0.97164946
  0.98770055 0.98278864]
 [0.9999918  0.99980783 0.99976874 0.99985423 0.99999235 0.99999377
  0.99995606 0.99999983]
 [0.99994635 0.99936128 0.99954817 0.99961235 0.99998108 0.99996063
  0.99955818 0.99999932]
 [0.99996239 0.99968535 0.99980347 0.99986062 0.99999258 0.99998787
  0.99986686 0.99999949]
 [0.99999694 0.99990582 0.99990432 0.99993414 0.99999745 0.99999842
  0.99998523 0.99999995]
 [0.99999052 0.99975881 0.9997321  0.99982355 0.99999364 0.99999131
  0.99994722 0.99999977]
 [0.99999645 0.99983231 0.99977873 0.99983593 0.99999453 0.99999549
  0.99996604 0.99999993]
 [0.99998743 0.99981741 0.99989635 0.99991191 0.99999583 0.99999628
  0.99995034 0.99999986]
 [0.99997848 0.99963128 0.99929415 0.99964794 0.99998358 0.99996629
  0.99977297 0.99999956]
 [0.99996879 0.99949154 0.99963281 0.99966269 0.99998464 0.99997542
  0.99970914 0.99999963]

# 3. 깊은 순환 신경망(Deep Recurrent Neural Network)


In [13]:
hidden_size = 8

model = Sequential()
model.add(SimpleRNN(hidden_size, input_length=10, input_dim=5, return_sequences=True))
model.add(SimpleRNN(hidden_size, return_sequences=True))
model.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_3 (SimpleRNN)    (None, 10, 8)             112       
                                                                 
 simple_rnn_4 (SimpleRNN)    (None, 10, 8)             136       
                                                                 
Total params: 248
Trainable params: 248
Non-trainable params: 0
_________________________________________________________________


# 4. 양방향 순환 신경망(Bidirectional Recurrent Neural Network)

In [14]:
from tensorflow.keras.layers import Bidirectional

In [15]:
hidden_size = 8
timesteps = 10
input_dim = 5

model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences=True), input_shape=(timesteps, input_dim)))
model.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 bidirectional (Bidirectiona  (None, 10, 16)           224       
 l)                                                              
                                                                 
Total params: 224
Trainable params: 224
Non-trainable params: 0
_________________________________________________________________


In [16]:
model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True), input_shape=(timesteps, input_dim)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.summary()

Model: "sequential_5"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 bidirectional_1 (Bidirectio  (None, 10, 16)           224       
 nal)                                                            
                                                                 
 bidirectional_2 (Bidirectio  (None, 10, 16)           400       
 nal)                                                            
                                                                 
 bidirectional_3 (Bidirectio  (None, 10, 16)           400       
 nal)                                                            
                                                                 
 bidirectional_4 (Bidirectio  (None, 10, 16)           400       
 nal)                                                            
                                                                 
Total params: 1,424
Trainable params: 1,424
Non-traina