# 순환 신경망(Recurrent Neural Network, RNN)

In [None]:
'''
    hidden_size: 은닉 상태의 크기 정의. (=output_dim)
                RNN의 capacity 결정.
    timesteps: 입력 시퀀스의 길이. (=input_length)
    input_dim: 입력의 크기.
'''
# 추가 인자를 사용할 때
model.add(SimpleRNN(hidden_size, input_shape=(timesteps, input_dim)))

# 다른 표기
model.add(SimpleRNN(hidden_size, input_length=M, input_dim=N))
# 단, M과 N은 정수

In [None]:
'''
    Input: (batch_size, timesteps, input_dim) 크기의 3D 텐서를 입력으로 받음.

    Output:
        1) 메모리 셀의 최종 시점의 은닉 상태만 리턴
            (batch_size, output_dim) 크기의 2D 텐서 리턴
            Many-to-one problem
        2) 메모리 셀의 각 시점(time step)의 은닉 상태 값들을 모아 전체 시퀀스를 리턴
            (batch_size, timesteps, output_dim) 크기의 3D 텐서 리턴
            Many-to-many problem
        
        >> RNN 층의 return_sequences=True/False 설정으로 설정 가능.
'''

## RNN 구현
$$h_{t} = tanh(W_{x}X_{t} + W_{h}h_{t−1} + b)$$

In [None]:
# 수도코드
hidden_state = 0
for input_t in input_length: # 각 시점마다
    output_t = tanh(input_t, hidden_state_t) # 입력, 은닉 상태를 가지고 연산
    hidden_state_t = output_t # 현재 시점의 은닉 상태 = 계산 결과 (업데이트)

In [9]:
import numpy as np

# 파라미터
timesteps = 10 # 시점의 수 (NLP: 문장의 수)
input_dim = 4 # 입력의 차원 (NLP: 단어 벡터의 차원)
hidden_size = 8 # 은닉 상태의 크기 (메모리 셀의 용량)

In [10]:
inputs = np.random.random((timesteps, input_dim)) # 입력에 해당하는 2D텐서
hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태. 0(벡터)로 초기화

In [19]:
Wx= np.random.random((hidden_size, input_dim)) # 입력에 대한 가중치
Wh = np.random.random((hidden_size, hidden_size)) # 은닉 상태에 대한 가중치
b = np.random.random((hidden_size, )) # bias

print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [20]:
total_hidden_states = []

for input_t in inputs:
    output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # h_t
    total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태 값 축적
    print(np.shape(total_hidden_states))
    hidden_state_t = output_t
    
total_hidden_states = np.stack(total_hidden_states, axis=0) # 출력 정리

print(total_hidden_states) # (timesteps, input_dim)                               

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.90376893 0.98994645 0.97203083 0.93649386 0.86672468 0.95387146
  0.959283   0.85920073]
 [0.9998982  0.99657764 0.9998481  0.99985712 0.99963711 0.9999494
  0.99993561 0.99857214]
 [0.99993917 0.99649133 0.99993122 0.99993733 0.99982518 0.99998131
  0.99996972 0.99949189]
 [0.99999717 0.99987757 0.99999155 0.99999781 0.99998324 0.99999566
  0.99999548 0.99994243]
 [0.99994909 0.99784336 0.99986279 0.99992963 0.99979923 0.99996914
  0.9999559  0.99888273]
 [0.99999141 0.99892332 0.9999565  0.99998839 0.99995648 0.99997976
  0.99997629 0.99984485]
 [0.99994898 0.9986005  0.99993861 0.99996012 0.99983047 0.99999117
  0.99998053 0.99952363]
 [0.99996628 0.99906934 0.99993131 0.99996471 0.99986194 0.99998508
  0.99997812 0.99931567]
 [0.99998241 0.9985293  0.99992473 0.9999727  0.99991753 0.99996797
  0.99996595 0.99956344]
 [0.99999176 0.99928075 0.99998028 0.99999206 0.9999641  0.99999027
  0.9999882  0.99990311]]

## 깊은 순환 신경망(Deep Recurrent Neural Network)

In [None]:
model = Sequential()
model.add(SimpleRNN(hidden_size, return_sequences = True))
model.add(SimpleRNN(hidden_size, return_sequences = True))
'''
    첫 은닉층은 다음 은닉층이 존재하므로 return_sequences를 True로 설정함.
'''

## 양방향 순환 신경망(Bidirectional Neural Network)
이전 시점의 데이터뿐만 아니라 이후 시점의 데이터도 참고하여 정답을 예측하는 모델

In [None]:
'''
    두 개의 메모리 셀 사용
    1) 앞 시점의 은닉 상태를 전달 받아 현재의 은닉 상태 계산 (Forward States)
    2) 뒤 시점의 은닉 상태를 전달 받아 현재의 은닉 상태 계산 (Backward States)
'''

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Bidirectional

model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences=True), input_shape=(timesteps, input_dim)))

In [None]:
# 은닉층이 4개인 경우
model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True), input_shape=(timesteps, input_dim)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))

## Quiz

Embedding을 사용하며, 단어 집합(Vocabulary)의 크기가 5,000이고 임베딩 벡터의 차원은 100입니다.<br>
은닉층에서는 Simple RNN을 사용하며, 은닉 상태의 크기는 128입니다.<br>
훈련에 사용하는 모든 샘플의 길이는 30으로 가정합니다.<br>
이진 분류를 수행하는 모델로, 출력층의 뉴런은 1개로 시그모이드 함수를 사용합니다.<br>
은닉층은 1개입니다.

In [24]:
from keras.models import Sequential
from keras.layers import SimpleRNN, Embedding, Dense

vocab_size = 5000
embedding_dim = 100
hidden_size = 128

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim)) # 5,000*100 = 500,000 개
model.add(SimpleRNN(hidden_size)) 
model.add(Dense(1, activation='sigmoid'))
model.summary()

Wx: 100(embedding) * 128(hidden) = 12,800개<br>
Wh: 128*128 = 16,384개<br>
b: 128<br>
Wy: 128<br>
b(output): 1<br>
total: 529,411개