* RNN(Recurrent Neural Network)은 시퀀스(Sequence) 모델
* 입력과 출력을 시퀀스 단위로 처리하는 모델
* 은닉층에서 활성화 함수를 지난 값은 출력층 방향으로 향하는 **피트 포워드 신경망(Feed Forward Neural Network)**
* **RNN**은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보낸다.
* RNN에서 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드를 셀(cell)이라고 한다. => 이 셀은 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행하므로 이를 **메모리 셀 또는 RNN 셀**이라고 표현
* 은닉층의 메모리 셀은 각각의 시점에서 바로 이전 시점에서의 은닉층의 메모리 셀에서 나온 값을 자신의 입력으로 사용하는 재귀적 활동을 하고 있다.
* 메모리 셀이 출력층 방향으로 또는 다음 시점의 자신에게 보내는 값을 **은닉 상태(hidden state)**라고 한다.
* RNN은 입력과 출력의 길이를 다르게 설계 할 수 있으므로 다양한 용도로 사용할 수 있다.
    * 하나의 입력에 대해서 여러개의 출력(one-to-many)의 모델은 하나의 이미지 입력에 대해서 사진의 제목을 출력하는 이미지 캡셔닝(Image Captioning) 작업에 사용
    * 단어 시퀀스에 대해서 하나의 출력(many-to-one)을 하는 모델은 판별하는 감성 분류(sentiment classification), 또는 스팸 메일 분류(spam detection)에 사용
    * 다 대 다(many-to-many)의 모델의 경우에는 입력 문장으로 부터 대답 문장을 출력하는 챗봇과 입력 문장으로부터 번역된 문장을 출력하는 번역기, 또는 개체명 인식이나 품사 태깅과 같은 작업에 사용
    
## 1. 케라스(Keras)로 RNN 구현하기

In [None]:
# RNN 층을 추가하는 코드
model.add(SimpleRNN(hidden_size)) # 가장 간단한 형태

In [None]:
# 추가 인자를 사용할 때
model.add(SimpleRNN(hidden_size, input_shape=(timesteps, input_dim)))

# 다른 표기
model.add(SimpleRNN(hidden_size, input_length=M, input_dim=N))
# 단, M과 N은 정수

* hidden_size = 은닉 상태의 크기를 정의. 메모리 셀이 다음 시점의 메모리 셀과 출력층으로 보내는 값의 크기(output_dim)와도 동일. RNN의 용량(capacity)을 늘린다고 보면 되며, 중소형 모델의 경우 보통 128, 256, 512, 1024 등의 값을 가진다.
* timesteps = 입력 시퀀스의 길이(input_length)라고 표현하기도 함. 시점의 수.
* input_dim = 입력의 크기.

1. RNN 층은 (batch_size, timesteps, input_dim) 크기의 3D 텐서를 입력으로 받는다.
2. RNN층은 사용자의 설정에 따라 두 가지 종류의 출력을 내보낸다. 
    * 메모리 셀의 **최종 시점의 은닉 상태**만을 리턴하고자 한다면 (batch_size, output_dim) 크기의 2D 텐서를 리턴
    * 메모리 셀의 **각 시점(time step)의 은닉 상태값들을 모아서** 전체 시퀀스를 리턴하고자 한다면 (batch_size, timesteps, output_dim) 크기의 3D 텐서를 리턴
    * 이는 return_sequences = True를 설정하여 설정 가능

## 2. 파이썬으로 RNN 구현하기
직접 Numpy로 RNN 층 구현

은닉 상태를 계산하는 식은 다음과 같이 정의

ht = tanh(WxXt + WhHt-1 + b)

In [None]:
hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length: # 각 시점마다 입력을 받는다.
    output_t = tanh(input_t, hidden_state_t)  # 각 시점에 대해서 입력과 이전 은닉 상태를 가지고 연산
    hidden_state_t = output_t  # 계산 결과는 현재 시점의 은닉 상태가 된다.

In [4]:
# 아래의 코드는 이해를 돕기 위해 (timesteps, input_dim) 크기의 2D 텐서를 입력으로 받았다고 가정
# 주의: 실제로 케라스에서는 (batch_size, timesteps, input_dim)의 크기의 3D 텐서를 입력으로 받는다.

import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이
input_dim = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량

inputs = np.random.random((timesteps, input_dim)) # 입력에 해당되는 2D 센서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화

In [5]:
# 초기 은닉 상태 출력
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [6]:
# 가중치와 편향 정의
Wx = np.random.random((hidden_size, input_dim))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [7]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [8]:
# RNN 층

total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs:  # 각 시점에 따라서 입력값이 입력
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t)+b)  # Wx * Xt + Wh * Ht-1 + b(bias) 
    total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태 값을 계속 축적
    print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
    hidden_state_t = output_t
    
total_hidden_states = np.stack(total_hidden_states, axis=0)
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states)  # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.90698374 0.77588342 0.8942538  0.94441418 0.97800182 0.88404799
  0.70797986 0.75290383]
 [0.99976672 0.99896207 0.99997459 0.99979447 0.99997169 0.99994509
  0.99981332 0.99988506]
 [0.99989697 0.99938303 0.99999383 0.99995181 0.9999719  0.99997915
  0.99995503 0.99990934]
 [0.99995314 0.99951058 0.99999535 0.99995703 0.99998766 0.99998442
  0.99997367 0.99993953]
 [0.99995423 0.99940062 0.99999389 0.99994735 0.99998385 0.99998169
  0.99996881 0.99991108]
 [0.99996488 0.99943566 0.99999433 0.99992354 0.99999089 0.99998549
  0.99997617 0.99996546]
 [0.99991352 0.99945981 0.99999255 0.9999052  0.99998572 0.99998211
  0.99995974 0.99996351]
 [0.99992463 0.99958531 0.99999567 0.99994143 0.9999904  0.99998659
  0.99997252 0.99997829]
 [0.99991222 0.99954248 0.99999544 0.99996423 0.99998179 0.99998268
  0.99996506 0.9999294 ]
 [0.9998747  0.99976775 0.99999321 0.999954   0.99998998 0.99998052
  0.99995117 0.99990886]

## 3. 깊은 순환 신경망(Deep Recurrent Neural Network)
RNN도 다수의 은닉층을 가질 수 있다.
```model = Sequential()```

```model.add(SimpleRNN(hidden_size, return_sequences=True))```

```model.add(SimpleRNN(hidden_size, return_sequences=True))```


## 4. 양방향 순환 신경망(Bidirectional Recurrent Neural Network)
* 양방향 순환 신경망은 시점 t에서의 출력값을 예측할 때 이전 시점의 데이터뿐만 아니라, 이후 데이터로도 예측할 수 있다는 아이디어에 기반
* 양방향 RNN은 하나의 출력값을 예측하기 위해 기본적으로 두 개의 메모리 셀을 사용
* 첫번째 메모리 셀은 **앞 시점의 은닉 상태(Forward States)**를 전달받아 현재의 은닉 상태를 계산
* 두번째 메모리 셀은 **뒤 시점의 은닉 상태(Backward States)**를 전달 받아 현재의 은닉 상태를 계산

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Bidirectional

model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences=True), input_shape=(timesteps, input_dim)))

In [None]:
# 양방향 RNN도 다수의 은닉층을 가질 수 있다.

model = Sequential()
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True), input_shape=(timesteps, input_dim)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))
model.add(Bidirectional(SimpleRNN(hidden_size, return_sequences = True)))