# PyTorch로 시작하는 딥러닝 입문
## 9. 순환 신경망

### 순환 신경망
RNN(Recurrent Neural Network)은 입력과 출력을 시퀀스 단위로 처리하는 모델  

#### 순환 신경망
앞서 배운 신경망들은   
`입력층-은닉층-출력층`의 방향으로만 향함  
이와 같은 신경망들을 피드 포워드 신경망(Feed Forward Neural Network)라고 함  

하지만, RNN의 경우 은닉층의 노드에서 활성화 함수를 거친 결과값을 출력층 방향으로 보내면서 다시 은닉층 노드의 다음 계산의 입력으로도 보냄  
이때 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드를 **셀** 이라고 함  
셀은 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행하므로 **메모리 셀** 또는 **RNN 셀** 이라고도 함  

이때 메모리 셀이 출력 방향으로 또는 다음 시점의 자신에게 보내는 값을 **은닉 상태**라고 함  

또한 피드 포워드 신경망에서는 뉴런이라는 단위를 사용했지만  
RNN에서는 뉴런이라는 단위보다는 입력층과 출력층에서는 각각 입력 벡터와 출력 벡터, 은닉층에서는 은닉 상태라는 표현을 주로 사용  

RNN은 피드 포워드 신경망과 다르게 입력과 출력의 길이를 다르게 설계할 수 있음  
- 일 대 다
- 다 대 일
- 다 대 다

#### 파이썬으로 RNN 구현하기

$h_t = tanh(W_xX_t+W_hh_{t− 1} + b)$

- $x_t$(입력) :$ (d \times 1)$
- $W_x$(입력값을 위한 가중치) : $(D_h \times d)$
- $W_h$(은닉 상태값의 가중치) :$ (D_h \times D_h)$
- $h_{t−1}$($t-1$ 시점의 은닉 상태값) : $(D_h \times 1)$
- $b$(편향) : $(D_h \times 1)$

In [None]:
# 의사 코드(pseudocode)
hidden_state_t = 0
for input_t in input_length:
    output_t = tanh(input_t, hidden_state_t)
    hidden_state_t = output_t

In [6]:
import numpy as np

timesteps = 10
input_size = 4 
hidden_size = 8

inputs = np.random.random((timesteps, input_size))

hidden_state_t = np.zeros((hidden_size,)) 

In [2]:
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [7]:
Wx = np.random.random((hidden_size, input_size))
Wh = np.random.random((hidden_size, hidden_size))
b = np.random.random((hidden_size, ))

In [8]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [9]:
total_hidden_states = []

for input_t in inputs:
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t) + b)
    total_hidden_states.append(list(output_t))
    print(np.shape(total_hidden_states))
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0)

print(total_hidden_states)

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.98671564 0.98951338 0.98453457 0.92462728 0.97149121 0.83166946
  0.97063046 0.94487718]
 [0.9999814  0.99953271 0.99998987 0.99998392 0.99961679 0.99895036
  0.99902586 0.99974408]
 [0.99999906 0.99997538 0.99999943 0.9999983  0.99992754 0.99986426
  0.99993596 0.99998744]
 [0.99999274 0.99991813 0.99999775 0.99999688 0.99968933 0.99983025
  0.99984438 0.99991979]
 [0.99999634 0.99991114 0.9999984  0.99999586 0.99975074 0.99975374
  0.99982338 0.99995725]
 [0.99999915 0.99997198 0.99999945 0.99999864 0.99987002 0.99989275
  0.9999384  0.99998704]
 [0.99998614 0.99966283 0.99999472 0.99999126 0.99914131 0.9995547
  0.99946477 0.99983777]
 [0.9999962  0.99995621 0.9999988  0.99999753 0.9998354  0.99986202
  0.99990753 0.99996042]
 [0.99999809 0.9999795  0.99999917 0.9999987  0.99993467 0.99989937
  0.99994336 0.99997632]
 [0.99999645 0.99989662 0.99999815 0.99999639 0.99967851 0.99976278
  0.99980147 0.99995177]]

#### 파이토치의 nn.RNN()

In [10]:
import torch
import torch.nn as nn

In [12]:
input_size = 5
hidden_size = 8

In [13]:
inputs = torch.Tensor(1, 10, 5) # (batch_size, time_steps, input_size)

In [14]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [15]:
outputs, _status = cell(inputs)

In [17]:
print(outputs.shape)

torch.Size([1, 10, 8])


In [19]:
print(_status.shape) 

torch.Size([1, 1, 8])


#### 깊은 순환 신경망

In [21]:
inputs = torch.Tensor(1, 10, 5)

In [22]:
cell = nn.RNN(input_size=5, hidden_size=8, num_layers=2, batch_first=True)

In [31]:
outputs, _status = cell(inputs)

In [32]:
print(outputs.shape)

torch.Size([1, 10, 8])


In [33]:
print(_status.shape)

torch.Size([2, 1, 8])


#### 양방향 순환 신경망
양방향 순환 신경망은 시점 t에서의 출력값을 예측할 때   
이전/이후 시점의 데이터로 예측이 가능할 수 있다는 아이디어에서 출발 

즉, RNN이 과거 시점의 데이터를 참고해서 찾고자하는 답을 예측하지만  
실제 문제에선 이후의 시점에도 힌트가 존재함  
이를 고려하기 위한 것이 **양방향 순환 신경망**  

양방향 순환 신경망은 하나의 출력값을 예측하기 위해 두 개의 메모리 셀 사용  
- **앞 시점의 은닉 상태(Forward States)**
- **뒤 시점의 은닉 상태(Backward States)**

In [34]:
inputs = torch.Tensor(1, 10, 5)

In [35]:
cell = nn.RNN(input_size=5, hidden_size=8, num_layers=2, batch_first=True, bidirectional=True)

In [36]:
outputs, _status = cell(inputs)

In [38]:
print(outputs.shape)

torch.Size([1, 10, 16])


In [39]:
print(_status.shape)

torch.Size([4, 1, 8])


### 장단기 메모리
기본적인 RNN을 **바닐라 RNN(Vanilla RNN)** 이라고 부름  
이후 바닐라 RNN의 한계를 극복하기 위한 다양한 RNN의 변형이 있는데  
그 중 LSTM을 다룰 예정

#### 바닐라 RNN의 한계
바닐라 RNN은 짧은 시점 시퀀스에 대해서만 효과를 보이는데  
시점이 길어질 수록 앞의 정보가 뒤로 충분히 전달되지 못하는 현상이 발생  
이를 **장기 의존성 문제(the problem of Long-Term Dependencies)** 라고 함  

#### 바닐라 RNN 내부 열어보기
RNN은 $x_t$와 $h_{t−1}$이라는 두 개의 입력이 각각의 가중치와 곱해져서 메모리 셀의 입력 됨  
또한, 이를 하이퍼볼릭탄젠트 함수의 입력으로 사용하고 이 값은 은닉층의 출력인 은닉 상태가 됨  

#### LSTM


LSTM은 전통적인 RNN의 단점을 보완 했는데  
은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가해 불필요한 기억을 지우고, 기억해야할 것들을 정하게 함  

**입력 게이트**  
현재 정보를 기억하기 위한 게이트  

**망각 게이트**  
기억을 삭제하기 위한 게이트  

**셍 상태(장기 상태)**  
셀 상태 $C_t$

**출력 게이트**  
현재 시점 $t$의 $x$값과 이전 시점 $t-1$의 은닉 상태가 시그모이드 함수를 지난 값  

#### 파이토치의 nn.LSTM()

In [None]:
# 기존 RNN
nn.RNN(input_dim, hidden_size, batch_first=True)

In [None]:
# LSTM
nn.LSTM(input_dim, hidden_size, batch_first=True)