# 9. 순환 신경망(Recurrent Neural Network)

## 01. 순환 신경망(Recurrent Neural Network, RNN)

![](https://wikidocs.net/images/page/22886/rnn_images4-5.PNG)

### 2. 파이썬으로 RNN 구현하기

```python
hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length: # 각 시점마다 입력을 받는다.
    output_t = tanh(input_t, hidden_state_t) # 각 시점에 대해서 입력과 은닉 상태를 가지고 연산
    hidden_state_t = output_t # 계산 결과는 현재 시점의 은닉 상태가 된다.
```

In [1]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [2]:
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [3]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [4]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [6]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
    output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
    total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
    print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.99991133 0.99991681 0.99996946 0.99988491 0.99996421 0.99996567
  0.99962707 0.99951488]
 [0.99991769 0.99996398 0.9999867  0.99978637 0.99997716 0.99997159
  0.99947321 0.99945905]
 [0.99993698 0.99997395 0.99999219 0.9998879  0.9999859  0.99997812
  0.99969343 0.9996283 ]
 [0.99989371 0.99992336 0.99996916 0.99980918 0.99995504 0.99996597
  0.99960659 0.99957624]
 [0.99993433 0.99998077 0.99999301 0.9997564  0.99998246 0.99998523
  0.99973103 0.99979974]
 [0.99995871 0.99998177 0.9999944  0.99990938 0.99998846 0.99999075
  0.99988079 0.99989819]
 [0.99998766 0.99999361 0.99999773 0.99991603 0.99999642 0.99999751
  0.99987483 0.99994288]
 [0.99986409 0.99992227 0.99997358 0.99984453 0.99995599 0.99995067
  0.99961879 0.99943875]
 [0.99994568 0.99998453 0.99999458 0.99978929 0.99998641 0.99998794
  0.99976051 0.99982689]
 [0.99992706 0.99995033 0.99998381 0.99990453 0.9999753  0.99997708
  0.99978562 0.99973916]

### 3. 파이토치의 nn.RNN()

In [7]:
import torch
import torch.nn as nn

In [8]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

In [9]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [11]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [12]:
outputs, _status = cell(inputs)

In [13]:
print(outputs.shape)
print(_status.shape)

torch.Size([1, 10, 8])
torch.Size([1, 1, 8])


### 4. 깊은 순환 신경망(Deep Recurrent Neural Network)

![](https://wikidocs.net/images/page/22886/rnn_image4.5_finalPNG.PNG)

In [14]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [15]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)

In [16]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [17]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 1, 8])


In [18]:
torch.Size([2, 1, 8])

torch.Size([2, 1, 8])

### 5. 양방향 순환 신경망(Bidirectional Recurrent Neural Network)

![](https://wikidocs.net/images/page/22886/rnn_image6_ver3.PNG)

In [19]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [20]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

In [21]:
outputs, _status = cell(inputs)

In [22]:
print(outputs.shape) 

torch.Size([1, 10, 16])


In [23]:
print(_status.shape)

torch.Size([4, 1, 8])


## 02. 장단기 메모리(Long Short-Term Memory, LSTM)

### 1. 바닐라 RNN의 한계

- 바닐라 RNN은 비교적 짧은 시퀀스(sequence)에 대해서만 효과를 보이는 단점
- 장기 의존성 문제(the problem of Long-Term Dependencies)

### 2. 바닐라 RNN 내부 열어보기

![](https://wikidocs.net/images/page/22888/vanilla_rnn_ver2.PNG)

<script type="text/x-mathjax-config">
MathJax.Hub.Config({
    displayAlign: "left"
});
</script>
$h_{t} = tanh(W_{x}x_{t} + W_{h}h_{t−1} + b)$

- 이하 식에서 σ는 시그모이드 함수를 의미합니다.
- 이하 식에서 tanh는 하이퍼볼릭탄젠트 함수를 의미합니다.
- $W_{xi}, W_{xg}, W_{xf}, W_{xo}$는 $x_{t}$와 함께 각 게이트에서 사용되는 4개의 가중치입니다.
- $W_{hi}, W_{hg}, W_{hf}, W_{ho}$는 $h_{t-1}$와 함께 각 게이트에서 사용되는 4개의 가중치입니다.
- $b_{i}, b_{g}, b_{f}, b_{o}$는 각 게이트에서 사용되는 4개의 편향입니다.

#### (1) 입력 게이트

![](https://wikidocs.net/images/page/22888/inputgate.PNG)

- $i_{t}=σ(W_{xi}x_{t}+W_{hi}h_{t-1}+b_{i})$
- $g_{t}=tanh(W_{xg}x_{t}+W_{hg}h_{t-1}+b_{g})$

#### (2) 삭제 게이트

![](https://wikidocs.net/images/page/22888/forgetgate.PNG)

$f_{t}=σ(W_{xf}x_{t}+W_{hf}h_{t-1}+b_{f})$

#### (3) 셀 상태(장기 상태)

![](https://wikidocs.net/images/page/22888/cellstate2.PNG)

$C_{t}=f_{t}∘C_{t-1}+i_{t}∘g_{t}$

#### (4) 출력 게이트와 은닉 상태(단기 상태)


![](https://wikidocs.net/images/page/22888/outputgateandhiddenstate.PNG)

$o_{t}=σ(W_{xo}x_{t}+W_{ho}h_{t-1}+b_{o})$<br>
$h_{t}=o_{t}∘tanh(c_{t})$

### 4. 파이토치의 nn.LSTM()

```python
nn.RNN(input_dim, hidden_size, batch_fisrt=True)

nn.LSTM(input_dim, hidden_size, batch_fisrt=True)
```

## 참고할 자료
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
<br>
https://www.quora.com/In-LSTM-how-do-you-figure-out-what-size-the-weights-are-supposed-to-be