# **CHAP10. 순환신경망**
https://wikidocs.net/60690

---


## 1. 순환 신경망

개념 내용 제외

### 1) 파이썬으로 RNN 구현하기

In [None]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [None]:
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


* 가중치와 편향을 정의

In [None]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [None]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


* 모든 시점의 은닉 상태를 출력한다고 가정하고 RNN층을 동작

In [None]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
  total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
  print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.91368805 0.84200408 0.8868745  0.74067434 0.93773925 0.85055357
  0.89314003 0.98043002]
 [0.99888997 0.99920562 0.99993828 0.99997888 0.99993155 0.99949108
  0.99841118 0.99981491]
 [0.99924717 0.9996019  0.99998219 0.99999539 0.99996762 0.9998885
  0.99944464 0.99975405]
 [0.99964112 0.99973444 0.99998313 0.99999633 0.99997602 0.99995237
  0.99960398 0.99990114]
 [0.99903606 0.99945603 0.99992754 0.99998433 0.99990803 0.99979216
  0.99919471 0.9996698 ]
 [0.99980561 0.99967867 0.99997593 0.99999577 0.9999706  0.99994151
  0.99888532 0.9999395 ]
 [0.99934011 0.99949986 0.99995823 0.9999907  0.99994016 0.99979765
  0.99881554 0.99978261]
 [0.99946126 0.99939901 0.99989955 0.99998319 0.99989431 0.99985569
  0.9987323  0.99977576]
 [0.99979007 0.99982171 0.99994652 0.9999895  0.99995829 0.99988657
  0.99932451 0.99997309]
 [0.99971206 0.99974296 0.99998135 0.99999579 0.99997486 0.99990506
  0.9991964  0.9999379 ]]

### 2) 파이토치의 nn.RNN()

* 파이토치에서는 nn.RNN()을 통해서 RNN셀을 구현

In [None]:
import torch
import torch.nn as nn

* 입력의 크기(매 시점마다 들어가는 입력의 크기)와 은닉 상태의 크기를 정의

In [None]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

* 텐서를 정의

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

* RNN 셀 만들기

In [None]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [None]:
outputs, _status = cell(inputs)

* 첫번째 리턴값 : 모든 시점의 은닉 상태
* 두번째 리턴값 : 마지막 시점의 은닉 상태

In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [None]:
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 1, 8])


###3) 깊은 순환 신경망
  * Deep Recurrent Neural Network

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [None]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)

In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [None]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 1, 8])


* 두번째 리턴값의 크기 : 층의 개수, 배치 크기 은닉 상태의 크기

###4) 양방향 순환 신경망
  * 시점 t에서의 출력값을 예측할 대 이전 시점의 데이터뿐만 아니라, 이후 데이터로도 예측할 수 있다는 아이디어에 기반
  * 하나의 출력값을 예측하기 위해 기본적으로 두 개의 메모리셀을 사용

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [None]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

In [None]:
outputs, _status = cell(inputs)

In [None]:
print(outputs.shape) # (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)

torch.Size([1, 10, 16])


* 양방향 은닉 상태 값들이 연결되어 은닉 상태의 크기의 값이 두배가 됨

In [None]:
print(_status.shape) # (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)

torch.Size([4, 1, 8])


## 2. 장단기 메모리 (LSTM)

### 1) Vanilla RNN의 한계
  * 비교적 짧은 시퀀스에 대해서만 효과를 보임
  * 시점이 길어질수록 앞의 정보가 뒤로 충분히 전달되지 못함
  * 장기 의존성 문제 (The problem of long-term dependencies)

###2) Vanilla RNN 내부 열어보기

###3) LSTM(Long Short-Term Memory)
  * 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할 것들을 정함
  * 입력 게이트, 삭제 게이트, 셀 상태(장기 상태), 출력 게이트와 은닉 상태(단기 상태)

### 4) 파이토치의 nn.LSTM()



```
nn.LSTM(input_dim, hidden_size, batch_fisrt=True)  
```




## 3. 게이트 순환 유닛 (GRU)


### 1) 게이트 순환 유닛 (Gated Recurrent Unit, GRU)
  * 장기의존성 문제에 대한 LSTM의 해결책을 유지하면서, 은닉 상태를 업데이트하는 계산을 줄임
  * 업데이트 게이트, 리셋 게이트

## 2) 파이토치의 nn.GRU()


```
nn.GRU(input_dim, hidden_size, batch_fisrt=True)  
```

