# 순환 신경망(RNN)

피드포워드(Feed Forward) : 흐름이 단방향인 신경망 피드포워드의 단점은 시계열 데이터를 잘 다루지 못한다.
시계열 데이터의 성질을 충분히 학습할 수 없다. $\rightarrow$ **순환신경망이 등장한 배경**


### 언어모델
언어 모델은 단어 나열에 확률을 부여한다. 특정한 단어 시퀀스에 대해서 그 시퀀스가 일어날 가능성이 어느정도인지 확률로 평가한다.

단어가 $W_1, W_2, \cdots, W_m$ 이라는 순서대로 출연한 확률을 $P(W_1, \cdots, W_m)$으로 나타낸다. 이 확률을 여러 사건이 동시에 일어날 확률 이므로 동시 확률이라고 부른다.

![](https://blog.kakaocdn.net/dn/dOYvMK/btqTSTuz1su/f1DzIk9u2nWUE3tY1eLVk1/img.png)

곱셈 정리를 사용하여 m개의 단어의 동시확률 $P(W_1,\cdots, W_m)$을 사후 확률로 나타낼수 있다.

머신러닝이나 통계학에서 마르코프 연쇄 또는 마르코프 모델이라는 말을 자주 듣는다. 마르코프 연쇄란 미래의 상태가 현재 상태에만 의존해서 발생하는 것을 말한다.



CBow 모델의 은닉층에서는 단어 벡터들이 더해지므로 맥락이 무시된다.

|CBow|신경 확률적 모델|
|---|---|
|![](./img/IMG_24B8A9F7C428-1.jpeg)|![](./img/IMG_B1C83D272BDB-1.jpeg)|

RNN은 맥락이 아무리 길더라도 그 맥의 정보를 기억하는 메커니즘을 갖추고 있다. word2vec은 단어의 분산표현을 얻을 목적으로 고안된 기법이다. 따라서 이를 언어 모델로 사용하진 않는다.




### RNN(Recurrent Neural Network)



순환하기 위해서는 닫힌 경로가 필요하다. 데이터가 정보를 끊임없이 갱신하다.

<img src = "https://blog.kakaocdn.net/dn/w9Wfk/btqTvRJdz8m/GL3aDzhlGB5ZKX0hGUMt30/img.png">

$x_t$(단어의 분산표현)를 입력받는다, t는 시각을 뜻한다.

<img src = './img/IMG_71313BEE4FDE-1.jpeg'>


다수의 RNN 계층 모두가 실제로는 '같은 계층'인 것이 지금까지의 신경망과는 다르다.

각 시각의 RNN 계층은 그 계층으로의 입력과 1개의 RNN 계츨으로의 출력을 받는다. 두 정보를 바탕으로 현시각의 출력을 계산한다.

$$h_t = tanh(h_{t-1} w_h + x_t w_x + b)$$

RNN에는 가중치가 2개 있다. 하나는 입력 $x_t$를 h로 변환하기 위한 $w_x$, RNN 출력을 다음 시각의 출력으로 변환하기위한 기증치 $w_h$ 또한 편행 b
$h_t$는 다른 계층을 향해 출력되는 동시에 다음 시각의 RNN 계층을 향해 오른쪽으로 출련된다.



### BPTT


RNN 계층은 가로로 펼쳐진 신경망으로 볼 수 있다.

BPTT(BackPropagation Through Time) : 시간 방향으로 펼친 오차역전파법

시계열 데이터의 시간 크기가 커지는 것에 비례해서 BPTT가 소비하는 컴퓨팅 자원도 증가한다. 시간 크기가 커지면 역전파시의 기울기가 불안정해진다.

BPTT로 기울기를 구하려면, 매 시각 RNN 계츨의 중간 메모리를 유지해두지 않으면 안된다.

큰 시계열 데이터를 처리할 때, 신경망 연결을 적당한 길이로 끊는다.

Truncated BPTT: 너무 길어진 신경망을 적당한 길이로 자르고 잘라낸 신경망을 오차역전파법을 수행한다.

역전파의 연결만 끊는다 순전파의 연결을 유지한다.
RNN에서 Truncated BPTT를 수행할떄는 데이터를 순서대로 입력해야한다.

<img src = "./img/IMG_19D478395C38-1.jpeg">


Time RNN 계층은 T개의 RNN 계층으로 구성한다.
![](./img/IMG_5316F7DBE529-1.jpeg)





### RNNLM(RNN Language Model)




![](./img/IMG_02D8985287CE-1.jpeg)

첫번째 층을 Embedding 계층이다. 이 계층은 단어 ID를 단어의 분산 표현으로 변환한다. 그 분산 표현은 RNN 계층으로 입력된다.
RNN 계층은 은닉 상태를 다음 층으로 출력함과 동시에 다음 시각의 RNN 계층
으로 출력한다. 그리고 RNN 계층이 위로 출력한 은닉상태는 Affine 계층을 거쳐 softmax 계층으로 이어진다.

RNNLM은 지금까지 입력된 다어를 '기억'하고 그것을 바탕으로 다음에 출현할 단어를 예측한다.
RNN 게층이 과거에서 현재로 데이터를 계속 흘려주며서 과거의 정보를 인코딩해 저장할 수 있는 것이다.



### 언어 모델의 평가




언어 모델은 주어진 과거 단어로 부터 다음에 출현할 단어의 확률 분포를 출력한다.
언어 모델의 성능을 평가하는 척도로 퍼플렉시티(perplexity)를 자주 이용한다.
**퍼플렉시티는 확률의 역수이다.**

![](./img/IMG_1D1373B31FA3-1.jpeg)

perplexity는 작을수록 좋다.

- 이 값은 분기수로 이해할 수 있다. 분기수란 다음에 취할 수 있는 선택사항 수. 분기수가 1.25라는 것은 다음에 후보로 출연할 단어가 1개 정도로 좁혀졌다는 의미이다.

- 입력데이터가 여러개 일떄의 perplexity $\rightarrow L=-\frac{1}{N} \sum_n \sum_k t_{nk} log(y_{nk})$
- $perplexity = e^L$


## 게이트가 추가된 RNN




베이직한 RNN은 구조가 단순하여 구현은 쉽지만 성능이 좋지 못하다. 그 원인은 시계열 데이터에서 시간적으로 멀리 떨어진, 장기 Long term 의존 관계를 잘 학습할 수 없다.

LSTM이나 GRU에는 '게이트'라는 구조가 더해져 있는데. 이 게이트 덕분에 시계열 데이터의 장기 의존 관계를 학습할 수 있다.

베이직한 RNN의 문제점은 BPTT에서 기울기 소실 혹은 기울기 폭발이 일어나기 때문이다.
- 시간 방향의 기울기에 주목하면 역전파로 전해지는 기울기는 차례로 'tanh', '+', 'matmul' 연산을 통과하게 된다. '+'의 역전파는 상류에서 전해지는 기울기를 하류로 흘려보낼 뿐이다.

![](https://www.tutorialexample.com/wp-content/uploads/2020/08/the-graph-of-tanhx-function-derivative.png)

$\frac{dy}{dx}$의 값이 0~1 사이 즉 역전파에서 기울기가 tanh 노드를 지날떄 마나 값이 작아진다.

Matmul 노드에서의 역전파는 $dhw_r^t$라는 행렬곱으로 기울기를 계산한다. 그리고 같은 시계열의 데이터 크기 만큼 반복한다. 여기서 주목할 점은 매번 똑같은 가중치인 $w_r$가 사용된다는 것이다.

$w_r$가 1보다 크면 기울기가 지수적으로 증가하고, 1보다 작으면 지수적으로 감소한다.

기울기 폭발의 대책으로는 전통적인 기법이 있다.

**기울기 클리핑(gradient clipping)**

if $$\lVert \hat g \rVert \geq threshold: \hat g = \frac{threshold}{\lVert \hat g \rVert}\hat g$$


#### LSTM의 인터페이스




![](https://miro.medium.com/max/1024/0*243z3lyg05TswC9D)



LSTM 계층에는 c라는 경로가 있다. c를 기억셀이라 하며 LSTM의 기억 매커니즘이다.

기억셀의 특징은 데이터를 자기자신하고만(LSTM 게층 내에서만) 주고 받는다는 것이다. 즉, LSTM 계층내에서만 완결되고, 다른 계층으로는 출력하지 않는다.

LSTM의 출력은 은닉벡터 h 뿐이다. 기억셀 c는 외부에서는 보이지 않는다.

$c_t$에는 과거로부터  시작 t까지에 필요한 모든 정보가 저장되어있다고 가정한다.
기억셀 $c_t$는 3개의 입력 $(c_{t-1}, h_{t-1}, x_t)$으로 부터 '어떤 계산'을 수행하여 구할 수 있다.

$h_t = tanh(c_t)$이다. 이는 $c_t$의 각 요소에 tanh 함수를 적용한다는 뜻이다.

기억셀 $c_t$와 은닉상태 $h_t$의 원소수는 같다.

게이트는 데이터의 흐름을 제어한다.
LSTM에서 사용하는 게이트는 '열기/닫기' 뿐만 아니라 어느정도 열지를 조절할 수 있다. 어느정도를 열림상태 openness라고 부른다.



![](./img/IMG_49CEF7B36468-1.jpeg)



게이틀의 열림 상태는 0.0 ~ 0.1 사이의 실수로 나타낸다. 게이트는 게이트의 연림 상태를 제어하기 위해서 전용 가중치 매개변수를 이용하며, 이 가중치는 학습데이터로부터 갱신된다.
열림 상태를 구할 때는 시그모이드 함수를 사용한다.

#### output 게이트



이 게이트는 다음 은닉 상태 $h_t$의 출력을 담당하는 게이트이므로 output 게이트라고한다.

$$ O = \sigma(x_t W^{(o)}_x + h_{t-1} W^{(o)}_h + b^{(o)})$$



![](./img/IMG_E358232B139E-1.jpeg)



$\sigma$의 출력을 O라고 하면 $h_t$ O와 $tanh(c_t)$의 곱으로 계산된다. 여기서 말하는 곱은 원소별 곱이며 이것을 아다마르 곱이라고도 한다.

$$h_t = O \odot tanh(c_t)$$



#### forget 게이트



$c_{t-1}$의 기억중에 불필요한 기억을 잊게 해주는 게이트

![](./img/IMG_E16A2B42649C-1.jpeg)

$$f = \sigma(x_t W_x^{(f)} + h_{t-1}W^f_h + b^f)$$

$$c_t = f \odot c_{t-1}$$

![](./img/IMG_A0CF4CA5383A-1.jpeg)


#### tanh 노드


tanh 노드가 계산한 결과가 이전 시각의 기억셀 $c_{t-1}$에 더해진다. 기억셀에 새로운 정보가 추가된 것이다. 이 tanh 노드는 게이트가 아니며 새로운 정보를 기억셀에
추가하는 것이 목적이다. 활성화 함수로 sigmoid가 아닌 tanh 함수를 사용한다.

$$g = tanh(x_tW^{(g)}_x + h_{t-1}W_h^{(g)} + b^{(g)})$$


#### input 게이트



![](./img/IMG_F2889C479F30-1.jpeg)


input gate는 g의 각 원소가 서로 추가되는 정보로써 가치가 얼마나 큰지 판단한다. 다른 과넞ㅁ에서 보면 input gate에 의해 가중된 정보를 추가하는 것이다.

$$i = \sigma(x_t W_x^{(i)} + h_{t-1}W^{(i)}_h + b^{(i)})$$



### LSTM의 기울기 흐름



기억셀의 역전파에서는 '+', 'x' 노드만 지나게 된다. '+'노드는 상류의 흐름을 그대로 하류에 넘겨준다. 또한 $'\times'$노드는 행렬곱이 아닌 원소별곱(아다마르 곱)
을 계산한다. **매 시각 다른 게이트 값을 이용해 원소별 곱을 계산한다.** 새로운 게이트 값을 이용하므로 곱셈의 효과가 누적되지 않아 기울기 손실이 발생하기 어렵게 된다.

$'\times'$ 노드의 계산은 forget 게이트가 제어한다. forget gate가 '잊어야 한다' 고 판단한 기억셀의 원소는 기울기가 작아지고 반대의 경우에는 기울기가 약화되지 않은 채로 과거로 전해진다.


### LSTM 계층의 다각화



![](./img/IMG_5594A564917C-1.jpeg)

LSTM 계층을 2층, 3층 식으로 어려겹 쌓으면 언어 모델의 정확도가 향상되리라 기대할 수 있다.


### 과적합 억제



#### 드롭아웃에 의한 과적합 억제


층을 깊게 쌓음으로써 표현력이 풍부한 모델을 만들 수 있다. 그러나 이런 모델은 종종 overfitting을 일으킨다.

과적합을 억제하기 위한 전통적인 방법으로 훈련 데이터양 늘리기, 모델의 복잡도 줄이기 그 외에는 모델의 복잡도에 패널티를 주는 정규화가 효과적이다.

드롭아웃은 무작위로 뉴런을 선택하여 선택한 뉴런을 무시한다 RNN에서 시계열 방향으롣 드롭아웃을 넣어버리면 시간이 흐름에 따라 정보가 사라질 수 있다. 즉, 흐르는 시간에 비례해서 드롭아웃에 의한 노이즈가 축적된다.


![](./img/IMG_4C5476E6FDC2-1.jpeg)


이렇게 구성하면 시간 방향으로 아무리 진행해도 정보를 잃지 않는다.

변형 드롭아웃을 통해서 시간방향으로 적용하는데 성공했다. 변형 드롭아웃은 깊이 방향은 물론이고 시간뱡향으로도 이용할 수 있다. 같은 계층에 속한 드롭아웃들은 같은 마스크(mask)
를 공유한다. 마스크란 통과/차단을 결정하는 이진 형태의 무작위 패천이다.

![](./img/IMG_76BFA8F0A310-1.jpeg)

같은 계층의 드롭아웃끼리 마스크를 공유함으로써 마스크가 '고정'된다. 그 결과 정보를 읽게 되는 방법도 '고정' 되므로 일번적인 드롭아웃과 달리 지수적 손실되는 사태를 피할 수 있다.


#### 가중치 공유


언어 모델을 계선하는 간단한 트릭중에서 가중치 공유가 있다.

![](./img/IMG_86DC3A83F5A2-1.jpeg)

두 계층의 가중치를 공유함으로써 학습하는 매개변수 수가 크게 줄어드는 동시에 정확도가 향상되는 일석이조의 기술이다.


## RNN을 사용한 문장 생성

seq2seq란 시계열에서 시계열로를 뜻하는 말로 한 시계열 데이터를 다른 시계열 데이터로 변환하는 것을 말한다.

언어 모델은 지금까지 주어진 단어들에서 다음에 출현할 단어의 확률 분포를 출력한다.
이 결과를 기초로 다음 단어를 생성할려면 어떻게 해야할까
첫번쨰로 확률이 가장 높은 단어를 선택하는 방법이 있다.
확률이 가장 높은 단어를 선택할 뿐이므로 결과가 일정하게 정해지는 '결정적인' 방법이다. 또한, '확률적' 으로 선택하는 방법도 있다.
확률이 높은 단어가 선택되기 쉽고, 확률이 낮은 단어는 선택되기 어려워진다. 이 방식에서는 선택되는 단어가 매번 다를수 있다.

생성한 문장은 훈련데이터에는 존재하지 않는, 말 그대로 서로 생성된 문장이다. 왜냐하면 언어모델은 훈련데이터를 암기하는 것이 아니라 훈련 데이터에서 사용된 단어의 정렬 패턴을 학습한 것이기 때문이다.

### seq2seq

seq2seq를 Encoder - Decoder 모델이라고도 한다.
Encoder는 입력데이터를 인코딩하고 Decoder는 인코딩된 데이터를 디코딩한다.

![](https://www.oreilly.com/library/view/hands-on-natural-language/9781789139495/assets/edcaff4c-fedc-4a9f-92fd-7d4b2d6540fb.png)


Encoder가 인코딩한 정보에는 번역에 필요한 정보가 조밀하게 응집되어 있다. Decoder는 조밀하게 응축된 이 정보를 바탕으로 도착어 문장을 생성한다.
![](./img/IMG_0734F3349B45-1.jpeg)

Encoder는 RNN을 이용해 시계열 데이터를 h라는 은닉 상태 벡터로 변환한다.

Encoder가 출력하는 벡터 h는 LSTM 계층이 마지막 은닉 상태이다. 이 마자막 은닉 상태 h에 입력문장을 번역하는 데 필요한 정보가 인코딩된다.
**여기서 중요한 점은 LSTM의 은닉상태 h는 고정길이 벡터라는** 사실이다.
결국 인코딩한다는 것은 임의 길이의 문장을 고정길이 벡터롤 변환하는 작업이 된다.

![](./img/IMG_3C7B2935FE75-1.jpeg)


Decoder는 앞절의 신경망과 완전히 다른 구성이다 단 한기지만 빼고 말이다. 바로 LSTM 계층이 벡터 h를 입력으로 받는 다는 것이다.

![](./img/IMG_C68CDBE0FED7-1.jpeg)

LSTM 계층의 은닉상태가 Encoder와 Decoder를 이어주는 '가교' 역할을 한다.



### 가변길이의 시계열데이터


가변길이의 시계열 데이터를 미니배치로 학습하기 위한 가장 단순한 방법은 패딩을 사용하는 것이다.
패딩이란 원래의 데이터에 의미없는 데이터를 채워넣어 데이터의 길이를 균일하게 맞추는 것이다.

![](./img/IMG_E3A5FDBA441B-1.jpeg)


패딩을 적용해 가변길이의 시계열데이터도 처리할 수 있다 그러나 원래 존재하지 않던 패딩을 문자까지 seq2seq가 처리하게 된다.

Decoder에 입력된 데이터가 패딩이라면 손실의 결과를 반영하지 않도록 한다. (Softmax with Loss 계층에 '마스크' 기능을 추가해 해결할 수 있다.)

### seq2seq 개선

seq2seq를 세분화하여 학습 '속도'를 개선하고자 한다.

첫번째는 쉬운 트릭으러 입력데이터 반전이다.

![](./img/IMG_CF7258A81702-1.jpeg)

이 트릭을 사용하면 많으 경우 학습 진행이 빨라져서 결과적으로 최종 정확도가 좋아진다.
직관적으로 기울기의 전파가 원활해지기 때문이라고 생각된다.

### 엿보기(peeky)


![](./img/IMG_B2251154C0E9-1.jpeg)


모든 시각의 Affine 계층과 LSTM 계층에 Encoder의 출력 h를 전해준다. h의 정보를 여러 계층에서 공유함을 알수 있다.



## 어텐션

seq2seq를 좀더 강력하게 하는 어텐션 매커니즘

어텐션 매커니즘 덕분에 seq2seq는 필요한 정보에만 주목 할 수 있게된다.


### seq2seq의 문제점


seq2seq에서는 Encoder가 시계열 데이터를 인코딩한다.
그리고 인코딩된 정보를 Decoder로 전달한다. 이때 Encoder의 출ㄹ력은 '고정길이 벡터'
였다. '고정 길이' 리는데 큰 문제가 잠재되어있다.

고정 길이 벡터라 함은 입력 문장의 길이에 관계없이 항상 같은 길이의 벡터로 변환한다는 뜻이다.

### Encoder의 개선

Encoder 출력의 길이는 입력문장의 길이에 따라 바뀌는 것이 좋다. 이점이 Encoder의 개선 포인트다.

![](./img/IMG_5FB17EB7B0A8-1.jpeg)


각 시각의 은닉상태 벡터를 모두 이용하면 입력된 단어와 같은 수의 벡터를 얻을 수 있다.

주목할 것은 LSTM 계층의 은닉 상태의 '내용'이다. 시각별 LSTM 계층의 은닉상태에서 직전에 입력된 단어에 대한 정보가 많이 포함되어 있다는 사실이다.

Encoder의 은닉상태를 모든 시각만큼 꺼냈을 뿐이지만 이 작은 개선 덕분에 Encoder는 입력 문자의 길이에 비례한 정보를 인코딩할 수 있게 되었다.

### Decoder 개선


$h_s$가 Decoder에 전달되어 시계열 변환이 이뤄진다.


![](./img/IMG_2ECA5E6B74CE-1.jpeg)


단순한 seq2seq에서는 Encoder의 마지막 은닉 상태 벡터만을 Decoder에 넘겼다. 더 정확하게 말하면 Encoder의 LSTM 계층의 '마지막' 은닉 상태를 Decoder의 LSTM 계층의 '첫'은닉 상태로 설정한 것이다.


### 어텐션


필요한 정보에만 주목하여 그정보로 부터 시계열 변환을 수행하는것 이 구조를 어텐션이라 한다.


![](./img/IMG_B9D51EC9E113-1.jpeg)


![](./img/IMG_EE5304E7E77D-1.jpeg)


각 단어의 중요도를 나타내는 '가중치'를 구한다.

가중치 a와 각 단어의 벅테 $h_s$로 부터 가중치 합을 구하여 우리가 원하는 벡터를 얻는다.


![](./img/IMG_E5D88A78F981-1.jpeg)


맥갉 벡터 c에는 "나" 벡터의 성분이 많이 들어있다. 즉, "나" 벡토를 '선택'하는 작업을 이 가중합으로 데체하고 있다고 할 수 있다.

맥락벡터 c에는 현 시간의 변환을 수행하는데 필요한 정보가 담겨 있다. 더 정확하게 말하면 그렇게 되도록 데이터로 부터 학습하는 것이다.

각 단어의 중요도를 나타내는 가중치가 a가 있다면, 가중합을 이용해 '맥락 멕터'를 얻을 수 있다.


![](./img/IMG_7F1E3B077795-1.jpeg)


Decoder의 LSTM 계층의 은닉상태 벡터를 h라 했다. 지금 목표는 h가 $h_s$의 각 단어와 얼마나 비슷한가를 수치로 나타내는 것이다.

그 직관적인 의미는 두 벡터가 얼마나 같은 방향으로 향하고 있는가 이다. 유사도를 표현하는 척도로 내적을 이용하는 것은 자연스러운 선택이다.

![](./img/IMG_AE5720082D10-1.jpeg)


벡터의 내적을 이용해 h와 $h_s$의 각 단어 벡터와 유사도를 구한다. 그리고 s는 그결과이다. s는 정규화 하기전에 값이며 'score' 라고도 한다. s를 정규화 하기 위해 softmax를 적용한다.

![](./img/IMG_880968EE1953-1.jpeg)


맥락 벡터를 계산하는 계산 그래프

![](./img/IMG_70594EFE167C-1.jpeg)


계산을 weight sum 계층과 Attension weight 계층 2개로 나눠 구현했다. 이 계산에 따르면 Attension weight 계층은 Encoder가 출력하는 각 단어의 벡터 $h_s$
에 주목하여 해당 단어의 가중치 a를 구한다.
이어서 weight sum 계층이 a와 $h_s$의 가중합을 구하고 그 결과를 맥락벡터로 c로 출력한다. 이러한 계산을 수행하는 계층을 Attension 계층이라고 부른다.


![](./img/IMG_748A83C3A7D9-1.jpeg)

## CODE

### 파이썬으로 RNN 구현하기

직접 Numpy로 RNN층을 구현해보겠다. 앞서 메모리 셀에서 은닉 상태를 계산하는 식을 다음과 같이 정의했다.

$$ h_t = tanh(W_x X_t + W_h h_{t-1} + b)$$

In [1]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [2]:
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [3]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [4]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
  total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
  print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0)
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.


(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.71196244 0.86376132 0.7790863  0.90523735 0.91636757 0.67096679
  0.82222076 0.74150296]
 [0.99984533 0.99983148 0.99994788 0.99992894 0.99994693 0.99973296
  0.99982403 0.99999549]
 [0.99992331 0.99994058 0.99999267 0.99997304 0.9999802  0.9999357
  0.99992476 0.99999897]
 [0.99999043 0.99998451 0.99999683 0.99999562 0.99999601 0.99998622
  0.99997633 0.99999979]
 [0.99992323 0.99987017 0.99999238 0.99997125 0.99998015 0.9998839
  0.99990372 0.99999886]
 [0.99997817 0.9999703  0.99999454 0.99998906 0.99999239 0.99996594
  0.99996463 0.99999966]
 [0.99998714 0.99998964 0.99999705 0.99999564 0.99999115 0.99998901
  0.99997314 0.99999974]
 [0.99998532 0.99996633 0.99999563 0.99999235 0.99999567 0.99997089
  0.99996791 0.99999971]
 [0.99998762 0.99997967 0.99999658 0.9999949  0.99999233 0.99998007
  0.9999696  0.99999975]
 [0.99999609 0.9999944  0.99999794 0.99999824 0.99999687 0.99999448
  0.99998641 0.9999999 ]]


### 파이토치의 nn.RNN()

In [5]:
import torch
import torch.nn as nn

입력 크기와 은닉 상태의 크기를 정의한다. 은닉 상태의 크기는 대표적인 RNN의 하이퍼파라미터이다. 여기서 입력의 크기는 매 시점마다 들어가는 입력의 크기를 의미한다.

In [8]:
input_size = 5
hidden_size = 8

# (batch_size, time_steps, input_size)

inputs = torch.Tensor(1, 10, 5)

nn.RNN()을 사용하여 RNN의 셀을 만듭니다. 인자로 입력의 크기, 은닉 상태의 크기를 정의해주고, batch_first=True를 통해서 입력 텐서의 첫번째 차원이 배치 크기임을 알려줍니다.


In [10]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

입력 텐서를 RNN 셀에 입력하여 출력을 확인해본다.

In [11]:
outputs, _status = cell(inputs)

In [12]:
print(outputs.shape) # 모든 time-step의 hidden_state

print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 10, 8])
torch.Size([1, 1, 8])


### 양방향 순환 신경망(Bidirectional Recurrent Neural Network)


양방향 순환 신경망은 시점 t에서의 출력값을 예측할 때 이전 시점의 데이터뿐만 아니라, 이후 데이터로도 예측할 수 있다는 아이디어에 기반합니다.

Exercise is very effective at [          ] belly fat.

1) reducing

2) increasing

3) multiplying


'운동은 복부 지방을 [ ] 효과적이다'라는 영어 문장이고, 정답은 reducing(줄이는 것)입니다. 그런데 위의 영어 빈 칸 채우기 문제를 잘 생각해보면 정답을 찾기 위해서는 이전에 나온 단어들만으로는 부족합니다. 목적어인 belly fat(복부 지방)를 모르는 상태라면 정답을 결정하기가 어렵습니다.


양방향 RNN은 하나의 출력값을 예측하기 위해 기본적으로 두 개의 메모리 셀을 사용합니다. 첫번째 메모리 셀은 앞에서 배운 것처럼 앞 시점의 은닉 상태(Forward States)를 전달받아 현재의 은닉 상태를 계산합니다. 위의 그림에서는 주황색 메모리 셀에 해당됩니다. 두번째 메모리 셀은 앞에서 배운 것과는 다릅니다. 앞 시점의 은닉 상태가 아니라 뒤 시점의 은닉 상태(Backward States)를 전달 받아 현재의 은닉 상태를 계산합니다. 위의 그림에서는 초록색 메모리 셀에 해당됩니다. 그리고 이 두 개의 값 모두가 출력층에서 출력값을 예측하기 위해 사용됩니다.

물론, 양방향 RNN도 다수의 은닉층을 가질 수 있습니다. 아래의 그림은 양방향 순환 신경망에서 은닉층이 1개 더 추가되어 은닉층이 2개인 깊은(deep) 양방향 순환 신경망의 모습을 보여줍니다.


![](https://wikidocs.net/images/page/22886/rnn_image6_ver3.PNG)


다른 인공 신경망 모델들도 마찬가지이지만, 은닉층을 무조건 추가한다고 해서 모델의 성능이 좋아지는 것은 아닙니다. 은닉층을 추가하면, 학습할 수 있는 양이 많아지지만 또한 반대로 훈련 데이터 또한 그만큼 많이 필요합니다.

양방향 순환 신경망을 파이토치로 구현할 때는 nn.RNN()의 인자인 bidirectional에 값을 True로 전달하면 됩니다. 이번에는 층이 2개인 깊은 순환 신경망이면서 양방향인 경우, 앞서 실습했던 임의의 입력에 대해서 출력이 어떻게 달라지는지 확인해봅시다.

In [13]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)


outputs, _status = cell(inputs)

print(outputs.shape)

print(_status.shape)

torch.Size([1, 10, 16])
torch.Size([4, 1, 8])


첫번째 리턴값의 크기는 단뱡 RNN 셀 때보다 은닉 상태의 크기의 값이 두 배가 되었습니다. 여기서는 (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)의 크기를 가집니다. 이는 양방향의 은닉 상태 값들이 연결(concatenate)되었기 때문입니다.

두번째 리턴값의 크기는 (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)를 가집니다. 이는 정방향 기준으로는 마지막 시점에 해당되면서, 역방향 기준에서는 첫번째 시점에 해당되는 시점의 출력값을 층의 개수만큼 쌓아 올린 결과값입니다.


### 문자 단위 RNN

In [14]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

In [15]:
input_str = 'apple'
label_str = 'pple!'
char_vocab = sorted(list(set(input_str+label_str)))
vocab_size = len(char_vocab)
print ('문자 집합의 크기 : {}'.format(vocab_size))

문자 집합의 크기 : 5


In [22]:
input_size = vocab_size # 입력의 크기는 문자 집합의 크기
hidden_size = 5
output_size = 5
learning_rate = 0.1

In [16]:
char_to_index = dict((c, i) for i, c in enumerate(char_vocab)) # 문자에 고유한 정수 인덱스 부여
print(char_to_index)
index_to_char={}
for key, value in char_to_index.items():
    index_to_char[value] = key
print(index_to_char)

{'!': 0, 'a': 1, 'e': 2, 'l': 3, 'p': 4}
{0: '!', 1: 'a', 2: 'e', 3: 'l', 4: 'p'}


In [17]:
x_data = [char_to_index[c] for c in input_str]
y_data = [char_to_index[c] for c in label_str]
print(x_data)
print(y_data)


[1, 4, 4, 3, 2]
[4, 4, 3, 2, 0]


In [18]:
# 배치 차원 추가
# 텐서 연산인 unsqueeze(0)를 통해 해결할 수도 있었음.
x_data = [x_data]
y_data = [y_data]
print(x_data)
print(y_data)

x_one_hot = [np.eye(vocab_size)[x] for x in x_data]
print(x_one_hot)

[[1, 4, 4, 3, 2]]
[[4, 4, 3, 2, 0]]
[array([[0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.]])]


In [19]:
X = torch.FloatTensor(x_one_hot)
Y = torch.LongTensor(y_data)

In [20]:
print('훈련 데이터의 크기 : {}'.format(X.shape))
print('레이블의 크기 : {}'.format(Y.shape))

훈련 데이터의 크기 : torch.Size([1, 5, 5])
레이블의 크기 : torch.Size([1, 5])


In [23]:
class Net(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Net, self).__init__()
        self.rnn = torch.nn.RNN(input_size, hidden_size, batch_first=True) # RNN 셀 구현
        self.fc = torch.nn.Linear(hidden_size, output_size, bias=True) # 출력층 구현

    def forward(self, x): # 구현한 RNN 셀과 출력층을 연결
        x, _status = self.rnn(x)
        x = self.fc(x)
        return x


net = Net(input_size, hidden_size, output_size)

In [24]:
outputs = net(X)
print(outputs.shape) #

torch.Size([1, 5, 5])


In [26]:
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), learning_rate)

for i in range(100):
    optimizer.zero_grad()
    outputs = net(X)
    loss = criterion(outputs.view(-1, input_size), Y.view(-1)) # view를 하는 이유는 Batch 차원 제거를 위해
    loss.backward() # 기울기 계산
    optimizer.step() # 아까 optimizer 선언 시 넣어둔 파라미터 업데이트

    # 아래 세 줄은 모델이 실제 어떻게 예측했는지를 확인하기 위한 코드.
    result = outputs.data.numpy().argmax(axis=2) # 최종 예측값인 각 time-step 별 5차원 벡터에 대해서 가장 높은 값의 인덱스를 선택
    result_str = ''.join([index_to_char[c] for c in np.squeeze(result)])
    print(i, "loss: ", loss.item(), "prediction: ", result, "true Y: ", y_data, "prediction str: ", result_str)

0 loss:  1.4896806478500366 prediction:  [[4 4 4 4 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  ppppp
1 loss:  1.2946032285690308 prediction:  [[4 4 4 4 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
2 loss:  1.123014211654663 prediction:  [[4 4 4 4 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
3 loss:  0.9894015192985535 prediction:  [[4 4 4 4 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
4 loss:  0.8273143768310547 prediction:  [[4 4 4 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppe!
5 loss:  0.7310376763343811 prediction:  [[4 4 4 0 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  ppp!!
6 loss:  0.6336865425109863 prediction:  [[4 4 4 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppe!
7 loss:  0.5406838655471802 prediction:  [[4 4 4 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppe!
8 loss:  0.4798303544521332 prediction:  [[4 4 4 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pppe!
9 loss:  0.431610643863678 prediction:  [[4 4 4 2 0]] tr