
## RNN

- 변수간 순서가 있는 경우 유용
  * 그림의 화살표는 파라미터라고 이해하면 됨
  * 모든 모델은 동일 (반복되는 구조)

![](./img/09_rnn.JPG)

## RNN이 사용되는 텍스트 "감성분석" 예제

- 문장은 단어로 구성되며 단어의 순서가 주요
- 감성분석 : 긍정/부정 classification 모델

- 기존에는 document term matrix를 구성하여 분류 모델 구축
  - 문장의 순서를 고려하지 못함 <br/><br/>
  
- 순서를 고려한 모델링 $\rightarrow$ 모델의 파라미터가 너무 많아짐
  - 서로 다른 길이의 문장을 고려하지 못함 <br/><br/>

- **RNN 적용**
  - 순서를 고려할 수 있는 RNN 모델 적용 시, 현재의 정보를 미래에 반영 가능
  - 각 단어를 one-hot vector로 표기하여 input으로 넣어줌 (예: '나는' = 1,0,0,0,0,0)
  
  - 실제로는 dense-layer의 형태로 되어 있음

![](./img/09_rnn_2.JPG)

## RNN 알고리즘

- Recurrent neural networks share the same parameters(U,V,W) across all time steps.
![](./img/09_rnn_algo.JPG)


- $x_{t}$ : input at time step $ t \in \mathbb{R}^{m}$
- $s_{t}$ : hidden sate at time step $ t \in \mathbb{R}^{n}$
- $y_{t}$ : output at time step $ t \in \mathbb{R}^{l}$
- $U \in \mathbb{R}^{n \times  m}$
- $V \in \mathbb{R}^{l \times  n}$
- $W \in \mathbb{R}^{n \times  n}$

- Hidden : $S_{t} = tanh(U_{x_{t}} + W_{S_{t-1}}$
- Output : $softmax(V_{S_{t-1}}$
- Loss function : $L(y, \hat{y}) = \sum_{t} L_{t}(y, \hat{y}) = - \sum_{t}y_{t} ln \hat{y}_{t}$ (if classfication problem : cross entropy) 

![](./img/09_rnn_algo_02.JPG)


## Back Propagation in RNN

- Back Propagation Through Time (BPTT) 알고리즘
- RNN의 파라미터 U, V, W를 업데이트

1) $\frac{\partial L_{t}}{\partial V} = \frac{\partial L_{t}}{\partial \hat{y}_{t}} \times \frac{\partial \hat{y}_{t}}{\partial V_{s_{t}}} \times \frac{\partial V_{s_{t}}}{\partial V}$ <br/>
2) $\frac{\partial L_{t}}{\partial W} 
  = \sum^{t}_{k=0} (\frac{\partial L}{\partial \hat{y}_{t}} \times 
    \frac{\partial \hat{y}_{t}}{\partial s_{t}} \times 
    \frac{\partial s_{t}}{\partial s_{k}} \times 
    \frac{\partial s_{k}}{\partial W})$ <br/>
3) $\frac{\partial L_{t}}{\partial U} = \sum^{t}_{k=0} (\frac{\partial L}{\partial \hat{y}_{t}} \times 
    \frac{\partial \hat{y}_{t}}{\partial s_{t}} \times 
    \frac{\partial s_{t}}{\partial s_{k}} \times 
    \frac{\partial s_{k}}{\partial U})$ <br/>


#### BPTT 예제

- 전달 과정의 gradient 를 모두 sum 해줌
- 마지막 결과의 output을 최종 classficiation 결과로 가져가게 됨

![](./img/09_brtt.JPG)


## RNN 의 한계

- 길이가 긴 sequence의 경우, exploding gradient / vanishing gradient 문제가 발생하기 쉬움 (layer를 많이 쌓지 않아도)
- Exploding gradient : clip gradient
- Vanishing gradient problem 을 극복하기 위해 : 다른 모델 사용 (LSTM, GRU)

![](./img/09_rnn_cons.JPG)

## 1. LSTM

> Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. <br/>
> http://www.bioinf.jku.at/publications/older/2604.pdf

- Long Short-Term Memory
- Gate(스위치) 개념을 추가하여 길이가 가니 sequence 를 모델링
- 다양한 변형 모델이 존재

![](./img/09_lstm.JPG)
![](./img/09_lstm_02.JPG)
<br/><br/>

- Simple RNN 구조 (과거의 정보를 무조건 다음으로 넘겨줌)
![](./img/09_lstm_03.JPG)

- LSTM의 연결 구조

![](./img/09_lstm_04.JPG)


## 2. LSTM 의 단계

### 0) $C_{t}$ : cell state

![](./img/09_lstm_cell_state.JPG)

### 1) $f_{c}$ : forget gate & $i_{t}$ : input gate 
- 과거의 cell state 정보 $C_{t-1}$을 얼마나 받아 들일지 결정
- $I_{t}$ : cell state $C_{t}$ 에 과거 시점의 입력과 출력을 얼마나 반영할 것인지 결정

- forget gate
![](./img/09_lstm_forget_gate.JPG)

- input gate
![](./img/09_lstm_input_gate.JPG)

### 2) Update $C_{t}$ : cell state (정보량)
- $\widetilde{C_{t}}$ : 과거 시점의 출력 $(h_{t-1})$ 과 현재 입력 $(x_{t})$ 정보를 이용해 현재 시점의 $C_{t}$ 업데이트 
  - 다음셀로 보낼 정보량  <br/>

![](./img/09_lstm_f_i.JPG)

### 3) $o_{t}$ & $h_{t}$ : output gate

- 과거 시점의 출력 $(h_{t-1})$ 과 현재 입력 $(x_{t})$ 정보와 $C_{t}$를 조합하여 출력 $h_t$ 생산

![](./img/09_lstm_update_cell_state.JPG)

### LSTM의 변형
- Peehole connections
- GRU : gated recurrent unit


## 3. GRU

- GRU : Gated recurrent unit 은 LSTM의 변형 버전
- $C_{t}$ 를 업데이트 할 때, forget gate만으로 구성

![](./img/09_gru.JPG)


## RNN을 이용한 다양한 모델링

> http://karpathy.github.io/2015/05/21/rnn-effectiveness/

![](./img/09_rnn_models.JPG)
