# Week 3: Sequence models

### 지금까지의 모델
- 데이터와 라벨을 통해 규칙을 얻음
![df](img/01.png)
- 순서를 고려하지 않았기 때문에 일부 상황에 맞지 않음
- 시계열 데이터를 예측하기 위해 순환 가능한 모델을 사용

<img src="img/02.png" width="50%">

<img src="img/03.png" width="50%">

### Recurrent Neural Networks(RNN)
- 반복 가능한 신경망 모델을 만들자
- 대략 이런 그림일까...?

<img src="img/05.png">

- 풀어보면 이런 느낌

<img src="img/06.png" width="70%">

- RNN에 대해 자세히 알고싶으면 이 링크를 참조([Deep RNNs](https://www.coursera.org/lecture/nlp-sequence-models/deep-rnns-ehs0S))

### 이걸로 뭘 할 수 있을까?
- 시계열 데이터의 문맥을 이해할 수 있음

<img src="img/07.png" width="70%">

- 궁극적으로 이런걸 해보고자 함


<img src="img/04.png" width="50%">

### Long Short-Term Memory models(LSTM)
- RNN은 시계열 데이터를 다루기 좋지만 Vanishing Gradient Problem 존재
- 시퀀스가 길어지면 앞의 정보가 뒤로 충분히 전달되지 못하여 좋은 성능을 내기 어려움
- 이를 해결하기 위해 고안된 기법이 LSTM
- LSTM은 cell-state를 추가하여 gradient의 전파가 원활하게 되도록 도움

<img src="img/08.png" width="60%">
<img src="img/10.png" width="60%">

- RNN의 내부 구조

<img src="img/11.png" width="40%">

- LSTM의 내부 구조

<img src="img/12.png" width="40%">

- LSTM에 대해 자세히 알고 싶으면, 다음 링크를 참조([LSTM](https://www.coursera.org/lecture/nlp-sequence-models/long-short-term-memory-lstm-KXoay))

### Bidirectional Recurrent Neural Network
- 과거의 데이터 만으로 학습하는 것이 아닌, 미래의 데이터를 같이 학습
- 하나의 출력을 위해 두개의 메모리 셀을 사용
    - Forward States를 전달받아 현재 은닉상태를 계산
    - Backward States를 전달받아 현재 은닉상태를 계산

<img src="img/24.png">

### LSTM 구현

```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(tokenizer.vocab_size, 64),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
```

##### 모델 확인

<img src="img/13.png" width="70%">

### 다층 LSTM 구현

```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(tokenizer.vocab_size, 64),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64, return_sequences=True)),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
```

##### 모델 확인

<img src="img/14.png" width="70%">

- LSTM의 `return_sequences=True`
    - 다음 층으로 모든 은닉상태를 넘길 것인지에 대한 여부
    
    <img src="img/15.png" width="70%">

### 성능 비교

- 10 Epochs

<img src="img/16.png">

<img src="img/17.png">

- 50 epochs

<img src="img/18.png">

<img src="img/19.png">

### 기존 모델 대비 성능 향상 확인
- 기존 모델
```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length),
    tf.keras.layers.Flatten(),
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(24, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
```

- LSTM 적용 모델

```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
    tf.keras.layers.Dense(24, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
```
- 성능 확인

<img src="img/20.png">

<img src="img/21.png">

### Using a convolutional network
- RNN, LSTM의 계산비용 문제를 해결하기 위해 1D Conv사용
- 시퀀스들의 지역 패턴을 인식
- 윈도우를 지정하여 시퀀스의 오차를 수용하여 인식

```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length),
    tf.keras.layers.Conv1D(128, 5, activation='relu')
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(24, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
```

<img src="img/22.png">

##### 참고
- [딥러닝을 이용한 자연어 처리 입문](https://wikidocs.net/book/2155)
- [밑바닥부터 시작하는 딥러닝2](http://www.hanbit.co.kr/store/books/look.php?p_code=B8950212853)
- [github code](https://github.com/lmoroney/dlaicourse/tree/master/TensorFlow%20In%20Practice/Course%203%20-%20NLP)