## RNN

**순환신경망**은 계층의 출력이 순환하는 인공신경망이다.

순환신경망은 시계열 정보처럼 앞뒤 신호가 서로 상관도가 있는 경우 인공신경망의 성능을 더 높일 수 있는데 <br>
-> **순환 방식은 은닉 계층의 결과가 다음 계층으로 넘어갈 뿐 아니라 자기 계층으로 다시 들어오기 때문이다.**

### RNN 원리

**RNN**은 신호를 순환하여 시계열 신호와 같이 상호 관계가 있는 신호를 처리하는 인공신경망이다.

그러나 이러한 방식으로 구현하면 
출력된 신호가 계속 순환하면 경우에 따라서 학습이 제대로 이뤄지지 않을 수 있다.


## Long-Term-Short-Term-Memory (LSTM)

**LSTM**은 **RNN**의 문제점을 개선하고자 제안된 RNN의 한 방법이다.

입력 조절 게이트, 망각 게이트, 출력 조절 게이트를 이용해 입력과 출력 신호를 게이팅하는데,<BR>
여기서 **게이팅**은 신호의 양을 조절해주는 기법을 의미한다.
    
***
- **입력 조절 벡터** : 입력 신호가 tanh 활성화 함수의 완전 연결 계층을 거친 이후의 값을 조절한다.
<br><Br>
- **망각 벡터** : 과거 입력의 일부를 현재 입력에 반영한다.
<br><Br>
- **출력 조절 벡터** : 과거의 값과 수정된 입력값을 고려해 tanh 활성화 함수로 게이팅을 수행한다.
***

게이팅된 최종 결과가 출력 조절 벡터로 나가게 되는데, <br>
이 최종 결과는 데이터 처리를 위한 tanh 계층 그리고 게이팅을 위한 새 시그모이드 계층에 다시 입력으로 들어갑니다.
  


### 라이브러리 임포트

In [1]:
# RNN에 필요한 케라스 클래스들 불러오기

from keras.preprocessing import sequence
from keras.datasets import imdb
from keras import layers, models

Using TensorFlow backend.


데이터는 케라스가 제공하는 공개 데이터인 IMDB를 사용하였다.
<br><br>
IMDB는 25000건의 영화평과 이진화된 영화 평점 정보(추천 = 1, 미추천 = 0)를 담고 있다.
<br><br>
평점 정보는 별점이 많은 경우는 긍정, 그렇지 않은 경우는 부정으로 나눠진 정보이며 인공신경망이 주어진 영화평을 분석해 영화 평점 정보를 예측한다.

### 데이터 준비

In [13]:
# Data 클래스 선언

class data :
    def __init__(self, max_features = 20000, maxlen = 80) :
        (x_train, y_train),(x_test,y_test) = imdb.load_data(num_words = max_features)
        # 데이터셋에 들어 있는 문장들은 길이가 다르기 때문에 LSTM이 처리하기 적합하도록 길이를 통일하는 작업을 진행한다.
        # 문장에서 maxlen이후에 있는 단어들은 케라스 서브패키지인 sequence에서 제동하는 pad_sequence()함수로 잘라낸다.
        # 최대 길이 maxlen을 80으로 설정했으며 문장 길이가 maxlen보다 적을 경우 부족한 부분을 0으로 채운다.
        x_train = sequence.pad_sequences(x_train, maxlen = maxlen)
        x_test = sequence.pad_sequences(x_test, maxlen = maxlen)
        self.x_train, self.y_train = x_train, y_train
        self.x_test, self.y_test = x_test, y_test

In [3]:
imdb.load_data()

((array([list([1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 22665, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 21631, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 19193, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 10311, 8, 4, 107, 117, 5952, 15, 256, 4, 31050, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 12118, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]),
         list([1, 19

### LSTM 모델링

In [11]:
# LSTM 모델링을 위한 클래스를 선언
# 모델링은 models.Model 클래스를 상속해서 만든다.
class RNN_LSTM(models.Model) :
    def __init__(self,max_features, maxlen):
        # 입력층을 만들고 임베딩 계층을 포함시킴.
        # 최대 특징 점수를 max_features에 정의된 20000으로 설정했고, 임베딩 후 출력 벡터 크기를 128로 설정.
        # 입력에 각 샘플은 80개의 원소로 된 1차원 신호열이었지만 
        # 임베딩 계층을 통과하면서 각 단어의 길이가 128의 길이를 가지는 벡터로 바뀜. 데이터의 모양이 80X128로 변경
        x = layers.Input((maxlen,))
        h = layers.Embedding(max_features, 128)(x)
        # 노드 128개로 구성된 LSTM 계층을 포함함.
        h = layers.LSTM(128,dropout = 0.2, recurrent_dropout = 0.2)(h)
        # 이 계층은 일반 드롭아웃과 순환 드롭아웃을 모두 20%로 설정했다.
        y = layers.Dense(1, activation = 'sigmoid')(h)
        super().__init__(x,y)
        # 손실 함수와 최적화 함수를 argument로 저정하여 모델을 컴파일한다.
        self.compile(loss = 'binary_crossentropy',
                    optimizer = 'adam', metrics = ['accuracy'])
        
        # 긍정,부정에 대한 이진 판별값을 출력으로 다루기 때문에 손실 함수를 binary_crossentropy로, 최적화 함수를 adam으로 설정했으며,
        # 학습 기간에는 에포크마다 손실뿐 아니라 정확도도 구하도록 metric에 accuracy를 추가 설정했다.

### 임베딩(embedding)

- 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다.

### 에포크(epoch)

- 학습 반복 횟수를 의미함.

### batch_size

- 몇 개의 샘플로 가중치를 갱신할 지를 의미함.

### 학습 및 성능 평가

In [15]:
# 학습 및 성능 평가를 담당할 머신 클래스를 만듬.
# max_features : 다루는 단어의 최대 수(단어의 빈도 순위가 20000등 안에 드는 단어만을 취급함.) - 20000으로 설정
# maxlen : 한 문장의 최대 단어 수 - 80으로 설정
class machine :
    def __init__(self,
                max_features = 20000,
                maxlen = 80) :
        self.data = data(max_features, maxlen)
        self.model = RNN_LSTM(max_features, maxlen)
# 총 에포크를 3으로 지정, 배치 크기를 32로 지정
    def run(self, epochs = 3, batch_size = 32) :
        data = self.data
        model = self.model
        print('Training stage')
        print('================')
        # LSTM을 학습시키는 코드
        model.fit(data.x_train, data.y_train, 
                  batch_size = batch_size,
                  epochs = epochs, 
                  validation_data = (data.x_test,data.y_test))
        score,acc = model.evaluate(data.x_test,data.y_test,
                                  batch_size = batch_size)
        print('Test performance: accuracy = {0}, loss= {1}'.format(acc,score))
        
def main():
    m = machine()
    m.run()

if __name__ == '__main__':
    main()


Training stage

Train on 25000 samples, validate on 25000 samples
Epoch 1/3
Epoch 2/3
Epoch 3/3
Test performance: accuracy = 0.8331199884414673, loss= 0.4229520866012573
