## 순환신경망 (Recurrent Neural Network : RNN)

RNN (Recurrent Neural Network : 순환 신경망)
- DFNN 시계열 데이터 처리의 한계점을 해결하기 위한 신경망
- 유닛 간 연결이 순환적 구조를 이룸
- 신경망 내부에 상태를 저장할 수 있게 함으로써
- 내부의 메모리를 이용해서 시퀀스 형태의 입력 처리

- 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을
- 출력층 방향으로 보내면서도
- 다시 은닉층의 노드의 다음 계산의 입력으로 보내지는 특징

- 문자열, 센서 데이터, 음성인식과 같이
- 시간적으로 연속성이 있는 데이터 처리에 용이
- 층이 많은 네트워크에서 나타나는 그래디언트 소실 문제(vanishing gradient problem) 발생
- 오랜 시간 걸쳐 학습 시 그래디언트가 소실하는 문제 

- 여러 개의 데이터가 순서대로 입력되었을 때
- 앞서 입력받은 데이터를 잠시 기억해 놓는 방법 사용
- 기억된 데이터가 얼마나 중요한지를 판단하여
- 별도의 가중치를 줘서 다음 데이터로 넘어감
- 모든 입력값에 이 작업을 순서대로 실행하기 때문에
- 다음 층으로 넘어가기 전에 같은 층을 순환

In [None]:
#그림

예 : 인공 지능 비서에게 '오늘 주가가 몇이야?' 묻는 경우

- 순환 부분에서 단어를 하나 처리할 때마다 기억하여
- 다음 입력 값의 출력을 결정
- 순환 중 앞서 나온 입력에 대한 결과가
- 뒤에 나오는 입력 값에 영향을 줌

In [None]:
# 그림

비슷한 두 문장이 입력되었을 때
그 차이를 구별하여 출력 값에 반영
입력2의 경우 양쪽 모두 '주가'이지만
왼쪽의 주가는 '오늘'을 기준으로 계산
오른쪽의 주가는 '내일'을 기준으로 계산

Long Short-Term Memory (LSTM : 장단기 메모리)
- RNN에서 발생하는 그래디언트 소실 문제를 해결하기 위한 제안
- 실전에서 응용들은 대부분 이 LSTM을 이용하여 구현
- 은닉층의 메모리 셀에 입력 게이트, 망각 게이터, 출력 데이를 추가하여
- 불필요한 기억을 지우고, 기억해야 할 것들 설정
- 은식 상태를 계산하는 식이
- RNN 보다는 조금 더 복잡해졌으면 셀 상태(cell state)라는 값이 추가

- RNN이 일반 신경만보다 기울기 소실 문제가 더 많이 발생하고
- 이를 보완하기 위한 방법
- 즉, 반복되기 전에 다음 층으로 기억된 값을 넘길지 안 넘길지를 관리하는 단계가 하나 더 추가


In [None]:
# 그림

RNN의 장점
- 입력 값과 출력값을 어떻게 설정하는냐에 따라
- 여러 가지 상황에 적용할 수 있다는 것
(1) 다수 입력 단일 출력
(2) 단일 입력 다수 출력
(3) 다수 입력 다수 출력

(1) 다수 입력 단일 출력
- 예 : 문장을 읽고 뜻을 파악할 때 활용 
   

(2) 단일 입력 다수 출력
- 사진의 갭션을 만들 때 활용
그림

(3) 다수 입력 다수 출력
- 예 : 문장을 번역할 때 활용
그림

### RNN 예제

LSTM을 이용한 로이터 뉴스 카테고리 분류하기
- 긴 텍스트를 읽고 이 데이터가 어떤 의미를 지니는지 카테고리로 분류

입력된 문장의 의미 파악
- 모든 단어를 종합하여 하나의 카테고리로 분류하는 작업

In [None]:
그림

In [None]:
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [3]:
# 로이터 뉴스 데이터셋 불러오기
from tensorflow.keras.datasets import reuters

# 데이터 셋 분리
(X_train, Y_train), (X_test, Y_test) = reuters.load_data(num_words=1000, test_split=0.2)

# num_words=1000
# 훈련 데이터에서 가장 자주 나타나는 단어 1,000개만 사용하겠다는 의미
# 드물게 나타나는 단어는 무시
# 이렇게 하면 적절한 크기의 벡터 데이터를 얻을 수 있음

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/reuters.npz


In [4]:
# 데이터 확인하기
category = np.max(Y_train) + 1

print(category, '카테고리')
print(len(X_train), '학습용 뉴스 기사')
print(len(X_test), '테스트용 뉴스 기사')
print()
print(X_train[0])

# 전처리되어 있음 : 각 단어가 숫자로 변환되어 있음

46 카테고리
8982 학습용 뉴스 기사
2246 테스트용 뉴스 기사

[1, 2, 2, 8, 43, 10, 447, 5, 25, 207, 270, 5, 2, 111, 16, 369, 186, 90, 67, 7, 89, 5, 19, 102, 6, 19, 124, 15, 90, 67, 84, 22, 482, 26, 7, 48, 4, 49, 8, 864, 39, 209, 154, 6, 151, 6, 83, 11, 15, 22, 155, 11, 15, 7, 48, 9, 2, 2, 504, 6, 258, 6, 272, 11, 15, 22, 134, 44, 11, 15, 16, 8, 197, 2, 90, 67, 52, 29, 209, 30, 32, 132, 6, 109, 15, 17, 12]


In [7]:
# 패딩 : 배열의 길이를 동일하게 맞춤
from keras.preprocessing import sequence

x_train = sequence.pad_sequences(X_train, maxlen=100) = sequence.pad_sequences(X_train, maxlen=100)
x_test= sequence.pad_sequences(X_test, maxlen=100)

In [8]:
x_train

array([[  0,   0,   0, ...,  15,  17,  12],
       [  0,   0,   0, ..., 505,  17,  12],
       [ 19, 758,  15, ...,  11,  17,  12],
       ...,
       [  0,   0,   0, ..., 407,  17,  12],
       [ 88,   2,  72, ..., 364,  17,  12],
       [125,   2,  21, ..., 113,  17,  12]], dtype=int32)

In [9]:
x_test

array([[  5,   2,   7, ..., 510,  17,  12],
       [652, 194,   2, ..., 760,  17,  12],
       [ 13,  10, 139, ...,   8,  17,  12],
       ...,
       [  0,   0,   0, ...,  11,  17,  12],
       [  0,   0,   0, ...,   8,  17,  12],
       [ 47, 758,  15, ...,   2,  17,  12]], dtype=int32)

In [10]:
# 원-핫 인코딩
from tensorflow.keras import utils

y_train = utils.to_categorical(Y_train)
y_test = utils.to_categorical(Y_test)

In [11]:
y_train

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

In [12]:
y_test

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

In [None]:

# 딥러닝 적용

from tensorflow.keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding

# (1) 모델 설정
model = Sequential()
model.add(Embedding(1000, 100))
model.add(LSTM(100, activation='tanh'))
model.add(Dense(46, activation='softmax'))

# Embedding 층 : 모델 설정 부분의 맨 처음에 있어야 함
# 입력 정수에 대해 밀집 벡터로 맵핑
# Embedding(단어 총 개수, 기사당 단어 수)

# LSTM 층
# LSTM(기사당 단어수, 기타 옵션)
# LSTM의 활성 함수로는 tanh (하이퍼볼릭 탄젠트) 사용
# vanishin gradient 문제를 예방하기 위해
# 그래디언트가 최대한 오래 유지될 수 있도록 해주는 역할로
# tanh가 적합기 때문 (미분 최대값이 상대적 큼)

# (2) 모델 컴파일
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
              
              
# (3) 모델 실행 (학습)             
history = model.fit(x_train, yTrain,
                    batch_size=100,
                    epochs=20,
                    validation_data=(x_test, y_test))

# (4) 모델 평가 (테스트정확도 출력)
print('\n Test Accuracy : %.4f' % (model.evaluate(x_test, y_test)[1]))

In [3]:
import numpy as np

In [None]:
# loss와 val_loss 그래프로 표현
# 테스트 셋 
y_val_loss = history.history['val_loss']
# 학습 셋
y_loss = history.history['loss']

In [None]:
# 그래프로 표현
x_len = np.arange(len(y_loss))
plt.plot(x_len, y_val_loss, marker='.', c='red', label='Target_loss')
plt.plot(x_len, y_loss, marker='.', c='blue', label='Train_loss')

plt.legend(loc='upper right')
plt.grid()
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

In [None]:
# 정확도 그래프 표현

In [None]:
# laccuracy와 val_accuracy 그래프로 표현
# 테스트 셋 
y_val_accuracy = history.history['val_accuracy']
# 학습 셋
y_accuracy = history.history['accuracy']

In [None]:
# 그래프로 표현
x_len = np.arange(len(y_accuracy))
plt.plot(x_len, y_val_accuracy, marker='.', c='red', label='Target_accuracy')
plt.plot(x_len, y_accuracy, marker='.', c='blue', label='Train_accuracy')

plt.legend(loc='upper right')
plt.grid()
plt.xlabel('epoch')
plt.ylabel('accuracy')
plt.show()