# RNN이란?

RNN(순환신경망,Recurrent Neural Network)은 주로 시계열 분석, 자연어 처리 등 순서가 있는 데이터에 사용하면 좋은 결과가 있는 모델  
실제로 주식, 기상, 등을 계산할 때 매우 유효하고 대회에서 시계열 데이터를 다룰 때 많이 사용함.  

# Simple RNN
가장 기본적인 RNN임.  
`x_train` 데이터는 1~5, 2~6, 3~7 로 총 3개의 리스트임.  
`y_train` 은 `x_train` 에 대응하는 각각 6, 7, 8 로 이루어진 값이 3개인 벡터로 구성되어있음.

In [26]:
# 1. 데이터 준비
import numpy as np 
x_train = np.array([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]])
y_train = np.array([[6], [7], [8]])

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

x_train.shape :  (3, 5)
y_train.shape :  (3, 1)


여기서 x_train의 컬럼과 y_train 의 벡터의 크기를 맞추기 위해 x_train 을 reshape 함

In [27]:
x_train

array([[1, 2, 3, 4, 5],
       [2, 3, 4, 5, 6],
       [3, 4, 5, 6, 7]])

In [28]:
y_train

array([[6],
       [7],
       [8]])

In [29]:
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1], 1)

In [30]:
x_train

array([[[1],
        [2],
        [3],
        [4],
        [5]],

       [[2],
        [3],
        [4],
        [5],
        [6]],

       [[3],
        [4],
        [5],
        [6],
        [7]]])

여기서 주의해야할 것이 x의 데이터 구조(3행, 5열, 1 feature)

In [31]:
print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

x_train.shape :  (3, 5, 1)
y_train.shape :  (3, 1)


y의 벡터는 행의 개수와 대응함. 그래서 x의 행의 수 = y의 벡터의 크기와 같음. (???)   


In [32]:
# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM
model = Sequential()

model.add(SimpleRNN(7, input_shape=(5, 1), activation='relu'))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
simple_rnn (SimpleRNN)       (None, 7)                 63        
_________________________________________________________________
dense (Dense)                (None, 4)                 32        
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 5         
Total params: 100
Trainable params: 100
Non-trainable params: 0
_________________________________________________________________


In [33]:
# 3. 모델
model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.fit(x_train, y_train, epochs=100, batch_size=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x7fc96e1f8ee0>

In [36]:
# 4. 예측
x_predict = np.array([[4, 5, 6, 7, 8]])
print(x_predict.shape)
x_predict = x_predict.reshape(x_predict.shape[0], x_predict.shape[1], -1)
print("x_predict reshape : ", x_predict.shape)

(1, 5)
x_predict reshape :  (1, 5, 1)


In [37]:
y_predict = model.predict(x_predict)
print("예측값 : ", y_predict)

예측값 :  [[9.281104]]


# LSTM
RNN 에서 가장 많이 쓰는 모델.    
원리는 동일하지만 Simple RNN 보다 파라미터 수가 월등히 많아지고 성능이 좋음.  

In [38]:
# 1. 데이터 준비
import numpy as np 
x_train = np.array([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]])
y_train = np.array([[6], [7], [8]])

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# reshape
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1], 1)

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM
model = Sequential()

model.add(LSTM(7, input_shape=(5, 1), activation='relu'))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

x_train.shape :  (3, 5)
y_train.shape :  (3, 1)
x_train.shape :  (3, 5, 1)
y_train.shape :  (3, 1)
Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm (LSTM)                  (None, 7)                 252       
_________________________________________________________________
dense_2 (Dense)              (None, 4)                 32        
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 5         
Total params: 289
Trainable params: 289
Non-trainable params: 0
_________________________________________________________________


simpleRNN의 경우 첫번째 레이어에서 param 수가 63, LSTM의 경우 첫번째 레이어에서 param 수가 252  
대회에 참가하는 경우 시간이 부족할때가 많음. 그럴때는 simpleRNN, DNN 으로 돌려서 우선적으로 acc 구한 뒤 LSTM으로 모델을 훈련시키는 것도 한가지 방법이 될 수 있음. 

In [40]:
# 3. 모델
model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.fit(x_train, y_train, epochs=100, batch_size=1)

# 4. 예측
x_predict = np.array([[4, 5, 6, 7, 8]])
print(x_predict.shape)
x_predict = x_predict.reshape(x_predict.shape[0], x_predict.shape[1], -1)
print("x_predict reshape : ", x_predict.shape)

y_predict = model.predict(x_predict)
print("예측값 : ", y_predict)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100
(1, 5)
x_predict reshape :  (1, 5, 1)
예측값 :  [[9.268801]]


# GRU
뉴욕대학교의 조경현 교수님이 만든 모델임. LSTM을 보완하였는데 사실 GRU 는 LSTM의 아웃풋 게이트를 두지 않고, LSTM을 간단하게 변경한 구조  
약간의 축소 버전이라고 생각. 속도는 LSTM 보다 빨라지고, 성능은 거의 동일하거나, 약간 낮은 것을로 알려져 있음. 

In [42]:
# 1. 데이터 준비
import numpy as np 
x_train = np.array([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]])
y_train = np.array([[6], [7], [8]])

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# reshape
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1], 1)

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM, GRU
model = Sequential()

model.add(GRU(7, input_shape=(5, 1), activation='relu'))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

x_train.shape :  (3, 5)
y_train.shape :  (3, 1)
x_train.shape :  (3, 5, 1)
y_train.shape :  (3, 1)
Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
gru (GRU)                    (None, 7)                 210       
_________________________________________________________________
dense_6 (Dense)              (None, 4)                 32        
_________________________________________________________________
dense_7 (Dense)              (None, 1)                 5         
Total params: 247
Trainable params: 247
Non-trainable params: 0
_________________________________________________________________


In [43]:
# 3. 모델
model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.fit(x_train, y_train, epochs=100, batch_size=1)

# 4. 예측
x_predict = np.array([[4, 5, 6, 7, 8]])
print(x_predict.shape)
x_predict = x_predict.reshape(x_predict.shape[0], x_predict.shape[1], -1)
print("x_predict reshape : ", x_predict.shape)

y_predict = model.predict(x_predict)
print("예측값 : ", y_predict)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100
(1, 5)
x_predict reshape :  (1, 5, 1)
예측값 :  [[8.963178]]


# Bidirectional LSTM
RNN 에서는 우리의 실행의 방향이 한 방향이었고, 시간의 순서대로 쭉 진행되었음.  
예를 들어 1, 2, 3, 4, 5라는 데이터에서 1부터, 5까지 순차적으로 RNN 하는 방식이었음.  
하지만 이를 역순으로 5, 4, 3, 2, 1 이라는 데이터 역시 순차적 데이터가 될 수 있음  
여기서 착안한 것이 Bidirectional 임. 우선 RNN을 순방향으로 진행한 후 역방향으로 다시 훈련시키는 방법 그래서 이름도 양방향

In [44]:
# 1. 데이터 준비
import numpy as np 
x_train = np.array([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]])
y_train = np.array([[6], [7], [8]])

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# reshape
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1], 1)

print('x_train.shape : ', x_train.shape)
print('y_train.shape : ', y_train.shape)

# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM, Bidirectional
model = Sequential()

model.add(Bidirectional(LSTM(7, activation='relu'), input_shape=(5, 1)))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

x_train.shape :  (3, 5)
y_train.shape :  (3, 1)
x_train.shape :  (3, 5, 1)
y_train.shape :  (3, 1)
Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
bidirectional (Bidirectional (None, 14)                504       
_________________________________________________________________
dense_8 (Dense)              (None, 4)                 60        
_________________________________________________________________
dense_9 (Dense)              (None, 1)                 5         
Total params: 569
Trainable params: 569
Non-trainable params: 0
_________________________________________________________________


첫번째 레이어의 param의 수가 LSTM은 252개 였던 것에 비하면 2배가 증가했음.  
Bidirectional LSTM을 사용하게 되면 LSTM의 2배의 파라미터를 잡기때문에 속도 또한 일반 LSTM 보다 느려짐.  

In [46]:
# 3. 모델
model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.fit(x_train, y_train, epochs=100, batch_size=1)

# 4. 예측
x_predict = np.array([[4, 5, 6, 7, 8]])
print(x_predict.shape)
x_predict = x_predict.reshape(x_predict.shape[0], x_predict.shape[1], -1)
print("x_predict reshape : ", x_predict.shape)

y_predict = model.predict(x_predict)
print("예측값 : ", y_predict)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100
(1, 5)
x_predict reshape :  (1, 5, 1)
예측값 :  [[8.808506]]


# LSTM 레이어 - LSTM 레이어 연결

현재까지는 LSTM 레이어 뒤에 Dense 층을 연결했었음.  
LSTM 레이어도 2개 이상 연결이 가능함.  

In [47]:
# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM
model = Sequential()

model.add(LSTM(7, input_shape=(5, 1), activation='relu'))
model.add(LSTM(8))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

ValueError: Input 0 of layer lstm_4 is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: (None, 7)

실행결과 valueError가 발생함, 이전 LSTM 레이어의 아웃풋이 두번째 LSTM 레이어의 입력차원이랑 맞지않다는 내용  
LSTM은 (sample, time steps, feature), 3개의 차원을 필요로 함. 
LSTM의 output의 차원은 (None, 7) 형식으로 2차원으로 나오게 됨. 

케라스에서는 LSTM 레이어의 차원을 맞춰주기 위해 return_sequence라는 파라미터를 지원함. 한 마디로 이전 차원을 그대로 유지해주겠다는 의미  

In [52]:
# 2. 모델구성
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, LSTM
model = Sequential()

model.add(LSTM(7, input_shape=(5, 1), activation='relu', return_sequences=True))
model.add(LSTM(8))
model.add(Dense(4))
model.add(Dense(1))

model.summary()

Model: "sequential_9"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_8 (LSTM)                (None, 5, 7)              252       
_________________________________________________________________
lstm_9 (LSTM)                (None, 8)                 512       
_________________________________________________________________
dense_12 (Dense)             (None, 4)                 36        
_________________________________________________________________
dense_13 (Dense)             (None, 1)                 5         
Total params: 805
Trainable params: 805
Non-trainable params: 0
_________________________________________________________________


input shape(3, 5, 1) -> LSTM 1 (None, 5, 7) -> LSTM (None, 8)  
LSTM 1 에서 return_sequences 를 True 값을 줬기 때문에 output shape 가 feature 값만 레이어의 노드수에 맞게 변하고 차원은 그대로임.

In [53]:
# 3. 모델
model.compile(optimizer='adam', loss='mse', metrics=['mse'])
model.fit(x_train, y_train, epochs=100, batch_size=1)

# 4. 예측
x_predict = np.array([[4, 5, 6, 7, 8]])
print(x_predict.shape)
x_predict = x_predict.reshape(x_predict.shape[0], x_predict.shape[1], -1)
print("x_predict reshape : ", x_predict.shape)

y_predict = model.predict(x_predict)
print("예측값 : ", y_predict)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100
(1, 5)
x_predict reshape :  (1, 5, 1)
예측값 :  [[7.4454107]]
