RNN의 경우, 입력데이터가 커질수록 학습 능력이 저하된다.

입력데이터와 출력데이터 사이의 길이가 멀어질수록 연관관계가 줄어든다. 이를 "장기의존성"문제라 하는데 RNN의 변형구조인 LSTM레이어는 장기의존성 문제를 해결하기 위해 나오게 됐다.

## LSTM의 구조
- LSTM레이어는 출력값 이외에, LSTM셀 사이에서 공유되는 셀의 상태가 존재한다는 점이 특징이다.
- 이러한 셀 상태가 함께 다음 레이어로 전달되면서, 기존의 상태를 보존하여 장기의존성 문제를 해결한다.

* RNN의 활성화 함수 : tanh, relu
* LSTM의 활성화 함수 : tanh(relu), sigmoid

In [1]:
# test 환경
import numpy as np

X = []
Y = []
for i in range(6):
    lst = list(range(i,i+4))
    X.append(list(map(lambda c: [c/10], lst)))
    Y.append((i+4)/10)
X = np.array(X)
Y = np.array(Y)
print(X)
print(Y)

[[[0. ]
  [0.1]
  [0.2]
  [0.3]]

 [[0.1]
  [0.2]
  [0.3]
  [0.4]]

 [[0.2]
  [0.3]
  [0.4]
  [0.5]]

 [[0.3]
  [0.4]
  [0.5]
  [0.6]]

 [[0.4]
  [0.5]
  [0.6]
  [0.7]]

 [[0.5]
  [0.6]
  [0.7]
  [0.8]]]
[0.4 0.5 0.6 0.7 0.8 0.9]


In [2]:
# 모델 만들기 & 학습
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

model = Sequential([LSTM(units=32,
              # units 파라미터는 RNN 신경망에 존재하는 뉴런의 개수
                    return_sequences=False,
        # RNN 계산 과정에 있는 hidden state를 출력할 것인지에 대한 값을 의미
        # 해당 값은 다층으로 이루어진 RNN 또는 one-to-many, many-to-many 출력을 위해서 사용
        # False의 경우, 마지막 출력값 하나를 출력/ True의 경우, 모든 과정의 출력 값을 출력
                    input_shape=[4,1]),
                    Dense(1, activation='tanh')])
# 모델은 Sequential에 simpleRNN과 Dense레이어를 하나씩 추가
# input_shape는 4 time-step마다 하나의 답이라서 [4,1] 선언
# 학습을 반복하면서 mse 값을 낮추는 훈련 함

model.compile(optimizer='adam',
              loss='mse',
              metrics=['accuracy'])

history = model.fit(X, Y, epochs=200, verbose=0)

In [3]:
# 기존의 훈련 데이터 세트를 넣어서 예측
print(model.predict(X))

[[0.4256802 ]
 [0.52832425]
 [0.6225498 ]
 [0.70545655]
 [0.77545   ]
 [0.8323025 ]]


In [5]:
# 1.2에 많이 가깝진 않지만 훈련데이터를 증가시켜서 해당 결과를 개선시킬 수 있음
# RNN 사용시 0.912, LSTM 사용시 0.936
X_test = np.array([[[0.8],[0.9],[1.0],[1.1]]])
print(model.predict(X_test))

[[0.9361098]]
