# Long Short-Term Memory, LSTM
- https://wikidocs.net/22888
- The problem of Long-Term Dependencies: 바닐라 RNN은 비교적 짧은 시퀀스(sequence)에 대해서만 효과를 보이는 단점이 있습니다. 바닐라 RNN의 시점(time step)이 길어질 수록 앞의 정보가 뒤로 충분히 전달되지 못하는 현상이 발생합니다.
- LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할 것들을 정합니다. 요약하면 LSTM은 은닉 상태(hidden state)를 계산하는 식이 전통적인 RNN보다 조금 더 복잡해졌으며 셀 상태(cell state, Ct)라는 값을 추가하였습니다. LSTM은 RNN과 비교하여 긴 시퀀스의 입력을 처리하는데 탁월한 성능을 보입니다.
    1. 입력 게이트: 입력 게이트는 현재 정보를 기억하기 위한 게이트입니다.
        - it=σ(Wxixt+Whiht−1+bi)
        - gt=tanh(Wxgxt+Whght−1+bg)
    2. 삭제 게이트
        - ft=σ(Wxfxt+Whfht−1+bf): 0에 가까울수록 정보가 많이 삭제된 것이고 1에 가까울수록 정보를 온전히 기억한 것입니다.
    3. 셀 상태(장기 상태)
        - Ct=ft∘Ct−1+it∘gt
    4. 출력 게이트와 은닉 상태(단기 상태)
        - ot=σ(Wxoxt+Whoht−1+bo)
        - ht=ot∘tanh(ct)

## Import

In [4]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

## LSTM

In [3]:
timesteps = 300
input_dim = 100
hidden_size = 32
num_classes = 10

In [7]:
model = Sequential()
model.add(LSTM(hidden_size, input_shape=(timesteps, input_dim), return_sequences=True))
model.add(LSTM(hidden_size, return_sequences=True))
model.add(LSTM(hidden_size))
model.add(Dense(num_classes, activation="softmax"))

In [8]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm (LSTM)                  (None, 300, 32)           17024     
_________________________________________________________________
lstm_1 (LSTM)                (None, 300, 32)           8320      
_________________________________________________________________
lstm_2 (LSTM)                (None, 32)                8320      
_________________________________________________________________
dense (Dense)                (None, 10)                330       
Total params: 33,994
Trainable params: 33,994
Non-trainable params: 0
_________________________________________________________________
