<a href="https://colab.research.google.com/github/knxghtly/python-tensorflow-MLDL-Study/blob/main/%5B10%5DLSTM_%26_GRU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📌 LSTM 셀 (Long Short-Term Memory)

LSTM(Long Short-Term Memory)은 **장기 의존성 문제**를 해결하기 위해 고안된 [RNN](https://en.wikipedia.org/wiki/Recurrent_neural_network) 구조입니다.  
일반적인 RNN은 **그래디언트 소실 문제**로 인해 긴 시퀀스를 학습하기 어려운데, LSTM은 **셀 상태(Cell State)**를 활용하여 중요한 정보를 오래 보존할 수 있습니다.  

---

## 🔹 LSTM의 주요 구성 요소

LSTM 셀은 **셀 상태(Cell State)**와 **세 가지 게이트(Gates)**로 이루어져 있습니다.  

1. **셀 상태 (Cell State)**: $c$
   - 정보를 장기적으로 저장하는 경로입니다.
   - 필요 없는 정보는 제거하고, 중요한 정보는 유지합니다.
   - 출력: $c$: tanh

2. **입력 게이트 (Input Gate)**: $w_i, w_j$
   - 새로운 정보를 셀 상태에 추가할지 결정합니다.
   - $(w_i+w_j) × c$
   - 출력: $w_i$: sigmoid, $w_j$: tanh


3. **망각 게이트 (Forget Gate)**: $w_f$
   - 과거 정보를 얼마나 유지할지 조절합니다.
   - $w_f × c$
   - 출력: $w_f$: sigmoid

4. **출력 게이트 (Output Gate)**
   - 현재 상태에서 어떤 값을 출력할지 결정합니다.

---

## 🔹 LSTM의 작동 과정

1. **망각 게이트**가 이전 정보를 얼마나 남길지 결정  
2. **입력 게이트**가 새로운 정보를 셀 상태에 추가  
3. **셀 상태**를 업데이트  
4. **출력 게이트**가 최종 출력을 결정  

> 💡 LSTM은 **셀 상태(Cell State)를 통해 중요한 정보를 오랜 기간 유지**할 수 있습니다.

---

## 🔹 LSTM의 장점

✅ **장기 의존성 문제 해결** – 긴 시퀀스 학습 가능  
✅ **그래디언트 소실 문제 완화** – 중요한 정보 보존  
✅ **다양한 분야에서 활용** – 시계열 예측, 자연어 처리(NLP), 음성 인식 등  

---

## 🔹 GRU와의 비교

LSTM과 유사한 구조로 **[GRU (Gated Recurrent Unit)](https://en.wikipedia.org/wiki/Gated_recurrent_unit)**가 있습니다.  
GRU는 LSTM보다 **구조가 간단**하지만, 성능 차이는 데이터에 따라 다를 수 있습니다.

|  비교 항목  | LSTM | GRU |
|------------|------|------|
| 게이트 수  | 3개 (Forget, Input, Output) | 2개 (Reset, Update) |
| 셀 상태    | O | X |
| 계산량     | 많음 | 적음 |
| 성능 차이  | 데이터에 따라 다름 | 데이터에 따라 다름 |

---

## 🔹 참고 자료
- [RNN과 LSTM의 차이점](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)
- [LSTM 논문 (Hochreiter & Schmidhuber, 1997)](https://www.bioinf.jku.at/publications/older/2604.pdf)

🚀 **LSTM을 Colab에서 직접 실습해보고 싶다면?**
```python
import torch.nn as nn

# LSTM 모델 정의
class SimpleLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers):
        super(SimpleLSTM, self).__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        
    def forward(self, x):
        output, _ = self.lstm(x)
        return output
