In [None]:
import torch
import torch.nn as nn

## LSTM

- `input_size`: input `x`에 대한 features의 수
- `hidden_size`: hidden state의 features의 수
- `num_layers`: LSTM을 스택킹(stacking)하는 수
- `batch_first`: 입출력 텐서의 형태가 다음과 같음. 기본값은 `False`
  - `True`로 설정시 `(batch, seq, feature)`
  - `False`로 설정시 `(seq, batch, feature)`
  - (주의사항) `hidden_state`, `cell_state`에는 영향을 미치지 않습니다.
- `bidirectional`: 양방향 LSTM 구현 여부. 기본값은 `False`


In [None]:
lstm = nn.LSTM(
    input_size=10, hidden_size=20, num_layers=1, bidirectional=False, batch_first=True
)
lstm

## 출력에 대한 이해


> 입력에 활용할 텐서 생성


In [None]:
# 입력
inputs = torch.zeros(1, 35, 10)

# LSTM
lstm = nn.LSTM(
    input_size=10, hidden_size=20, num_layers=2, bidirectional=True, batch_first=True
)

# 출력
outputs, (hidden_state, cell_state) = lstm(inputs)
print(outputs.shape, hidden_state.shape)

In [None]:
inputs = torch.zeros(1, 35, 10)
print(inputs.shape)
# batch_size, sequence_length, number of features

`lstm`에 방금 생성한 `inputs`를 입력으로 넣습니다.

여기서, `lstm`을 생성할 때 `batch_first`를 `True`로 설정했기 때문에 입력 텐서의 첫 번째 shape는 `batch_size`가 위치해야 합니다.


In [None]:
outputs, (hidden_state, cell_state) = lstm(inputs)
print(outputs.shape, hidden_state.shape, cell_state.shape)

1. `outputs` 의 shape에 대한 이해

- `[1, 35, 20]` 형태를 가집니다. 순서대로 `(batch_size, sequence_length, hidden_size(20) x bidirectional(1))` 입니다.

2. `hidden_state` 의 shape에 대한 이해

- `hidden_state`는 short term memory에 대한 state를 나타냅니다.
- `[1, 1, 20]` 형태를 가집니다. 순서대로 `(Bidirectional x number of layers, batch_size, hidden_size)` 입니다.

3. `cell_state` 의 shape에 대한 이해

- `cell_state`는 long term memory에 대한 state를 나타냅니다.
- `[1, 1, 20]` 형태를 가집니다. 순서대로 `(Bidirectional x number of layers, batch_size, hidden_size)` 입니다.


## Stacking LSTM

- LSTM를 겹층으로 쌓아올리는 것을 Stacking이라고 합니다. 이렇게 쌓아올렸을 때는 결과 shape가 달라지게 됩니다.
- `num_layers`에 쌓고자 하는 층의 개수를 입력합니다.


In [None]:
# num_layers를 2로 설정
lstm = nn.LSTM(
    input_size=10, hidden_size=20, num_layers=2, bidirectional=False, batch_first=True
)
lstm

> 이전과 동일한 입력 텐서 생성


In [None]:
inputs = torch.zeros(1, 35, 10)
print(inputs.shape)
# batch_size, sequence_length, number of features

In [None]:
outputs, (hidden_state, cell_state) = lstm(inputs)
print(outputs.shape, hidden_state.shape, cell_state.shape)

1. `outputs` 의 shape에 대한 이해

- `[1, 35, 20]` 형태를 가집니다. 순서대로 `(batch_size, sequence_length, hidden_size(20) x bidirectional(1))` 입니다.

2. `hidden_state` 의 shape에 대한 이해

- `hidden_state`는 short term memory에 대한 state를 나타냅니다.
- `[2, 1, 20]` 형태를 가집니다. 순서대로 `(Bidirectional x number of layers, batch_size, hidden_size)` 입니다.
- 출력 텐서의 첫 번째 shape은 `Bidirectional(1) x number of layers(2)=2` 결과입니다.

3. `cell_state` 의 shape에 대한 이해

- `cell_state`는 long term memory에 대한 state를 나타냅니다.
- `[2, 1, 20]` 형태를 가집니다. 순서대로 `(Bidirectional x number of layers, batch_size, hidden_size)` 입니다.
- 출력 텐서의 첫 번째 shape은 `Bidirectional(1) x number of layers(2)=2` 결과입니다.


## Bidirectional LSTM

- 양방향 LSTM을 사용하기 위해서는 `bidirectional=True`로 설정합니다.


In [None]:
# bidirectional=True 설정
lstm = nn.LSTM(
    input_size=10, hidden_size=20, num_layers=2, bidirectional=True, batch_first=True
)
lstm

> 이전과 동일한 입력 텐서 생성


In [None]:
inputs = torch.zeros(1, 35, 10)
print(inputs.shape)
# batch_size, sequence_length, number of features

In [None]:
outputs, (hidden_state, cell_state) = lstm(inputs)
print(outputs.shape, hidden_state.shape, cell_state.shape)

1. `outputs` 의 shape에 대한 이해

- `[1, 35, 40]` 형태를 가집니다. 순서대로 `(batch_size, sequence_length, hidden_size(20) x bidirectional(2))` 입니다.
- 출력 텐서의 마지막 shape은 `hidden_size(20) x bidirectional(2)=40` 결과입니다.

2. `hidden_state` 의 shape에 대한 이해

- `hidden_state`는 short term memory에 대한 state를 나타냅니다.
- `[4, 1, 20]` 형태를 가집니다. 순서대로 `(bidirectional x number of layers, batch_size, hidden_size)` 입니다.
- 출력 텐서의 첫 번째 shape은 `bidirectional(2) x number of layers(2)=4` 결과입니다.

3. `cell_state` 의 shape에 대한 이해

- `cell_state`는 long term memory에 대한 state를 나타냅니다.
- `[4, 1, 20]` 형태를 가집니다. 순서대로 `(bidirectional x number of layers, batch_size, hidden_size)` 입니다.
- 출력 텐서의 첫 번째 shape은 `bidirectional(2) x number of layers(2)=4` 결과입니다.
