In [11]:
import torch
import torch.nn as nn

## 게이트 순환 유닛(Gated Recurrent Unit, GRU)

GRU(Gated Recurrent Unit)는 LSTM의 장기 의존성 문제에 대한 장점을 유지하면서 은닉 상태를 업데이트하는 계산을 줄여 복잡성을 낮춘 모델

LSTM에 비해 구조적으로 단순하여, 빠른 학습 시간과 낮은 계산 복잡성을 가짐

LSTM에 비해 성능면에서 항상 최선은 아님

기존의 LSTM의 최적의 하이퍼패러미터를 찾았다면 LSTM이 더 나은 선택

일반적으로 데이터 양이 적을 때는 매개 변수의 양이 적은 GRU가 더 나은 성능을 보이고

데이터 양이 많을 때는 LSTM이 더 나은 성능을 보임

### GRU(Gated Recurrent Unit) 구조

![alt text](gru.png)

$ r_t = \sigma (W_{xr} x_t + W_{hr} h_{t-1} + b_r) $

$ z_t = \sigma (W_{xz} x_t + W_{hz} h_{t-1} + b_z) $

$ g_t = tanh (W_{hg}(r_t \circ h_{t-1}) + W_{xg} x_t + b_g) $

$ h_t = (1 - z_t) \circ g_t + z_t \circ h_{t-1} $

GRU는 리셋 게이트, 업데이트 게이트 두 가지 게이트를 가짐

리셋 게이트는 이전 시점의 정보를 적절히 리셋시키기 위한 게이트

업데이트 게이트는 이전 시점과 현재 시점의 정보의 최신화 비율을 결정하는 게이트

### PyTorch에서 사용

LSTM과 마찬가지로 RNN 셀을 GRU 셀로 바꿔주면 됨

nn.RNN(input_dim, hidden_size, batch_fisrt=True)

->

nn.GRU(input_dim, hidden_size, batch_fisrt=True)

In [12]:
input_dim = 10
hidden_dim = 100
layer_dim = 1
output_dim = 1

In [13]:
class GRUModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, layer_dim, output_dim):
        super(GRUModel, self).__init__()
        
        self.hidden_dim = hidden_dim
        self.layer_dim = layer_dim
        
        self.gru = nn.GRU(input_dim, hidden_dim, layer_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        h0 = torch.zeros(self.layer_dim, x.size(0), self.hidden_dim).requires_grad_()
        out, hn = self.gru(x, h0.detach())
        out = self.fc(out[:, -1, :])
        return out
    
model = GRUModel(input_dim, hidden_dim, layer_dim, output_dim)

In [14]:
seq_dim = 7
batch_size = 2
input_data = torch.randn(batch_size, seq_dim, input_dim)

In [15]:
output = model(input_data)
print("Output shape:", output.shape)

Output shape: torch.Size([2, 1])
