In [None]:
# 아래의 코드는 의사 코드(pseudocode)로 실제 동작하는 코드가 아님. 

hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length: # 각 시점마다 입력을 받는다.
    output_t = tanh(input_t, hidden_state_t) # 각 시점에 대해서 입력과 은닉 상태를 가지고 연산
    hidden_state_t = output_t # 계산 결과는 현재 시점의 은닉 상태가 된다.

파이썬으로 RNN 구현하기

In [1]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [2]:
print(hidden_state_t) # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.

[0. 0. 0. 0. 0. 0. 0. 0.]


In [4]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [5]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [6]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
  total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
  print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.99544245 0.99589416 0.97965086 0.98200887 0.97045515 0.88927096
  0.99586591 0.9506892 ]
 [0.99999463 0.99997111 0.99966551 0.99991589 0.99980688 0.99987559
  0.99999742 0.9999876 ]
 [0.99999204 0.99997698 0.99969291 0.99993504 0.99962773 0.99979495
  0.99999532 0.9999803 ]
 [0.99999431 0.99998542 0.99981505 0.99990795 0.9996468  0.99985694
  0.99999499 0.9999844 ]
 [0.99999118 0.99999168 0.9997443  0.99994998 0.99989496 0.9998756
  0.99999551 0.99998447]
 [0.99999476 0.99998281 0.99969276 0.99997103 0.99987808 0.99984958
  0.99999831 0.99998842]
 [0.99999281 0.99998603 0.99970492 0.99996046 0.99985646 0.99984475
  0.999997   0.99998515]
 [0.99997167 0.99993839 0.99884139 0.99977471 0.99954155 0.9997874
  0.99998449 0.999967  ]
 [0.9999941  0.99998862 0.99965664 0.99996226 0.99995042 0.99991235
  0.99999824 0.99999121]
 [0.99999212 0.99998979 0.99970685 0.99988068 0.99991244 0.99992837
  0.9999951  0.99998906]]


 파이토치의 nn.RNN()

In [7]:
import torch
import torch.nn as nn

In [8]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

In [9]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [10]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [11]:
outputs, _status = cell(inputs)

In [12]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [13]:
torch.Size([1, 10, 8])

torch.Size([1, 10, 8])

In [14]:
print(_status.shape) # 최종 time-step의 hidden_state
torch.Size([1, 1, 8])

torch.Size([1, 1, 8])


torch.Size([1, 1, 8])

깊은 순환 신경망(Deep Recurrent Neural Network)

In [15]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [16]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)

In [17]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [18]:
torch.Size([1, 10, 8])

torch.Size([1, 10, 8])

In [19]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 1, 8])


In [21]:
torch.Size([2, 1, 8])

torch.Size([2, 1, 8])

양방향 순환 신경망(Bidirectional Recurrent Neural Network)

In [23]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [24]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

In [25]:
outputs, _status = cell(inputs)

In [26]:
print(outputs.shape) # (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)

torch.Size([1, 10, 16])


In [27]:
torch.Size([1, 10, 16])

torch.Size([1, 10, 16])

In [28]:
print(_status.shape) # (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)

torch.Size([4, 1, 8])


In [29]:
torch.Size([4, 1, 8])

torch.Size([4, 1, 8])