In [9]:
# In Python

In [5]:
import numpy as np

timesteps = 10
# 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4
# 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다
hidden_size = 8
# 은닉 상태의 크기 (= 메모리 셀의 용량)

inputs = np.random.random((timesteps, input_size))
# 2D 텐서

hidden_state_t = np.zeros((hidden_size))
# 초기 상태는 0벡터로 초기화
# 은닉 상태의 크기는 hidden_size로 생성

In [6]:
print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [7]:
Wx = np.random.random((hidden_size, input_size))
# (8,4)크기의 2D 텐서로 입력에 대한 가중치
Wh = np.random.random((hidden_size, hidden_size))
# (8,8)크기의 2D 텐서로 은닉 상태에 대한 가중치
b = np.random.random((hidden_size)) 
# (8,) 크기의 1D 텐서 생성. 이 값은 bias

print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [8]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs:
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t) + b)
    total_hidden_states.append(list(output_t))
    
    print(np.shape(total_hidden_states))
    # 각 시점인 t별 메모리 셀의 출력 크기는 (timestep, output_dim)
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis=0)
print(total_hidden_states)

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.94759769 0.92039135 0.84887687 0.8710714  0.94901628 0.97574841
  0.83188082 0.94969605]
 [0.99998644 0.99979748 0.99998103 0.99999444 0.99999968 0.99999797
  0.99996689 0.99997905]
 [0.99998574 0.99973527 0.999991   0.99999252 0.99999975 0.99999657
  0.99997489 0.99995691]
 [0.99998511 0.99979778 0.99998102 0.99998389 0.99999973 0.99999602
  0.99991296 0.99996612]
 [0.99999328 0.99978166 0.99999037 0.99999196 0.99999947 0.99999769
  0.99992899 0.9999635 ]
 [0.99998922 0.9998514  0.99998814 0.99999339 0.99999984 0.99999809
  0.99996703 0.99998222]
 [0.99999075 0.99982614 0.99998874 0.99999239 0.99999972 0.99999786
  0.99995372 0.99997641]
 [0.99995989 0.99969826 0.99996848 0.9999503  0.99999937 0.99998785
  0.99988226 0.99994163]
 [0.99999406 0.9998525  0.99999196 0.99999593 0.99999981 0.99999876
  0.99996751 0.9999819 ]
 [0.99996453 0.99980451 0.99997241 0.99997487 0.9999998  0.99999362
  0.99994408 0.99997231]

In [10]:
# In Pytorch

In [11]:
import torch
import torch.nn as nn

In [12]:
input_size = 4
hidden_size = 8

In [13]:
inputs = torch.Tensor(1, 10, 4)
# (batch_size, time_steps, input_size)

In [16]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)
# batch_First=True로 입력 텐서의 첫번째 차원이 배치 크기임을 알려준다

In [25]:
outputs, _status = cell(inputs)
# RNN 셀은 두 개의 입력값을 리턴한다
# 첫번째는 모든 시점의 hidden state, 둘째는 마지막 timestep의 은닉상태이다.

In [26]:
print(outputs.shape)
# 10번의 t동안 8차원의 hidden state가 출력되었다는 의미

torch.Size([1, 10, 8])


In [28]:
print(_status.shape)
# 마지막 시점의 hidden state는 (1, 1, 8)의 크기를 가짐

torch.Size([1, 1, 8])
