In [2]:
# RNN(Recurrent Neural Network) => Sequence model
# activate function in hidden layer go to output layer & next input layer -> this cell remember previous output. it is called RNN cell or memory cell.
# h(t) = tanh(W(x)X(t) + W(h)h(t-1) + b)
# hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
# for input_t in input_length: # 각 시점마다 입력을 받는다.
#     output_t = tanh(input_t, hidden_state_t) # 각 시점에 대해서 입력과 은닉 상태를 가지고 연산
#     hidden_state_t = output_t # 계산 결과는 현재 시점의 은닉 상태가 된다.

In [6]:
import numpy as np
timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.
inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서
hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.
print(hidden_state_t) # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))
total_hidden_states = []
# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
    output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
    total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
    print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
    hidden_state_t = output_t
total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.
print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

[0. 0. 0. 0. 0. 0. 0. 0.]
(8, 4)
(8, 8)
(8,)
(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.7528342  0.53344021 0.76657719 0.41749546 0.54884167 0.87962965
  0.81411898 0.86778439]
 [0.99945595 0.99992359 0.99918046 0.99906041 0.99797677 0.99991487
  0.99996709 0.99985306]
 [0.99998018 0.99999585 0.99996291 0.9999678  0.99992637 0.99999826
  0.99999876 0.99999614]
 [0.99996722 0.99999644 0.99996381 0.99996283 0.99990787 0.99999743
  0.9999985  0.99999519]
 [0.99996922 0.99999184 0.99996063 0.99993314 0.99986016 0.99999524
  0.99999783 0.99999179]
 [0.99997702 0.99999551 0.99996664 0.99995844 0.99992884 0.99999799
  0.99999866 0.99999553]
 [0.99991939 0.99998299 0.99996473 0.9998473  0.99978892 0.99998587
  0.999993   0.99998175]
 [0.99994554 0.99997907 0.99995756 0.99985592 0.99972942 0.9999854
  0.99999427 0.99998121]
 [0.99994227 0.9999945  0.99996114 0.99994422 0.99984729 0.9999943
  0.99999704 0.9999918 ]
 [0.99994989 0.9999648  0.9999484  0.99989727 0.9

In [7]:
import torch
import torch.nn as nn
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)
cell = nn.RNN(input_size, hidden_size, batch_first=True)
outputs, _status = cell(inputs)
print(outputs.shape) # 모든 time-step의 hidden_state
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 10, 8])
torch.Size([1, 1, 8])
