### 순환 신경망(Recurrent Neural Network, RNN)

In [6]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

# 10개의 단어로 이루어진 4개의 문장
inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [4]:
hidden_state_t

array([0., 0., 0., 0., 0., 0., 0., 0.])

In [8]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [15]:
total_hidden_states = []

for input_t in inputs: # 한 행 = input_t = 단어하나의 벡터
    hidden_state_t_after = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t))
    total_hidden_states.append(list(hidden_state_t_after))
    hidden_state_t = hidden_state_t_after
    # output = f(hidden_state_t*weight + b)
total_hidden_states = np.stack(total_hidden_states, axis = 0) 
print(len(total_hidden_states))
print(total_hidden_states)

10
[[0.99990111 0.99999922 0.99720703 0.99971953 0.9997697  0.99996462
  0.99680481 0.99991553]
 [0.99929264 0.99999509 0.99787489 0.99923395 0.9994951  0.99992921
  0.99640098 0.99980596]
 [0.99985981 0.99999913 0.99854879 0.99973505 0.99992402 0.99997632
  0.99643223 0.99991811]
 [0.99988246 0.99999924 0.99834738 0.99977907 0.99990402 0.99998148
  0.99655138 0.99993118]
 [0.99946168 0.99999708 0.99893958 0.99950283 0.99988163 0.99996336
  0.99645762 0.99986712]
 [0.99922305 0.99999355 0.99629732 0.99898713 0.99950165 0.99993903
  0.99251906 0.99967277]
 [0.99967645 0.99999756 0.99733963 0.99957721 0.99950972 0.99996588
  0.99642565 0.99988265]
 [0.99940867 0.99999522 0.99659329 0.99919708 0.99960287 0.99995178
  0.99302738 0.99973855]
 [0.99972884 0.99999823 0.99838149 0.99949271 0.99984296 0.99993486
  0.99682101 0.99986194]
 [0.9996353  0.99999759 0.99833226 0.99933872 0.99976982 0.99989911
  0.99712118 0.99983353]]


### 파이토치의 nn.RNN()

In [16]:
import torch
import torch.nn as nn

input_size = 5
hidden_size = 8

# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [22]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

outputs, _status = cell(inputs)
print(outputs.shape) # 전체 time step의 결과
print(_status.shape) # 마지막 time step의 결과

torch.Size([1, 10, 8])
torch.Size([1, 1, 8])


In [24]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)

outputs, _status = cell(inputs)
print(outputs.shape) # 전체 time step의 결과
# (bs, time_step_size(=word_length), hidden_size

print(_status.shape) # 마지막 time step의 결과
# (num_layers, bs, hidden_size)

torch.Size([1, 10, 8])
torch.Size([2, 1, 8])


### 양방향 순환 신경망(Bidirectional Recurrent Neural Network)
- 이전 시점의 데이터뿐만 아니라, 이후 시점의 데이터도 힌트로 활용하기 위해서 고안

In [26]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

outputs, _status = cell(inputs)
print(outputs.shape) # 전체 time step의 결과
# (bs, time_step_size(=word_length), hidden_size*2

print(_status.shape) # 마지막 time step의 결과
# (num_layers*2, bs, hidden_size)

torch.Size([1, 10, 16])
torch.Size([4, 1, 8])


### 바닐라 RNN의 한계
- 비교적 짧은 시퀀스(sequence)에 대해서만 효과를 보이는 단점
- (time step)이 길어질 수록 앞의 정보가 뒤로 충분히 전달되지 못하는 현상

In [30]:
cell = nn.LSTM(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

outputs, _status = cell(inputs)
print(outputs.shape) # 전체 time step의 결과
# (bs, time_step_size(=word_length), hidden_size*2

torch.Size([1, 10, 16])
