<a href="https://colab.research.google.com/github/jeenhyung/mnist_example/blob/main/%EC%88%9C%ED%99%98%EC%8B%A0%EA%B2%BD%EB%A7%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 10. 순환 신경망(Recurrent Neural Network)

## 1. 순환 신경망(Recurrent Neural Network, RNN)

## 2. 파이썬으로 RNN 구현하기

In [61]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

print(inputs) # (10, 4)

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

[[0.03718854 0.02249882 0.48591791 0.49259168]
 [0.15782513 0.25782237 0.42571856 0.42019914]
 [0.20095025 0.20351726 0.26024744 0.25725996]
 [0.027303   0.39255628 0.32867377 0.08624114]
 [0.91801481 0.78112055 0.45704707 0.70858438]
 [0.64425509 0.35554466 0.76175975 0.28727001]
 [0.03857606 0.58576494 0.25227055 0.16416233]
 [0.53678333 0.66083836 0.23083766 0.20463087]
 [0.84980318 0.7694668  0.47280108 0.87929352]
 [0.58020321 0.18718993 0.06183574 0.22061717]]


In [62]:
print(hidden_state_t) # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.
print(hidden_state_t.shape)

[0. 0. 0. 0. 0. 0. 0. 0.]
(8,)


In [63]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [64]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [67]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
  # print(input_t.shape) # (4,)
  # print(np.dot(Wx,input_t).shape) # (8,)
  # print(np.dot(Wh,hidden_state_t).shape) # (8,)
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
  # print('output_t.shape: ', output_t.shape)
  total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
  print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.9998836  0.99958741 0.99999246 0.99996213 0.99993272 0.99998277
  0.99979599 0.99585403]
 [0.99987838 0.99970568 0.99999478 0.99997502 0.99994549 0.99998921
  0.99986955 0.99725986]
 [0.99982349 0.9996244  0.99999181 0.99996481 0.99994369 0.999987
  0.99982517 0.99569771]
 [0.99982816 0.99955765 0.99999337 0.9999659  0.99992938 0.99998744
  0.99976924 0.99598876]
 [0.99993141 0.99995611 0.99999916 0.99999729 0.99998551 0.99999861
  0.99999082 0.99970191]
 [0.99993957 0.99983645 0.99999843 0.99999476 0.99997402 0.99999684
  0.9999541  0.99917906]
 [0.99982273 0.99968625 0.99999482 0.99997157 0.99993576 0.99999016
  0.99984317 0.99706919]
 [0.99984724 0.99984695 0.99999706 0.99998908 0.99996892 0.99999596
  0.99994877 0.99864163]
 [0.99993779 0.99996112 0.99999919 0.99999713 0.99998494 0.99999849
  0.99999172 0.99972342]
 [0.99977305 0.99973418 0.9999912  0.99997347 0.99996536 0.99999125
  0.99990213 0.9961355 ]]


In [27]:
x = np.linspace(1.0, 32.0, num=32)
x.shape

(32,)

In [28]:
t1 = x.reshape(8, 4)
t1.shape

(8, 4)

In [36]:
t2 = np.linspace(1.0, 4.0, num=4)
t2.shape

(4,)

In [31]:
d = np.dot(t1, t2)
d.shape

(8,)

In [42]:
a = np.array([1, 2, 3])
b = np.array([[4],[5],[6]])
print(a.shape)
print(b.shape)

print(np.dot(a, b).shape)

(3,)
(3, 1)
(1,)


In [59]:
a = np.array([1, 2, 3, 4])
b = np.array([[4,3,2,1],
              [5,4,3,2],
              [6,5,4,3],
              [7,6,5,4],
              [8,7,6,5],
              [9,8,7,6],
              [10,9,8,7],
              [11,10,9,8]
              ])
c = np.array([[1], [2], [3], [4]])
print(a.shape)
print(b.shape)

print(np.dot(b,a).shape) # (8,4) * (1,4) -> (1,8)


(4,)
(8, 4)
(8,)


## 3. 파이토치의 nn.RNN()

In [68]:
import torch
import torch.nn as nn

In [69]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

In [70]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [71]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [73]:
outputs, _status = cell(inputs)

In [74]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [75]:
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 1, 8])


## 4. 깊은 순환 신경망(Deep Recurrent Neural Network)

In [76]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [78]:
cell = nn.RNN(
    input_size = 5, 
    hidden_size = 8, 
    num_layers = 2, # 층 2개
    batch_first=True)

In [81]:
outputs, _status = cell(inputs)

In [82]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [83]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([2, 1, 8])


## 5. 양방향 순환 신경망(Bidirectional Recurrent Neural Network)

In [84]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [85]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

In [86]:
outputs, _status = cell(inputs)

In [87]:
print(outputs.shape) # (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)

torch.Size([1, 10, 16])


In [88]:
print(_status.shape) # (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)

torch.Size([4, 1, 8])


# 02. 장단기 메모리(Long Short-Term Memory, LSTM)

## 1. 바닐라 RNN의 한계

## 2. 바닐라 RNN 내부 열어보기

## 3. LSTM(Long Short-Term Memory)

## 4. 파이토치의 nn.LSTM()

In [None]:
nn.LSTM(input_dim, hidden_size, batch_fisrt=True)  