<a href="https://colab.research.google.com/github/kmongsil1105/colab_ipynb/blob/main/AI_PyTorch(nn_RNN%EA%B5%AC%ED%98%84).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RNN 층을 실제 동작되는 코드로 구현해보겠습니다

 * 아래의 코드는 이해를 돕기 위해 (timesteps, input_size) 크기의 2D 텐서를 입력으로 받았다고 가정하였으나, 
 
 실제로 파이토치에서는 (batch_size, timesteps, input_size)의 크기의 3D 텐서를 입력으로 받는 것을 기억합시다.

In [None]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

 * 우선 시점, 입력의 차원, 은닉 상태의 크기, 그리고 초기 은닉 상태를 정의하였습니다. 현재 초기 은닉 상태는 0의 값을 가지는 벡터로 초기화가 된 상태입니다. 초기 은닉 상태를 출력해보겠습니다.

In [None]:
print(hidden_state_t) # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.

[0. 0. 0. 0. 0. 0. 0. 0.]


 * 은닉 상태의 크기를 8로 정의하였으므로 8의 차원을 가지는 0의 값으로 구성된 벡터가 출력됩니다

 * 이제 가중치와 편향을 정의합니다.

In [None]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [None]:
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


 * 각 가중치와 편향의 크기는 다음과 같습니다. 
 
 Wx는 (은닉 상태의 크기 × 입력의 차원), 
 
 Wh는 (은닉 상태의 크기 × 은닉 상태의 크기), 
 
 b는 (은닉 상태의 크기)의 크기를 가집니다. 
 
 이제 모든 시점의 은닉 상태를 출력한다고 가정하고, RNN 층을 동작시켜봅시다.

In [None]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) # Wx * Xt + Wh * Ht-1 + b(bias)
  total_hidden_states.append(list(output_t)) # 각 시점의 은닉 상태의 값을 계속해서 축적
  print(np.shape(total_hidden_states)) # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0) 
# 출력 시 값을 깔끔하게 해준다.

print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.85369707 0.73493701 0.50639824 0.74140491 0.61520149 0.84313023
  0.8891122  0.70584776]
 [0.99988286 0.99983353 0.99830964 0.9998628  0.99782717 0.99997783
  0.99976638 0.99961948]
 [0.99997007 0.99999298 0.99941208 0.99998506 0.9988647  0.99999854
  0.99996973 0.99995193]
 [0.99997985 0.99998909 0.99955471 0.9999849  0.99929725 0.99999766
  0.99995059 0.99993971]
 [0.9999934  0.99999568 0.99976002 0.99999561 0.99982554 0.99999959
  0.99998364 0.99996207]
 [0.99997448 0.99998463 0.99954845 0.99998015 0.99874425 0.99999858
  0.9999549  0.99994705]
 [0.99999252 0.99999705 0.99970151 0.99999665 0.99981375 0.99999959
  0.99998642 0.99995922]
 [0.99997702 0.99996733 0.99963028 0.99997075 0.9987167  0.9999978
  0.99991923 0.99993688]
 [0.99996164 0.99999172 0.99934008 0.99997416 0.99881227 0.99999572
  0.99994956 0.99994724]
 [0.9999696  0.99998488 0.9994773  0.9999801  0.9983923  0.99999854
  0.99995526 0.99994362]]

 * timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.==> 10개의 결과치
 * hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다. ==> 각 배열값은 8개씩

--------------------------------------------------------------------------------

# nn.RNN() in PyTorch

In [None]:
import torch
import torch.nn as nn

In [None]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)    # 입력값 tensor

In [None]:
inputs   # 아직은 초기화를 한했으므로 난수값 출력

tensor([[[1.1427e-30, 3.0934e-41, 7.9874e-44, 0.0000e+00, 1.1431e-30],
         [3.0934e-41, 1.1431e-30, 3.0934e-41, 3.5733e-43, 0.0000e+00],
         [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
         [0.0000e+00, 3.5733e-43, 0.0000e+00, 0.0000e+00, 0.0000e+00],
         [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 3.5733e-43],
         [0.0000e+00, 7.7071e-44, 0.0000e+00, 1.1431e-30, 3.0934e-41],
         [1.1431e-30, 3.0934e-41, 3.5733e-43, 0.0000e+00, 0.0000e+00],
         [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
         [3.5733e-43, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
         [0.0000e+00, 0.0000e+00, 0.0000e+00, 3.5733e-43, 0.0000e+00]]])

In [None]:
cell = nn.RNN(input_size, hidden_size, batch_first=True)

In [None]:
outputs, _status = cell(inputs)  # 전파를 시킴

In [None]:
outputs   # 첫번째 리턴값은 모든 시점(timesteps)의 은닉 상태들이며, 
          # 각 출력시점(t)마다의 출력결과(h)값
          # 출력결과(h)는 다음 시점(t)의 입력값으로 들어가게 됨 (RNN)

tensor([[[-0.1184, -0.5642,  0.3123,  0.2807, -0.0886,  0.1021, -0.5579,
           0.4116],
         [-0.2048, -0.6240,  0.2400,  0.4747, -0.0132, -0.2329, -0.6050,
           0.4358],
         [-0.3505, -0.5805,  0.2179,  0.5358, -0.0896, -0.1918, -0.5539,
           0.3455],
         [-0.3683, -0.5624,  0.2016,  0.5550, -0.0666, -0.1803, -0.5626,
           0.2853],
         [-0.3739, -0.5739,  0.1940,  0.5512, -0.0490, -0.1901, -0.5424,
           0.2791],
         [-0.3761, -0.5687,  0.2017,  0.5474, -0.0510, -0.1857, -0.5466,
           0.2872],
         [-0.3768, -0.5695,  0.2045,  0.5490, -0.0526, -0.1843, -0.5484,
           0.2870],
         [-0.3770, -0.5702,  0.2036,  0.5497, -0.0519, -0.1860, -0.5483,
           0.2864],
         [-0.3774, -0.5699,  0.2035,  0.5497, -0.0520, -0.1859, -0.5480,
           0.2863],
         [-0.3775, -0.5698,  0.2036,  0.5497, -0.0520, -0.1857, -0.5481,
           0.2861]]], grad_fn=<TransposeBackward1>)

 * time_step이 10이므로.. 입력단어가 10개라는 의미이고

  hidden_size(은닉상태 : 녹색 상자 갯수)가 8이므로 ...각 배열의 값이 8개씩이다!!

 * 출력결과 첫 라인 : [-0.1184, -0.5642,  0.3123,  0.2807, -0.0886,  0.1021, -0.5579, 0.4116], ==> 첫번째 단어가 입력되었을 때의 상태

 * 출력결과 마지막 라인 : [-0.3775, -0.5698,  0.2036,  0.5497, -0.0520, -0.1857, -0.5481, 0.2861] ==> 마지막 단어까지 입력되었을 때의 상태


In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [None]:
_status  # # 두번째 리턴값은 마지막 시점(timestep):10번째 단어까지 입력된 결과의 은닉 상태입니다.

tensor([[[-0.3775, -0.5698,  0.2036,  0.5497, -0.0520, -0.1857, -0.5481,
           0.2861]]], grad_fn=<StackBackward>)

In [None]:
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 1, 8])
