### 2. 파이썬으로 RNN 구현하기
---

In [None]:
# numpy로 rnn 층을 구현해보자

# 의사 코드(pseudocode)를 작성해보자
# 실제 동작하는 코드는 아님에 주의

hidden_state_t = 0  # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length:
    # 각 시점마다 입력을 받는다. # 입력 데이터의 길이는 총 시점의 수(timesteps)가 된다.
    output_t = tanh(input_t, hidden_state_t)    # 각 시점의 입력과 은닉 상태를 받아서 연산
    hidden_state_t = output_t   # 계산 결과는 현재 시점의 은닉 상태가 된다.

In [27]:
# 이제 다시 실제 동작의 되는 코드로 구현해보자

import numpy as np

timesteps = 10      # 시점의 수. nlp에서는 보통 문장의 길이가 된다.
input_size = 4      # 입력의 차원. nlp에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8     # 은닉 상태의 크기. 메모리 셀의 용량이 됨 

inputs = np.random.random((timesteps, input_size))  # 입력에 해당되는 2D 텐서 = (문장의 길이, 벡터의 차원)

hidden_state_t = np.zeros((hidden_size, ))  # 초기 은닉 상태는 hidden_size 크기의 0벡터로 초기화

In [28]:
print(hidden_state_t)
print(inputs.shape)

[0. 0. 0. 0. 0. 0. 0. 0.]
(10, 4)


In [29]:
# 가중치와 편향을 각 크기에 맞게 정의

Wx = np.random.random((hidden_size, input_size))    # 은닉 상태의 크기 * 입력의 차원
Wh = np.random.random((hidden_size, hidden_size))   # 은닉 상태의 크기 * 은닉 상태의 크기
b = np.random.random((hidden_size, ))               # 은닉 상태의 크기

In [30]:
# 가중치와 편향 크기 확인
print(Wx.shape)
print(Wh.shape)
print(b.shape)

(8, 4)
(8, 8)
(8,)


In [31]:
# # np.dot(a,b) : a와 b의 벡터 내적
# a = [[1,0],
#     [8,-2]]    
# b = [-1,5]
# print(np.dot(a,b)) # (2,2) * (2,) = (2,)

# a = [[1,0],
#     [8,-2]]    
# b = [[-1,5],
#     [-3,4]]
# print(np.dot(a,b)) # (2,2) * (2,2) = (2,2)

In [32]:
# 모든 시점의 은닉 상태를 출력하다고 가정하고 rnn을 동작

total_hidden_states = []

# timesteps = 10      # 시점의 수. nlp에서는 보통 문장의 길이가 된다.
# input_size = 4      # 입력의 차원. nlp에서는 보통 단어 벡터의 차원이 된다.
# hidden_size = 8     # 은닉 상태의 크기. 메모리 셀의 용량이 됨 

# 메모리 셀 동작
for input_t in inputs : # 각 시점에 따라서 입력값이 입력됨
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t) + b) 
    # (Wx * Xt) + (Wh * Ht-1) + bt
    total_hidden_states.append(list(output_t))  # 각 시점의 은닉 상태의 값을 계속 축적
    print(np.shape(total_hidden_states))    # 각 시점 t별 메모리 셀의 출력 크기는 (timestep, output_dim)
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis = 0)

print(total_hidden_states)

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.95942055 0.99493557 0.96279293 0.95929744 0.99073959 0.98498971
  0.99149886 0.99430774]
 [0.9999539  0.99976379 0.99984711 0.99994282 0.99993461 0.99999126
  0.99998097 0.9999793 ]
 [0.99996914 0.99996653 0.9999671  0.99996667 0.99998845 0.99999943
  0.99999333 0.99999884]
 [0.99997952 0.99997711 0.99996202 0.99997345 0.99999256 0.99999939
  0.99999606 0.99999927]
 [0.99985372 0.99973379 0.99976749 0.99995514 0.99990871 0.99999767
  0.99998389 0.99999185]
 [0.99997477 0.99998018 0.99996864 0.99998019 0.99999311 0.99999963
  0.99999737 0.99999949]
 [0.99996539 0.99995468 0.99994246 0.99996886 0.99998507 0.99999912
  0.99999398 0.9999985 ]
 [0.99998109 0.9999531  0.99993019 0.99996057 0.99998674 0.99999791
  0.9999924  0.99999764]
 [0.99994855 0.99986605 0.99976184 0.99993988 0.99995985 0.99999652
  0.9999825  0.99999505]
 [0.99996547 0.9999317  0.99995086 0.99995937 0.99997854 0.99999855
  0.99998972 0.99999651]

In [None]:
# # stack에 대한 정리

# a = [1,2,3]
# b = [2,3,4]

# c.shape = (100,200)
# d.shape = (100,200)
# e.shape = (100,200)

# 1) hstack : 가로로 합치기
# htack(a,b) = [1,2,3,2,3,4]

# 2) vstack : 세로로 합지기
# vstack(a,b) = [[1,2,3]
#               ,[2,3,4]]

# 3) dstack : 차원 방향으로 합치기
# dstack([c,d,e]).shape = (100,200,3)   # 2차원끼리 합쳤는데로 3차원 만들어서 합침

# 4) stack : 원하는 차원으로 합치기. 디폴트 값은 0
# stack([c,d,e]) = (3,100,200)
# stack([c,d,e], axis=1) = (100, 3, 200)
# stack([c,d,e], axis=2) = (100, 200, 3)

### 3. 파이토치의 nn.RNN()
---

In [33]:
# torch.nn 에서 도구를 불러와 해보자

import torch
import torch.nn as nn

In [34]:
input_size = 5      # 입력의 크기
hidden_size = 8     # 은닉 상태의 크기

In [36]:
# 입력 벡터 텐서의 정의
# (배치 크기,    시점의 수,    매 시점마다 들어가는 입력의 크기)
# (batch_suze,  time_steps,   input_size)
inputs = torch.Tensor(1,10,5)

In [37]:
# nn.RNN()으로 셀을 만들자

cell = nn.RNN(input_size, hidden_size, batch_first = True)

In [39]:
# 입력 텐서를 rnn에 입력하여 출력을 확인해보자
outputs, _status = cell(inputs)
# outputs : 모든 시점의 은닉 상태
# _status : 마지막 시점의 은닉 상태

In [41]:
print(outputs.shape)
# outputs : 모든 시점의 은닉 상태

# 10 번의 시점동안 8차원의 은닉상태가 출력되었다는 뜻

torch.Size([1, 10, 8])


In [42]:
print(_status.shape)
# _status : 마지막 시점의 은닉 상태

torch.Size([1, 1, 8])


### 4. 깊은 순환 신경망(Deep Recurrent Neural Network)
---

In [44]:
# nn.RNN()에 인자인 num_layers에 값을 넣어 은닉층이 여러개인 rnn을 만들자
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [45]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first = True)

In [50]:
outputs, _status = cell(inputs)

In [51]:
print(outputs.shape)
# outputs : 모든 시점의 은닉 상태

torch.Size([1, 10, 8])


In [52]:
print(_status.shape)
# _status : 마지막 시점의 은닉 상태

torch.Size([2, 1, 8])


## 5. 양방향 순환 신경망(Bidirectional Recurrent Neural Network)
---

In [53]:
# 양방향 순환 신경망은 시점 t의 출력값을 예측 할 때 이전 뿐만 아니라
# 이후 데이터까지 이용해 예측하는 데 아이디어가 있다.

# 영어 빈칸 채우기 문제에 비유하여 생각하면 된다.
# Exercise is very effective at [          ] belly fat.

# 1) reducing
# 2) increasing
# 3) multiplying

In [55]:
# nn.RNN()의 인자인 bidirectional 값을 True로 하여 진행해보자

inputs = torch.Tensor(1,10,5)

cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)

In [56]:
outputs, _status = cell(inputs)

In [58]:
print(outputs.shape)
# outputs : 모든 시점의 은닉 상태

torch.Size([1, 10, 16])


In [60]:
print(_status.shape)
# _status : 정방향으로는 마지막 시점의 은닉 상태, 역방향으로는 첫번쨰 시점
# 두 값이 concat되었기 때문에 2배가 된다.

torch.Size([4, 1, 8])
