<a href="https://colab.research.google.com/github/hdpark1208/StudyCode/blob/main/NLP/NLP_RNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RNN(Recurrent Neural Network)

* (메모리, RNN)Cell : RNN에서 은닉층에서 활성화함수를 통해 결과를 내보내는 역할을 하는 노드  
* 은닉 상태(Hidden state) : 메모리 셀이 출력층 방향으로 또는 다음 시점(t+1)의 자신에게 보내는 값 (t 시점의 메모리 셀은 t-1 시점의 메모리 셀이 보낸 은닉 상태값을 t 시점의 은닉 상태 계산을 위한 입력값으로 재귀적으로 사용됨)


![image.png](attachment:image.png)

![image.png](attachment:image.png)

RNN은 입력과 출력의 길이를 다르게 설계 할 수 있으므로 다양한 용도로 사용할 수 있습니다. 위 그림은 입력과 출력의 길이에 따라서 달라지는 RNN의 다양한 형태를 보여줍니다. 위 구조가 자연어 처리에서 어떻게 사용될 수 있는지 예를 들어봅시다. RNN 셀의 각 시점 별 입, 출력의 단위는 사용자가 정의하기 나름이지만 가장 보편적인 단위는 '단어 벡터'입니다.

![1.PNG](attachment:1.PNG)

![image.png](attachment:image.png)

## 파이썬으로 RNN 구현

In [None]:
# 슈도 코드
hidden_state_t = 0 # 초기 은닉 상태를 0(벡터)로 초기화
for input_t in input_length: # 각 시점마다 입력 받는다 (길이는 곧 Timesteps)
    output_t = tanh(input_t,hidden_state_t) # 각 시점에 대해서 입력과 은닉 상태를 가지고 연산
    hidden_state_t = output_t # 계산 결과는 현재 시점의 은닉 상태가 된다

In [None]:
import numpy as np

timesteps = 10 # 시점의 수, 보통 문장의 길이가 됨
input_size = 4 # 입력의 차원, 보통 단어 벡터의 차원이 됨
hidden_size = 8 # 은닉 상태의 크기, 메모리 셀의 용량

inputs = np.random.random((timesteps,input_size)) # 입력에 해당되는 2D 텐서
# 실제 파이토치에서는 (batch_size,timesteps,inputsize) 의 3D텐서를 입력받음

hidden_state_t = np.zeros((hidden_size)) # 초기 은닉 상태는 0벡터로 초기화

In [None]:
inputs

array([[0.55338274, 0.7831361 , 0.76176678, 0.62792902],
       [0.55700558, 0.61416949, 0.96078617, 0.2944596 ],
       [0.2265416 , 0.14854985, 0.32430047, 0.11877789],
       [0.98332506, 0.04157032, 0.7614431 , 0.94932911],
       [0.64397326, 0.63402965, 0.19030742, 0.04330379],
       [0.71935271, 0.66808222, 0.65158919, 0.24788719],
       [0.6161993 , 0.24334781, 0.44269347, 0.64883562],
       [0.90853305, 0.37488004, 0.51057022, 0.32466448],
       [0.73259599, 0.46591956, 0.99890792, 0.20342163],
       [0.27931072, 0.43632653, 0.13336516, 0.43345593]])

In [None]:
hidden_state_t # 8차원 벡터, 성분 0인 은닉 상태
hidden_state_t.shape

(8,)

In [None]:
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).
print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [None]:
total_hidden_states = []

#메모리 셀 동작
for input_t in inputs:
    output_t = np.tanh(np.dot(Wx,input_t)+np.dot(Wh,hidden_state_t)+b)
    total_hidden_states.append(list(output_t))
    print(np.shape(total_hidden_states))
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states,axis=0)

print(total_hidden_states)

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.96781132 0.95022059 0.96144779 0.98350305 0.97126865 0.9750687
  0.98567461 0.84577894]
 [0.99998313 0.99992422 0.9999321  0.99999212 0.99996773 0.99997156
  0.99999539 0.99957671]
 [0.99991396 0.99961877 0.99979238 0.9999318  0.99984808 0.99981556
  0.99995804 0.9984546 ]
 [0.9999934  0.999977   0.99996901 0.99999813 0.99998793 0.99999257
  0.99999303 0.99910333]
 [0.99997133 0.99979601 0.99989983 0.99996893 0.99993594 0.99990537
  0.99998487 0.99916263]
 [0.99998761 0.99993034 0.99994484 0.99999248 0.99997542 0.99997369
  0.99999502 0.99955527]
 [0.99998133 0.99990831 0.99992528 0.99999033 0.9999707  0.9999671
  0.99998519 0.99895055]
 [0.99998676 0.9999364  0.99994956 0.99999216 0.99996727 0.99997302
  0.99999118 0.99921045]
 [0.99998816 0.99995629 0.99995349 0.99999519 0.9999736  0.99998295
  0.99999627 0.99960215]
 [0.99995455 0.99968406 0.99983611 0.99995963 0.99994098 0.99987929
  0.99997069 0.99878336]]


## Pytorch로 RNN 구현

In [None]:
!pip install torch

Collecting torch
  Downloading torch-1.9.0-cp38-cp38-win_amd64.whl (222.0 MB)
Installing collected packages: torch
Successfully installed torch-1.9.0


In [None]:
import torch
import torch.nn as nn

In [None]:
# 입력의 크기와 은닉 상태의 크기 정의
input_size = 5
hidden_size = 8

In [None]:
# 입력 텐서 정의 (배치 크기 X 시점의 수 X 매 시점마다 들어가는 입력)
inputs = torch.Tensor(1,10,5) # (batch_size, time_steps, input_size)

In [None]:
cell = nn.RNN(input_size, hidden_size,batch_first=True)

In [None]:
outputs,_status = cell(inputs) # 입력 텐서를 RNN 셀에 입력

In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state
# 첫번째 리턴값의 은닉 상태들은 (1,10,8)의 크기를 가진다.   
# 이는 10번의 시점동안 8차원의 은닉 상태가 출력되었다는 의미

torch.Size([1, 10, 8])


In [None]:
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 1, 8])


### DRNN

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [None]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)
# num_layers에 값을 전달하여 층을 쌓는다

In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [None]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)
# 값이 안달라졌는데 ? . . .

torch.Size([1, 1, 8])


### BRNN (Bidirectional Recurrent Neural Network)

양방향 순환 신경망은 시점 t에서의 출력값을 예측할 때 이전 시점의 데이터 뿐만아니라  
이후 데이터로도 예측할 수 있다는 아이디어에서 출발

![image.png](attachment:image.png)

주황색 메모리 : Forward States, 초록색 메로리 : Backward States  


In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

In [None]:
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2,
              batch_first=True, bidirectional = True)

In [None]:
outputs, _status = cell(inputs)

In [None]:
print(outputs.shape) # (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)
# 은닉 상태의 크기가 두 배가 되었다

torch.Size([1, 10, 16])


In [None]:
print(_status.shape) # (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)

torch.Size([4, 1, 8])
