# Recurrent neural network(RNN) 


Recurrent neural network(RNN)은 Text, 음성, 시계열 데이터등 순차적인(Sequential) 데이터들에 대한 분석을 할때 주로 사용하는 알고리즘입니다. <br>
본 문서에서는 RNN의 기본적인 내용부터 실습하겠습니다.



In [1]:
#-*- coding: utf-8 -*-
import tensorflow as tf
import numpy as np
from tensorflow.contrib import rnn
import pprint #데이터를 보기 좋게 출력해주는 모듈

### Text 데이터를 어떻게 Neural Network에 넣을까?
Text 데이터를 Neural Network에 넣는 방법은 벡터화(embedding)입니다.<br>
Text 데이터를 벡터화 시키는 방법은 여러가지(One-hot, bag of words, tf-idf, word embedding)가 있습니다.<br>
오늘은 그중 하나인 one-hot representation을 사용하겠습니다.


In [2]:
# 각 문자를 벡터로 나타내기 위해 one-hot representation 형태로 나타냅니다.
# I LOVE YOU 를 표현하기 위해 문자를 One-hot represnetation으로 나타내었습니다.
I = [1, 0, 0, 0, 0, 0, 0]

L = [0, 1, 0, 0, 0, 0, 0]
O = [0, 0, 1, 0, 0, 0, 0]
V = [0, 0, 0, 1, 0, 0, 0]
E = [0, 0, 0, 0, 1, 0, 0]

Y = [0, 0, 0, 0, 0, 1, 0]
U = [0, 0, 0, 0, 0, 0, 1]

In [3]:
sess = tf.InteractiveSession()

### RNN 과 LSTM
Tensorflow에서는 쉽게 RNN을 정의 할 수 있습니다. 아래에서는 편의상 함수의 형태로 정의하였습니다.<br>
아래 선언된 RNN cell중 LSTM(Long Short-Term Memory)은 RNN의 Vanishing gradient 문제를 해결하고 이전 정보를 더욱 잘 반영하기 위해서 RNN의 Activation unit을 변경한 것입니다.
![lstm](./assets/lstm.png)

In [4]:
def RNN(x_input, sequence_length, rnn_type='rnn'):
    with tf.variable_scope('rnn') as scope:
        
        hidden_size = 2 # RNN의 Hidden Layer의 차원을 의미합니다.
        
        cell = None
        if(rnn_type == 'rnn'):
            cell = tf.nn.rnn_cell.BasicRNNCell(num_units=hidden_size)
        elif(rnn_type == 'lstm'):
            cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True)
            #state_is_tuple = True로 하면 State의 값을 tuple형태로 분리해서 보여줍니다.
                                    
        outputs, states = tf.nn.dynamic_rnn(cell, x_input,
                                            sequence_length=sequence_length, #[8], ILOVEYOU의 길이
                                            dtype=tf.float32)
        sess.run(tf.global_variables_initializer())
        print("outputs of RNN")
        print(sess.run(outputs))
        print("states of RNN")
        pprint.pprint(sess.run(states))

### TensorFlow에서 데이터의 가장 첫번째 차원은 Batch_size !
Tensorflow에서 데이터의 가장 첫번째 Dimension은 Batch에 해당하기 때문에 아래와 같이 사용할 데이터인<br>
1차원에 속한 [I, L, O, V, E, Y, O, U]를 -> 2차원인 [[I, L, O, V, E, Y, O, U]]로 할당해 줍니다.<br>
현재 차원 (batch_size, sequence_length, one_hot_representation_dimension) == (1, 8, 7)

In [5]:
x_input = np.array([[I, L, O, V, E, Y, O, U]], dtype=np.float32) 
print("x_input.shape")
print(x_input.shape)
print("x_input")
print(x_input)
sequence_length = x_input.shape[1] #글자 길이
sequence_length = [sequence_length] # 첫번째 차원이 Batch기 때문에 실수가 아닌 []로 변환
print("sequence_length")
print(sequence_length)

x_input.shape
(1, 8, 7)
x_input
[[[ 1.  0.  0.  0.  0.  0.  0.]
  [ 0.  1.  0.  0.  0.  0.  0.]
  [ 0.  0.  1.  0.  0.  0.  0.]
  [ 0.  0.  0.  1.  0.  0.  0.]
  [ 0.  0.  0.  0.  1.  0.  0.]
  [ 0.  0.  0.  0.  0.  1.  0.]
  [ 0.  0.  1.  0.  0.  0.  0.]
  [ 0.  0.  0.  0.  0.  0.  1.]]]
sequence_length
[8]


### 선언한 RNN함수를 호출
RNN함수를 호출합니다. <br>
RNN의 각 Time step 별로 어떤 Output이 나오는지, RNN의 State값은 무엇인지를 확인합니다.

In [6]:
RNN(x_input, sequence_length, rnn_type='rnn')

outputs of RNN
[[[-0.27907825 -0.62655085]
  [-0.24744262  0.35407287]
  [-0.34570792 -0.44406343]
  [-0.20299451  0.06616659]
  [ 0.64090687  0.03075653]
  [ 0.46430007 -0.53836608]
  [-0.83729082 -0.75931978]
  [-0.69254398  0.74065953]]]
states of RNN
array([[-0.69254398,  0.74065953]], dtype=float32)


### Dynamic_RNN
텐서플로우에서는 Static_RNN과 Dynamic_RNN이 있습니다. <br>
그러나 거의 대부분 Dynamic_RNN을 사용합니다. Dynamic_RNN은 Input data의 길이(sequence)를 고려하여 계산이 가능합니다.<br>
아래 코드에서 길이가 8인 문자열에 대해서 길이 7만큼만 계산하면 결과가 어떻게 나오는지 확인해보시면 7이상인 경우 Output값이 0이 나옴을 확인할 수 있습니다.

In [7]:
# Sequence Length를 3으로 변경하면 Dynamic RNN의 특성상
# Time Step 3번째 까지만 계산합니다.
#tf.get_variable_scope().reuse_variables() # 같은 RNN을 재사용할때 필요한 코드
x_input_2 = np.array([[I, L, O, V, E, Y, O, U],
                      [I, L, O, V, E, Y, O, U]], dtype=np.float32) 
RNN(x_input_2, sequence_length=[8,7], rnn_type='lstm')

outputs of RNN
[[[ 0.10606093 -0.07082008]
  [-0.03770325 -0.12678891]
  [ 0.00350977 -0.05389421]
  [-0.10034209 -0.07521853]
  [-0.11093281 -0.12175631]
  [-0.1016638  -0.01515914]
  [-0.03943169  0.03463318]
  [ 0.04629521 -0.12834823]]

 [[ 0.10606093 -0.07082008]
  [-0.03770325 -0.12678891]
  [ 0.00350977 -0.05389421]
  [-0.10034209 -0.07521853]
  [-0.11093281 -0.12175631]
  [-0.1016638  -0.01515914]
  [-0.03943169  0.03463318]
  [ 0.          0.        ]]]
states of RNN
LSTMStateTuple(c=array([[ 0.08968972, -0.25370511],
       [-0.10609682,  0.06283452]], dtype=float32), h=array([[ 0.04629521, -0.12834823],
       [-0.03943169,  0.03463318]], dtype=float32))


"I LOVE YOU" 문장의 길이가 총 8이므로 RNN의 Output도 각 Time Step별로 총 8개가 나옵니다. <br>RNN의 State는 같은 Neural Network를 반복적으로 쓰는 RNN의 특성 때문에 Time Step과 상관없이 하나의 값이 나오게 됩니다.

## Multi Layer RNN
RNN을 여러개 쌓을 수도 있습니다. TensorFlow에서는 tf.contrib.rnn.MultiRNNCell이라는 API를 제공하며 아래와 같이 Multi Layer RNN을 구성할 수 있습니다.

In [8]:
def Multi_RNN(x_input, sequence_length, rnn_type='rnn'):
    with tf.variable_scope('multi_rnn') as scope:
        
        hidden_size = 2
        num_layers = 2
        
        cell = None
        if(rnn_type == 'rnn'):
            cell = [tf.contrib.rnn.BasicRNNCell(num_units=hidden_size) for i in range(num_layers)]
        elif(rnn_type == 'lstm'):
            cell = [tf.contrib.rnn.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True) for i in range(num_layers)]
            #state_is_tuple = True로 하면 Cell State와 Hidden State의 값을 tuple형태로 분리해서 보여줍니다.
        cell = tf.contrib.rnn.MultiRNNCell(cells=cell, state_is_tuple=True)
        outputs, states = tf.nn.dynamic_rnn(cell, x_input,
                                            sequence_length=sequence_length,
                                            dtype=tf.float32)
        sess.run(tf.global_variables_initializer())
        print("outputs of Multi_RNN")
        print(sess.run(outputs))
        print("states of Multi_RNN")
        pprint.pprint(sess.run(states))

Multi Layer RNN의 경우 Output값은 가장 위에 층의 값을 사용하게 됩니다.
State는 각 층당 1개씩 출력해주는걸 볼 수 있습니다.

In [9]:
Multi_RNN(x_input, sequence_length, rnn_type='lstm')

outputs of Multi_RNN
[[[ 0.01167961  0.02644865]
  [ 0.01166231  0.03115742]
  [ 0.02100151  0.04661337]
  [ 0.0291939   0.07342213]
  [ 0.00987768  0.0653971 ]
  [-0.00769255  0.05260058]
  [-0.00775615  0.05054199]
  [-0.00630805  0.04451147]]]
states of Multi_RNN
(LSTMStateTuple(c=array([[-0.18114896, -0.19035339]], dtype=float32), h=array([[-0.07953743, -0.10639531]], dtype=float32)),
 LSTMStateTuple(c=array([[-0.01243851,  0.0895907 ]], dtype=float32), h=array([[-0.00630805,  0.04451147]], dtype=float32)))


## Bidirectional RNN
빈칸 넣기 게임처럼 문맥을 고려해야 해결할 수 있을 때가 있습니다. <br>
Bidirectional RNN은 이러한 경우를 고려한 뉴럴 네트워크입니다. <br>
Tensorflow에서는 tf.nn.bidirectional_dynamic_rnn이라는 API를 통해 손쉽게 Bidirectional RNN을 구성할 수 있습니다. <br>

### Tip
Bidirectional RNN에 데이터가 들어가는 과정에 대해서 조금 더 자세히 말씀드리자면, Input 데이터의 순서를 '반대'로 바꿔서 집어 넣는다고 생각하시면 됩니다. 이러한 과정은 TensorFlow 내에서 내부적으로 이루어 집니다.

In [10]:
def Bi_RNN(x_input, sequence_length, rnn_type='rnn'):
    with tf.variable_scope('bidirectional_rnn') as scope:
        
        hidden_size = 2
        num_layers = 2
        
        cell_fw = None
        cell_bw = None
        if(rnn_type == 'rnn'):
            cell_fw = tf.contrib.rnn.BasicRNNCell(num_units=hidden_size)
            cell_bw = tf.contrib.rnn.BasicRNNCell(num_units=hidden_size)
        elif(rnn_type == 'lstm'):
            cell_fw = tf.contrib.rnn.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True)
            cell_bw = tf.contrib.rnn.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True)
            #state_is_tuple = True로 하면 Cell State와 Hidden State의 값을 tuple형태로 분리해서 보여줍니다.
            
        outputs, states = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw, x_input, 
                                                          sequence_length=sequence_length,
                                                          dtype=tf.float32)
        sess.run(tf.global_variables_initializer())
        print("outputs of Multi_RNN")
        print(sess.run(outputs))
        print("states of Multi_RNN")
        pprint.pprint(sess.run(states))

In [11]:
Bi_RNN(x_input, sequence_length, rnn_type='lstm')

outputs of Multi_RNN
(array([[[ 0.0111236 ,  0.09289712],
        [ 0.01819379, -0.01025583],
        [-0.08650778, -0.00899031],
        [-0.19254678,  0.18635565],
        [-0.1403967 ,  0.17292154],
        [-0.14122301,  0.16089427],
        [-0.14163345,  0.08451635],
        [-0.1743028 ,  0.10539717]]], dtype=float32), array([[[ 0.02427619,  0.06595678],
        [ 0.00637439,  0.11084403],
        [ 0.09749091,  0.14135244],
        [ 0.05251563,  0.17267756],
        [ 0.00207342,  0.10239065],
        [-0.04261608,  0.12694027],
        [-0.02245589, -0.0126976 ],
        [-0.08202109, -0.07719878]]], dtype=float32))
states of Multi_RNN
(LSTMStateTuple(c=array([[-0.35808173,  0.24626106]], dtype=float32), h=array([[-0.1743028 ,  0.10539717]], dtype=float32)),
 LSTMStateTuple(c=array([[ 0.038118  ,  0.11336834]], dtype=float32), h=array([[ 0.02427619,  0.06595678]], dtype=float32)))


Output값과 State값이 데이터를 원래의 방향대로 넣어서(forward) 나온 값과 순서를 반대로 해서 넣은값(backward)값 2개로 나뉘어서 나오게 됩니다

## Multi Layer Bidirectional RNN
Bidirectional RNN을 여러층 쌓아 Multi Layer Bidirectional RNN을 만들어 보도록 하겠습니다

In [12]:
def Multi_Bi_RNN(x_input, sequence_length, rnn_type='rnn'):
    with tf.variable_scope('multi_bidirectional_rnn') as scope:
        
        hidden_size = 2
        num_layers = 2
        
        cell_fw = None
        cell_bw = None
        if(rnn_type == 'rnn'):
            cell_fw = [tf.contrib.rnn.BasicRNNCell(num_units=hidden_size) for i in range(num_layers)]
            cell_bw = [tf.contrib.rnn.BasicRNNCell(num_units=hidden_size) for i in range(num_layers)]
            
        elif(rnn_type == 'lstm'):
            cell_fw = [tf.contrib.rnn.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True) for i in range(num_layers)]
            cell_bw = [tf.contrib.rnn.BasicLSTMCell(num_units=hidden_size, state_is_tuple=True) for i in range(num_layers)]
            #state_is_tuple = True로 하면 Cell State와 Hidden State의 값을 tuple형태로 분리해서 보여줍니다.
        cell_fw = tf.contrib.rnn.MultiRNNCell(cells=cell_fw, state_is_tuple=True)
        cell_bw = tf.contrib.rnn.MultiRNNCell(cells=cell_bw, state_is_tuple=True)
            
        outputs, states = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw, x_input, 
                                                          sequence_length=sequence_length,
                                                          dtype=tf.float32)
        sess.run(tf.global_variables_initializer())
        print("outputs of Bidirectional_Multi_RNN")
        print(sess.run(outputs))
        print("states of Bidirectional_Multi_RNN")
        pprint.pprint(sess.run(states))

In [13]:
Multi_Bi_RNN(x_input, sequence_length, rnn_type='lstm')

outputs of Bidirectional_Multi_RNN
(array([[[-0.00634974,  0.00238272],
        [-0.01635971,  0.00660519],
        [-0.01986992,  0.00932127],
        [-0.00819738,  0.00646144],
        [-0.01067687,  0.00774106],
        [ 0.00522121,  0.00142728],
        [ 0.01154147, -0.00261095],
        [ 0.02283721, -0.01060603]]], dtype=float32), array([[[-0.04740866, -0.04971042],
        [-0.03895395, -0.04243946],
        [-0.03591039, -0.03848059],
        [-0.0372103 , -0.03888252],
        [-0.03628064, -0.04191764],
        [-0.0293309 , -0.03881156],
        [-0.0134256 , -0.02297332],
        [-0.00569773, -0.01026752]]], dtype=float32))
states of Bidirectional_Multi_RNN
((LSTMStateTuple(c=array([[ 0.29269752,  0.19209731]], dtype=float32), h=array([[ 0.1649372 ,  0.10658178]], dtype=float32)),
  LSTMStateTuple(c=array([[ 0.04550727, -0.02003788]], dtype=float32), h=array([[ 0.02283721, -0.01060603]], dtype=float32))),
 (LSTMStateTuple(c=array([[ 0.67063302,  0.51517504]], dtype=floa