#### colab로 시작하기

<a href="https://colab.research.google.com/github/LDJWJ/AISTUDY/blob/master/DL05_03_RNN_v10" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Sequence to Sequence

* Seq2Seq는 구글의 기계번역에 사용되는 신경망 모델
* **입력**의 신경망의 **인코더**와 **출력**을 위한 신경망 **디코더**로 구성

In [1]:
import tensorflow as tf
import numpy as np

  from ._conv import register_converters as _register_converters


In [2]:
char_arr = [c for c in 'SEPabcdefghijklmnopqrstuvwxyz나무놀이소녀카드아기음식사랑']
num_dic = {n:i for i, n in enumerate(char_arr)} # 글자:숫자를 하나의 데이터 셋
print(num_dic)
dic_len = len(num_dic)    # 총 길이

{'S': 0, 'E': 1, 'P': 2, 'a': 3, 'b': 4, 'c': 5, 'd': 6, 'e': 7, 'f': 8, 'g': 9, 'h': 10, 'i': 11, 'j': 12, 'k': 13, 'l': 14, 'm': 15, 'n': 16, 'o': 17, 'p': 18, 'q': 19, 'r': 20, 's': 21, 't': 22, 'u': 23, 'v': 24, 'w': 25, 'x': 26, 'y': 27, 'z': 28, '나': 29, '무': 30, '놀': 31, '이': 32, '소': 33, '녀': 34, '카': 35, '드': 36, '아': 37, '기': 38, '음': 39, '식': 40, '사': 41, '랑': 42}


In [3]:
seq_data = [['tree', '나무'], ['game', '놀이'], ['girl', '소녀'], 
            ['love', '사랑'], ['food', '음식'], ['baby', '아기'], ['card', '카드'] ]

### 데이터 준비
 * 인코더의 입력값 : 입력단어 한글자씩 떼어 배열로 만들기 
 * 디코더의 입력값 : 출력단어의 글자들을 배열로 만들고, 시작을 나타내는 'S'을 붙임
 * 디코더의 출력값 : 디코더의 셀의 출력값을 만들고, 출력을 나타내는 'E'을 마지막에 붙임

In [4]:
def make_batch(seq_data):
    input_batch = []
    output_batch = []
    target_batch = []
    
    for seq in seq_data:
        input = [num_dic[n] for n in seq[0]]          # seq_data의 영단어를 한글자씩(index 리스트)
        output = [num_dic[n] for n in ('S' + seq[1])] # 한글의 단어에 앞'S'을 붙이고 한글자씩(index 얻기)
        target = [num_dic[n] for n in (seq[1] + 'E')] # 한글의 단어에 맨뒤 'E'을 붙이고 한글자씩(index얻기)
        
        input_batch.append(np.eye(dic_len)[input])    # 원핫(인코더 입력)
        output_batch.append(np.eye(dic_len)[output])  # 원핫(디코더 입력)
        target_batch.append(target)                   # 나E(20,1), 무E(30,1) - 디코더 출력  
        
    return input_batch, output_batch, target_batch

In [5]:
make_batch(['tree', '나무'])

([array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]),
  array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])],
 [array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]),
  array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0.,

### 하이퍼 파라미터 설정
 * 학습률
 * 은닉층 노드수
 * 총 에폭수
 * 타깃 클래스, 입력 노드

In [6]:
learning_rate = 0.01
n_hidden = 128
total_epoch = 100
 
n_class = n_input = dic_len

### 인코더의 입력값, 디코더의 입력값 
 * [batch_size, time steps, input_size] -> [데이터개수, 작업 스텝(인코더), 입력 크기]

### 디코더의 출력값
 * [batch_size, time steps] -> [배치 데이터개수, 작업 스텝(디코더)]
 
### 배치크기와 작업스텝은 입력때마다 다를 수 있다. (None으로 처리)

In [7]:
enc_input = tf.placeholder(tf.float32, [None, None, n_input])
dec_input = tf.placeholder(tf.float32, [None, None, n_input])
targets = tf.placeholder(tf.int64, [None, None])

* 주의 : 같은 배치 데이터는 글자수(단계)는 같아야 함.
* dynamic_rnn의 옵션 sequence_length를 사용하면 길이가 다른 단어들도 한번에 입력이 가능함.
* 단, 길이가 다르더라도 짧은 단어는 가장 긴단어에 맞춰서 글자를 채워야 하므로 의미 없는 값인 'P'를 이용하여 부족한 글자수를 채움.

### 체크 : 두번 실행시 아래와 같은 에러 발생할 수 있음. (재실행)
 * Variable encode/rnn/basic_rnn_cell/kernel already exists, disallowed.

### 중요
 * decode를 설계할 때, 초기 상태를 인코더의 출력(enc_states)로 넣어야 함.
   * dynamic_rnn(.., initial_state=enc_states ..) 로 가능

In [8]:
with tf.variable_scope('encode'):
    enc_cell = tf.nn.rnn_cell.BasicRNNCell(n_hidden)   # 기본 셀 적용
    enc_cell = tf.nn.rnn_cell.DropoutWrapper(enc_cell, output_keep_prob = 0.5)  # Dropout 적용
    
    outputs, enc_states = tf.nn.dynamic_rnn(enc_cell, 
                                            enc_input, 
                                            dtype=tf.float32)

with tf.variable_scope('decode'):
    dec_cell = tf.nn.rnn_cell.BasicRNNCell(n_hidden)  # 기본 셀 적용
    dec_cell = tf.nn.rnn_cell.DropoutWrapper(dec_cell, output_keep_prob=0.5)   # Dropout 적용
    
    otuputs, dec_states = tf.nn.dynamic_rnn(dec_cell, 
                                            dec_input, 
                                            initial_state=enc_states,  # *인코더의 출력(enc_state)을 넣어야
                                            dtype=tf.float32)

Instructions for updating:
This class is equivalent as tf.keras.layers.SimpleRNNCell, and will be replaced by that in Tensorflow 2.0.
Instructions for updating:
Please use `keras.layers.RNN(cell)`, which is equivalent to this API
Instructions for updating:
Please use `layer.add_weight` method instead.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor


### 출력층을 만들고, 손실함수와 최적화 함수 사용
 * 여기에서 가중치와 편향을 위한 변수는 하나도 사용하지 않았음.
 * 고수준 API를 사용하면 텐서플로가 다 알아서 해 주게 됨.
   * 실제로는 훨씬 복잡하지만 Seq2Seq를 단 몇줄로 가능함. Awesome

In [11]:
model = tf.layers.dense(outputs, n_class, activation=None)

cost = tf.reduce_mean( tf.nn.sparse_softmax_cross_entropy_with_logits(logits=model, labels=targets))
optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

### 학습 시키기 

In [12]:
sess = tf.Session()
sess.run(tf.global_variables_initializer())

input_batch, output_batch, target_batch = make_batch(seq_data)

for epoch in range(total_epoch):
    _, loss = sess.run([optimizer, cost], 
                       feed_dict={enc_input:input_batch, 
                                  dec_input:output_batch,
                                  targets:target_batch} )
    
    print('Epoch:  {}'.format(epoch + 1),
          'cost = {}'.format(loss))

print("최적화 완료!")

InvalidArgumentError: assertion failed: [Condition x == y did not hold element-wise:] [x (SparseSoftmaxCrossEntropyWithLogits_1/Shape_1:0) = ] [7 3] [y (SparseSoftmaxCrossEntropyWithLogits_1/strided_slice:0) = ] [7 4]
	 [[node SparseSoftmaxCrossEntropyWithLogits_1/assert_equal_1/Assert/Assert (defined at C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\framework\ops.py:1748) ]]

Original stack trace for 'SparseSoftmaxCrossEntropyWithLogits_1/assert_equal_1/Assert/Assert':
  File "C:\Users\front\Anaconda3\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "C:\Users\front\Anaconda3\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel_launcher.py", line 16, in <module>
    app.launch_new_instance()
  File "C:\Users\front\Anaconda3\lib\site-packages\traitlets\config\application.py", line 658, in launch_instance
    app.start()
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\kernelapp.py", line 486, in start
    self.io_loop.start()
  File "C:\Users\front\Anaconda3\lib\site-packages\tornado\platform\asyncio.py", line 127, in start
    self.asyncio_loop.run_forever()
  File "C:\Users\front\Anaconda3\lib\asyncio\base_events.py", line 422, in run_forever
    self._run_once()
  File "C:\Users\front\Anaconda3\lib\asyncio\base_events.py", line 1432, in _run_once
    handle._run()
  File "C:\Users\front\Anaconda3\lib\asyncio\events.py", line 145, in _run
    self._callback(*self._args)
  File "C:\Users\front\Anaconda3\lib\site-packages\tornado\platform\asyncio.py", line 117, in _handle_events
    handler_func(fileobj, events)
  File "C:\Users\front\Anaconda3\lib\site-packages\tornado\stack_context.py", line 276, in null_wrapper
    return fn(*args, **kwargs)
  File "C:\Users\front\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 450, in _handle_events
    self._handle_recv()
  File "C:\Users\front\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 480, in _handle_recv
    self._run_callback(callback, msg)
  File "C:\Users\front\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 432, in _run_callback
    callback(*args, **kwargs)
  File "C:\Users\front\Anaconda3\lib\site-packages\tornado\stack_context.py", line 276, in null_wrapper
    return fn(*args, **kwargs)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 283, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 233, in dispatch_shell
    handler(stream, idents, msg)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 399, in execute_request
    user_expressions, allow_stdin)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\ipkernel.py", line 208, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "C:\Users\front\Anaconda3\lib\site-packages\ipykernel\zmqshell.py", line 537, in run_cell
    return super(ZMQInteractiveShell, self).run_cell(*args, **kwargs)
  File "C:\Users\front\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2662, in run_cell
    raw_cell, store_history, silent, shell_futures)
  File "C:\Users\front\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2785, in _run_cell
    interactivity=interactivity, compiler=compiler, result=result)
  File "C:\Users\front\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2903, in run_ast_nodes
    if self.run_code(code, result):
  File "C:\Users\front\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2963, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-11-ac00358003b0>", line 3, in <module>
    cost = tf.reduce_mean( tf.nn.sparse_softmax_cross_entropy_with_logits(logits=model, labels=targets))
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\ops\nn_ops.py", line 3410, in sparse_softmax_cross_entropy_with_logits
    array_ops.shape(logits)[:-1]))
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\ops\check_ops.py", line 658, in assert_equal
    data, summarize, message, name)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\ops\check_ops.py", line 371, in _binary_assert
    return control_flow_ops.Assert(condition, data, summarize=summarize)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\util\tf_should_use.py", line 198, in wrapped
    return _add_should_use_warning(fn(*args, **kwargs))
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\ops\control_flow_ops.py", line 165, in Assert
    return gen_logging_ops._assert(condition, data, summarize, name="Assert")
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\ops\gen_logging_ops.py", line 74, in _assert
    name=name)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\framework\op_def_library.py", line 794, in _apply_op_helper
    op_def=op_def)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\util\deprecation.py", line 507, in new_func
    return func(*args, **kwargs)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\framework\ops.py", line 3357, in create_op
    attrs, op_def, compute_device)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\framework\ops.py", line 3426, in _create_op_internal
    op_def=op_def)
  File "C:\Users\front\Anaconda3\lib\site-packages\tensorflow_core\python\framework\ops.py", line 1748, in __init__
    self._traceback = tf_stack.extract_stack()
