## 11.1 상수와 플레이스홀더 설정

In [1]:
import tensorflow as tf # 텐서플로우 라이브러리만 불러오면 됩니다

In [2]:
input_dim = 1 # 각 시퀀스 요소의 차원
seq_size = 6 # 시퀀스의 최대 길이

input_placeholder = tf.placeholder(dtype=tf.float32,
                                   shape=[None, seq_size, input_dim])

## 11.2 간단한 RNN 셀 만들기

In [3]:
def make_cell(state_dim):
    return tf.contrib.rnn.LSTMCell(state_dim) # GRU 같은 다른 종류의 셀에 대해서는 tf.contrib.rnn 문서를 확인하기 바랍니다

with tf.variable_scope("first_cell") as scope:
    cell = make_cell(state_dim=10)
    outputs, states = tf.nn.dynamic_rnn(cell, # 출력과 상태의 2개의 결과를 생성하게 됩니다
                                        input_placeholder, # RNN에 입력 시퀀스로 들어가게 됩니다
                                        dtype=tf.float32)

## 11.3 2개의 RNN 셀 쌓기

In [4]:
with tf.variable_scope("second_cell") as scope: # 변수의 범위를 정의함으로써 변수의 재사용에 따른 런타임 오류를 피하도록 합니다
    cell2 = make_cell(state_dim=10)
    outputs2, states2 = tf.nn.dynamic_rnn(cell2,
                                          outputs, # 이 셀의 입력은 다른 셀의 출력입니다
                                          dtype=tf.float32)

## 11.4 여러 개의 셀을 쌓기 위해 MultiRNNCell 사용하기

In [5]:
def make_multi_cell(state_dim, num_layers):
    cells = [make_cell(state_dim) for _ in range(num_layers)] # RNN 셀의 리스트를 구축하는 경우 for-loop 문법이 선호됩니다
    return tf.contrib.rnn.MultiRNNCell(cells)

multi_cell = make_multi_cell(state_dim=10, num_layers=4)
outputs4, states4 = tf.nn.dynamic_rnn(multi_cell,
                                      input_placeholder,
                                      dtype=tf.float32)

## 11.5 스칼라로 된 참조표 정의

In [6]:
embeddings_0d = tf.constant([17, 22, 35, 51])

## 11.6 4D 벡터의 참조표 정의

In [7]:
embeddings_4d = tf.constant([[1, 0, 0, 0],
                             [0, 1, 0, 0],
                             [0, 0, 1, 0],
                             [0, 0, 0, 1]])

## 11.7 텐서 참조표 정의

In [8]:
embeddings_2x2d = tf.constant([[[1, 0], [0, 0]],
                               [[0, 1], [0, 0]],
                               [[0, 0], [1, 0]],
                               [[0, 0], [0, 1]]])

## 11.8 임베딩 검색

In [9]:
with tf.Session() as sess:
    ids = tf.constant([1, 0, 2]) # fight, the, wind 같은 단어에 상응하는 참조를 임베딩합니다
    lookup_0d = sess.run(tf.nn.embedding_lookup(embeddings_0d, ids))
    print(lookup_0d)

    lookup_4d = sess.run(tf.nn.embedding_lookup(embeddings_4d, ids))
    print(lookup_4d)

    lookup_2x2d = sess.run(tf.nn.embedding_lookup(embeddings_2x2d, ids))
    print(lookup_2x2d)

[22 17 35]
[[0 1 0 0]
 [1 0 0 0]
 [0 0 1 0]]
[[[0 1]
  [0 0]]

 [[1 0]
  [0 0]]

 [[0 0]
  [1 0]]]


## 11.9 문자 어휘 추출

In [10]:
def extract_character_vocab(data):
    special_symbols = ['<PAD>', '<UNK>', '<GO>',  '<EOS>']
    set_symbols = set([character for line in data for character in line])
    all_symbols = special_symbols + list(set_symbols)
    int_to_symbol = {word_i: word
                     for word_i, word in enumerate(all_symbols)}
    symbol_to_int = {word: word_i
                     for word_i, word in int_to_symbol.items()}
    return int_to_symbol, symbol_to_int

In [14]:
import os, re

MAX_CHAR_PER_LINE = 20

def load_sentences(path):
    with open(path, 'r', encoding="ISO-8859-1") as f:
        data_raw = f.read().encode('ascii', 'ignore').decode('UTF-8').lower()
        data_alpha = re.sub('[^a-z\n]+', ' ', data_raw)
        data = []
        for line in data_alpha.split('\n'):
            data.append(line[:MAX_CHAR_PER_LINE])
    return data

In [15]:
input_sentences = load_sentences('data/words_input.txt') # 입력 문장을 문자열 리스트로 불러옵니다
output_sentences = load_sentences('data/words_output.txt') # 출력 문장을 동일한 방법으로 불러옵니다
input_int_to_symbol, input_symbol_to_int = extract_character_vocab(input_sentences)
output_int_to_symbol, output_symbol_to_int = extract_character_vocab(output_sentences)

## 11.10 하이퍼파라미터 정의

In [16]:
NUM_EPOCS = 300 # 에포크의 수
RNN_STATE_DIM = 512 # RNN의 숨겨진 차원 크기
RNN_NUM_LAYERS = 2 # RNN의 쌓은 셀의 개수
ENCODER_EMBEDDING_DIM = DECODER_EMBEDDING_DIM = 64 # 인코더와 디코더를 위한 시퀀스 요소의 임베딩 차원

BATCH_SIZE = int(32)
LEARNING_RATE = 0.0003

INPUT_NUM_VOCAB = len(input_symbol_to_int) # 배치 크기
OUTPUT_NUM_VOCAB = len(output_symbol_to_int) # 인코더와 디코더 간에 다른 어휘를 가질 수 있습니다

## 11.11 플레이스홀더 목록

In [17]:
tf.reset_default_graph()

In [18]:
# 인코더 플레이스홀더

encoder_input_seq = tf.placeholder( # 인코더의 입력을 위한 정수 시퀀스 
    tf.int32,
    [None, None], # 형태는 배치 크기 x 시퀀스 길이
    name='encoder_input_seq'
)

encoder_seq_len = tf.placeholder( # 배치 내 시퀀스의 길이
    tf.int32,
    (None,), # 시퀀스의 길이가 가변적이기 때문에 형태도 동적입니다
    name='encoder_seq_len'
)

# 디코더 플레이스홀더

decoder_output_seq = tf.placeholder( # 디코더의 출력을 위한 정수 시퀀스
    tf.int32,
    [None, None], # 형태는 배치 크기 x 시퀀스 길이
    name='decoder_output_seq'
)

decoder_seq_len = tf.placeholder( # 배치 내의 시퀀스의 길이
    tf.int32,
    (None,), # 시퀀스의 길이가 가변적이기 때문에 형태도 동적입니다
    name='decoder_seq_len'
)

max_decoder_seq_len = tf.reduce_max( # 배치 내의 디코더 시퀀스의 최대 길이
    decoder_seq_len, 
    name='max_decoder_seq_len'
)

## 11.12 RNN 셀 구축을 위한 도우미 함수

In [19]:
def make_cell(state_dim):
    lstm_initializer = tf.random_uniform_initializer(-0.1, 0.1)
    return tf.contrib.rnn.LSTMCell(state_dim, initializer=lstm_initializer)

def make_multi_cell(state_dim, num_layers):
    cells = [make_cell(state_dim) for _ in range(num_layers)]
    return tf.contrib.rnn.MultiRNNCell(cells)

## 11.13 인코더 임베딩과 셀

In [20]:
# 인코더 임베딩

encoder_input_embedded = tf.contrib.layers.embed_sequence(
    encoder_input_seq, # 숫자의 입력 시퀀스 (행 인덱스)
    INPUT_NUM_VOCAB, # 임베딩 행렬의 행
    ENCODER_EMBEDDING_DIM # 임베딩 행렬의 열
)


# 인코더 출력

encoder_multi_cell = make_multi_cell(RNN_STATE_DIM, RNN_NUM_LAYERS)

encoder_output, encoder_state = tf.nn.dynamic_rnn(
    encoder_multi_cell,
    encoder_input_embedded,
    sequence_length=encoder_seq_len,
    dtype=tf.float32
)

del(encoder_output) # 이 값을 저장하고 있을 필요가 없습니다

## 11.14 디코더를 위한 입력 시퀀스 준비

In [21]:
decoder_raw_seq = decoder_output_seq[:, :-1] # 가장 마지막 열을 무시함으로써 행렬을 잘라줍니다
go_prefixes = tf.fill([BATCH_SIZE, 1], output_symbol_to_int['<GO>']) # <GO> 기호의 컬럼 벡터를 생성해 줍니다
decoder_input_seq = tf.concat([go_prefixes, decoder_raw_seq], 1) # (<GO> 벡터를 잘라낸 행렬의 앞쪽에 붙여줍니다

 ## 11.15 디코더 임베딩과 셀

In [22]:
from tensorflow.python.layers.core import Dense

decoder_embedding = tf.Variable(tf.random_uniform([OUTPUT_NUM_VOCAB, DECODER_EMBEDDING_DIM]))
decoder_input_embedded = tf.nn.embedding_lookup(decoder_embedding,
                                                decoder_input_seq)
decoder_multi_cell = make_multi_cell(RNN_STATE_DIM, RNN_NUM_LAYERS)
output_layer_kernel_initializer = tf.truncated_normal_initializer(mean=0.0, stddev=0.1)
output_layer = Dense(
    OUTPUT_NUM_VOCAB,
    kernel_initializer = output_layer_kernel_initializer
)

## 11.16 디코더의 출력 (학습)

In [23]:
with tf.variable_scope("decode"):
    training_helper = tf.contrib.seq2seq.TrainingHelper(
        inputs=decoder_input_embedded,
        sequence_length=decoder_seq_len,
        time_major=False
    )
    training_decoder = tf.contrib.seq2seq.BasicDecoder(
        decoder_multi_cell,
        training_helper,
        encoder_state,
        output_layer
    )
    training_decoder_output_seq, _, _ = tf.contrib.seq2seq.dynamic_decode(
        training_decoder,
        impute_finished=True,
        maximum_iterations=max_decoder_seq_len
    )

## 11.17 디코더의 출력 (테스트)

In [24]:
with tf.variable_scope("decode", reuse=True):
    
    start_tokens = tf.tile(
        tf.constant([output_symbol_to_int['<GO>']],
                    dtype=tf.int32),
        [BATCH_SIZE],
        name='start_tokens')
    
    inference_helper = tf.contrib.seq2seq.GreedyEmbeddingHelper( # 테스트 과정을 위한 도우미
        embedding=decoder_embedding,
        start_tokens=start_tokens,
        end_token=output_symbol_to_int['<EOS>']
    )
    
    inference_decoder = tf.contrib.seq2seq.BasicDecoder( # 기본 디코딩
        decoder_multi_cell,
        inference_helper,
        encoder_state,
        output_layer
    )
    
    inference_decoder_output_seq, _, _ = tf.contrib.seq2seq.dynamic_decode( # 디코더를 이용하여 동적 디코딩을 수행합니다
        inference_decoder,
        impute_finished=True,
        maximum_iterations=max_decoder_seq_len
    )

## 11.18 비용 함수

In [25]:
training_logits = tf.identity(training_decoder_output_seq.rnn_output, name='logits') # 편의를 위해 텐서명을 변경합니다
inference_logits = tf.identity(inference_decoder_output_seq.sample_id, name='predictions')

masks = tf.sequence_mask( # sequence_loss에 대한 가중치를 생성합니다
    decoder_seq_len,
    max_decoder_seq_len,
    dtype=tf.float32,
    name='masks'
)

cost = tf.contrib.seq2seq.sequence_loss( # 텐서플로우의 내장 시퀀스 비용 함수를 이용합니다
    training_logits,
    decoder_output_seq,
    masks
)

## 11.19 최적화기 호출하기

In [26]:
optimizer = tf.train.AdamOptimizer(LEARNING_RATE)

gradients = optimizer.compute_gradients(cost)
capped_gradients = [(tf.clip_by_value(grad, -5., 5.), var) # 그래디언트 클립핑
                    for grad, var in gradients if grad is not None]
train_op = optimizer.apply_gradients(capped_gradients)

## 11.20 모델 학습시키기

In [27]:
def pad(xs, size, pad):
    return xs + [pad] * (size - len(xs))

In [28]:




input_seq = [
    [input_symbol_to_int.get(symbol, input_symbol_to_int['<UNK>']) 
        for symbol in line]  
    for line in input_sentences  
]
 
output_seq = [
    [output_symbol_to_int.get(symbol, output_symbol_to_int['<UNK>']) 
        for symbol in line] + [output_symbol_to_int['<EOS>']]  
    for line in output_sentences  
]

sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
saver = tf.train.Saver()  
 
for epoch in range(NUM_EPOCS + 1):  
    for batch_idx in range(len(input_sentences) // BATCH_SIZE): 
        
        input_batch, input_lengths, output_batch, output_lengths = [], [], [], []
        for sentence in input_sentences[batch_idx:batch_idx + BATCH_SIZE]:
            symbol_sent = [input_symbol_to_int[symbol] for symbol in sentence]
            padded_symbol_sent = pad(symbol_sent, MAX_CHAR_PER_LINE, input_symbol_to_int['<PAD>'])
            input_batch.append(padded_symbol_sent)
            input_lengths.append(len(sentence))
        for sentence in output_sentences[batch_idx:batch_idx + BATCH_SIZE]:
            symbol_sent = [output_symbol_to_int[symbol] for symbol in sentence]
            padded_symbol_sent = pad(symbol_sent, MAX_CHAR_PER_LINE, output_symbol_to_int['<PAD>'])
            output_batch.append(padded_symbol_sent)
            output_lengths.append(len(sentence))

        _, cost_val = sess.run( 
            [train_op, cost],
            feed_dict={
                encoder_input_seq: input_batch,
                encoder_seq_len: input_lengths,
                decoder_output_seq: output_batch,
                decoder_seq_len: output_lengths
            }
        )
        
        if batch_idx % 629 == 0:
            print('Epoch {}. Batch {}/{}. Cost {}'.format(epoch, batch_idx, len(input_sentences) // BATCH_SIZE, cost_val))

    saver.save(sess, 'model.ckpt')   
sess.close()

Epoch 0. Batch 0/6919. Cost 3.6316235065460205
Epoch 0. Batch 629/6919. Cost 0.9069143533706665
Epoch 0. Batch 1258/6919. Cost 0.6907403469085693


KeyboardInterrupt: 

In [None]:
sess = tf.InteractiveSession()    
saver.restore(sess, 'model.ckpt')

example_input_sent = "do you want to play games"
example_input_symb = [input_symbol_to_int[symbol] for symbol in example_input_sent]
example_input_batch = [pad(example_input_symb, MAX_CHAR_PER_LINE, input_symbol_to_int['<PAD>'])] * BATCH_SIZE
example_input_lengths = [len(example_input_sent)] * BATCH_SIZE

output_ints = sess.run(inference_logits, feed_dict={
    encoder_input_seq: example_input_batch,
    encoder_seq_len: example_input_lengths,
    decoder_seq_len: example_input_lengths
})[0]

output_str = ''.join([output_int_to_symbol[i] for i in output_ints])
print(output_str)