In [1]:
# TextLoader
# 1. .txt 파일 읽어들인다.
# 2. 전처리 파일이 있으면 전처리된 파일 로드, 없으면 전처리후 파일 저장
#
# 전처리 파일
# vocab: vocabulary dic {'char': idx}
# tensor: 읽어들인 파일의 문자들을 vocab 기준으로 숫자로 변환한 배열. (None, ) size.

In [2]:
import numpy as np
import collections

import os
import pickle

import tensorflow as tf

In [107]:
class TextLoader():
    def __init__(self, src_dir, batch_size, seq_length):
        self.vocab = None
        self.vocab_size = None
        self.tensor = None
        self.batch_size = batch_size
        self.seq_length = seq_length
        
        shake = 'tinyshakespeare'
        sample = ''
        src_dir = os.path.join(src_dir, sample)
        self.src_path = os.path.join(src_dir, 'input.txt')
        self.vocab_path = os.path.join(src_dir, 'vocab.pkl')
        self.tensor_path = os.path.join(src_dir, 'tensor.npy')
        
        if os.path.exists(self.vocab_path) and os.path.exists(self.tensor_path):
            print('전처리된 파일 로드중...')
            self.load_preprocessed()
        else:
            print('데이터 전처리중...')
            self.preprocess()
            
        self.create_batch()
        self.reset_batch_pointer()
        
        for i, line in enumerate(self.tensor):
            print(self.chars[line], end='')
            if i==200: break
        print()
        print('배치 생성 완료')
        
    def preprocess(self):
        # 파일 읽기
        with open(self.src_path, 'r') as fp:
            data = fp.read()
        self.chars = sorted(set(data))                           # ['a','b','c'...]
        self.vocab_size = len(chars)                             # vocab size
        self.vocab = {j:i for i, j in enumerate(self.chars)}     # vocab dic {'char': idx}
        self.tensor = np.array(list(map(self.vocab.get, data)))  # tensor ('char'->idx)
        # 파일 저장
        with open(self.vocab_path, 'wb') as fp:
            pickle.dump(self.vocab, fp)
        np.save(self.tensor_path, self.tensor)
            
    def load_preprocessed(self):
        with open(self.vocab_path, 'rb') as fp:
            self.vocab = pickle.load(fp)
        self.vocab_size = len(self.vocab)
        self.chars = sorted(self.vocab.keys())
        self.tensor = np.load(self.tensor_path)
        
    def create_batch(self):
        self.total_batch = self.tensor.size//(self.batch_size*self.seq_length)
        if self.total_batch == 0:
            assert False, "Not enough data. Make seq_length and batch_size small."
        self.tensor = self.tensor[:self.batch_size*self.seq_length*self.total_batch]
        xdata = self.tensor
        ydata = np.copy(self.tensor)
        # ydata 를 xdata 를 한칸 왼쪽으로 쉬프트한 형태로 구성.
        # b  c  d  a (ydata)
        # ==rnn cell==
        # a  b  c  d (xdata)
        ydata[:-1] = xdata[1:]
        ydata[-1] = xdata[0]
        
        self.x_batches =  np.split(xdata.reshape(self.batch_size, -1), self.total_batch, 1)
        self.y_batches = np.split(ydata.reshape(self.batch_size, -1), self.total_batch, 1)
        
    # 배치 불러오고 포인터를 1만큼 증가.
    def next_batch(self):
        x, y = self.x_batches[self.pointer], self.y_batches[self.pointer]
        self.pointer += 1
        return x,y
    
    def reset_batch_pointer(self):
        self.pointer = 0
    
    def convert_idx2char(self, num):
        char = self.chars[num]
        return char

    
    
data_dir = 'data'
batch_size = 32
seq_length = 20
data_loader = TextLoader(data_dir, batch_size, seq_length)

chars = data_loader.chars
# print(chars)
vocab = data_loader.vocab
vocab_size = data_loader.vocab_size

전처리된 파일 로드중...
[1] Deep learning (also known as deep structured learning or hierarchical learning) is part of a broader family of machine learning methods based on artificial neural networks. Learning can be supervis
배치 생성 완료


In [109]:
hidden_size = 128
learning_rate = 0.02
num_epochs = 100
num_hidden_layers = 2
grad_clip = 5

## graph

# reset graph
tf.reset_default_graph()

# 인풋/타겟 데이터, 배치 사이즈를 입력받기 위한 플레이스홀더
input_data = tf.placeholder(tf.int32, shape=[None, None])  # input: [batch_size, seq_length]
target_data = tf.placeholder(tf.int32, shape=[None, None]) # target: [batch_size, seq_length]
state_batch_size = tf.placeholder(tf.int32, shape=[])

# RNN 마지막 히든레이어 출력을 소프트맥스 출력값으로 변환해주기 위한 변수
softmax_w = tf.Variable(tf.random_normal(shape=[hidden_size, vocab_size]), dtype=tf.float32)
softmax_b = tf.Variable(tf.random_normal(shape=[vocab_size]), dtype=tf.float32)

# 히든레이어 수 만큼 LSTM cell(히든레이어) 선언
cells = []
for _ in range(num_hidden_layers):
    cell = tf.nn.rnn_cell.BasicLSTMCell(hidden_size)
    cells.append(cell)
    
# cell을 종합해서 RNN을 정의
cell = tf.contrib.rnn.MultiRNNCell(cells, state_is_tuple=True)

# 인풋데이터를 변환하기 위한 임베딩 매트릭스 선언
# vocab_size -> hidden_size
embedding = tf.Variable(tf.random_normal(shape=[vocab_size, hidden_size]), dtype=tf.float32)
inputs = tf.nn.embedding_lookup(embedding, input_data)

# 초기 state 값을 0으로 초기화
initial_state = cell.zero_state(state_batch_size, tf.float32)

# 학습을 위한 tf.nn.dynamic_rnn을 선언
# outputs: [batch_size, seq_length, hidden_size]
outputs, final_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=initial_state, dtype=tf.float32)

# output을 [batch_size * seq_length, hidden_size] shape으로 바꿈
output = tf.reshape(outputs, [-1, hidden_size])

# 최종 출력값을 설정
# logits: [batch_size * seq_length, vocab_size]
# softmax 를 적용하기 위해 vocab_size 로 shape 을 바꾼다.
# output.shape: (?,64)
# logits.shape: (?,36)
logits = tf.matmul(output, softmax_w) + softmax_b
probs = tf.nn.softmax(logits)

# 크로스 엔트로피 손실함수 정의
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=logits, labels=target_data))

# 옵티마이저 선언하고 옵티마이저에 Gradient Clipping을 적용
# grad_clip 보다 큰 Gradient를 5로 Clipping 한다
tvars = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(loss, tvars), grad_clip)
optimizer = tf.train.AdamOptimizer(learning_rate)
train_step = optimizer.apply_gradients(zip(grads, tvars))

## 세션을 열고 학습 진행
# with tf.Session() as sess:
sess = tf.Session()
# 변수에 초기값 할당
sess.run(tf.global_variables_initializer())

for e in range(num_epochs):
    data_loader.reset_batch_pointer() # TextLoader 의 배치포인터 리셋
    # 초기 상태값 지정
    state = sess.run(initial_state, feed_dict={state_batch_size: batch_size})

    for b in range(data_loader.total_batch):
        # x,y 데이터 불러오기
        x, y = data_loader.next_batch()
        # y에 one-hot 인코딩 적용
        y = tf.one_hot(y, vocab_size)        # y: [batch_size, seq_length, vocab_size]
        y = tf.reshape(y, [-1, vocab_size])  # y: [batch_size * seq_length, vocab_size]
        y = y.eval(session=sess)

        # feed_dict 에 사용할 값과 LSTM 초기 cell state(feed_dict[c])값과 hidden layer 출력값(feed_dict[h])를 지정
        feed_dict = {input_data: x, target_data: y, state_batch_size: batch_size}
        for i, (c, h) in enumerate(initial_state):
            feed_dict[c] = state[i].c
            feed_dict[h] = state[i].h

        # 1스텝 학습을 진행
        _, loss_print, state = sess.run([train_step, loss, final_state], feed_dict=feed_dict)

        print(f'{e+1:3d} epoch  |  [{b+1:2d}/{data_loader.total_batch}] batch\t|\tloss: {loss_print:.7f}')

print('학습 끝')



  1 epoch  |  [ 1/1] batch	|	loss: 4.8277054
  2 epoch  |  [ 1/1] batch	|	loss: 8.5346355
  3 epoch  |  [ 1/1] batch	|	loss: 12.8293400
  4 epoch  |  [ 1/1] batch	|	loss: 9.4195995
  5 epoch  |  [ 1/1] batch	|	loss: 8.4244556
  6 epoch  |  [ 1/1] batch	|	loss: 7.3591895
  7 epoch  |  [ 1/1] batch	|	loss: 6.1464701
  8 epoch  |  [ 1/1] batch	|	loss: 4.3289132
  9 epoch  |  [ 1/1] batch	|	loss: 3.5216179
 10 epoch  |  [ 1/1] batch	|	loss: 2.9781959
 11 epoch  |  [ 1/1] batch	|	loss: 2.9047246
 12 epoch  |  [ 1/1] batch	|	loss: 2.6793096
 13 epoch  |  [ 1/1] batch	|	loss: 2.4923337
 14 epoch  |  [ 1/1] batch	|	loss: 2.4245381
 15 epoch  |  [ 1/1] batch	|	loss: 2.3181529
 16 epoch  |  [ 1/1] batch	|	loss: 2.1905053
 17 epoch  |  [ 1/1] batch	|	loss: 2.0425019
 18 epoch  |  [ 1/1] batch	|	loss: 1.9409739
 19 epoch  |  [ 1/1] batch	|	loss: 1.8402655
 20 epoch  |  [ 1/1] batch	|	loss: 1.7380224
 21 epoch  |  [ 1/1] batch	|	loss: 1.6446555
 22 epoch  |  [ 1/1] batch	|	loss: 1.5562851
 23 epoch

In [116]:
# 모델 저장
saver = tf.train.Saver()
save_file = 'model.ckpt'
saver.save(sess, save_file)

# 샘플링 시작
print('샘플링 시작')
num_sampling = 1000   # 생성할 글자 수 지정
prime = u' '          # 시작 글자를 ' '(공백)으로 지정
sampling_type = 1     # 샘플링 타입 설정
state = sess.run(cell.zero_state(1, tf.float32)) # RNN 최초 state값을 0으로 초기화

# 랜덤 샘플링을 위한 weight_pick 함수 정의
def weighted_pick(weights):
    t = np.cumsum(weights)
    s = np.sum(weights)
    return int(np.searchsorted(t, np.random.rand(1)*s))

ret = prime
char = prime[-1]
for n in range(num_sampling):
    x = np.zeros((1,1))
    x[0,0] = vocab[char]
    
    # RNN 1스텝 실행하고 softmax 행렬을 리턴받는다
    feed_dict = {input_data:x, state_batch_size:1, initial_state: state}
    [probs_result, state] = sess.run([probs, final_state], feed_dict=feed_dict)

    # 불필요한 차원 제거
    # probs_result: (1,vocab_size) -> p: (vocab_size)
    p = np.squeeze(probs_result)
    
    # 샘플링 타입에 따라 3가지 종류로 샘플링
    # sampling_type: 0 => 다음 글자 예측시 항상 argmax 사용
    # sampling_type: 1(default) => 다음 글자 예측시 항상 random sampling 사용
    # sampling_type: 2 => 다음 글자 예측시 이전 글자가 ' '(공백) 이면 random sampling, 그렇지 않으면 argmax 사용
    if sampling_type == 0:
        sample = np.argmax(p)
    elif sampling_type == 2:
        if char == ' ':
            sample = weighted_pick(p)
        else:
            sample = np.argmax(p)
    else:
        sample = weighted_pick(p)
    
    pred = chars[sample]
#     ret += pred
    char = pred # 예측한 글자를 다음 RNN 의 인풋으로
    print(pred, end='')


샘플링 시작
to fields including inspech red beech recognition, natroal neural network and vion, stroal network and convoltupervised.

[22222]2eeeep reecurrnted neural networks, family of a broage procesing, recognition, natroan b o besupervised.

[2222222]eeeep learning (al networks, nateralnading or unsupervised.

[2222]2eeep Deep learning (al learning filtering, machine tdio on artificial network and or unsupervised.

[2222]2eeep 
eep learning archine teural networks, design, machine to filtering, machine tured semi-supervised supervised such as deep stroal neural network and or ader boad game[ter vision, spervised.

[2222ee[ eep neural networks, analy of audio recognition, natering or unsupervised.

[2222]2ee]eeh perec recurrent neural networks, fan be supervised.

[22222]eeeep learning or unsupervised.

[22222]2eeeep recurrent neural neural networks, as deep stroal network and convoluturesudo social network and board game[t[. .een applied neural network and board game[[g euresuperviisio

In [48]:
sess.close()