In [1]:
import tensorflow as tf
import numpy as np
import glob
import json
from collections import Counter
from tqdm import tqdm
from snownlp import SnowNLP
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split as split
from deap import base, creator, tools, algorithms
from scipy.stats import bernoulli
from bitstring import BitArray

a = tf.test.is_built_with_cuda()
b = tf.test.is_gpu_available(
    cuda_only=False,
    min_cuda_compute_capability=None
)     
print(a)
print(b)
np.random.seed(1000)

True
True


In [2]:
def split_dataset():
    paths = glob.glob('./dataset/json/poet.*.json')
    poets = []
    for path in paths:
        data = open(path, 'r', encoding='utf-8').read()
        data = json.loads(data)
        #print(data)
        for item in data:
            content = ''.join(item['paragraphs'])
            if len(content)>= 24 and len(content) <= 32:
                content = SnowNLP(content)
                content=content.han
                if len(content)%4==0:
                    poets.append('[' + content + ']')
    print('We have %d Chinese ancient poets' % len(poets), poets[0], poets[-1])
    training_data, validation_data = split(poets, test_size = 0.20, random_state = 1000)

    return training_data, validation_data


In [3]:
training_data, validation_data = split_dataset()

We have 104147 Chinese ancient poets [欲出未出光辣达，千山万山如火发。须臾走向天上来，逐却残星赶却月。] [书劒催人不暂闲，洛阳羁旅复秦关。容颜岁岁愁边改，乡国时时梦里还。]


In [4]:
print(len(training_data))

83317


In [2]:
def prepocess_data(dataset):
    chars = []
    for item in dataset:
        chars += [c for c in item]
    print('We have %d words' % len(chars))

    chars = sorted(Counter(chars).items(), key=lambda x:x[1], reverse=True)
    print('We have %d different words in dataset' % len(chars))
    chars = [c[0] for c in chars]
    char2id = {c: i + 1 for i, c in enumerate(chars)}
    id2char = {i + 1: c for i, c in enumerate(chars)}
    
    return char2id, id2char


In [6]:
def process_data(char2id, id2char, dataset, ga_individual_solution):   
# Decode GA solution to integer for batch_size and hidden_size
#     batch_size_bits = BitArray(ga_individual_solution[0:8])
#     batch_size = batch_size_bits.uint
#     print('\nBatch Size: ', batch_size)
    batch_size = 512
    X_data = []
    Y_data = []

    for b in range(len(dataset) // batch_size):
        start = b * batch_size
        end = b * batch_size + batch_size
        batch = [[char2id[c] for c in dataset[i]] for i in range(start, end)]
        maxlen = max(map(len, batch))
        X_batch = np.full((batch_size, maxlen - 1), 0, np.int32)
        Y_batch = np.full((batch_size, maxlen - 1), 0, np.int32)
        for i in range(batch_size):
            X_batch[i, :len(batch[i]) - 1] = batch[i][:-1]
            Y_batch[i, :len(batch[i]) - 1] = batch[i][1:]
        X_data.append(X_batch)
        Y_data.append(Y_batch)
    return X_data, Y_data
    
    

In [10]:
def build_model_and_train_evaluate(ga_individual_solution):
    #training_data, validation_data = split_dataset()
    training_char2id, training_id2char = prepocess_data(training_data)
    validation_char2id, validation_id2char = prepocess_data(validation_data)
    
    import pickle
    with open('dictionary.pkl', 'wb') as fw:
        pickle.dump([training_char2id, training_id2char], fw)
    
    X_training_data, Y_training_data = process_data(training_char2id, training_id2char, training_data, ga_individual_solution)
    X_validation_data, Y_validation_data = process_data(validation_char2id, validation_id2char, validation_data, ga_individual_solution)
    
    tf.reset_default_graph()
    batch_size = 512
    num_layer = 2
    embedding_size = 256
    
    hidden_size = []
    hidden_size_bits_1 = BitArray(ga_individual_solution[0:8])
    hidden_size.append(hidden_size_bits_1.uint)
    print('\nHidden Size 1: ', hidden_size[0])
    hidden_size_bits_2 = BitArray(ga_individual_solution[8:])
    hidden_size.append(hidden_size_bits_2.uint)
    print('\nHidden Size 2: ', hidden_size[1])
    
    
    X_training= tf.placeholder(tf.int32, [batch_size, None])
    Y_training= tf.placeholder(tf.int32, [batch_size, None])
    learning_rate = tf.Variable(0.0, trainable=False)
    ikeep_prob = tf.placeholder(tf.float32, name='ikeep_prob')
    okeep_prob = tf.placeholder(tf.float32, name='okeep_prob')
    cell = tf.nn.rnn_cell.MultiRNNCell(
        [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.LSTMCell(hidden_size[i]), input_keep_prob=ikeep_prob, output_keep_prob=ikeep_prob )for i in range(num_layer)], 
        state_is_tuple=True)

    initial_state = cell.zero_state(batch_size, tf.float32)
    tr_embeddings = tf.Variable(tf.random_uniform([len(training_char2id) + 1, embedding_size], -1.0, 1.0))
    tr_embedded = tf.nn.embedding_lookup(tr_embeddings, X_training)
    tr_outputs, tr_last_states = tf.nn.dynamic_rnn(cell, tr_embedded, initial_state=initial_state)
    tr_outputs = tf.reshape(tr_outputs, [-1, hidden_size[1]])                # batch_size * max_time, hidden_size

    training_logits = tf.layers.dense(tr_outputs, units=len(training_char2id) + 1)       # batch_size * max_time, len(char2id) + 1
    training_logits = tf.reshape(training_logits, [batch_size, -1, len(training_char2id) + 1]) # batch_size, max_time, len(char2id) + 1
    probs = tf.nn.softmax(training_logits)                                   # batch_size, max_time, len(char2id) + 1
    loss = tf.reduce_mean(tf.contrib.seq2seq.sequence_loss(training_logits, Y_training, tf.ones_like(Y_training, dtype=tf.float32)))
    params = tf.trainable_variables()
    grads, _ = tf.clip_by_global_norm(tf.gradients(loss, params), 5)
    optimizer = tf.train.AdamOptimizer(learning_rate).apply_gradients(zip(grads, params))
    
    sess = tf.Session()
    sess.run(tf.global_variables_initializer())
    Loss=[]
    Validation_loss=[]
    for epoch in range(40):
        sess.run(tf.assign(learning_rate, 0.0004 * (0.97 ** epoch)))

        data_index = np.arange(len(X_training_data))
        np.random.shuffle(data_index)
        X_training_data = [X_training_data[i] for i in data_index]
        Y_training_data = [Y_training_data[i] for i in data_index]

        losses = []
        validates=[]

        for i in tqdm(range(len(X_training_data))):
            ls_,  _ = sess.run([loss, optimizer], feed_dict={X_training: X_training_data[i], Y_training: Y_training_data[i], ikeep_prob: 0.8, okeep_prob: 0.8})
            losses.append(ls_)
        for i in tqdm(range(len(X_validation_data))):
            validate_acc = sess.run([loss], feed_dict={X_training: X_validation_data[i], Y_training: Y_validation_data[i], ikeep_prob: 1, okeep_prob: 1})
            validates.append(validate_acc)
            
        
        Loss.append(np.mean(losses))
        Validation_loss.append(np.mean(validates))
    #save model
    saver = tf.train.Saver()
    saver.save(sess, './50/50_epoch')
        
    #Now the model has been trained and we want it to generate a poem
    with open('dictionary.pkl', 'rb') as fr:
        [char2id, id2char] = pickle.load(fr)
    
    tf.reset_default_graph()
    test_batch_size = 1

    X = tf.placeholder(tf.int32, [test_batch_size, None])
    Y = tf.placeholder(tf.int32, [test_batch_size, None])
    learning_rate = tf.Variable(0.0, trainable=False)

    cell = tf.nn.rnn_cell.MultiRNNCell(
        [tf.nn.rnn_cell.LSTMCell(hidden_size[i], state_is_tuple=True) for i in range(num_layer)], 
        state_is_tuple=True)
    initial_state = cell.zero_state(test_batch_size, tf.float32)

    embeddings = tf.Variable(tf.random_uniform([len(char2id) + 1, embedding_size], -1.0, 1.0))
    embedded = tf.nn.embedding_lookup(embeddings, X)

    outputs, last_states = tf.nn.dynamic_rnn(cell, embedded, initial_state=initial_state)

    outputs = tf.reshape(outputs, [-1, hidden_size[1]])
    logits = tf.layers.dense(outputs, units=len(char2id) + 1)
    probs = tf.nn.softmax(logits)
    targets = tf.reshape(Y, [-1])

    loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=targets))
    params = tf.trainable_variables()
    grads, _ = tf.clip_by_global_norm(tf.gradients(loss, params), 5)
    optimizer = tf.train.AdamOptimizer(learning_rate).apply_gradients(zip(grads, params))

    sess = tf.Session()
    sess.run(tf.global_variables_initializer())
    saver = tf.train.Saver()
    saver.restore(sess, tf.train.latest_checkpoint('./50'))
    
    def poetry_generate_with_topic(head):
        states_ = sess.run(initial_state)
        gen = ''
        c = '['
        i = 0
        while c != ']':
            gen += c
            x = np.zeros((test_batch_size, 1))
            x[:, 0] = char2id[c]
            probs_, states_ = sess.run([probs, last_states], feed_dict={X: x, initial_state: states_})
            probs_ = np.squeeze(probs_)
            pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))
            while pos not in id2char:
                pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))
            
            c = id2char[pos]
            if i<len(head):
                c=head[i]
                i+=1
                
        return gen[1:]
    
    print('Validation_loss = ', Validation_loss[-1])
    print('Loss = ', Loss[-1])
    print(poetry_generate_with_topic('边塞'))
    return Loss[-1],


In [11]:
population_size = 8
num_generations = 8
gene_length = 16

# As we are trying to minimize the Loss and the Validation_loss, that's why using -1.0. 
# In case, when you want to maximize accuracy for instance, use 1.0
creator.create('FitnessMulti', base.Fitness, weights = (-1.0, ))
creator.create('Individual', list , fitness = creator.FitnessMulti)

toolbox = base.Toolbox()
toolbox.register('binary', bernoulli.rvs, 0.5)
toolbox.register('individual', tools.initRepeat, creator.Individual, toolbox.binary, n = gene_length)
toolbox.register('population', tools.initRepeat, list , toolbox.individual)

toolbox.register('mate', tools.cxOrdered)
toolbox.register('mutate', tools.mutShuffleIndexes, indpb = 0.6)
toolbox.register('select', tools.selRoulette)
toolbox.register('evaluate', build_model_and_train_evaluate)

population = toolbox.population(n = population_size)
r = algorithms.eaSimple(population, toolbox, cxpb = 0.4, mutpb = 0.1, ngen = num_generations, verbose = False)



We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  172

Hidden Size 2:  216


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:48<00:00,  3.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.17it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.17it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.15it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.346566
Loss =  4.8884296
边塞堂坞讲春色，风浸清晴夜有迟。殿上一沾仙野客，春来秋色不忘舟。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  193

Hidden Size 2:  177


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.39it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3067675
Loss =  4.927359
边塞公处从千仞，夜盘儿涯漉险路。未将从此幻多呼，三土超零鼎无外。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  148

Hidden Size 2:  220


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.58it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.56it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.38it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3384504
Loss =  4.889168
边塞山心少悲浪，世中开忆客归吟。何时月上不思夜，尽是梅山别策归。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  67

Hidden Size 2:  189


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.96it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:40<00:00,  3.94it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:40<00:00,  3.94it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.94it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.186862
Loss =  5.065341
边塞城中初旧流，年年载日云何惊。鳞轻山兮多弱碧，归认炉明主掩煎。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  207

Hidden Size 2:  148


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.80it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.80it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.81it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.28614
Loss =  4.9469266
边塞春声自觉时，梅窗萧作共天尘。蔷瑚映眼吟如竹，无子天阴换玉帘。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  107

Hidden Size 2:  120


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.60it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2219777
Loss =  5.0579767
边塞春华更独山，施应夺马折清春。深来返向风台语，着我期郎亦见罗。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  138

Hidden Size 2:  73


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.85it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.83it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.82it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.85it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.05it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.1208696
Loss =  5.1654544
边塞春风近殿行，飞州一夜石危消。峨芽雁正阿轻了，景首秋山月雨梅。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  206

Hidden Size 2:  35


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:31<00:00,  5.10it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:31<00:00,  5.10it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:31<00:00,  5.13it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:31<00:00,  5.11it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.06it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.0073104
Loss =  5.2726755
边塞乱衣山月云，又芳风袖率滩风。万边南使横好驿，造枉西知行相多。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  154

Hidden Size 2:  73


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.79it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.80it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.78it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.77it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.97it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.116906
Loss =  5.1532564
边塞肌枰乡气门，主间张瑚作人名。归年汉物人寥大，买戏多登芳合同。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  132

Hidden Size 2:  220


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.63it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.44it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.63it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.43it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.61it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.45it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2915916
Loss =  4.9445434
边塞销闻水在时，只穷清雪共凉灯。马场殿坐雄人兀，灰方可须曾小肠。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  56

Hidden Size 2:  158


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.53it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.24it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.52it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.1732697
Loss =  5.11185
边塞花时照一斜，鹦随帝湾走行花。何事扪琶一飞掩，红如只遣御葩晴。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  172

Hidden Size 2:  216


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.21it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.45it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.20it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.19it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.21it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3359785
Loss =  4.8909926
边塞安参泰尽馀，巢翁未觉渚春摇。正君五岫刚无者，蚁鼓折思明惹齁。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  185

Hidden Size 2:  152


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.84it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.86it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.84it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2906084
Loss =  4.9543433
边塞人间苦委山，沙头一起如人献。累天只月入坡人，泉日清花不解思。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  172

Hidden Size 2:  248


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.84it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.86it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.85it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3366733
Loss =  4.8813734
边塞无家留目乍，不妨风露照巖枝。如今梦味非吾否，要见寒花笑管钱。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  107

Hidden Size 2:  88


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.05it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:32<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.02it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:32<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.02it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:32<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.03it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.1085625
Loss =  5.167748
边塞月栖蕊古边，野边郎地暮飙皂。忆应鬓被花前白，争恐人人绝水南。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  107

Hidden Size 2:  56


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:29<00:00,  5.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:29<00:00,  5.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.44it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:29<00:00,  5.47it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.44it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:29<00:00,  5.49it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.42it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  5.9845552
Loss =  5.310004
边塞顷蹄为不知，偶说知空草踏人。头帝鱼诗真超辍，欲怜属船委风山。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  67

Hidden Size 2:  253


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.63it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.32it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.61it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.32it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.61it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.31it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.32it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2471967
Loss =  4.993283
边塞簟开花霜衣，小心春似一樊枝。武家报梦韶花作，笑枕梅窗鸭谢冬。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  108

Hidden Size 2:  221


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.64it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.65it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.53it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.64it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.53it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3142486
Loss =  4.9450727
边塞秋前意御洲，客时意送又莺轻。更知不用农台遍，更被春风似翠烟。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  131

Hidden Size 2:  184


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.73it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.72it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.312682
Loss =  4.9421663
边塞竿涛送，空于病客芳。纷山虽晚好，最费海棠来。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  172

Hidden Size 2:  248


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:48<00:00,  3.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:48<00:00,  3.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:48<00:00,  3.33it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:48<00:00,  3.33it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.86it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.339665
Loss =  4.861933
边塞人声入水开，多平一箇定迟方。只看月上围泥乐，时急青花自见行。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  108

Hidden Size 2:  221


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.65it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.67it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:44<00:00,  3.64it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.50it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.304738
Loss =  4.9316254
边塞焦陵不用六，神姬落酒夜回坰。笑之新说多悭物，亦把姚公去欠□。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  172

Hidden Size 2:  216


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.19it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.17it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:47<00:00,  3.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.18it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3364916
Loss =  4.8966527
边塞俱是元，未如尔亡仙。乃须名鹿子，儿况济成秋。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  244

Hidden Size 2:  205


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.30it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.30it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.94it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:49<00:00,  3.30it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  6.94it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3450494
Loss =  4.864673
边塞诗人泣电流，申涯岂得重吾仁。丛符叶一人同误，今夜不由寒日来。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  106

Hidden Size 2:  184


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.85it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.85it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.82it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.84it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.79it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.242187
Loss =  4.984274
边塞入云浓软雨，庭窗石首送官鸡。杜郎牢破团塘水，白溪蝉树雨花清。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  109

Hidden Size 2:  93


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:32<00:00,  4.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.86it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:33<00:00,  4.90it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.86it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.182331
Loss =  5.0868087
边塞灯城开国笺，洞风有顶却囷欲。晚风酂冻曾成赋，弄遍梅溪陈胆罪。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  104

Hidden Size 2:  109


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.68it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.75it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.70it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:34<00:00,  4.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.72it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.1977973
Loss =  5.0802293
边塞江风欲雪涯，衘园晴晚似衔来。迎争停暇春声尽，添滴江岑么勒回。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  244

Hidden Size 2:  77


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.25it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.23it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.27it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.23it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:37<00:00,  4.28it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.23it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:38<00:00,  4.26it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.23it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.1481295
Loss =  5.08822
边塞自怜湖自雨，蒸张老事我输专。有门不过山上底，只作承还更向妍。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  104

Hidden Size 2:  237


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.57it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.58it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.58it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.26it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2879415
Loss =  4.943048
边塞铺巍细道，振钱映径寒清。帝里贤戎官寄，要披辟佩桃清。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  108

Hidden Size 2:  205


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.59it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.59it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.69it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.57it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:43<00:00,  3.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.59it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.282282
Loss =  4.951346
边塞频芳似小船，公峰应草落风高。山流打上修深景，只有醒心自觉人。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  240

Hidden Size 2:  237


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.370972
Loss =  4.8413124
边塞数山微锦雪，高声谢程末湖鸥。翠鞋汲动馿中过，寄菊绳和对雨摇。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  104

Hidden Size 2:  249


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:46<00:00,  3.54it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.15it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.53it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:45<00:00,  3.51it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.13it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2928967
Loss =  4.9572635
边塞乔峯市物飞，长春逗破尚颜诗。居时自机开生款，定待诗工小几来。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  106

Hidden Size 2:  172


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.90it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.94it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.87it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.88it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:41<00:00,  3.89it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.94it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2681184
Loss =  5.013804
边塞何须百中，戍棠遮半阴回。老僧迷复远起，不在眼边空月。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  112

Hidden Size 2:  184


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.83it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.82it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.81it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:42<00:00,  3.81it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:05<00:00,  7.77it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.2589593
Loss =  4.958887
边塞不在石龙楼，不为弓翼已万头。却射俗翁休博迅，却勤家老转增僊。
We have 2713538 words
We have 7754 different words in dataset
We have 678172 words
We have 6364 different words in dataset

Hidden Size 1:  234

Hidden Size 2:  237


100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.64it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.19it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 162/162 [00:50<00:00,  3.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 40/40 [00:06<00:00,  6.65it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./50\50_epoch
Validation_loss =  6.3651724
Loss =  4.8598657
边塞楼峰出斗中，翠天元道水青旂。黄荒犹肉伤船妇，却趁黄阙劒上船。


In [12]:
best_individuals = tools.selBest(population,k = 1)
best_hidden_size_1 = None
best_hidden_size_2 = None

for bi in best_individuals:
    best_hiden_size_1_bits = BitArray(bi[0:8])
    best_hidden_size_2_bits = BitArray(bi[8:]) 
    best_hidden_size_1 = best_hiden_size_1_bits.uint
    best_hidden_size_2 = best_hidden_size_2_bits.uint
    print('\nHidden Size 1 : ', best_hidden_size_1, ', Hidden Size 2: ', best_hidden_size_2)


Hidden Size 1 :  240 , Hidden Size 2:  237


In [3]:
def process_data(char2id, id2char, dataset):   
# Decode GA solution to integer for batch_size and hidden_size
#     batch_size_bits = BitArray(ga_individual_solution[0:8])
#     batch_size = batch_size_bits.uint
#     print('\nBatch Size: ', batch_size)
    batch_size = 512
    X_data = []
    Y_data = []

    for b in range(len(dataset) // batch_size):
        start = b * batch_size
        end = b * batch_size + batch_size
        batch = [[char2id[c] for c in dataset[i]] for i in range(start, end)]
        maxlen = max(map(len, batch))
        X_batch = np.full((batch_size, maxlen - 1), 0, np.int32)
        Y_batch = np.full((batch_size, maxlen - 1), 0, np.int32)
        for i in range(batch_size):
            X_batch[i, :len(batch[i]) - 1] = batch[i][:-1]
            Y_batch[i, :len(batch[i]) - 1] = batch[i][1:]
        X_data.append(X_batch)
        Y_data.append(Y_batch)
    return X_data, Y_data

In [4]:
#Now we need to train a neural network with these optimized parameters with more epochs and the whole dataset

In [5]:
def split_dataset():
    paths = glob.glob('./dataset/json/poet.*.json')
    poets = []
    for path in paths:
        data = open(path, 'r', encoding='utf-8').read()
        data = json.loads(data)
        #print(data)
        for item in data:
            content = ''.join(item['paragraphs'])
            if len(content)>= 24 and len(content) <= 32:
                content = SnowNLP(content)
                content=content.han
                if len(content)%4==0:
                    poets.append('[' + content + ']')
    print('We have %d Chinese ancient poets' % len(poets), poets[0], poets[-1])
    training_data, validation_data = split(poets, test_size = 0.000001, random_state = 1000)

    return training_data, validation_data

In [6]:
training_data, validation_data = split_dataset()

We have 104147 Chinese ancient poets [欲出未出光辣达，千山万山如火发。须臾走向天上来，逐却残星赶却月。] [书劒催人不暂闲，洛阳羁旅复秦关。容颜岁岁愁边改，乡国时时梦里还。]


In [8]:
training_char2id, training_id2char = prepocess_data(training_data)
validation_char2id, validation_id2char = prepocess_data(validation_data)

import pickle
with open('dictionary.pkl', 'wb') as fw:
    pickle.dump([training_char2id, training_id2char], fw)
X_training_data, Y_training_data = process_data(training_char2id, training_id2char, training_data)
X_validation_data, Y_validation_data = process_data(validation_char2id, validation_id2char, validation_data)

tf.reset_default_graph()
batch_size = 512
num_layer = 2
embedding_size = 256

hidden_size = [240, 237]

X_training= tf.placeholder(tf.int32, [batch_size, None])
Y_training= tf.placeholder(tf.int32, [batch_size, None])
learning_rate = tf.Variable(0.0, trainable=False)
ikeep_prob = tf.placeholder(tf.float32, name='ikeep_prob')
okeep_prob = tf.placeholder(tf.float32, name='okeep_prob')
cell = tf.nn.rnn_cell.MultiRNNCell(
    [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.LSTMCell(hidden_size[i]), input_keep_prob=ikeep_prob, output_keep_prob=ikeep_prob )for i in range(num_layer)], 
    state_is_tuple=True)

initial_state = cell.zero_state(batch_size, tf.float32)
tr_embeddings = tf.Variable(tf.random_uniform([len(training_char2id) + 1, embedding_size], -1.0, 1.0))
tr_embedded = tf.nn.embedding_lookup(tr_embeddings, X_training)
tr_outputs, tr_last_states = tf.nn.dynamic_rnn(cell, tr_embedded, initial_state=initial_state)
tr_outputs = tf.reshape(tr_outputs, [-1, hidden_size[1]])                # batch_size * max_time, hidden_size

training_logits = tf.layers.dense(tr_outputs, units=len(training_char2id) + 1)       # batch_size * max_time, len(char2id) + 1
training_logits = tf.reshape(training_logits, [batch_size, -1, len(training_char2id) + 1]) # batch_size, max_time, len(char2id) + 1
probs = tf.nn.softmax(training_logits)                                   # batch_size, max_time, len(char2id) + 1
loss = tf.reduce_mean(tf.contrib.seq2seq.sequence_loss(training_logits, Y_training, tf.ones_like(Y_training, dtype=tf.float32)))
params = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(loss, params), 5)
optimizer = tf.train.AdamOptimizer(learning_rate).apply_gradients(zip(grads, params))

sess = tf.Session()
sess.run(tf.global_variables_initializer())
Loss=[]
Validation_loss=[]
for epoch in range(50):
    sess.run(tf.assign(learning_rate, 0.0004 * (0.97 ** epoch)))

    data_index = np.arange(len(X_training_data))
    np.random.shuffle(data_index)
    X_training_data = [X_training_data[i] for i in data_index]
    Y_training_data = [Y_training_data[i] for i in data_index]

    losses = []
    validates=[]

    for i in tqdm(range(len(X_training_data))):
        ls_,  _ = sess.run([loss, optimizer], feed_dict={X_training: X_training_data[i], Y_training: Y_training_data[i], ikeep_prob: 0.8, okeep_prob: 0.8})
        losses.append(ls_)
#     for i in tqdm(range(len(X_validation_data))):
#         validate_acc = sess.run([loss], feed_dict={X_training: X_validation_data[i], Y_training: Y_validation_data[i], ikeep_prob: 1, okeep_prob: 1})
#         validates.append(validate_acc)
    Loss.append(np.mean(losses))
    Validation_loss.append(np.mean(validates))
#save model
saver = tf.train.Saver()
saver.save(sess, './GA/50_epoch')

#Now the model has been trained and we want it to generate a poem
with open('dictionary.pkl', 'rb') as fr:
    [char2id, id2char] = pickle.load(fr)

tf.reset_default_graph()
test_batch_size = 1

X = tf.placeholder(tf.int32, [test_batch_size, None])
Y = tf.placeholder(tf.int32, [test_batch_size, None])
learning_rate = tf.Variable(0.0, trainable=False)

cell = tf.nn.rnn_cell.MultiRNNCell(
    [tf.nn.rnn_cell.LSTMCell(hidden_size[i], state_is_tuple=True) for i in range(num_layer)], 
    state_is_tuple=True)
initial_state = cell.zero_state(test_batch_size, tf.float32)

embeddings = tf.Variable(tf.random_uniform([len(char2id) + 1, embedding_size], -1.0, 1.0))
embedded = tf.nn.embedding_lookup(embeddings, X)

outputs, last_states = tf.nn.dynamic_rnn(cell, embedded, initial_state=initial_state)

outputs = tf.reshape(outputs, [-1, hidden_size[1]])
logits = tf.layers.dense(outputs, units=len(char2id) + 1)
probs = tf.nn.softmax(logits)
targets = tf.reshape(Y, [-1])

loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=targets))
params = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(loss, params), 5)
optimizer = tf.train.AdamOptimizer(learning_rate).apply_gradients(zip(grads, params))

sess = tf.Session()
sess.run(tf.global_variables_initializer())
saver = tf.train.Saver()
saver.restore(sess, tf.train.latest_checkpoint('./GA'))

def poetry_generate_with_topic(head):
    states_ = sess.run(initial_state)
    gen = ''
    c = '['
    i = 0
    while c != ']':
        gen += c
        x = np.zeros((test_batch_size, 1))
        x[:, 0] = char2id[c]
        probs_, states_ = sess.run([probs, last_states], feed_dict={X: x, initial_state: states_})
        probs_ = np.squeeze(probs_)
        pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))
        while pos not in id2char:
            pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))

        c = id2char[pos]
        if i<len(head):
            c=head[i]
            i+=1

    return gen[1:]

print('Validation_loss = ', Validation_loss[-1])
print('Loss = ', Loss[-1])
print(poetry_generate_with_topic('边塞'))

We have 3391676 words
We have 8010 different words in dataset
We have 34 words
We have 32 different words in dataset


100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:06<00:00,  3.10it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.10it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.08it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.10it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:07<00:00,  3.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 203/203 [01:05<00:00,  3.09it/s]
100%|███████████████████████████████████

INFO:tensorflow:Restoring parameters from ./GA\50_epoch
Validation_loss =  nan
Loss =  4.711365
边塞深携处主由，晚风一枕胜花残。时年一夜无人疎，亦喜当时一日看。


In [9]:
print(poetry_generate_with_topic('边塞'))

边塞晚江烟不醒，犯涛烟叶共闲风。回亭草里能闻柳，何忧今来解手篇。


In [10]:
print(poetry_generate_with_topic('边塞'))

边塞无人识道心，无殊和彻作平明。今朝莫费空身好，鲁答伤乘又偶慙。


In [12]:
print(poetry_generate_with_topic('长歌'))

长歌幸结瑞孱芽，醉尽灵田定太平。贤口已登轩久了，我渠自说下唐仙。


In [15]:
print(poetry_generate_with_topic('大漠'))

大漠山扃一日开，小舟飞泊碧瑶台。佳人何日飘为醉，卧待烟阴月上风。


In [16]:
print(poetry_generate_with_topic('临安'))

临安略远几时言，萤散峰头数隐路。诸子可怜年下相，三生千里西江去。


In [19]:
print(poetry_generate_with_topic('靖康'))

靖康门去好词初，月里巖台广铁肤。台下元来犹异入，自披扶笛进封朝。


In [20]:
print(poetry_generate_with_topic('楼兰'))

楼兰北静入无车，竹粉摇暄尚凭花。金烛忽盐清碧嶂，犹劳藕雨睡晨凉。


In [21]:
def poetry_generate():
    states_ = sess.run(initial_state)
    
    gen = ''
    c = '['
    while c != ']':
        gen += c
        x = np.zeros((test_batch_size, 1))
        x[:, 0] = char2id[c]
        probs_, states_ = sess.run([probs, last_states], feed_dict={X: x, initial_state: states_})
        probs_ = np.squeeze(probs_)
        pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))
        while pos not in id2char:
            pos = int(np.searchsorted(np.cumsum(probs_), np.random.rand() * np.sum(probs_)))

        c = id2char[pos]
    
    return gen[1:]
    #t.delete('1.0','end')
    #t.insert("insert", gen[1:])

In [26]:
print(poetry_generate())
print(poetry_generate())
print(poetry_generate())
print(poetry_generate())

洛川不见愁西架，淮雨乾髅上故船。寺里相逢鹤留大，松关水宇且钻衣。
禅家旧二茆芷群，最孝觚裳滋未传。想照清江和虺决，拜之随祸在冰中。
石舫俱人对白云，少年修壤病流频。我来坐引人劳说，万象情间箇事愁。
莫臾摇到翠云中，抵白波头拥玉池。再羨渠吹白青马，行人精海不能还。


In [28]:
print(poetry_generate())
print(poetry_generate())
print(poetry_generate())
print(poetry_generate())

雨散山光水芋礽，聚中时复洗人舟。旧人一曲幷前着，得尽佳心泛泪斜。
臙萸火瀑每依骚，散腹仙和曳宇中。骑梓行人宜奉比，为君安买一株涂。
菊花射我江霄水，吾故有他何处圆。商郎晚中诗语否，也听射文诗夫歌。
独送扁舟五海东，昭关太守百年炎。汉家承学羣恩制，细取深斋寄垒阳。
