In [1]:
#-------------
# from github Dodo
# 2019-7-7
# harry_potter_lstm.py 训练模型
#   generate_text.py: 文本生成
#   训练结果：（给定首字母"Hi, "）
#   Hi, he was nearly off at Harry to say the time that and she had been back to his staircase of the too the Hermione?

In [1]:
import tensorflow as tf
import numpy as np

In [4]:
# load data 
def LoadData(filename):
    # param:
    #      filename - 读取的文件名字
    # return:
    #      vocab:     文本包含的所有字符集合
    #      vocab2Int: 字符到编码的映射
    #      int2Vocab: 编码到字符的集合
    #      encode:    编码后的文本
    text = open(filename,encoding = 'utf-8').read()
    
    # 放进集合，集合乱序并且是只出现一次
    vocab      = set(text)
    vocabList  = list(vocab)
    vocabList.sort()
    
    # 词 ->index
    vocab2Int = {word:index for index,word in enumerate(vocabList)}
    
    #index->词
    int2Vocab = {index:word for word,index in vocab2Int.items()}
    
    #encoding for the file
    encode = np.array([vocab2Int[word] for word in text])
    return vocab,vocab2Int,int2Vocab,encode

In [5]:
def get_patch(input_data,n_seqs,n_sequence_length):
    # para:
    #   input_data/np.array : 等待拆分的数据
    #   n_seqs     : 一个batch中多少个样本/一个batch中含有几句话/句子的数目
    #   n_sequence_length: 一段话的长度/一段话中有多少个字符/一个样本中有多少字符
    
    # 一个batch的size 是句子数目* 每个句子的长度
    batch_size  = n_seqs*n_sequence_length
    
    # input_data中能分词多少个batch
    batch_num = len(input_data)//batch_size # //取到整数
    
    # 获取整数个batch_size的input_data,不够一个batchsize的丢掉
    input_data = input_data[: batch_num*batch_size]
    
    # 将数据inputdata变成n_seqs行的二维数组,列数表示的是样本长度
    # 取一个batch的数据相当于行n_seqs 不变，在列的索引位置上量出n_sequence_length长度切一刀
    input_data = input_data.reshape(n_seqs,-1) # 列数不限制
    
    # 获取batch data
    for i in range(0,input_data.shape[1],n_sequence_length):
        x = input_data[:,i:i+n_sequence_length]
        y = np.zero_like(x)
        
        # LSTM的前一个输出y是后一个输入x,所有x和y实际上是错开一位的
        #下面将x向前移动一位转成y
        y[:,: -1] = x[:,1:]  # 将x第2列及以后的元素放到y第一列开始的位置
        y[:,-1]   = x[:,0]   # 将x的第1列放到y的最后1列的位置
        
        yield x,y

In [6]:
def model_input(n_seqs,n_sequence_length):
    # para:
    #    n_seqs: 每个输入的样本输入
    #    n_sequence_length: 每个样本的长度
    # return:
    #
    # 初始的两个占位
    #  输入的样本大小是n_seqs*n_sequence_length
    #  因为每个字符会对应灭个字符的输出，所以target 和input 大小一致
    inputs = tf.placeholder(dtype = tf.int32,shape = (n_seqs,n_sequence_length), name = 'inputs')
    target = tf.placeholder(dtype = tf.int32,shape = (n_seqs,n_sequence_length),name = 'target')
    
    return inputs,target

In [7]:
def model_lstm(lstm_unit_nums,keep_prob,nums_layers,n_seqs):
    # param:
    # lstm_unit_nums: 每个Lstm节点中的隐藏节点的个数
    # keep_prob :     drop 的比例
    # nums_layers:    lstm的层数目
    # n_seqs:         每次传入的样本的个数
    # 
    # 在老版本的tensorflow上搭建LStm的过程: 1.先新建一个lstm节点，然后给节点添加drop，然后把节点转换成列表传入
    # MultiRNNCell上
    # 在当前的tensorflow版本上，需要这样
    #    创建一个列表，如果创建3层lstm,那么要初始化3个lstm节点，添加drop并放入列表中，在通过MultiRNNcell 生成
    #    
    # 创建列表，后续生成的节点都放到这个节点里
    lstm = []
    # 循环创建层
    for i in range(nums_layers):
        # 单独创建一层的lstm节点
        cell = tf.nn.rnn_cell.BasicLSTMCell(num_units = lstm_unit_nums)
        
        #添加drop
        drop = tf.nn.run_cell.DropoutWrapper(cell = cell,output_keep_prob = keep_prob)
        lstm.append(drop)
    
    # 搭建多lstm
    cell = tf.nn.rnn_cell.MultiRNNCell(lstm)
    #初始化输入状态
    init_state = cell.zero_state(batch_size = n_seqs, dtype=tf.float32)
    return cell,init_state

In [8]:
# model_output
def model_output(lstm_out,in_size,out_size):
    '''
    模型输出: lstm的输出后再通过softmax运算
    模型输入矩阵的大小是n_seqs * n_sequence_length,lstm的隐层节点是lstm_unit_nums,所有lstm的输出大小是:
    [n_seqs,n_sequence_length,lstm_unit_nums].这里需要转成二维: [n_seqs*n_sequence_length,lstm_unit_nums]
    
    中间权重w层应该是 [lstm_unit_nums,len(vocab)]
    
    softmax层输出的大小是:len(vocab)
    
    params:
        lstm_out: lstm的输出,在这里len(vocab)
        in_size:  lstm输出的大小，在这里是lstm_unit_nums
        out_size: len(vocab) 词汇表大小
    '''
    # 先将lstm的三维的output转成2维
    lstm_out = tf.reshape(lstm_out,shape = (-1,in_size))  # in_size = lstm_unit_nums 
    
    # tensorflow 提供variable_scope 来共享变量
    with tf.variable_scope("softmax"):
        softmax_w = tf.Variable(tf.truncated_normal(shape= (in_size,out_size)),
                                stddev=0.1,dtype=tf.float32,name= 'softmax_w')
        softmax_b = tf.Variable(tf.zeros(shape = (out_size)), dtype = tf.float32,name = 'softmax_b')
        
    # 计算输出
    logits = tf.matmul(lstm_out,softmax_w) + softmax_b
    # 计算输出的softmax
    output = tf.nn.softmax(logits)
    
    return output,logits

In [9]:
# mode loss 计算交叉熵
def model_loss(target,logits,num_class):
    # 计算交叉熵
    #  target：标签
    #  logits:预测输出
    #  num_class: 字符的种类数目
    #
    # 将target 生成one_hot编码
    y_one_hot = tf.one_hot(target,num_class)
    
    # 计算损失
    loss = tf.nn.softmax_cross_entropy_with_logits(label = y_one_hot,logits = logits)
    loss = tf.reduce_mean(loss)
    return loss

In [11]:
def model_optimizer(learning_rate,loss,clip_val):
    # param
    # learning_rate:学习率
    # loss :损失函数
    # clip_val: 为了避免梯度爆炸而使用裁剪梯度
    pass