# 利用lstm进行生成莫言小说——keras实现方法
**注：该项目提供了keras建模的示例，除模型构建外，其余部分相同**
## 1. 项目背景
这个项目是建立一个能够自动生成一片文章的深度学习模型，我们可以通过给出钱几个字就自动生成一篇文章的模型。

## 2. 项目数据
项目数据使用了莫言小说《生死疲劳》，内容如下：

In [1]:
# ========读取原始数据========
with open('data.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()
print(data[0])

　　我的故事，从1950年1月1日讲起。在此之前两年多的时间里，我在阴曹地府里受尽了人间难以想象的 酷刑。每次提审，我都会鸣冤叫屈。我的声音悲壮凄凉，传播到阎罗大殿的每个角落，激发出重重叠叠的 回声。我身受酷刑而绝不改悔，挣得了一个硬汉子的名声。我知道许多鬼卒对我暗中钦佩，我也知道阎王 老子对我不胜厌烦。为了让我认罪服输，他们使出了地狱酷刑中最歹毒的一招，将我扔到沸腾的油锅里， 翻来覆去，像炸(又鸟)一样炸了半个时辰，痛苦之状，难以言表。鬼卒还用叉子把我叉起来，高高举着， 一步步走上通往大殿的台阶。两边的鬼卒嘬口吹哨，如同成群的吸血蝙蝠鸣叫。我的身体滴油淅沥，落在 台阶上，冒出一簇簇黄烟……鬼卒小心翼翼地将我安放在阎罗殿前的青石板上，跪下向阎王报告：“大王 ，炸好了。”



## 3. 数据处理
### 3.1数据清洗
**首先需要将括号里的内容删除掉。**

In [2]:
import re
# 生成一个正则，负责找'()'包含的内容
pattern = re.compile(r'\(.*\)')
# 将其替换为空
data = [pattern.sub('', lines) for lines in data]
print(data[0])

　　我的故事，从1950年1月1日讲起。在此之前两年多的时间里，我在阴曹地府里受尽了人间难以想象的 酷刑。每次提审，我都会鸣冤叫屈。我的声音悲壮凄凉，传播到阎罗大殿的每个角落，激发出重重叠叠的 回声。我身受酷刑而绝不改悔，挣得了一个硬汉子的名声。我知道许多鬼卒对我暗中钦佩，我也知道阎王 老子对我不胜厌烦。为了让我认罪服输，他们使出了地狱酷刑中最歹毒的一招，将我扔到沸腾的油锅里， 翻来覆去，像炸一样炸了半个时辰，痛苦之状，难以言表。鬼卒还用叉子把我叉起来，高高举着， 一步步走上通往大殿的台阶。两边的鬼卒嘬口吹哨，如同成群的吸血蝙蝠鸣叫。我的身体滴油淅沥，落在 台阶上，冒出一簇簇黄烟……鬼卒小心翼翼地将我安放在阎罗殿前的青石板上，跪下向阎王报告：“大王 ，炸好了。”



In [3]:
# 将.....替换为句号
data = [line.replace('……', '。') for line in data if len(line) > 1]
print(data[0])

　　我的故事，从1950年1月1日讲起。在此之前两年多的时间里，我在阴曹地府里受尽了人间难以想象的 酷刑。每次提审，我都会鸣冤叫屈。我的声音悲壮凄凉，传播到阎罗大殿的每个角落，激发出重重叠叠的 回声。我身受酷刑而绝不改悔，挣得了一个硬汉子的名声。我知道许多鬼卒对我暗中钦佩，我也知道阎王 老子对我不胜厌烦。为了让我认罪服输，他们使出了地狱酷刑中最歹毒的一招，将我扔到沸腾的油锅里， 翻来覆去，像炸一样炸了半个时辰，痛苦之状，难以言表。鬼卒还用叉子把我叉起来，高高举着， 一步步走上通往大殿的台阶。两边的鬼卒嘬口吹哨，如同成群的吸血蝙蝠鸣叫。我的身体滴油淅沥，落在 台阶上，冒出一簇簇黄烟。鬼卒小心翼翼地将我安放在阎罗殿前的青石板上，跪下向阎王报告：“大王 ，炸好了。”



In [4]:
# ==============判断char是否是乱码===================
def is_uchar(uchar):
    """判断一个unicode是否是汉字"""
    if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
            return True
    """判断一个unicode是否是数字"""
    if uchar >= u'\u0030' and uchar<=u'\u0039':
            return True       
    """判断一个unicode是否是英文字母"""
    if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
            return True
    if uchar in ('，','。','：','？','“','”','！','；','、','《','》','——'):
            return True
    return False

# 将每行的list合成一个长字符串
data = ''.join(data)
data = [char for char in data if is_uchar(char)]
data = ''.join(data)
print(data[:100])

我的故事，从1950年1月1日讲起。在此之前两年多的时间里，我在阴曹地府里受尽了人间难以想象的酷刑。每次提审，我都会鸣冤叫屈。我的声音悲壮凄凉，传播到阎罗大殿的每个角落，激发出重重叠叠的回声。我身受酷


### 3.2 生成字典
我们需要将汉字映射为能够输入到模型中的数字信息，就需要建立一个映射关系，需要生成汉字和数字互相映射的字典。

In [5]:
# =====生成字典=====
vocab = set(data)
id2char = list(vocab)
char2id = {c:i for i,c in enumerate(vocab)}

print('字典长度:', len(vocab))

字典长度: 3892


### 3.3 转换输入数据格式
建立字典后，将文本数据映射为数字数据形式，并整理为矩阵格式。

In [6]:
import numpy as np
# =====转换数据为数字格式======
numdata = [char2id[char] for char in data]
numdata = np.array(numdata)

print('数字数据信息：\n', numdata[:100])
print('\n文本数据信息：\n', ''.join([id2char[i] for i in numdata[:100]]))

数字数据信息：
 [ 801 1153  901 2708  752 3693 1255 2756 1876  983 2434 1255  727 1255
  413 2309  811 2192  295 1618 1469 1571 2228 2434 1248 1153   73 1204
 1975  752  801  295 3086 2303  838 1284 1975 1956 1714  305 3231 1204
 1411  214  595 2139 1153 2694 1815 2192 1281  479 3437 1034  752  801
 1721    2 2757 2207 3174  920 2192  801 1153 2774  689 2747 3765 2943
  759  752  855 3324 3733 2470 3109 2698 1889 1153 1281   35  559 1695
  752 1004 2718  625 3417 3417 2900 2900 1153 3127 2774 2192  801  210
 1956 2694]

文本数据信息：
 我的故事，从1950年1月1日讲起。在此之前两年多的时间里，我在阴曹地府里受尽了人间难以想象的酷刑。每次提审，我都会鸣冤叫屈。我的声音悲壮凄凉，传播到阎罗大殿的每个角落，激发出重重叠叠的回声。我身受酷


### 3.4 设计数据生成器
这篇文章有几十万个字：

In [7]:
print(len(data))

377480


In [21]:
# =======设计数据生成器=========
def data_generator(data, batch_size, time_stpes):
	samples_per_batch = batch_size * time_stpes
	batch_nums = len(data) // samples_per_batch
	data = data[:batch_nums*samples_per_batch]
	data = data.reshape((batch_size, batch_nums, time_stpes))
	for i in range(batch_nums):
		x = data[:, i, :]
		y = np.zeros_like(x)
		y[:, :-1] = x[:, 1:]
		try:
			y[:, -1] = data[:, i+1, 0]
		except:
			y[:, -1] = data[:, 0, 0]
		yield x, y

# 打印输出数据
data_batch = data_generator(numdata, 2, 5)
x, y = next(data_batch)
print('input data:', x[0], '\noutput data:', y[0])

input data: [ 801 1153  901 2708  752] 
output data: [1153  901 2708  752 3693]


In [None]:
# 将y转化为onehot格式
def onehot(y):
	y_onehot = np.zeros(shape=(y.shape[0], y.shape[1], VOCAB_SIZE))
	for i in range(y.shape[0]):
		for j in range(y.shape[1]):
			y_onehot[i][j][y[i][j]] = 1
	return y_onehot
print('y:', y)
y = onehot(y)
print('onehot:', y)

## 4. 模型选择与建模
我们选择rnn来作为文本生成模型结构如下：
![image.png](attachment:image.png)
我们选择lstm来做为其中的隐藏层：
![image.png](attachment:image.png)
### 4.1 使用keras进行建模：

In [17]:
from keras.models import Model
from keras.layers import Input, LSTM, Dense, Dropout, Embedding
from keras import regularizers
from keras.optimizers import Adam
import numpy as np
# ====================================搭建模型===================================
class RNNModel():
    """docstring for RNNModel"""
    def __init__(self, BATCH_SIZE, HIDDEN_SIZE, HIDDEN_LAYERS, VOCAB_SIZE):
        inputs = Input(shape=(None,))
        emb_inp = Embedding(output_dim=HIDDEN_SIZE, input_dim=VOCAB_SIZE, input_length=None)(inputs)
        for i in range(HIDDEN_LAYERS):
            emb_inp = LSTM(HIDDEN_SIZE, activation='relu', return_sequences=True, dropout=0.2)(emb_inp)
        output = Dense(VOCAB_SIZE, activation='softmax', kernel_regularizer=regularizers.l2(0.01))(emb_inp)
        model = Model(inputs=inputs, outputs=output)

        # ============训练所需损失函数==========
        opt = Adam(lr=0.003, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
        model.summary()
        self.model = model
        
    def train(self, x, y):
        
        self.model.fit(x, y)
    
    def test(self, x_initial):
        x_test = x_initial
        for i in range(100):
            y_pre = self.model.predict(x_test)
            index = np.argmax(y_pre, 2)
            x_test = np.concatenate((x_initial, index), axis=1)
        x_test = np.reshape(x_test, (-1,))
        print(''.join([id2char[i] for i in x_test]))

### 4.2 定义训练参数及模型参数：

In [18]:
VOCAB_SIZE = len(id2char)
EPOCHS = 50
BATCH_SIZE = 8
TIME_STEPS = 100
BATCH_NUMS = len(numdata) // (BATCH_SIZE * TIME_STEPS)
HIDDEN_SIZE = 512
HIDDEN_LAYERS = 2
MAX_GRAD_NORM = 1
learning_rate = 0.003

### 4.3 模型训练和测试

In [20]:
data_batch = data_generator(numdata, BATCH_SIZE, TIME_STEPS)
novel = RNNModel(BATCH_SIZE, HIDDEN_SIZE, HIDDEN_LAYERS, VOCAB_SIZE)
for i in range(BATCH_NUMS):
    x, y = next(data_batch)
    y = onehot(y)
    novel.train(x, y)

x_initial = np.zeros((1,1), dtype=int) + 8
novel.test(x_initial)

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_4 (InputLayer)         (None, None)              0         
_________________________________________________________________
embedding_4 (Embedding)      (None, None, 512)         1992704   
_________________________________________________________________
lstm_7 (LSTM)                (None, None, 512)         2099200   
_________________________________________________________________
lstm_8 (LSTM)                (None, None, 512)         2099200   
_________________________________________________________________
dense_4 (Dense)              (None, None, 3892)        1996596   
Total params: 8,187,700
Trainable params: 8,187,700
Non-trainable params: 0
_________________________________________________________________
Epoch 1/1
稚，。。。，，的。，的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，的，的的。，，的的。，
