# Генерация текста с помощью LSTM-сетей

Сеть способна выучить распределение символов в последовательностях


Датасет формируем проходясь окном по текстовому корпусу, задача сети - предсказывать следующий символ на основании нескольких предыдущих.
Данный подход можно улучшить, используя только отдельные предложения с паддингами.

In [1]:
import tensorflow as tf
import numpy as np

from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, LSTM, Bidirectional, Dropout
from tensorflow.keras.callbacks import ModelCheckpoint
from tensorflow.keras.optimizers import Adam

In [3]:
import pandas as pd
from sqlalchemy import create_engine
from tqdm import tqdm

### 0. Получение данных для обучения

Для обучения используется датасет российских новостей, который я храню в локальной бд.

In [5]:
engine = create_engine('postgresql+psycopg2://postgres:mypassword@192.168.1.174/process_text_processing')

In [46]:
# данные в бд достаточно "сырые" - могут включать символы практически всех языков, куча юникода и эмодзи
# регулярное выражение позволяет оставить только буквы русского алфавита, пунктуацию и пробелы
data = pd.read_sql("""
    SELECT "text" FROM textdocuments WHERE "text" ~ '^[а-яА-ЯёЁ[:punct:]\s]+$' OFFSET 4000 LIMIT 4000
""", engine)

### 1. Вспомогательные функции:
+ Визуализация процесса обучения
    + Сможем посмотреть, как меняется качество с течением времени
+ Колбек ModelCheckpoint
    + Процесс обучения LSTM сетей достаточно длинный. Будет обидно, если из-за непредвиденного сбоя потеряется прогресс за многие часы обучения
+ Колбек динамической подстройки размера батча и learning rate
    + Подстраивать LR это уже стандартная практика, а я хочу ещё и размер батча менять: предположу, что большой батч позволит дать некое "обобщённое" представление о распределении символов, а маленький батч улучшит "грамотность".



In [4]:
import matplotlib.pyplot as plt


def plot_graphs(history, string):
    plt.plot(history.history[string])
    plt.xlabel("Epochs")
    plt.ylabel(string)
    plt.show()

### 3. Предобработка и создание датасета

Для тренировки LSTM модели я не буду менять регистр или избавляться от небуквенных символов, однако понадобится немного поработать с форматами

In [47]:
# Понадобится разбить тексты на предложения. Ранее я уже экспериментировал с разбиением
corpus = [t.split("\n") for t in data.text]
# весь текст одной "портянкой"
raw_text = " ".join(data.text)

In [9]:
chars = sorted(list(set(raw_text)))
char_to_int = dict((c, i+1) for i, c in enumerate(chars))
int_to_char = dict((i+1, c) for i, c in enumerate(chars))
tf.keras.preprocessing.text.Tokenizer(
    num_words=None, # не ограничиваем количество токенов
    filters='\t', # фильтрацию не используем за исключением табов (могут попадаться)
    lower=False, # не меняем регистр 
    split=' ', 
    char_level=True, # ставим флаг посимвольного кодирования, иначе словарь слишком велик 
    oov_token="<OOV>",
    **kwargs
)


In [67]:

tokenizer.fit_on_texts(corpus)
total_words = len(tokenizer.word_index) + 1

In [68]:
print(total_words)
total_words = 100000

177274


In [None]:
input_sequences = []
for line in corpus:
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

In [11]:
# pad sequences 
# max_sequence_len = max([len(x) for x in input_sequences])
max_sequence_len = 40
print(max_sequence_len)

40


In [12]:
input_sequences = np.array(pad_sequences(input_sequences[:300000], maxlen=max_sequence_len, padding='pre'))

In [None]:
# create predictors and label
xs, labels = input_sequences[:,:-1],input_sequences[:,-1]

ys = tf.keras.utils.to_categorical(labels, num_classes=total_words)

In [None]:
model = Sequential()
model.add(Embedding(total_words, 64, input_length=max_sequence_len-1))
model.add(Bidirectional(LSTM(20)))
model.add(Dense(total_words, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
history = model.fit(xs, ys, epochs=500, verbose=1)

In [None]:
plot_graphs(history, 'accuracy')

In [None]:
seed_text = ""
next_words = 100
  
for _ in range(next_words):
    token_list = tokenizer.texts_to_sequences([seed_text])[0]
    token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
    predicted = model.predict_classes(token_list, verbose=0)
    output_word = ""
    for word, index in tokenizer.word_index.items():
        if index == predicted:
            output_word = word
            break
    seed_text += " " + output_word
print(seed_text)

----------

In [48]:
# summarize the loaded data
n_chars = len(raw_text)
n_vocab = len(chars)
print("Total Characters: ", n_chars)
print("Total Vocab: ", n_vocab)

Total Characters:  4082927
Total Vocab:  88


In [49]:
# prepare the dataset of input to output pairs encoded as integers
seq_length = 100
dataX = []
dataY = []
for i in tqdm(range(0, n_chars - seq_length, 1)):
    seq_in = raw_text[i:i + seq_length]
    seq_out = raw_text[i + seq_length]
    dataX.append([char_to_int.get(char, 0) for char in seq_in])
    dataY.append(char_to_int.get(seq_out, 0))
    
n_patterns = len(dataX)
print("Total Patterns: ", n_patterns)

100%|██████████| 4082827/4082827 [00:58<00:00, 69885.37it/s]

Total Patterns:  4082827





In [50]:
# reshape X to be [samples, time steps, features]
X = np.reshape(dataX, (n_patterns, seq_length, 1))
# normalize
X = X / float(n_vocab)
# one hot encode the output variable
y = tf.keras.utils.to_categorical(dataY)

In [13]:
del dataX

In [14]:
# define the LSTM model
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2])))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))

In [None]:
# load the network weights
# filename = "weights-improvement-19-1.9435.hdf5"
# model.load_weights(filename)

In [15]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [17]:
history = model.fit(X, y, epochs=5, verbose=1)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [None]:
plot_graphs(history, 'accuracy')

In [13]:
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
history = model.fit(X, y, epochs=5, verbose=1, batch_size=100)

Epoch 1/5

In [41]:
model.save('lstm2layer_model')



INFO:tensorflow:Assets written to: lstm2layer_model/assets


INFO:tensorflow:Assets written to: lstm2layer_model/assets


In [42]:
# pick a random seed
start = np.random.randint(0, len(dataX)-1)
pattern = dataX[start]
print("Seed:")
print("\"", ''.join([int_to_char[value] for value in pattern]), "\"")

Seed:
"  дороги, а потом должен платить как все, где тут стимул для инвестиций?» — цитирует его заявление на "


In [43]:
composition = ""

In [44]:
# generate characters
for i in range(1000):
    x = np.reshape(pattern, (1, len(pattern), 1))
    x = x / float(n_vocab)
    prediction = model.predict(x, verbose=0)
    index = np.argmax(prediction)
    result = int_to_char[index]
    seq_in = [int_to_char[value] for value in pattern]
    composition += result
    pattern.append(index)
    pattern = pattern[1:len(pattern)]
print( "\nDone.")


Done.


In [19]:
seq_in

['в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в',
 'к',
 'и',
 ' ',
 'п',
 'о',
 'с',
 'т',
 'а',
 'в']

In [45]:
composition

' пресс-службе президента РФ России Владимир Путин. «Мо поставки продолжать продукции в состав продовольственного продажи в состав продовольственного продажи в составе продукции в составе продукции в составе продукции в составе продукции в составе проблема в составе продукции в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в составе проблема в