In [1]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.metrics import top_k_categorical_accuracy
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.layers import *
from tensorflow.nn import weighted_cross_entropy_with_logits
from sklearn.utils.class_weight import compute_class_weight
from tensorflow.data import Dataset

import os
import re
import glob
import random
import numpy as np
import tensorflow as tf

In [2]:
physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(physical_devices[0], True)

In [3]:
remove = ['\u200e', '[', ']', '(', ')', '\x98', '́', '\r']
replace = {
    '»': '"',
    '«': '"',
    '“': '"',
    '„': '"',
    '...': '…',
}

def preprocess_str(string):
    string = string.lower()
    for x in remove:
        string = string.replace(x, '')
    for key, value in replace.items():
        string = string.replace(key, value)
    string = re.sub(r' +', ' ', string)
    string = string.replace('\n ', '\n')
    string = re.sub(r'[. ]{2,}', '. ', string)
    return string

chars = set()
for path in glob.glob('poems/*.txt'):
    with open(path, 'rb') as f:
        text = preprocess_str(f.read().decode('utf-8'))
    chars.update(list(text))

corpus = {value: i for i, value in enumerate(sorted(chars))}
corpus_inv = {value: key for key, value in corpus.items()}

In [5]:
window_size = 100
min_chars = 50
batch_size = 64

In [6]:
def read_n_poems(n=None):
    text = ''
    for path in glob.glob('poems/*.txt')[:n]:
        with open(path, 'rb') as f:
            text += preprocess_str(f.read().decode('utf-8'))
            
    total_chars = len(text)
    total_words = len(text.split(' '))
    text_as_int = [corpus[c] for c in text]
    
    ds = Dataset.from_tensor_slices(text_as_int)
    ds = ds.batch(window_size + 1, drop_remainder=True).map(lambda x: (x[:-1], x[1:]))
    
    print(f'Всего прочитано сивмолов: {total_chars}')
    print(f'Всего прочитано слов: {total_words}')
    
    return ds.shuffle(8096).batch(batch_size, drop_remainder=True)

dataset = read_n_poems()

Всего прочитано сивмолов: 442263
Всего прочитано слов: 55780


In [7]:
def build_model(batch_size):
    return Sequential([
        Embedding(len(corpus), 256, batch_input_shape=[batch_size, None]),
        LSTM(1024, return_sequences=True, stateful=True),
        Dense(len(corpus)),
    ])

def loss(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

model = build_model(batch_size)
model.compile('adam', loss=loss)

In [10]:
%%time 

history = model.fit(
    dataset,
    epochs=20,
    callbacks=[
        tf.keras.callbacks.ModelCheckpoint(
            filepath=os.path.join('training_checkpoints', 'ckpt_{epoch}'),
            save_weights_only=True,
        )
    ],
    verbose=0,
)

Wall time: 1min 54s


In [12]:
model = build_model(1)
model.load_weights(tf.train.latest_checkpoint('training_checkpoints'))
model.build(tf.TensorShape([1, None]))

In [13]:
def generate_text(model, start_string):
    num_generate = 500
    input_eval = [corpus[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)
    text_generated = []
    model.reset_states()
    
    for i in range(num_generate):
        predictions = model(input_eval)
        predictions = tf.squeeze(predictions, 0)
        predictions *= 1
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()
        input_eval = tf.expand_dims([predicted_id], 0)
        text_generated.append(corpus_inv[predicted_id])

    return (start_string + ''.join(text_generated))

In [14]:
print(generate_text(model, "а"))

ай-чалься царого,
кого в блещет пустынными думая, гордости ударит;
но еду ли весны, ты снова доржен.
не ль блажен ов нем торзою —
не знал любви —
и тень кружить отоспеси;
как.
прости, взгляну черней зара в
востих обходят, можгорец
в графодской минуты певец,
мир воинственные детра в рощах досужиеб развялох, пью здавись и прекрасной
он блажен, как луна, уж пальбины,
иль трепетный холодной могила,
и, проть тя.кто с киним, вянет лико нас окно
останонь дворя - и шум призывали
утохлат; на зарею велечая
