In [1]:
import numpy as np
from keras.layers import Dense, Activation
from keras.layers.recurrent import SimpleRNN, LSTM, GRU
from keras.models import Sequential

Using TensorFlow backend.


In [2]:
# построчное чтение из примера с текстом 
with open("pochtamt.txt", 'rb') as _in:
    lines = []
    for line in _in:
        line = line.strip().lower().decode("utf-8","ignore")
        if len(line) == 0:
            continue
        lines.append(line)
text = " ".join(lines)
chars = set([c for c in text])
nb_chars = len(chars)

# создание индекса символов и reverse mapping чтобы передвигаться между значениями numerical
# ID and a specific character. The numerical ID will correspond to a column
# ID и определенный символ. Numerical ID будет соответсвовать колонке
# число при использовании one-hot кодировки для представление входов символов
char2index = {c: i for i, c in enumerate(chars)}
index2char = {i: c for i, c in enumerate(chars)}

# для удобства выберете фиксированную длину последовательность 10 символов 
SEQLEN, STEP = 50, 1
input_chars, label_chars = [], []

# конвертация data в серии разных SEQLEN-length субпоследовательностей
for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i: i + SEQLEN])
    label_chars.append(text[i + SEQLEN])


# Вычисление one-hot encoding входных последовательностей X и следующего символа (the label) y

X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

In [6]:
# установка ряда метапамертров  для нейронной сети и процесса тренировки
BATCH_SIZE, HIDDEN_SIZE = 128, 128
NUM_ITERATIONS = 100
NUM_EPOCHS_PER_ITERATION = 2
NUM_PREDS_PER_EPOCH = 100

In [7]:
model = Sequential()
model.add(
    LSTM(  # вы можете изменить эту часть на LSTM или SimpleRNN, чтобы попробовать альтернативы
        HIDDEN_SIZE,
        return_sequences=False,
        input_shape=(SEQLEN, nb_chars),
        unroll=True
    )
)
model.add(Dense(nb_chars))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

In [8]:
# выполнение серий тренировочных и демонстрационных итераций 
for iteration in range(NUM_ITERATIONS):

    # для каждой итерации запуск передачи данных в модель 
    print("=" * 50)
    print("Итерация #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)

    # Select a random example input sequence.
    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]

    # для числа шагов предсказаний использование текущей тренируемой модели 
    # конструирование one-hot encoding для тестирования input и добавление предсказания.
    print("Генерация из посева: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):

        # здесь one-hot encoding.
        X_test = np.zeros((1, SEQLEN, nb_chars))
        for j, ch in enumerate(test_chars):
            X_test[0, j, char2index[ch]] = 1

        # осуществление предсказания с помощью текущей модели.
        pred = model.predict(X_test, verbose=0)[0]
        y_pred = index2char[np.argmax(pred)]

        # вывод предсказания добавленного к тестовому примеру 
        print(y_pred, end="")

        # инкрементация тестового примера содержащего предсказание
        test_chars = test_chars[1:] + y_pred
print()

Итерация #: 0
Epoch 1/2
Epoch 2/2
Генерация из посева:  имел, на что согласился. Зона 9 была самым здоров
Итерация #: 1
Epoch 1/2
Epoch 2/2
Генерация из посева: . Потом я поджег почтамт. Меня отправили сортирова
Итерация #: 2
Epoch 1/2
Epoch 2/2
Генерация из посева: отел стать хорошим фарцем. Такое ей не нравилось. 
Итерация #: 3
Epoch 1/2
Epoch 2/2
Генерация из посева: сь о мою. – Нормально. Меня зовут Хэнк. – Я Мэри-Л
Итерация #: 4
Epoch 1/2
Epoch 2/2
Генерация из посева: этому проверять меня им было удобно. Мы с Бетти пр
Итерация #: 5
Epoch 1/2
Epoch 2/2
Генерация из посева: е мастерские. Старушенция – просто-напросто еще од
Итерация #: 6
Epoch 1/2
Epoch 2/2
Генерация из посева: и! Бетти! С тобой все в порядке? Я повернул ручку.
Итерация #: 7
Epoch 1/2
Epoch 2/2
Генерация из посева:  – за выхухоля, полтора – за нутрию и двадцать пят
Итерация #: 8
Epoch 1/2
Epoch 2/2
Генерация из посева: шеизложенному нижеследующие детали Вашего послужно
Итерация #: 9
Epoch 1/2
Epoch 2/2
Генерация из

Итерация #: 35
Epoch 1/2
Epoch 2/2
Генерация из посева: Если б елка обожгла ей сиськи или сраку, она б ее 
Итерация #: 36
Epoch 1/2
Epoch 2/2
Генерация из посева: ском Участке, и везде. Даже сменщики сказывались б
Итерация #: 37
Epoch 1/2
Epoch 2/2
Генерация из посева: ило, но сделать с ним я ничего не мог. Лишь пыхтел
Итерация #: 38
Epoch 1/2
Epoch 2/2
Генерация из посева: е сиськи нараспашку? – Да, СИСЬКИ! Ее здоровенное 
Итерация #: 39
Epoch 1/2
Epoch 2/2
Генерация из посева: оказывала много ноги. Я не мог отвести глаз. Я пер
Итерация #: 40
Epoch 1/2
Epoch 2/2
Генерация из посева: и 50 разных маршрутов, может, больше, каждый сложн
Итерация #: 41
Epoch 1/2
Epoch 2/2
Генерация из посева: ют! Они умрут! – Пусть учатся или сдохнут, – ответ
Итерация #: 42
Epoch 1/2
Epoch 2/2
Генерация из посева: вместо 116. 6-я по-прежнему несла 116, но они поме
Итерация #: 43
Epoch 1/2
Epoch 2/2
Генерация из посева: сползают вниз, вниз, вниз они сползают, облепляют 
Итерация #: 44
Epoch 1/2
Epoch 2/2
Ге

Итерация #: 70
Epoch 1/2
Epoch 2/2
Генерация из посева: их маленьких секретов не выдавали. Это было их еди
Итерация #: 71
Epoch 1/2
Epoch 2/2
Генерация из посева:  отрезка, и тут они наступят ей на пятки. Стандарт
Итерация #: 72
Epoch 1/2
Epoch 2/2
Генерация из посева:  случилось? Ты что там делал? Что ты натворил? – Н
Итерация #: 73
Epoch 1/2
Epoch 2/2
Генерация из посева: м, но ничего не вышло. И вот он пришел на централь
Итерация #: 74
Epoch 1/2
Epoch 2/2
Генерация из посева: оссорились. Я подумала, что если буду ждать, пока 
Итерация #: 75
Epoch 1/2
Epoch 2/2
Генерация из посева:  На планшете написано, какие улицы, во сколько там
Итерация #: 76
Epoch 1/2
Epoch 2/2
Генерация из посева: ожиться в производственный график! Итак, раз, два,
Итерация #: 77
Epoch 1/2
Epoch 2/2
Генерация из посева: деле был ничего. И, поласкав себя, разговаривая по
Итерация #: 78
Epoch 1/2
Epoch 2/2
Генерация из посева: й! – Нет, она останется у тебя. Затем он взял свой
Итерация #: 79
Epoch 1/2
Epoch 2/2
Ге

Увеличение числа эпох и итераций улучшили выдачу, но до больших результатов конечно необходимо большее количество циклов и железо мощнее. Так же стало очевидно что необходима тчательная предобработка текста, удаление всех пустых абзаций и не имеющей значение информации. Это было сделано, и как вижу по выдаче еще стоило удалить знаки препинания. 