In [2]:
from __future__ import print_function
from keras.layers.recurrent import SimpleRNN
from keras.models import Sequential
from keras.layers import Dense, Activation
import numpy as np

Using TensorFlow backend.


In [3]:
INPUT_FILE = "data/alice.txt"

In [4]:
#Файл содержит символы конца строки и символы не в кодировке ascii, поэтому предварительно обработаем

fin = open(INPUT_FILE, 'rb')
lines = []
for line in fin:
    line = line.strip().lower()
    line = line.decode("ascii", "ignore")
    if len(line) == 0:
        continue
    lines.append(line)
fin.close()
text = " ".join(lines)

Поскольку RNN будет предсказывать символы, то и словарь состоит из множества символов, встречающихся в тексте. Таких 42. Но работать будем не с самими символами, а с их индексами, поэтому создадим таблицы соответствия.

In [7]:
chars = set([c for c in text])
nb_chars = len(chars)
char2index = dict((c, i) for i, c in enumerate(chars))
index2char = dict((i, c) for i, c in enumerate(chars))

In [8]:
len(text)

158783

Создадим последовательность входных строк и меток.

In [12]:
#   The sky wa -> s
#   he sky was ->  
#   e sky was  -> f
#    sky was f -> a
#   sky was fa -> l

In [13]:
SEQLEN = 10
STEP = 1

input_chars = []
label_chars = []
for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i:i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

In [14]:
input_chars[:5]

['project gu', 'roject gut', 'oject gute', 'ject guten', 'ect gutenb']

In [15]:
label_chars[:5]

['t', 'e', 'n', 'b', 'e']

Следующий шаг – векторизация входных строк и меток. На вход RNN подаются построенные строки. В каждой из них SEQLEN символов, а поскольку размер нашего словаря составляет nb_char символов, то каждый входной символ представляется унитарным вектором длины nb_chars.  Следовательно каждый входной элемент представляет собой тензор формы SEQLEN x nb_chars. Выходная метка – единственный символ, то есть вектор длины nb_chars.

In [20]:
X = np.zeros((len(input_chars), SEQLEN, nb_chars))
y = np.zeros((len(input_chars), nb_chars))
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

In [23]:
X[:3]

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

In [22]:
y

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

Размерность выхода RNN будет равна 128. Это гиперпараметр. Мы ходим получить на выходе один символ, а не последовательнгость, поэтому задаем параметр return_sequences=False. РНС соединяется с плотным слоем. В плотном слое nb_char нейронов, которые выдают оценки появления каждого символа из словаря. Символ с наибольшгей вероятностью возвращается в качестве предсказания.

In [24]:
HIDDEN_SIZE = 128
BATCH_SIZE = 128
NUM_ITERATIONS = 25
NUM_EPOCHS_PER_ITERATION = 1
NUM_PREDS_PER_EPOCH = 100

model = Sequential()
model.add(SimpleRNN(HIDDEN_SIZE, return_sequences=False,
                    input_shape=(SEQLEN, nb_chars),
                    unroll=True))
model.add(Dense(nb_chars))
model.add(Activation("softmax"))

model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

До этого мы обучали модель в течение какого то числа периодов, а затем оценивали  на тестовых данных. Мы выполняем 25 периодов обучения и тестируем модель после каждого периода. Тестирование производится так – модель порождает символ по заданным входным данным, затем первый символ входной строки отбрасывается, в конец дописывается предсказанный на предыдущем прогоне символ и у модели запрашивается следующее предсказание. Так повторяется 100 раз NUM_PREDS_PER_EPOCH, после чего получившаяся строка печатается. Эта строка и является индикатором качества модели.

In [25]:
for iteration in range(NUM_ITERATIONS):
    print("=" * 50)
    print("Iteration #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)
    
    # testing model
    # randomly choose a row from input_chars, then use it to 
    # generate text from model for next 100 chars
    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]
    print("Generating from seed: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):
        Xtest = np.zeros((1, SEQLEN, nb_chars))
        for i, ch in enumerate(test_chars):
            Xtest[0, i, char2index[ch]] = 1
        pred = model.predict(Xtest, verbose=0)[0]
        ypred = index2char[np.argmax(pred)]
        print(ypred, end="")
        # move forward with test_chars + ypred
        test_chars = test_chars[1:] + ypred
    print()

Iteration #: 0
Epoch 1/1
Generating from seed: uld have c
uld have could and the said the couthe would the said the couthe would the said the couthe would the said the 
Iteration #: 1
Epoch 1/1
Generating from seed: rements, w
rements, whe said the harked and the said the harked and the said the harked and the said the harked and the s
Iteration #: 2
Epoch 1/1
Generating from seed: asleep, he
asleep, her all the she said the said the said the said the said the said the said the said the said the said 
Iteration #: 3
Epoch 1/1
Generating from seed: n on their
n on their was in the doon the mad the king to the groplong to the groplong to the groplong to the groplong to
Iteration #: 4
Epoch 1/1
Generating from seed: re was gen
re was gene beras on the project gutenberg-tm alice said the dormouse the sard the was the was the was the was
Iteration #: 5
Epoch 1/1
Generating from seed: aid alice 
aid alice to her one the onter see to see the onter see to see the onter see to see the onter see

Это пример типа многие-ко-многим - все входные последовательности имеют одинаковую длину, а выход порождается на каждом временном шаге.