Домашнее задание
1. Попробуйте изменить параметры нейронной сети, работающей с датасетом imdb, либо
нейронной сети, работающей airline-passengers (она прилагается вместе с датасетом к
уроку в виде отдельного скрипта) так, чтобы улучшить её точность. Приложите анализ.
2. Попробуйте изменить параметры нейронной сети, генерирующей текст таким образом,
чтобы добиться генерации как можно более осмысленного текста. Пришлите лучший
текст из получившихся и опишите предпринятые для его получения действия. Можно
использовать текст другого произведения.

In [1]:
from __future__ import print_function

from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding
from tensorflow.keras.layers import LSTM
from tensorflow.keras.datasets import imdb

## BaseLine

In [2]:
max_features = 20000
maxlen = 80
batch_size = 50

In [3]:
print('Загрузка данных...')
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

Загрузка данных...


In [4]:
# Retrieve the word index file mapping words to indices
word_index = imdb.get_word_index()
# Reverse the word index to obtain a dict mapping indices to words
inverted_word_index = dict((i, word) for (word, i) in word_index.items())
# Decode the first sequence in the dataset
decoded_sequence = " ".join(inverted_word_index[i] for i in x_train[0])

In [5]:
print(len(x_train), 'тренировочные последовательности')
print(len(x_test), 'тестовые последовательности')

25000 тренировочные последовательности
25000 тестовые последовательности


In [6]:
len(x_train[0])

218

In [7]:
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

x_train shape: (25000, 80)
x_test shape: (25000, 80)


In [8]:
print('Построение модели...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Построение модели...


In [9]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [10]:
print('Процесс обучения...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=1, # увеличьте при необходимости
          validation_data=(x_test, y_test))

Процесс обучения...


<keras.callbacks.History at 0x22de48a54c0>

In [11]:
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)



In [12]:
print('Результат при тестировании:', score)
print('Тестовая точность:', acc)

Результат при тестировании: 0.3675772249698639
Тестовая точность: 0.8357999920845032


## Модель на основе двух слоёв LSTM

In [13]:
print('Построение модели...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(LSTM(128,return_sequences=True, dropout=0.2, recurrent_dropout=0.2))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Построение модели...


In [14]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [15]:
print('Процесс обучения...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=3,
          validation_data=(x_test, y_test))

Процесс обучения...
Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x22de70ecf10>

In [16]:
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)



In [17]:
print('Результат при тестировании:', score)
print('Тестовая точность:', acc)

Результат при тестировании: 0.4807418882846832
Тестовая точность: 0.8279200196266174


## Модель на основе SimpleRNN

In [18]:
from tensorflow.keras.layers import SimpleRNN

In [19]:
print('Построение модели...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(SimpleRNN(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Построение модели...


In [20]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [21]:
print('Процесс обучения...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=1, 
          validation_data=(x_test, y_test))

Процесс обучения...


<keras.callbacks.History at 0x22de7290400>

In [22]:
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)



In [23]:
print('Результат при тестировании:', score)
print('Тестовая точность:', acc)

Результат при тестировании: 0.5601586103439331
Тестовая точность: 0.7086799740791321


## Модель на основе GRU

In [24]:
from tensorflow.keras.layers import GRU

In [25]:
print('Построение модели...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(GRU(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Построение модели...


In [26]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [27]:
print('Процесс обучения...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=1,
          validation_data=(x_test, y_test))

Процесс обучения...


<keras.callbacks.History at 0x22de0220190>

In [28]:
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)



In [29]:
print('Результат при тестировании:', score)
print('Тестовая точность:', acc)

Результат при тестировании: 0.3644225299358368
Тестовая точность: 0.8406400084495544


## Модель с изменнёными начальными данными

In [58]:
maxlen = 200

In [59]:
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

x_train shape: (25000, 200)
x_test shape: (25000, 200)


In [65]:
print('Построение модели...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(GRU(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Построение модели...


In [66]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [67]:
print('Процесс обучения...')
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=1,
          validation_data=(x_test, y_test))

Процесс обучения...


<keras.callbacks.History at 0x22d87d2ce20>

In [68]:
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)



In [69]:
print('Результат при тестировании:', score)
print('Тестовая точность:', acc)

Результат при тестировании: 0.37775859236717224
Тестовая точность: 0.8343999981880188


## Выводы:

В ходе работы протестировали 3 типа моделей, основанных на слоях LSTM, SimpleRNN, GRU. 
Разница по метрикам между GRU и LSTM оказалась незначительной, поэтому в выборе лучшей модели в основном учитывалась скорость работы модели.
По итогам работы лучший результат показала модель GRU.    

Полученные метрики отличаются на малую величину. В связи с этим, можно предположить, что данные изменения вызваны не качественными улучшениями моделей, а статистическими погрешностями. 
Так же стоит отметить, что увеличение количества слоёв и длинны комментария привели к ухудшению результата. 

## Генерация текста

In [37]:
import numpy as np
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.layers import SimpleRNN, LSTM, GRU
from tensorflow.keras.models import Sequential

In [38]:
with open("Tolstoy.txt", 'rb') as _in:
    lines = []
    for line in _in:
        line = line.strip().lower().decode("utf-8", "ignore")
        if len(line) == 0:
            continue
        lines.append(line)
text = " ".join(lines)
chars = set(text)
nb_chars = len(chars)

In [39]:
len(chars)

126

In [40]:
chars

{' ',
 '!',
 '#',
 '&',
 '(',
 ')',
 '*',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 ';',
 '<',
 '>',
 '?',
 '[',
 ']',
 '_',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '\xa0',
 '«',
 '»',
 'А',
 'Б',
 'В',
 'Г',
 'Д',
 'Е',
 'Ж',
 'З',
 'И',
 'Й',
 'К',
 'Л',
 'М',
 'Н',
 'О',
 'П',
 'Р',
 'С',
 'Т',
 'У',
 'Ф',
 'Х',
 'Ц',
 'Ч',
 'Ш',
 'Щ',
 'Э',
 'Ю',
 'Я',
 'а',
 'б',
 'в',
 'г',
 'д',
 'е',
 'ж',
 'з',
 'и',
 'й',
 'к',
 'л',
 'м',
 'н',
 'о',
 'п',
 'р',
 'с',
 'т',
 'у',
 'ф',
 'х',
 'ц',
 'ч',
 'ш',
 'щ',
 'ъ',
 'ы',
 'ь',
 'э',
 'ю',
 'я',
 'ё',
 '–',
 '—',
 '’',
 '“',
 '„',
 '…'}

In [41]:
char2index = {c: i for i, c in enumerate(chars)}
index2char = {i: c for i, c in enumerate(chars)}

In [42]:
SEQLEN, STEP = 10, 1
input_chars, label_chars = [], []

for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i: i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

In [43]:
len(input_chars)

776493

In [44]:
input_chars[0], label_chars[0]

('Спасибо, ч', 'т')

In [45]:
X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)


In [46]:
X.shape

(776493, 10, 126)

In [47]:
BATCH_SIZE, HIDDEN_SIZE = 128, 128
NUM_ITERATIONS = 10 
NUM_EPOCHS_PER_ITERATION = 1
NUM_PREDS_PER_EPOCH = 100

In [48]:
model = Sequential()
model.add(
    GRU(
        HIDDEN_SIZE,
        return_sequences=False,
        input_shape=(SEQLEN, nb_chars),
        unroll=True
    )
)
model.add(Dense(nb_chars))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

In [49]:
for iteration in range(NUM_ITERATIONS):

    print("=" * 50)
    print("Итерация #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)

    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]

    print("Генерация из посева: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):

        X_test = np.zeros((1, SEQLEN, nb_chars))
        for j, ch in enumerate(test_chars):
            X_test[0, j, char2index[ch]] = 1

        pred = model.predict(X_test, verbose=0)[0]
        y_pred = index2char[np.argmax(pred)]

        print(y_pred, end="")

        test_chars = test_chars[1:] + y_pred

Итерация #: 0
Генерация из посева: снул огоне
Итерация #: 1
Генерация из посева:  — тихоньк
Итерация #: 2
Генерация из посева:  он уже вы
Итерация #: 3
Генерация из посева:  гору. Нас
Итерация #: 4
Генерация из посева: влекательн
Итерация #: 5
Генерация из посева: апротив, в
Итерация #: 6
Генерация из посева: яжна и кня
Итерация #: 7
Генерация из посева: еса!! Что,
Итерация #: 8
Генерация из посева:  — отвечал
Итерация #: 9
Генерация из посева:  не отвеча
 не отвечал на него не подумал он с него не все было подошел к командира и подумал он с него не все было подош

In [50]:
SEQLEN, STEP = 25, 1
input_chars, label_chars = [], []

for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i: i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

In [51]:
len(input_chars)

776478

In [52]:
input_chars[0], label_chars[0]

('Спасибо, что скачали книг', 'у')

In [53]:
X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)


In [54]:
BATCH_SIZE, HIDDEN_SIZE = 128, 256
NUM_ITERATIONS = 10 
NUM_EPOCHS_PER_ITERATION = 1
NUM_PREDS_PER_EPOCH = 100

In [55]:
model = Sequential()
model.add(
    GRU(
        HIDDEN_SIZE,
        return_sequences=False,
        input_shape=(SEQLEN, nb_chars),
        unroll=True
    )
)
model.add(Dense(nb_chars))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

In [56]:
for iteration in range(NUM_ITERATIONS):

    print("=" * 50)
    print("Итерация #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)

    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]

    print("Генерация из посева: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):

        X_test = np.zeros((1, SEQLEN, nb_chars))
        for j, ch in enumerate(test_chars):
            X_test[0, j, char2index[ch]] = 1

        pred = model.predict(X_test, verbose=0)[0]
        y_pred = index2char[np.argmax(pred)]

        print(y_pred, end="")

        test_chars = test_chars[1:] + y_pred

Итерация #: 0
Генерация из посева: отец очень любил, занимал
Итерация #: 1
Генерация из посева:  от меня никакого титула.
Итерация #: 2
Генерация из посева: с армией перешел на левый
Итерация #: 3
Генерация из посева: ея носителем своих военны
Итерация #: 4
Генерация из посева: мим овладел князь Василий
Итерация #: 5
Генерация из посева: ьно надвинулась на него. 
Итерация #: 6
Генерация из посева: про багрового генерала, г
Итерация #: 7
Генерация из посева: ясь. — cela nous convient
Итерация #: 8
Генерация из посева: цала княжна Марья. — ah! 
Итерация #: 9
Генерация из посева: ием. Неожиданно, при виде
ием. Неожиданно, при виде его в своем положении и постоянно с торопливом положении и постоянно с торопливом положении и посто

Повторим процесс обучения еще на 10 итераций

In [57]:
for iteration in range(NUM_ITERATIONS):

    print("=" * 50)
    print("Итерация #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)

    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]

    print("Генерация из посева: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):

        X_test = np.zeros((1, SEQLEN, nb_chars))
        for j, ch in enumerate(test_chars):
            X_test[0, j, char2index[ch]] = 1

        pred = model.predict(X_test, verbose=0)[0]
        y_pred = index2char[np.argmax(pred)]

        print(y_pred, end="")

        test_chars = test_chars[1:] + y_pred

Итерация #: 0
Генерация из посева: и, говорится, что «все ро
Итерация #: 1
Генерация из посева: оторого он догнал еще в П
Итерация #: 2
Генерация из посева:  в старину незапамятную и
Итерация #: 3
Генерация из посева: s beaux yeux d’un jeune h
Итерация #: 4
Генерация из посева: ить не нужно: женихи сами
Итерация #: 5
Генерация из посева: тец был очень тронут им. 
Итерация #: 6
Генерация из посева:  шагах наезжал на них, а 
Итерация #: 7
Генерация из посева:  Анатоль намерен ухаживат
Итерация #: 8
Генерация из посева: 25 брюмера 1805 г. 8 часо
Итерация #: 9
Генерация из посева: ко что-то большое, яркое 
ко что-то большое, яркое лицо и все подошел к нему и поднял глаза и подошел к нему и поднял глаза и подошел к нему и поднял г

## Выводы:

Данное задание позволило показать способность модели запоминать и генерировать представленный текст. Для того чтобы более полно оценить связность теска мной был выбран текст на русском языке: 
Лев Толстой
Война и мир (1 том)

В качестве генератора была выбрана модель GRU, которая показала лучший результат в первой части задания. 
Были предприняты две попытки улучшить качество модели
- увеличение HIDDEN_SIZE до 256, и увеличение SEQLEN до 25. HIDDEN_SIZE отвечает за способность сохранять внутреннее состояние сети (запоминать). А длительная последовательность даёт больше контекстной информации. 
- увеличение числа итераций до 20. В моём случае я обучил модель дважды. 

По итогам работы столкнулся с трудностью определения "осмысленности текста". Отсутствие метрики делает результат неопределённым. 
В целом можно сказать, что мои попытки особого результата не дали, мне не удалось получить осмысленный текст (в человеческом понимании) но при этом сочетания нескольких слов в генерируемых фразах получились вполне осмысленными.
