In [1]:
from __future__ import print_function

import numpy as np
import gensim
import string

from keras.callbacks import LambdaCallback
from keras.layers.recurrent import LSTM
from keras.layers.embeddings import Embedding
from keras.layers import Dense, Activation
from keras.models import Sequential
from keras.utils.data_utils import get_file


Using TensorFlow backend.


In [2]:
# Загрузка текста и разбиение его на предложения

max_sentence_len = 40
translator = str.maketrans('', '', string.punctuation)
with open('/home/alex/Downloads/avidreaders.ru__voyna-i-mir-tom-1.txt') as file_:
  docs = file_.readlines()
sentences = [[word for word in doc.lower().translate(translator).split()[:max_sentence_len]] for doc in docs]
sentences = [sentence for sentence in sentences if len(sentence)]
print('Количество предложений:', len(sentences))

Количество предложений: 3091


In [3]:
# Тренировка Word2vec

word_model = gensim.models.Word2Vec(sentences, size=100, min_count=1, window=5, iter=100)
pretrained_weights = word_model.wv.syn0
vocab_size, emdedding_size = pretrained_weights.shape
print('Result embedding shape:', pretrained_weights.shape)
print('Checking similar words:')
for word in ['княжна', 'наполеон', 'дочь']:
  most_similar = ', '.join('%s (%.2f)' % (similar, dist) for similar, dist in word_model.most_similar(word)[:8])
  print('  %s -> %s' % (word, most_similar))

Result embedding shape: (15303, 100)
Checking similar words:
  княжна -> дмитриевна (0.81), львовна (0.73), называла (0.66), наташа (0.65), марья (0.60), соня (0.58), prié (0.57), tâcherai (0.57)
  наполеон -> разумея (0.60), штабофицер (0.59), законный (0.59), жив (0.57), гденибудь (0.53), зажечь (0.52), петров (0.51), заметить (0.51)
  дочь -> манера (0.55), милая (0.54), заехавшая (0.51), особа (0.51), сказала (0.50), оскорбление (0.50), красавица (0.50), старшая (0.50)


  after removing the cwd from sys.path.
  if __name__ == '__main__':


In [4]:
def word2idx(word):
  return word_model.wv.vocab[word].index
def idx2word(idx):
  return word_model.wv.index2word[idx]

In [5]:
# Подготовка данных для тренировки модели

train_x = np.zeros([len(sentences), max_sentence_len], dtype=np.int32)
train_y = np.zeros([len(sentences)], dtype=np.int32)
for i, sentence in enumerate(sentences):
  for t, word in enumerate(sentence[:-1]):
    train_x[i, t] = word2idx(word)
  train_y[i] = word2idx(sentence[-1])
print('train_x shape:', train_x.shape)
print('train_y shape:', train_y.shape)

train_x shape: (3091, 40)
train_y shape: (3091,)


In [6]:
# Построение модели

model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=emdedding_size, weights=[pretrained_weights]))
model.add(LSTM(units=emdedding_size))
model.add(Dense(units=vocab_size))
model.add(Activation('softmax'))
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

def sample(preds, temperature=1.0):
  if temperature <= 0:
    return np.argmax(preds)
  preds = np.asarray(preds).astype('float64')
  preds = np.log(preds) / temperature
  exp_preds = np.exp(preds)
  preds = exp_preds / np.sum(exp_preds)
  probas = np.random.multinomial(1, preds, 1)
  return np.argmax(probas)

def generate_next(text, num_generated=10):
  word_idxs = [word2idx(word) for word in text.lower().split()]
  for i in range(num_generated):
    prediction = model.predict(x=np.array(word_idxs))
    idx = sample(prediction[-1], temperature=0.7)
    word_idxs.append(idx)
  return ' '.join(idx2word(idx) for idx in word_idxs)

def on_epoch_end(epoch, _):
  print('\nGenerating text after epoch: %d' % epoch)
  texts = [
    'анна павловна',
    'заклинаю вас',
    'la donne',
    'наполеон',
  ]
  for text in texts:
    sample = generate_next(text)
    print('%s... -> %s' % (text, sample))

In [7]:
# Обучение модели

model.fit(train_x, train_y,
          batch_size=128,
          epochs=20,
          callbacks=[LambdaCallback(on_epoch_end=on_epoch_end)])

  "Converting sparse IndexedSlices to a dense Tensor of unknown shape. "


Epoch 1/20

Generating text after epoch: 0
анна павловна... -> анна павловна непреодолимоклонивший выбирать пьером проговорила спящим попрошусь путанице жестом двадцати fasse
заклинаю вас... -> заклинаю вас трудно соборовать прогонял быстрым сорок исполнять конечно призыва сложного чулках
la donne... -> la donne огромное хвастаясь военное через исполнил религиозная brillant трауне василию еmpereur
наполеон... -> наполеон такими стояли перестаньте замирится отличали шиншиной оставив ящичному наступавшие фердинанд
Epoch 2/20

Generating text after epoch: 1
анна павловна... -> анна павловна грустных коровник толпе когданибудь бойся ours demandé женскою фуражки презрением
заклинаю вас... -> заклинаю вас полосами заглянул пустил видим вделанного французскою сделаться задом déroge запачкались
la donne... -> la donne встряхнулся задышала манифеста xv шалость маршрутов прерываясь выскакал гостиных приятным
наполеон... -> наполеон собою сдержанная проникая неприятелем ниже буйному границу порох

анна павловна... -> анна павловна дымков напоминала третьего кризис провожать пей соскакивал père торопилась жалею
заклинаю вас... -> заклинаю вас стрелял предвидя говоря видишь приехавшего ступая библиотеки перечитывала преобладающее peuvent
la donne... -> la donne река свиста всякому планов размещавшейся подбито ветчина air укладываются акушером…
наполеон... -> наполеон студент сочным неучтивость построиться взрывая загремела заедемте аббатом странный тут
Epoch 16/20

Generating text after epoch: 15
анна павловна... -> анна павловна алпатыч страстного эту раскаялся никогоникого brumaire тяжелую бунтует потребованы обращаешься
заклинаю вас... -> заклинаю вас целый славу неприятностей darriver убирай вступить перекинул англез седьмой кораблем
la donne... -> la donne долетев обычную кров племяннице рядов постой veux англичанам величеству расстегнутом
наполеон... -> наполеон мгновений глянет заботься бегать трети рте исполнила voir чаем гордого
Epoch 17/20

Generating text after epoch: 1

<keras.callbacks.callbacks.History at 0x7f8045c9fbe0>