In [2]:
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM, SpatialDropout1D
from keras.datasets import imdb

# Устанавливаем seed для повторяемости результатов
np.random.seed(42)
# Максимальное количество слов (по частоте использования)
max_features = 5000
# Максимальная длина рецензии в словах
maxlen = 80

# Загружаем данные
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

# Заполняем или обрезаем рецензии
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

# Создаем сеть
model = Sequential()
# Слой для векторного представления слов
model.add(Embedding(max_features, 32))
model.add(SpatialDropout1D(0.2))
# Слой долго-краткосрочной памяти
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2)) 
# Полносвязный слой
model.add(Dense(1, activation="sigmoid"))

# Копмилируем модель
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

Downloading data from https://s3.amazonaws.com/text-datasets/imdb.npz


In [6]:
# Обучаем модель
model.fit(X_train, y_train, batch_size=64, epochs=2,
          validation_data=(X_test, y_test), verbose=2)

Train on 25000 samples, validate on 25000 samples
Epoch 1/2
 - 167s - loss: 0.3551 - acc: 0.8506 - val_loss: 0.3802 - val_acc: 0.8319
Epoch 2/2
 - 179s - loss: 0.3257 - acc: 0.8656 - val_loss: 0.3711 - val_acc: 0.8358


<keras.callbacks.History at 0x2991c558898>

In [7]:
# Проверяем качество обучения на тестовых данных
scores = model.evaluate(X_test, y_test,
                        batch_size=64)
print("Точность на тестовых данных: %.2f%%" % (scores[1] * 100))

Точность на тестовых данных: 83.58%
