## Определение тональности отзывов на фильмы

Обучаем нейронную сеть определять тональность отзыва на фильмы из базы данных IMDB

In [1]:
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM, SpatialDropout1D
from keras.datasets import imdb

Using TensorFlow backend.


In [2]:
np.random.seed(42)

Максимальное количество слов (по частоте использования)

In [3]:
max_features = 5000

Максимальная длина рецензии в словах

In [4]:
maxlen = 80

Загружаем данные

In [5]:
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

Downloading data from https://s3.amazonaws.com/text-datasets/imdb.npz


Заполняем или обрезаем рецензии

In [6]:
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

Создаем сеть

In [7]:
model = Sequential()

Слой для векторного представления слов

In [8]:
model.add(Embedding(max_features, 32))
model.add(SpatialDropout1D(0.2))

Слой долго-краткосрочной памяти

In [9]:
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2)) 

Полносвязный слой

In [10]:
model.add(Dense(1, activation="sigmoid"))

Копмилируем модель

In [13]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

Обучаем модель

In [14]:
model.fit(X_train, y_train, batch_size=64, epochs=7, validation_data=(X_test, y_test), verbose=2)

Train on 25000 samples, validate on 25000 samples
Epoch 1/7
 - 172s - loss: 0.5129 - acc: 0.7458 - val_loss: 0.3869 - val_acc: 0.8277
Epoch 2/7
 - 171s - loss: 0.3719 - acc: 0.8420 - val_loss: 0.3732 - val_acc: 0.8366
Epoch 3/7
 - 137s - loss: 0.3391 - acc: 0.8606 - val_loss: 0.3767 - val_acc: 0.8317
Epoch 4/7
 - 122s - loss: 0.3159 - acc: 0.8702 - val_loss: 0.3747 - val_acc: 0.8352
Epoch 5/7
 - 148s - loss: 0.3003 - acc: 0.8770 - val_loss: 0.3901 - val_acc: 0.8352
Epoch 6/7
 - 141s - loss: 0.2814 - acc: 0.8854 - val_loss: 0.3849 - val_acc: 0.8322
Epoch 7/7
 - 121s - loss: 0.2624 - acc: 0.8940 - val_loss: 0.3960 - val_acc: 0.8321


<keras.callbacks.History at 0x1a61915bbe0>

Проверяем качество обучения на тестовых данных

In [15]:
scores = model.evaluate(X_test, y_test,
                        batch_size=64)
print("Точность на тестовых данных: %.2f%%" % (scores[1] * 100))

Точность на тестовых данных: 83.21%
