# Лабораторная работа №7

## Классификация обзоров фильмов

## Выполнил студент группы БФИ1901 Бардюк Даниил Вячеславович

### Цель
    Классификация последовательностей - это проблема прогнозирующего моделирования,
    когда у вас есть некоторая последовательность входных данных в пространстве или
    времени, и задача состоит в том, чтобы предсказать категорию для последовательности.
    Проблема усложняется тем, что последовательности могут различаться по длине,
    состоять из очень большого словарного запаса входных символов и могут потребовать от
    модели изучения долгосрочного контекста или зависимостей между символами во входной
    последовательности.
    В данной лабораторной работе также будет использоваться датасет IMDb, однако
    обучение будет проводиться с помощью рекуррентной нейронной сети.
### Задачи
- Ознакомиться с рекуррентными нейронными сетями
- Изучить способы классификации текста
- Ознакомиться с ансамблированием сетей
- Построить ансамбль сетей, который позволит получать точность не менее 97%

# Выполнение работы

In [1]:
import numpy as np
from keras.datasets import imdb
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.layers import LSTM
from keras.layers.embeddings import Embedding
from keras.preprocessing import sequence
from keras.layers import Conv1D, MaxPooling1D, Input, Average
import tensorflow as tf

In [2]:
from keras.datasets import imdb
(training_data, training_targets), (testing_data, testing_targets) = imdb.load_data(num_words=10000)
data = np.concatenate((training_data, testing_data), axis=0)
targets = np.concatenate((training_targets, testing_targets),axis=0)

In [3]:
max_review_length = 500
top_words = 10000
X_train = data[:]
y_train = targets[:]
X_test = data[:500]
y_test = targets[:500]

X_train = sequence.pad_sequences(X_train, maxlen=max_review_length)
X_test = sequence.pad_sequences(X_test, maxlen=max_review_length)

In [4]:
embedding_vecor_length = 32
model = Sequential()
model.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length))
model.add(LSTM(100))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
print(model.summary())

model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=3, batch_size=64)

scores = model.evaluate(X_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 500, 32)           320000    
_________________________________________________________________
lstm (LSTM)                  (None, 100)               53200     
_________________________________________________________________
dense (Dense)                (None, 1)                 101       
Total params: 373,301
Trainable params: 373,301
Non-trainable params: 0
_________________________________________________________________
None
Epoch 1/3
Epoch 2/3
Epoch 3/3
Accuracy: 95.20%


### Добавим сверточные слои в модель

In [5]:
model1 = Sequential()
model1.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length))
model1.add(Conv1D(filters=32, kernel_size=3, padding='same', activation='relu'))
model1.add(MaxPooling1D(pool_size=2))
model1.add(LSTM(100))
model1.add(Dense(1, activation='sigmoid'))

model1.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
print(model1.summary())

model1.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=3, batch_size=64)

scores1 = model.evaluate(X_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores1[1]*100)) 

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 500, 32)           320000    
_________________________________________________________________
conv1d (Conv1D)              (None, 500, 32)           3104      
_________________________________________________________________
max_pooling1d (MaxPooling1D) (None, 250, 32)           0         
_________________________________________________________________
lstm_1 (LSTM)                (None, 100)               53200     
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 101       
Total params: 376,405
Trainable params: 376,405
Non-trainable params: 0
_________________________________________________________________
None
Epoch 1/3
Epoch 2/3
Epoch 3/3
Accuracy: 95.20%


### Добавим слои dropout

In [6]:

model2 = Sequential()
model2.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length))
model2.add(Dropout(0.20))
model2.add(Conv1D(filters=32, kernel_size=3, padding='same', activation='relu'))
model2.add(MaxPooling1D(pool_size=2))
model2.add(Dropout(0.20))
model2.add(LSTM(64, return_sequences=True))
model2.add(LSTM(64))
model2.add(Dense(1, activation='sigmoid'))

model2.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
print(model2.summary())

model2.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=3, batch_size=128)

scores1 = model.evaluate(X_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores1[1]*100)) 

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 500, 32)           320000    
_________________________________________________________________
dropout (Dropout)            (None, 500, 32)           0         
_________________________________________________________________
conv1d_1 (Conv1D)            (None, 500, 32)           3104      
_________________________________________________________________
max_pooling1d_1 (MaxPooling1 (None, 250, 32)           0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 250, 32)           0         
_________________________________________________________________
lstm_2 (LSTM)                (None, 250, 64)           24832     
_________________________________________________________________
lstm_3 (LSTM)                (None, 64)               

### Проведём ансамблирование с помощью слоя Average()

In [7]:
from sklearn import model_selection
from sklearn.ensemble import VotingClassifier

inputs = Input(shape = (max_review_length,))
m1 = model(inputs)
m2 = model1(inputs)
m3 = model2(inputs)
outputs = Average()([m1,m2,m3])

ensemble = tf.keras.Model(inputs = inputs, outputs= outputs)
ensemble.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
print(ensemble.summary())
ensemble.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=3, batch_size=128)

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 500)]        0                                            
__________________________________________________________________________________________________
sequential (Sequential)         (None, 1)            373301      input_1[0][0]                    
__________________________________________________________________________________________________
sequential_1 (Sequential)       (None, 1)            376405      input_1[0][0]                    
__________________________________________________________________________________________________
sequential_2 (Sequential)       (None, 1)            381025      input_1[0][0]                    
______________________________________________________________________________________________

<keras.callbacks.History at 0x1bf6a12e820>

### Введем пользовательский текст

In [57]:
predict = input()
word_index_org = imdb.get_word_index()
word_index = dict()

for word,number in word_index_org.items():
    word_index[word] = number + 3
string = predict.lower().split(' ')
def parseNumber(str):
    arr = []
    for word in str:
        arr.append(word_index[word])
    result = []
    result.append(arr)
    result =  sequence.pad_sequences(result, maxlen=max_review_length)
    return result
prediction = ensemble.predict(parseNumber(string))
print('Positive:' if np.mean(prediction)>0.6 else 'Negative:',np.mean(prediction))

hello
Negative: 0.4823491
