#Libraries (Библиотеки)

In [None]:
from google.colab import files
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from tensorflow.keras import utils

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, SpatialDropout1D, BatchNormalization, Embedding, Flatten, Activation, SimpleRNN
from tensorflow.python.keras.optimizers import Adam, RMSprop

from keras.preprocessing.text import Tokenizer, text_to_word_sequence
from sklearn.model_selection import train_test_split

#Data preprocessing (Предобработка данных)

In [None]:
# Keras Tokenizer (Токенизатор из библиотеки Keras)

tokenizer = Tokenizer(num_words=20000, filters='!"#$%&()*+,-./:;,<=>?@[\\]^_`{|}~\t\n0123456789', lower=True, split=' ', char_level=False)

# Method processes texts and collect a dictionary (Метод обрабатывает тексты и собирает словарь)

tokenizer.fit_on_texts(train)

# Frequency indexes - word ranking according to the word frequency (Частотные индексы - ранжирование слов по частоте встречаемости)

items = list(tokenizer.word_index.items())

```
Dictionary sample (Образец словаря) 1001-1029

[('днем', 1001), ('живут', 1002), ('одновременно', 1003), ('новые', 1004), ('вернулся', 1005), ('решение', 1006), 
('действия', 1007), ('сделали', 1008), ('зато', 1009), ('человеку', 1010), ('телефона', 1011), ('путь', 1012), 
('найден', 1013), ('кровати', 1014), ('честно', 1015), ('больно', 1016), ('ж', 1017), ('буквально', 1018), 
('сознания', 1019), ('пропал', 1020), ('плиз', 1021), ('идёт', 1022), ('полу', 1023), ('видели', 1024), 
('знакомых', 1025), ('ходит', 1026), ('получить', 1027), ('знать', 1028), ('ушла', 1029)]

The volume of the dictionary is (Размер словаря составляет) 137802 слов
```



In [None]:
# Texts are transformed into digital sequences (Тексты приводятся к виду последовательностей чисел)
# according to the indexes in the training dictionary (в соответствии с индексами обучающего словаря)

trainIdx = tokenizer.texts_to_sequences(train)
testIdx = tokenizer.texts_to_sequences(test)

#Model training (Обучение модели)

In [None]:
# The architecture of ConvNet(Архитектура сверточной нейросети)
# Bag-of-Words based model (Модель, основанная на Bag-of-Words)

model = Sequential()
model.add(BatchNormalization())
model.add(Dense(200, input_dim=maxWordsCount, activation='relu'))
model.add(Dropout(0.5))
model.add(BatchNormalization())
model.add(Dense(2, activation='softmax'))

model.compile(optimizer='adam',
                loss='categorical_crossentropy',
                metrics=['accuracy', precision, recall])

history = model.fit(xTrain01,
                      yTrain,
                      epochs=20,
                      batch_size=200,
                      validation_data=(xTest01, yTest))
                      callbacks=[checkpoint])

plt.plot(history.history['accuracy'],
         label='Доля верных ответов на обучающей выборке')
plt.plot(history.history['val_accuracy'],
         label='Доля верных ответов на тестовой выборке')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

In [None]:
# The model with Embeddings-layer (Модель c Embedding-слоем)

modelE = Sequential()
modelE.add(Embedding(maxWordsCount, 30, input_length=xLen)) #30-мерное пространство
modelE.add(SpatialDropout1D(0.25))
modelE.add(Flatten())
modelE.add(BatchNormalization())
modelE.add(Dense(200, activation='relu'))
modelE.add(Dropout(0.25))
modelE.add(BatchNormalization())
modelE.add(Dense(2, activation='softmax'))

modelE.compile(optimizer='adam',
                loss='categorical_crossentropy',
                metrics=['accuracy', precision, recall])

history = modelE.fit(xTrain,
                      yTrain,
                      epochs=20,
                      batch_size=200,
                      validation_data=(xTest, yTest))

plt.plot(history.history['accuracy'],
         label='Доля верных ответов на обучающей выборке')
plt.plot(history.history['val_accuracy'],
         label='Доля верных ответов на тестовой выборке')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()