In [18]:
# coding: utf8
import math
import string

import nltk
import pandas
import pymorphy2
import sklearn
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

def normalize_review(review, morph):
    """

    :param review:
    :param morph:
    :return:
    """

    tokens = nltk.word_tokenize(review)
    normalized_tokens = []
    # normalized_review = ''
    for token in tokens:
        token = morph.parse(token)[0].normal_form
        if token not in stop_words and token not in string.punctuation:
            normalized_tokens.append(token.lower())

    return normalized_tokens, " ".join(normalized_tokens)


def get_my_reviews(morph):
    """
    Получаем мои ревью из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, текст ревью, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] == 'Криминальное чтиво' or
                row['title'] == 'Маленькая Мисс Счастье' or
                row['title'] == 'Амели'):
            
            if row['label'] == 1:
                pos_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == -1:
                neg_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == 0:
                neutr_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))

    return pos_reviews, neg_reviews, neutr_reviews


def get_reviews(morph):
    """
    Получаем ревью одногруппников из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, список токенов, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] != 'Криминальное чтиво' and
                row['title'] != 'Маленькая Мисс Счастье' and
                row['title'] != 'Амели'):
            if row['label'] == 1:
                pos_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == -1:
                neg_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == 0:
                neutr_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            

    return pos_reviews, neg_reviews, neutr_reviews


In [19]:
morph = pymorphy2.MorphAnalyzer()

stop_words = stopwords.words('russian')
stop_words.extend(['«', '»', '–', '...', '“', '”', '—', '!',
                   '@', '№', ':', ',', '.', '?', ':', '(', ')'])
stop_words = set(stop_words)

train_positive_reviews, train_negative_reviews, train_neutral_reviews = get_reviews(morph)
test_positive_reviews, test_negative_reviews, test_neutral_reviews = get_my_reviews(morph)

print(train_positive_reviews[0])

('Анастасия', (['прекрасный', 'воспоминание', 'вызывать', 'мультфильм', 'детство', 'обожать', 'знать', 'наизусть', 'весь', 'реплика', 'герой', 'песнь', 'прошлый', '10', 'год', 'вырасти', 'мультик', 'любить', 'по-прежнему', 'во-первых', 'отличный', 'яркий', 'картинка', 'нарисовать', 'превосходно', 'передраться', 'правда', 'красивый', 'пейзаж', 'красивый', 'платье', 'маленькая', 'девочка', 'просто', 'завораживать', 'двигаться', 'герой', 'очень', 'реалистично', 'хотя', 'это', 'проблема', 'американский', 'аниматор', 'во-вторых', 'озвучка', 'по-моему', 'наш', 'вариант', 'получиться', 'хороший', 'оригинал', 'огромный', 'спасибо', 'сказать', 'мария', 'кац', 'живой', 'исполнение', 'саундтрек', 'прекрасный', 'в-третьих', 'герой', 'маленький', 'девочка', 'верить', 'принц', 'просто', 'сразить', 'дмитрий', 'просто', 'воплощение', 'красота', 'постоянно', 'спасать', 'анастасий', 'глаз', 'становиться', 'весь', 'краш', 'упомянуть', 'барток', 'просто', 'разряжать', 'обстановка', 'некоторый', 'ситуация'

In [20]:
print(test_positive_reviews[0])

('Криминальное чтиво', (['сочинение', 'тема', 'любить', 'криминальный', 'чтиво', 'начало', 'хотеть', 'сказать', 'просто', 'обажай', 'фильм', 'пересматривать', '30', 'маленький', 'знать', 'наизусть', 'практически', 'каждый', 'диалог', 'постоянно', 'цитировать', 'полюбиться', 'фраза', 'также', 'считать', 'картина', 'хороший', 'творчество', 'замечательный', 'режиссёр', 'квентин', 'тарантино', 'хороший', 'весь', 'история', 'кино', 'написать', 'это', 'сочинение', 'сподвигнуть', 'искренний', 'недоумение', 'некоторый', 'индивид', 'почему', 'весь', 'любить', 'превозносить', 'криминальный', 'чтиво', 'весь', 'ответить', 'смочь', 'попробовать', 'итак', 'любить', 'криминальный', 'чтиво', 'во-первых', 'сценарий', 'великолепный', 'скрипт', 'написать', 'тарантино', 'совместно', 'роджер', 'эверь', 'сильно', 'выделяться', 'фон', 'остальной', 'свой', 'оригинальность', 'остроумие', 'известно', 'эверь', 'полностью', 'написать', 'новелла', 'золотой', 'часы', 'весь', 'остальной', 'являться', 'результат', 'т

In [21]:
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
from nltk.corpus import wordnet as wn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import model_selection, naive_bayes, svm
from sklearn.metrics import accuracy_score

train_pos_reviews = [item[1][1] for item in train_positive_reviews]
train_neg_reviews = [item[1][1] for item in train_negative_reviews]
train_neutr_reviews = [item[1][1] for item in train_neutral_reviews]

test_pos_reviews = [item[1][1] for item in test_positive_reviews]
test_neg_reviews = [item[1][1] for item in test_negative_reviews]
test_neutr_reviews = [item[1][1] for item in test_neutral_reviews]

In [23]:
print(train_pos_reviews[0])
print(test_pos_reviews[0])

прекрасный воспоминание вызывать мультфильм детство обожать знать наизусть весь реплика герой песнь прошлый 10 год вырасти мультик любить по-прежнему во-первых отличный яркий картинка нарисовать превосходно передраться правда красивый пейзаж красивый платье маленькая девочка просто завораживать двигаться герой очень реалистично хотя это проблема американский аниматор во-вторых озвучка по-моему наш вариант получиться хороший оригинал огромный спасибо сказать мария кац живой исполнение саундтрек прекрасный в-третьих герой маленький девочка верить принц просто сразить дмитрий просто воплощение красота постоянно спасать анастасий глаз становиться весь краш упомянуть барток просто разряжать обстановка некоторый ситуация единственный пожалуй последний значимость минус это фильм нереалистичность америка история россия пожалуй читать сторона забывать это мультфильм ребёнок снимать сценарий наш история получиться мягко говорить жесткач по-моему мультик очень дотягивать осмотреть хотя преступлен

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer


In [44]:
tfidf = TfidfVectorizer(max_features=500, binary=True)

In [57]:
revs_to_train = train_pos_reviews + train_neg_reviews + train_neutr_reviews
revs_to_test = test_pos_reviews + test_neg_reviews + test_neutr_reviews


X_train = tfidf.fit_transform(revs_to_train).toarray()
X_test = tfidf.transform(revs_to_test).toarray()

Y_train = [1]*len(train_pos_reviews) + [-1]*len(train_neg_reviews) + [0]*len(train_neutr_reviews)
Y_test = [1]*len(test_pos_reviews) + [-1]*len(test_neg_reviews) + [0]*len(test_neutr_reviews)
print(X_train)
print(Y_train)
print(len(Y_train))

[[0.08106723 0.         0.         ... 0.         0.         0.15768726]
 [0.0866039  0.         0.         ... 0.         0.         0.16845688]
 [0.12491241 0.         0.         ... 0.         0.26901125 0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.0514304  0.         0.         ... 0.         0.11076047 0.        ]
 [0.05316242 0.         0.         ... 0.         0.         0.10340845]]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

In [46]:
print(tfidf.get_feature_names())
print(X_train.shape)


['10', 'абсолютно', 'автор', 'актёр', 'актёрский', 'американский', 'атмосфера', 'безусловно', 'благодаря', 'бог', 'больший', 'большинство', 'большой', 'будущее', 'буквально', 'важный', 'век', 'великолепный', 'верить', 'весь', 'весьма', 'вещий', 'взгляд', 'взрослый', 'взять', 'вид', 'видеть', 'визуальный', 'вместе', 'вместо', 'внимание', 'вовсе', 'возможно', 'возможность', 'возникать', 'возраст', 'война', 'вокруг', 'вообще', 'вопрос', 'впечатление', 'вполне', 'время', 'вроде', 'вспомнить', 'всякий', 'всё', 'выбор', 'выглядеть', 'вызвать', 'вызывать', 'выйти', 'высокий', 'выход', 'выходить', 'где', 'гениальный', 'герой', 'главное', 'главный', 'глаз', 'глубина', 'глубокий', 'говорить', 'год', 'голов', 'голова', 'город', 'готовый', 'давать', 'давно', 'далеко', 'далёкий', 'данный', 'дать', 'девочка', 'девушка', 'действие', 'действительно', 'делать', 'дело', 'день', 'деньга', 'деталь', 'детский', 'детство', 'джексон', 'джон', 'диалог', 'добавить', 'добрый', 'довольно', 'долго', 'должный', 'д

In [58]:
import keras

num_classes = 3
Y_train = keras.utils.to_categorical(Y_train, num_classes)
Y_test = keras.utils.to_categorical(Y_test, num_classes)

In [68]:
print(X_train.shape)
print(X_test.shape)

print(Y_train.shape)
print(Y_test.shape)

(610, 500)
(90, 500)
(610, 3)
(90, 3)


In [138]:
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation

model = keras.Sequential([
    keras.layers.Dense(512, input_shape=(500, )),
    keras.layers.Dense(num_classes)
])

model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)
print(model.metrics_names)

batch_size = 32
epochs = 10

model.fit(X_train, Y_train, epochs=epochs)
score = model.evaluate(X_test, Y_test, verbose=2)

print('Test loss:', score[0])
print('Test accuracy:', score[1])



['loss', 'accuracy']
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Test loss: 1.206261928876241
Test accuracy: 0.5111111402511597


In [139]:
predictions = model.predict(X_test)
predictions

array([[-1.9154532 , -1.53025   , -1.9729754 ],
       [-1.7836158 , -1.739233  , -2.292455  ],
       [-1.9513795 , -1.740172  , -2.090018  ],
       [-1.7792852 , -1.3767725 , -1.9619782 ],
       [-1.3784976 , -1.2037922 , -1.3808392 ],
       [-1.4164851 , -1.1308128 , -1.2206177 ],
       [-2.1749275 , -1.8282698 , -1.9473459 ],
       [-1.1164196 , -0.5607509 , -1.2831392 ],
       [-1.3836728 , -1.2847505 , -1.4833204 ],
       [-1.5781906 , -1.415513  , -1.2731534 ],
       [-1.7049232 , -1.3424139 , -1.6523243 ],
       [-1.5214624 , -1.518258  , -2.6959326 ],
       [-1.7681577 , -1.6692194 , -2.0059114 ],
       [-1.7681577 , -1.6692194 , -2.0059114 ],
       [-0.60815275, -0.48787433, -0.73554015],
       [-0.9643009 , -0.6920326 , -1.2231979 ],
       [-1.0941103 , -1.0899724 , -1.3501769 ],
       [-1.2098778 , -1.041416  , -1.6114997 ],
       [-1.023965  , -0.82361066, -1.7171937 ],
       [-0.49452877, -0.1801519 , -0.95004237],
       [-0.3510752 , -0.08527882, -0.599

In [140]:
predictions[0]

array([-1.9154532, -1.53025  , -1.9729754], dtype=float32)

In [141]:
len(predictions)

90

In [143]:
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_fscore_support

print(classification_report(Y_test.argmax(axis=1), predictions.argmax(axis=1)))

              precision    recall  f1-score   support

           0       0.56      0.33      0.42        30
           1       0.47      0.90      0.62        30
           2       0.60      0.30      0.40        30

    accuracy                           0.51        90
   macro avg       0.54      0.51      0.48        90
weighted avg       0.54      0.51      0.48        90



In [162]:
act_classes = [1]*len(test_pos_reviews) + [-1]*len(test_neg_reviews) + [0]*len(test_neutr_reviews)
import numpy as np

labels = {
    0: 0,
    1: 1,
    2: -1
}

pred_classes = [labels[np.argmax(x)] for x in predictions]

print("Neural Net Accuracy Score -> ",accuracy_score(pred_classes, act_classes)*100)
print(precision_recall_fscore_support(act_classes, pred_classes, average='weighted'))

Neural Net Accuracy Score ->  51.11111111111111
(0.5430799220272905, 0.5111111111111111, 0.47911877394636015, None)
