In [1]:
# coding: utf8
import math
import string

import nltk
import pandas
import pymorphy2
import sklearn
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

def normalize_review(review, morph):
    """

    :param review:
    :param morph:
    :return:
    """

    tokens = nltk.word_tokenize(review)
    normalized_tokens = []
    # normalized_review = ''
    for token in tokens:
        token = morph.parse(token)[0].normal_form
        if token not in stop_words and token not in string.punctuation:
            normalized_tokens.append(token.lower())

    return normalized_tokens, " ".join(normalized_tokens)


def get_my_reviews(morph):
    """
    Получаем мои ревью из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, текст ревью, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] == 'Криминальное чтиво' or
                row['title'] == 'Маленькая Мисс Счастье' or
                row['title'] == 'Амели'):
            
            if row['label'] == 1:
                pos_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == -1:
                neg_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == 0:
                neutr_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))

    return pos_reviews, neg_reviews, neutr_reviews


def get_reviews(morph):
    """
    Получаем ревью одногруппников из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, список токенов, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] != 'Криминальное чтиво' and
                row['title'] != 'Маленькая Мисс Счастье' and
                row['title'] != 'Амели'):
            if row['label'] == 1:
                pos_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == -1:
                neg_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            if row['label'] == 0:
                neutr_reviews.append((row['title'], normalize_review(row['text'], morph),
                            str(row['label'])))
            

    return pos_reviews, neg_reviews, neutr_reviews

morph = pymorphy2.MorphAnalyzer()

stop_words = stopwords.words('russian')
stop_words.extend(['«', '»', '–', '...', '“', '”', '—', '!',
                   '@', '№', ':', ',', '.', '?', ':', '(', ')'])
stop_words = set(stop_words)

train_positive_reviews, train_negative_reviews, train_neutral_reviews = get_reviews(morph)
test_positive_reviews, test_negative_reviews, test_neutral_reviews = get_my_reviews(morph)

print(train_positive_reviews[0])

('Анастасия', (['прекрасный', 'воспоминание', 'вызывать', 'мультфильм', 'детство', 'обожать', 'знать', 'наизусть', 'весь', 'реплика', 'герой', 'песнь', 'прошлый', '10', 'год', 'вырасти', 'мультик', 'любить', 'по-прежнему', 'во-первых', 'отличный', 'яркий', 'картинка', 'нарисовать', 'превосходно', 'передраться', 'правда', 'красивый', 'пейзаж', 'красивый', 'платье', 'маленькая', 'девочка', 'просто', 'завораживать', 'двигаться', 'герой', 'очень', 'реалистично', 'хотя', 'это', 'проблема', 'американский', 'аниматор', 'во-вторых', 'озвучка', 'по-моему', 'наш', 'вариант', 'получиться', 'хороший', 'оригинал', 'огромный', 'спасибо', 'сказать', 'мария', 'кац', 'живой', 'исполнение', 'саундтрек', 'прекрасный', 'в-третьих', 'герой', 'маленький', 'девочка', 'верить', 'принц', 'просто', 'сразить', 'дмитрий', 'просто', 'воплощение', 'красота', 'постоянно', 'спасать', 'анастасий', 'глаз', 'становиться', 'весь', 'краш', 'упомянуть', 'барток', 'просто', 'разряжать', 'обстановка', 'некоторый', 'ситуация'

In [3]:
print(train_positive_reviews[0][0])
print(train_positive_reviews[0][1])
print(train_positive_reviews[0][2])



Анастасия
(['прекрасный', 'воспоминание', 'вызывать', 'мультфильм', 'детство', 'обожать', 'знать', 'наизусть', 'весь', 'реплика', 'герой', 'песнь', 'прошлый', '10', 'год', 'вырасти', 'мультик', 'любить', 'по-прежнему', 'во-первых', 'отличный', 'яркий', 'картинка', 'нарисовать', 'превосходно', 'передраться', 'правда', 'красивый', 'пейзаж', 'красивый', 'платье', 'маленькая', 'девочка', 'просто', 'завораживать', 'двигаться', 'герой', 'очень', 'реалистично', 'хотя', 'это', 'проблема', 'американский', 'аниматор', 'во-вторых', 'озвучка', 'по-моему', 'наш', 'вариант', 'получиться', 'хороший', 'оригинал', 'огромный', 'спасибо', 'сказать', 'мария', 'кац', 'живой', 'исполнение', 'саундтрек', 'прекрасный', 'в-третьих', 'герой', 'маленький', 'девочка', 'верить', 'принц', 'просто', 'сразить', 'дмитрий', 'просто', 'воплощение', 'красота', 'постоянно', 'спасать', 'анастасий', 'глаз', 'становиться', 'весь', 'краш', 'упомянуть', 'барток', 'просто', 'разряжать', 'обстановка', 'некоторый', 'ситуация', 'е

In [4]:
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
from nltk.corpus import wordnet as wn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import model_selection, naive_bayes, svm
from sklearn.metrics import accuracy_score

train_pos_reviews = [item[1][1] for item in train_positive_reviews]
train_neg_reviews = [item[1][1] for item in train_negative_reviews]
train_neutr_reviews = [item[1][1] for item in train_neutral_reviews]

test_pos_reviews = [item[1][1] for item in test_positive_reviews]
test_neg_reviews = [item[1][1] for item in test_negative_reviews]
test_neutr_reviews = [item[1][1] for item in test_neutral_reviews]

In [5]:
Train_X = train_pos_reviews + train_neg_reviews + train_neutr_reviews
Train_Y = [1]*len(train_pos_reviews) + [-1]*len(train_neg_reviews) + [0]*len(train_neutr_reviews)

Test_X = test_pos_reviews + test_neg_reviews + test_neutr_reviews
Test_Y = [1]*len(test_pos_reviews) + [-1]*len(test_neg_reviews) + [0]*len(test_neutr_reviews)

In [6]:
# Encoder = LabelEncoder()
# Train_Y = Encoder.fit_transform(Train_Y)
print(Train_Y)
# Test_Y = Encoder.fit_transform(Test_Y)
print(Test_Y)


[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -

In [7]:
vectorizer = CountVectorizer(analyzer="word")


In [8]:
Train_X = vectorizer.fit_transform(Train_X).toarray()
Test_X = vectorizer.transform(Test_X).toarray()

In [9]:
Train_X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [13]:
from sklearn.svm import LinearSVC

In [14]:
clf = LinearSVC(max_iter=10000)
clf.fit(Train_X, Train_Y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=10000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

In [15]:
# predict the labels on validation dataset
predictions_SVM = clf.predict(Test_X)
print(predictions_SVM)
# Use accuracy_score function to get the accuracy
print("SVM Accuracy Score -> ",accuracy_score(predictions_SVM, Test_Y)*100)

[ 1  1  1  1 -1  1 -1  1  1 -1  0  1 -1 -1  0  1  1  1  1  0  1  1  0  0
  1 -1  1  1  1  1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1
 -1  0 -1  0  1 -1  0 -1  0 -1  0  0 -1  1 -1 -1  0  1 -1  1 -1  1 -1  1
 -1  1  1  0  1  0 -1 -1  0 -1  1  1  1  1  1  0  1  0]
SVM Accuracy Score ->  51.11111111111111


In [16]:
import numpy as np
from sklearn.metrics import precision_recall_fscore_support
y_true = Test_Y
print(y_true)
y_pred = predictions_SVM
print(y_pred)

print(precision_recall_fscore_support(y_true, y_pred, average='macro'))

print(precision_recall_fscore_support(y_true, y_pred, average='micro'))

print(precision_recall_fscore_support(y_true, y_pred, average='weighted'))


[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[ 1  1  1  1 -1  1 -1  1  1 -1  0  1 -1 -1  0  1  1  1  1  0  1  1  0  0
  1 -1  1  1  1  1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1
 -1  0 -1  0  1 -1  0 -1  0 -1  0  0 -1  1 -1 -1  0  1 -1  1 -1  1 -1  1
 -1  1  1  0  1  0 -1 -1  0 -1  1  1  1  1  1  0  1  0]
(0.4827621739386445, 0.5111111111111111, 0.4859807987785123, None)
(0.5111111111111111, 0.5111111111111111, 0.5111111111111111, None)
(0.4827621739386445, 0.5111111111111111, 0.4859807987785123, None)


In [20]:
precision_recall_fscore_support(y_true, y_pred, average=None)


(array([0.56756757, 0.35294118, 0.52777778]),
 array([0.7       , 0.2       , 0.63333333]),
 array([0.62686567, 0.25531915, 0.57575758]),
 array([30, 30, 30], dtype=int64))

In [21]:
from sklearn.ensemble import RandomForestClassifier
rfclf = RandomForestClassifier(max_depth=20, random_state=0)
rfclf.fit(Train_X, Train_Y)


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=20, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [22]:
# predict the labels on validation dataset
predictions_RF = rfclf.predict(Test_X)
print(predictions_RF)
# Use accuracy_score function to get the accuracy
print("RF Accuracy Score -> ",accuracy_score(predictions_RF, Test_Y)*100)

[ 1  1  1  1  1  1  1  1  1  1 -1  1  0  0  0  0 -1  1  1  1  1  1  0  0
  1  0  1  1  1  1  0  0  1 -1 -1  0 -1 -1 -1 -1  1 -1 -1  0  1  0  0  0
 -1  0  0  0  1 -1 -1 -1 -1 -1  1  0  1  1  1  1  1  0  1  0 -1  0  1  1
 -1  1  1  0  0  0 -1  1  1  1  1  1  0  1  0  0  1  0]
RF Accuracy Score ->  50.0


In [23]:
print(precision_recall_fscore_support(Test_Y, predictions_RF, average='weighted'))

(0.5274523518097569, 0.5, 0.49719954112963083, None)


In [42]:
# Добавляем части речи и пунктуацию в вектор

import nltk
import pandas
import pymorphy2
import sklearn
import string
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

def normalize_review(review, morph):
    """

    :param review:
    :param morph:
    :return:
    """
    punct_chars = []
    nouns = 0
    verbs = 0
    adverbs = 0
    adjs = 0
    tokens = nltk.word_tokenize(review)
    normalized_tokens = []
    # normalized_review = ''
    for token in tokens:
        token =  morph.parse(token)[0]
        if token.tag.POS == 'ADJF':
            adjs += 1
        elif token.tag.POS == 'NOUN':
            nouns += 1
        elif token.tag.POS == 'INFN' or token.tag.POS == 'VERB':
            verbs += 1
        elif token.tag.POS == 'ADVB':
            adverbs += 1
        token = token.normal_form
        if token not in stop_words and token not in string.punctuation:
            normalized_tokens.append(token.lower())
        if token in string.punctuation and token not in punct_chars:
            punct_chars.append(token)
            

    return normalized_tokens, " ".join(normalized_tokens), len(punct_chars), nouns, verbs, adverbs, adjs


def get_my_reviews(morph):
    """
    Получаем мои ревью из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, текст ревью, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] == 'Криминальное чтиво' or
                row['title'] == 'Маленькая Мисс Счастье' or
                row['title'] == 'Амели'):
            
            preprocessed = normalize_review(row['text'], morph)
            
            d = {
                'text': preprocessed[1],
                'nouns_cnt': preprocessed[3],
                'verbs_cnt': preprocessed[4],
                'adjective_cnt': preprocessed[6],
                'adverb_cnt': preprocessed[5],
                'punct_chars_cnt': preprocessed[2]
            }
            
            if row['label'] == 1:
                pos_reviews.append(d)
            if row['label'] == -1:
                neg_reviews.append(d)
            if row['label'] == 0:
                neutr_reviews.append(d)

    return pos_reviews, neg_reviews, neutr_reviews


def get_reviews(morph):
    """
    Получаем ревью одногруппников из эксель таблицы.

    :param morph:
    :return tuple: (название фильма, список токенов, реальный класс ревью)
    """
    pos_reviews = []
    neg_reviews = []
    neutr_reviews = []
    
    excel_file = pandas.read_excel('Отзывы кино.xlsx', 0)
    for i, row in excel_file.iterrows():
        if (row['title'] != 'Криминальное чтиво' and
                row['title'] != 'Маленькая Мисс Счастье' and
                row['title'] != 'Амели'):
            
            preprocessed = normalize_review(row['text'], morph)
            
            d = {
                'text': preprocessed[1],
                'nouns_cnt': preprocessed[3],
                'verbs_cnt': preprocessed[4],
                'adjective_cnt': preprocessed[6],
                'adverb_cnt': preprocessed[5],
                'punct_chars_cnt': preprocessed[2]
            }
            
            if row['label'] == 1:
                pos_reviews.append(d)
            if row['label'] == -1:
                neg_reviews.append(d)
            if row['label'] == 0:
                neutr_reviews.append(d)
            

    return pos_reviews, neg_reviews, neutr_reviews

morph = pymorphy2.MorphAnalyzer()

stop_words = ['«', '»', '...', '“', '”', '—', '№']
stop_words.extend(stopwords.words('russian'))
stop_words = set(stop_words)

train_positive_reviews, train_negative_reviews, train_neutral_reviews = get_reviews(morph)
test_positive_reviews, test_negative_reviews, test_neutral_reviews = get_my_reviews(morph)

print(train_positive_reviews[0])

{'text': 'прекрасный воспоминание вызывать мультфильм детство обожать знать наизусть весь реплика герой песнь прошлый 10 год вырасти мультик любить по-прежнему во-первых отличный яркий картинка нарисовать превосходно передраться правда красивый пейзаж красивый платье маленькая девочка просто завораживать двигаться герой очень реалистично хотя это проблема американский аниматор во-вторых озвучка по-моему наш вариант получиться хороший оригинал огромный спасибо сказать мария кац живой исполнение саундтрек прекрасный в-третьих герой маленький девочка верить принц просто сразить дмитрий просто воплощение красота постоянно спасать анастасий глаз становиться весь краш упомянуть барток просто разряжать обстановка некоторый ситуация единственный пожалуй последний значимость минус это фильм нереалистичность америка история россия пожалуй читать сторона забывать это мультфильм ребёнок снимать сценарий наш история получиться мягко говорить жесткач по-моему мультик очень дотягивать осмотреть хотя 

In [111]:
Train_X = train_positive_reviews + train_negative_reviews + train_neutral_reviews
Train_Y = [1]*len(train_positive_reviews) + [-1]*len(train_negative_reviews) + [0]*len(train_neutral_reviews)

Test_X = test_positive_reviews + test_negative_reviews + test_neutral_reviews
Test_Y = [1]*len(test_positive_reviews) + [-1]*len(test_negative_reviews) + [0]*len(test_neutral_reviews)

In [112]:
print(test_positive_reviews[0])

{'text': 'сочинение тема любить криминальный чтиво начало хотеть сказать просто обажай фильм пересматривать 30 маленький знать наизусть практически каждый диалог постоянно цитировать полюбиться фраза также считать картина хороший творчество замечательный режиссёр квентин тарантино хороший весь история кино написать это сочинение сподвигнуть искренний недоумение некоторый индивид – почему весь любить превозносить криминальный чтиво весь ответить смочь попробовать итак любить криминальный чтиво во-первых сценарий великолепный скрипт написать тарантино совместно роджер эверь сильно выделяться фон остальной свой оригинальность остроумие известно эверь полностью написать новелла золотой часы весь остальной являться результат творчество квентин хороший сценарий весь замечательный диалог давно стать культовый – думать разговор винсент джулс массаж нога жизнь европа знать практически каждый киноман превосходный персонаж – отморозок цитировать библия боксёр-неудачник готовый умереть отцовский ч

In [113]:
Train_X[0]

{'text': 'прекрасный воспоминание вызывать мультфильм детство обожать знать наизусть весь реплика герой песнь прошлый 10 год вырасти мультик любить по-прежнему во-первых отличный яркий картинка нарисовать превосходно передраться правда красивый пейзаж красивый платье маленькая девочка просто завораживать двигаться герой очень реалистично хотя это проблема американский аниматор во-вторых озвучка по-моему наш вариант получиться хороший оригинал огромный спасибо сказать мария кац живой исполнение саундтрек прекрасный в-третьих герой маленький девочка верить принц просто сразить дмитрий просто воплощение красота постоянно спасать анастасий глаз становиться весь краш упомянуть барток просто разряжать обстановка некоторый ситуация единственный пожалуй последний значимость минус это фильм нереалистичность америка история россия пожалуй читать сторона забывать это мультфильм ребёнок снимать сценарий наш история получиться мягко говорить жесткач по-моему мультик очень дотягивать осмотреть хотя 

In [114]:
df = pd.DataFrame(Train_X)
df

Unnamed: 0,text,nouns_cnt,verbs_cnt,adjective_cnt,adverb_cnt,punct_chars_cnt
0,прекрасный воспоминание вызывать мультфильм де...,50,26,22,14,6
1,хотя мультфильм создать 1997 совершенно мочь п...,34,24,23,11,6
2,любимый мультфильм детство любим поныне должны...,24,10,15,10,2
3,время свержение монархия революция расстрел ца...,93,44,48,19,3
4,великий княжна анастасий дочь последний русски...,149,51,84,28,4
...,...,...,...,...,...,...
605,нейтральный рецензия 'то понравиться свой дово...,113,53,90,34,7
606,из-за незабитый гвоздь потерять подкова из-за ...,123,51,75,28,4
607,выход самый удачный серия быстрый неистовый пр...,87,47,60,48,4
608,правильно говорят каждый цепь насколько крепки...,172,80,88,50,9


In [115]:
from sklearn_pandas import DataFrameMapper

mapper = DataFrameMapper(
    [
        ('text', CountVectorizer()),
        (['nouns_cnt', 'verbs_cnt', 'adjective_cnt', 'adverb_cnt', 'punct_chars_cnt'], None)
    ])
X = mapper.fit_transform(df)

In [116]:
X

array([[  0,   0,   0, ...,  22,  14,   6],
       [  0,   0,   0, ...,  23,  11,   6],
       [  0,   0,   0, ...,  15,  10,   2],
       ...,
       [  0,   0,   0, ...,  60,  48,   4],
       [  0,   0,   0, ...,  88,  50,   9],
       [  0,   0,   0, ..., 111,  36,   6]], dtype=int64)

In [117]:
from sklearn.ensemble import RandomForestClassifier
rfclf = RandomForestClassifier(max_depth=20, random_state=0)
rfclf.fit(X, Train_Y)


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=20, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [118]:
df_test = pd.DataFrame(Test_X)

X_test = mapper.transform(df_test)
X_test

array([[  0,   0,   0, ...,  80,  26,   7],
       [  0,   0,   0, ..., 139,  36,   7],
       [  0,   0,   0, ..., 138,  38,  10],
       ...,
       [  0,   0,   0, ...,   8,   2,   5],
       [  0,   0,   0, ...,  28,  11,   8],
       [  0,   0,   0, ...,  43,  17,   8]], dtype=int64)

In [119]:
# predict the labels on validation dataset
predictions_RF = rfclf.predict(X_test)
print(predictions_RF)
# Use accuracy_score function to get the accuracy
print("RF Accuracy Score -> ",accuracy_score(predictions_RF, Test_Y)*100)

[ 1  1  1  1  1  1  1  1  1  1 -1  1 -1 -1  0  0  1  1  1  1  0  1  0  0
  1  1  1  1  1  1 -1 -1  1 -1  1 -1 -1 -1 -1 -1  1 -1 -1  0  0 -1  0 -1
 -1 -1  1 -1  1 -1 -1 -1  1 -1 -1  0  1  1  1  1  1  0  1  1  0 -1  1  1
  1  1  0  0  1  1 -1  1  0  1  1  1  0  1  1  0  1  0]
RF Accuracy Score ->  55.55555555555556


In [107]:
print(precision_recall_fscore_support(Test_Y, predictions_RF, average='weighted'))

(0.5763071895424836, 0.5555555555555556, 0.543933607763395, None)


In [123]:
# Без мешка слов


df = pd.DataFrame(Train_X)
X_train_without_bow_df = df.drop(['text'], axis=1)

df_test = pd.DataFrame(Test_X)
X_test_without_bow_df = df_test.drop(['text'], axis=1)

mapper = DataFrameMapper(
    [
#         ('text', CountVectorizer()),
        (['nouns_cnt', 'verbs_cnt', 'adjective_cnt', 'adverb_cnt', 'punct_chars_cnt'], None)
    ])

X = mapper.fit_transform(X_train_without_bow_df)
X_test = mapper.transform(X_test_without_bow_df)

from sklearn.ensemble import RandomForestClassifier
rfclf = RandomForestClassifier(max_depth=20, random_state=0)
rfclf.fit(X, Train_Y)

predictions_RF = rfclf.predict(X_test)
print(predictions_RF)
print("RF Accuracy Score -> ",accuracy_score(predictions_RF, Test_Y)*100)
print(precision_recall_fscore_support(Test_Y, predictions_RF, average='weighted'))

[ 1 -1  1  1  0  1 -1  0  0  0  1  1  1  1 -1  0  1  1  1  0 -1 -1  0  0
  1 -1  0  0  0  1 -1 -1  1  1  0 -1 -1  0  1  1 -1  0 -1  1 -1  1  0  0
  0  0 -1  0  1 -1  1 -1  1 -1  1  1 -1  0 -1  1  1  1 -1  0 -1  0  1  1
  0  0  0 -1 -1 -1  1  1  1 -1  0  1  0 -1 -1  0  1  0]
RF Accuracy Score ->  37.77777777777778
(0.37819597826359147, 0.37777777777777777, 0.37706598770938643, None)


In [124]:
# Без частей речи


df = pd.DataFrame(Train_X)
X_train_without_pos_df = df.drop(['nouns_cnt', 'verbs_cnt', 'adjective_cnt', 'adverb_cnt'], axis=1)

df_test = pd.DataFrame(Test_X)
X_test_without_pos_df = df_test.drop(['nouns_cnt', 'verbs_cnt', 'adjective_cnt', 'adverb_cnt'], axis=1)

mapper = DataFrameMapper(
    [
        ('text', CountVectorizer()),
        (['punct_chars_cnt'], None)
    ])

X = mapper.fit_transform(X_train_without_pos_df)
X_test = mapper.transform(X_test_without_pos_df)

from sklearn.ensemble import RandomForestClassifier
rfclf = RandomForestClassifier(max_depth=20, random_state=0)
rfclf.fit(X, Train_Y)

predictions_RF = rfclf.predict(X_test)
print(predictions_RF)
print("RF Accuracy Score -> ",accuracy_score(predictions_RF, Test_Y)*100)
print(precision_recall_fscore_support(Test_Y, predictions_RF, average='weighted'))

[ 1  1  1  1  1  1  1  1  1  1  0  1 -1 -1  0  0  1  1  1  1  1  1  1  0
  1  1  1  1  1  1 -1 -1  1 -1 -1 -1 -1 -1 -1  0 -1  1 -1  0 -1 -1  0 -1
  0 -1  0 -1  1 -1 -1 -1 -1 -1  1  0  1  1  1  1  1  0 -1  0 -1 -1  1  1
  0  1  0  0 -1  0 -1 -1  1  1  1  1  0  1  1  0  1  0]
RF Accuracy Score ->  58.88888888888889
(0.5820364865652503, 0.5888888888888889, 0.5715121192548819, None)


In [125]:
# Без пунктуации


df = pd.DataFrame(Train_X)
X_train_without_punct_df = df.drop(['punct_chars_cnt'], axis=1)

df_test = pd.DataFrame(Test_X)
X_test_without_punct_df = df_test.drop(['punct_chars_cnt'], axis=1)

mapper = DataFrameMapper(
    [
        ('text', CountVectorizer()),
        (['nouns_cnt', 'verbs_cnt', 'adjective_cnt', 'adverb_cnt'], None)
    ])

X = mapper.fit_transform(X_train_without_punct_df)
X_test = mapper.transform(X_test_without_punct_df)

from sklearn.ensemble import RandomForestClassifier
rfclf = RandomForestClassifier(max_depth=20, random_state=0)
rfclf.fit(X, Train_Y)

predictions_RF = rfclf.predict(X_test)
print(predictions_RF)
print("RF Accuracy Score -> ",accuracy_score(predictions_RF, Test_Y)*100)
print(precision_recall_fscore_support(Test_Y, predictions_RF, average='weighted'))

[ 1  1  1  1  1  1  1  1  1  1  1  1 -1 -1  0  0  1  1  1  1  1  1  0  0
  1  1  1  1  1  1  0 -1  1 -1  1 -1 -1 -1 -1  0  1  0  1 -1  1 -1  0  0
 -1 -1  0 -1  1 -1 -1 -1 -1 -1 -1  1  1  1  0  1  1  0  1  0 -1  0  1  1
  1  1  0  0 -1 -1 -1 -1  1  1  1  1  0  1  0  0  1  0]
RF Accuracy Score ->  56.666666666666664
(0.5766908212560387, 0.5666666666666667, 0.5537361923326836, None)
