In [126]:
import pandas as pd
from sklearn.model_selection import train_test_split
import nltk
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
nltk.download('punkt')
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from matplotlib import pyplot as plt
import numpy as np
from sklearn.model_selection import GridSearchCV
import pyarrow as pa
import pyarrow.parquet as pq
import re

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [127]:
df = pq.read_table('kinopoisk-train.parquet')
df = pa.Table.to_pandas(df)
df.head()

Unnamed: 0,content,title,grade3,movie_name,part,review_id,author,date,grade10,Idx
0,"\n""Блеф» — одна из моих самых любимых комедий....",Плакали наши денежки ©,Good,Блеф (1976),top250,17144,Come Back,2011-09-24 00:00:00,10.0,0
1,\nАдриано Челентано продолжает радовать нас св...,,Good,Блеф (1976),top250,17139,Stasiki,2008-03-04 00:00:00,0.0,1
2,"\nНесомненно, это один из великих фильмов 80-х...",,Good,Блеф (1976),top250,17137,Flashman,2007-03-04 00:00:00,10.0,2
3,\nЭта фраза на мой взгляд отражает сюжет несом...,""" Черное, красное, ерунда это все. Выигрывает ...",Good,Блеф (1976),top250,17135,Sergio Tishin,2009-08-17 00:00:00,0.0,3
4,"\n- как пела Земфира, скорее всего, по соверше...","«Он хотел убежать? Да! Блеф, блеф…»",Neutral,Блеф (1976),top250,17151,Фюльгья,2009-08-20 00:00:00,7.0,4


In [128]:
df.grade3.replace("Good", 1, inplace=True) 
df.grade3.replace("Neutral", 2, inplace=True) 
df.grade3.replace("Bad", 3, inplace=True) 

In [129]:
train_df, test_df = train_test_split(df, test_size=3500)

In [130]:
test_df.shape

(3500, 10)

In [131]:
test_df["grade3"].value_counts()

1    2621
3     447
2     432
Name: grade3, dtype: int64

In [132]:
train_df["grade3"].value_counts()

1    24643
3     4304
2     4144
Name: grade3, dtype: int64

In [133]:
snowball = SnowballStemmer(language="russian")
def tokenize_sentence(text):
    text= text.lower()
    text = re.sub('<br />', '', text)
    text = re.sub(r"https\S+|www\S+|http\S+", '', text, flags = re.MULTILINE)
    text = re.sub(r'\@w+|\#', '', text)
    text = re.sub(r'[^\w\s]', '', text)
    tokens = word_tokenize(text, language="russian")
    tokens = [i for i in tokens if i not in string.punctuation]
    tokens = [i for i in tokens if i not in russian_stop_words]
    tokens = [snowball.stem(i) for i in tokens]
    return tokens

In [134]:
vectorizer = TfidfVectorizer(tokenizer=lambda x: tokenize_sentence(x))


In [135]:
features = vectorizer.fit_transform(train_df["content"])



In [136]:
model = LogisticRegression(random_state=0)
model.fit(features, train_df["grade3"])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [137]:
model.predict(features[6])

array([1], dtype=int64)

In [138]:
train_df["content"].iloc[6]

'\nУ меня просто нет\xa0слов. Когда я\xa0смотрела его\xa0в первый раз, это\xa0было совсем недавно. Это\xa0было ночью. И\xa0за одну ночь я\xa0посморела его\xa0раза два. Финал заставляет задуматься очень надолго, так\xa0неожиданно. А\xa0после… шикарные реплики которые я\xa0запомнила не\xa0всю свою жизнь.\n\n«Ненависть тяжёлый багаж. Наша жизнь слишком коротка, чтобы тратить её\xa0на зло. Она\xa0того не\xa0стоит.»\n\n«Мы не\xa0враги, а\xa0друзья. Мы\xa0не должны быть врагами. Хоть наши узы\xa0дружбы не\xa0всегда прочны, они\xa0не должны порваться.»\n\nЭдвард Нортон\xa0—\xa0неподражаемый актёр. Не\xa0зря его\xa0называют гением перевоплощения. Я\xa0считаю, что\xa0эту роль никто лучше бы\xa0не сыграл.\n\n10 из\xa010 \n\nК сожалению, меньше поставить не\xa0могу.\n\n10 из\xa010'

In [139]:
model_pipeline = Pipeline([
    ("vectorizer", TfidfVectorizer(tokenizer=lambda x: tokenize_sentence(x))),
    ("model", LogisticRegression(random_state=0))
]
)

In [140]:
model_pipeline.fit(train_df["content"], train_df["grade3"])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [141]:
model_pipeline.predict(["Отличный фильм!"])

array([1], dtype=int64)

In [142]:
model_pipeline.predict(["Ужасный сюжет и актеры, смотреть невозможно"])

array([3], dtype=int64)

In [143]:
model_pipeline.predict(["Фильм захватывает с первых секунд"])

array([1], dtype=int64)

In [144]:
precision_score(y_true=test_df["grade3"], y_pred=model_pipeline.predict(test_df["content"]), average = 'weighted')

0.8187441407395805

In [145]:
from sklearn.svm import LinearSVC
model_pipeline2 = Pipeline([
    ("vectorizer", TfidfVectorizer(tokenizer=lambda x: tokenize_sentence(x))),
    ("model", LinearSVC())
]
)

In [146]:
model_pipeline2.fit(train_df["content"], train_df["grade3"])



In [147]:
precision_score(y_true=test_df["grade3"], y_pred=model_pipeline2.predict(test_df["content"]), average = 'weighted')

0.8139459980739157

In [148]:
model_pipeline2.predict(["Отличный фильм!"])

array([1], dtype=int64)

In [149]:
model_pipeline2.predict(["Ужасный сюжет и актеры, смотреть невозможно"])

array([3], dtype=int64)

In [150]:
model_pipeline2.predict(["Лучший фильм"])

array([1], dtype=int64)

In [151]:
model_pipeline2.predict(["Фильм не впечатлил"])

array([2], dtype=int64)

In [152]:
model_pipeline2.predict(["Полина молодец!"])

array([2], dtype=int64)

In [153]:
model_pipeline.predict(["Полина молодец!"])

array([2], dtype=int64)

In [154]:
model_pipeline.predict(["Нормально"])

array([2], dtype=int64)

In [155]:
model_pipeline2.predict(["Нормально"])

array([2], dtype=int64)