In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import nltk

In [3]:
df = pd.read_csv('reviews.csv')
df.head(10)

Unnamed: 0,text,label
0,Платёж не поступил как так?,финансовая
1,Подделка товара как так?,мошенничество
2,Повреждённая упаковка срочно,логистика
3,Нет возврата средств сегодня,финансовая
4,Пустая посылка,мошенничество
5,Оплатил — не получил сегодня,мошенничество
6,Обман на платформе как так?,мошенничество
7,Сняли лишнюю сумму сегодня,финансовая
8,Нет ответа поддержки срочно,обслуживание
9,Обман на платформе второй раз,мошенничество


In [4]:
df['label'].value_counts()

Unnamed: 0_level_0,count
label,Unnamed: 1_level_1
финансовая,5000
мошенничество,5000
логистика,5000
обслуживание,5000
прочее,5000


In [5]:
df.shape

(25000, 2)

In [6]:
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
rus_stop = stopwords.words('russian')

In [9]:
vec = CountVectorizer(stop_words=rus_stop)
X_train_vec = vec.fit_transform(X_train)
X_test_vec = vec.transform(X_test)

In [10]:
model = MultinomialNB()

In [12]:
model.fit(X_train_vec, y_train)

In [13]:
y_pred = model.predict(X_test_vec)

In [14]:
print(classification_report(y_test, y_pred))

               precision    recall  f1-score   support

    логистика       1.00      1.00      1.00       973
мошенничество       1.00      1.00      1.00      1036
 обслуживание       1.00      1.00      1.00       961
       прочее       1.00      1.00      1.00      1033
   финансовая       1.00      1.00      1.00       997

     accuracy                           1.00      5000
    macro avg       1.00      1.00      1.00      5000
 weighted avg       1.00      1.00      1.00      5000



In [18]:
import joblib

In [19]:
joblib.dump(model, 'model_reviews.pkl')
joblib.dump(vec, 'vec_reviews.pkl')

['vec_reviews.pkl']

In [20]:
test_df = pd.read_csv('reviews_test.csv')
test_df.head(25)

Unnamed: 0,text,label
0,Не вернули деньги и ничего не меняется,финансовая
1,Платёж не поступил сегодня,финансовая
2,Платёж не поступил второй раз,финансовая
3,Ошибочный платёж сегодня,финансовая
4,Сняли лишнюю сумму и ничего не меняется,финансовая
5,Нет ответа поддержки второй раз,обслуживание
6,Грубиян оператор уже неделю,обслуживание
7,Грубиян оператор,обслуживание
8,Грубиян оператор и ничего не меняется,обслуживание
9,Сотрудник не помог срочно,обслуживание
