In [41]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
# Загрузка данных
data = pd.read_csv('data/482reviews.csv')

In [42]:
data.shape

(482, 2)

In [43]:
data.head()

Unnamed: 0,review,assessment
0,"+красивая, качественная печать, качественые де...",1
1,3 Д ручки очень интересное увлечение для детей...,0
2,"4 года - буквы вообще учить не хочет, ничем ин...",1
3,"Азул — это та самая игрулька, куда мозги можно...",1
4,"Бочонки маленькие, фишки обычный картон. Не по...",0


In [44]:
data['assessment'].value_counts()

assessment
1    268
0    214
Name: count, dtype: int64

In [45]:
nltk.download('stopwords')
corpus = []
for i in range(0, 101):

    # столбец : "Обзор", первая строка
    review = re.sub('[^а-яА-Я]', ' ', data['review'][i])

    # преобразовать все регистры в строчные
    review = review.lower()

    # разделить на массив (разделитель по умолчанию - " ")
    review = review.split()

    # создаем объект PorterStemmer, чтобы взять главную основу каждого слова
    ps = PorterStemmer()

    # цикл для определения корня каждого слова в массиве строк в i-й строке
    review = [ps.stem(word) for word in review
                if not word in set(stopwords.words('russian'))] #russian english

    # объединить все элементы массива string преобразовать обратно в строку
    review = ' '.join(review)

    # добавляйте каждую строку, чтобы создать массив чистого текста
    corpus.append(review)
corpus

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['красивая качественная печать качественые детали нравится ребенку кооперативная т е играешь команде ребенком плюс ребенок остро реагирует проигрыш кому милый новогодний сюжет нам выйграть получилось раза ясно дойти домика нужно выкинуть выкинуть кубик последними следом домиком елка собирается крайне быстро тк четыре раза конце выбросить конкретные следы нереально умолчанию фигурки следов выпали кубике прыгать домик смысла пятой детали елки автоматом выпала елка пятый сразу наступает проигрыш собирать деталь смысла придумали звезду якобы гирлянда загорелась наступил нг елка окончательно собрана немного продлеваем игру',
 'д ручки очень интересное увлечение детей взрослых покупали дочке подарок лет очень хотела разочарование выполнив первоначальные действия инструкции загрузили пластик изготовления рисунка момент подачи носик самой ручки стал плавиться дочь очень расстроилась возврат оформили хотим вс перезаказать данную модель единичный брак',
 'года буквы вообще учить хочет ничем инте

In [50]:
# Преобразование текстовых данных в числовые
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['review'])

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, data['assessment'], test_size=0.25, random_state=1)

# Создание и обучение модели
model = MultinomialNB()
model.fit(X_train, y_train)

# Прогнозирование
y_pred = model.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy}')
print('Classification Report:')
print(report)

Accuracy: 0.9083333333333333
Classification Report:
              precision    recall  f1-score   support

           0       0.90      0.92      0.91        59
           1       0.92      0.90      0.91        61

    accuracy                           0.91       120
   macro avg       0.91      0.91      0.91       120
weighted avg       0.91      0.91      0.91       120

