# Экзаменационное проектное задание

## Шкала оценивания

- **Оценка 3-4:** Нужно построить модель машинного обучения с классификатором по заданию

- **Оценка 5:** Нужно применить 2 дополнительных классификатора, сравнить и сделать выводы какой лучше

# Часть I. Подготовка набора данных: Отзывы об одежде

## Задание

Вам предлагается выполнить подготовку набора данных

Описание набора данных: Отзывы пользователей об одежде. Целевая переменная - тональность отзыва

Ссылка на набор данных для использования в блокноте: https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/clothes_review03.csv

#### 1. Подключение библиотек

In [14]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

#### 2. Чтение набора данных

In [15]:
data_url = 'https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/clothes_review03.csv'
df = pd.read_csv(data_url, index_col=0)

#### 3. Первые 7 строк набора данных

In [16]:
print(df.head(7))

                                                feedback      mark
71502  хорошая нравиться! только вот на собачье ленто...  positive
6845   Товар не пришёл. Открыла спор, алиэкспресс вер...  negative
18923                                      качество на 2  negative
4174   заказала товар в апреле, до сих пор не пришел....  negative
77352                жилет отлично,только чуть малннький  positive
58816         Качество хорошее и доставка супер быстрая.  positive
12604  свитер не соответствует фото.  на самом деле о...  negative


#### 4. Последние 5 строк набора данных

In [17]:
print(df.tail())

                                                feedback      mark
34353  Куртка маловата слишком маломерит на размер 42...  neautral
26917  товар не пришёл, открыла спор об возврате дене...  negative
43506  Очень маленький размер, на 44 не помещается, н...  neautral
49756  платье симпатичное легкое,но размер мне не под...  neautral
24160  Заказала платье, Вы признали свою вину, что то...  negative


#### 5. Поля набора данных

In [18]:
print(df.columns)

Index(['feedback', 'mark'], dtype='object')


#### 6. Размер набора данных (количество полей и строк)

In [19]:
print(df.shape)

(3000, 2)


#### 7. Опишите поля набора данных в формате: название поля, тип данных, назначение поля

In [20]:
#1. feedback, object, содержит отзыв на одежду.
#2. mark, object, содержит оценку (позитивная/негативная/нейтральная).

#### 8. Информация о наборе данных

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3000 entries, 71502 to 24160
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   feedback  3000 non-null   object
 1   mark      3000 non-null   object
dtypes: object(2)
memory usage: 70.3+ KB


#### 9. Проверка наличия пропусков в данных

In [22]:
print(df.isnull().sum())

feedback    0
mark        0
dtype: int64


#### 10. Если вы обнаружили пропуски в данных, то удалите их

In [23]:
#Пропуски не обнаружены.

#### 11. Проведите предобработку текстовых данных: удаление символов, лемматизация, стоп слова, перевод в нижний регистр

In [24]:
import re
from pymystem3 import Mystem
mystem = Mystem()
def preprocess_text(feedback):
    text = re.sub(r'[^\w\s]', '', feedback)
    text = re.sub(r'\d+', '', text)
    lemmas = mystem.lemmatize(text)
    processed_text = ''.join(lemmas).strip()
    return processed_text

Installing mystem to /root/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-linux-64bit.tar.gz


In [25]:
def lemmatize_text(feedback):
    lemmas = mystem.lemmatize(feedback)
    return ''.join(lemmas).strip()
df['lemmatized_text'] = df["feedback"].apply(lemmatize_text)
df.head()

Unnamed: 0,feedback,mark,lemmatized_text
71502,хорошая нравиться! только вот на собачье ленто...,positive,хороший нравиться! только вот на собачий ленто...
6845,"Товар не пришёл. Открыла спор, алиэкспресс вер...",negative,"товар не приходить. открывать спор, алиэкспрес..."
18923,качество на 2,negative,качество на 2
4174,"заказала товар в апреле, до сих пор не пришел....",negative,"заказывать товар в апрель, до сей пора не прих..."
77352,"жилет отлично,только чуть малннький",positive,"жилет отлично,только чуть малннький"


In [26]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [63]:
df["feedback"]= df["feedback"].str.lower()
df.head(30)

Unnamed: 0,feedback,mark,lemmatized_text
71502,хорошая нравиться! только вот на собачье ленто...,positive,хороший нравиться! только вот на собачий ленто...
6845,"товар не пришёл. открыла спор, алиэкспресс вер...",negative,"товар не приходить. открывать спор, алиэкспрес..."
18923,качество на 2,negative,качество на 2
4174,"заказала товар в апреле, до сих пор не пришел....",negative,"заказывать товар в апрель, до сей пора не прих..."
77352,"жилет отлично,только чуть малннький",positive,"жилет отлично,только чуть малннький"
58816,качество хорошее и доставка супер быстрая.,positive,качество хороший и доставка супер быстрый.
12604,свитер не соответствует фото. на самом деле о...,negative,свитер не соответствовать фото. на самый дело...
58454,"отличное платье для летних вечеров, пошито кач...",positive,"отличный платье для летний вечер, пошить качес..."
13562,"девочки, взяла 5 хл. а оно, это изделие на s ...",negative,"девочка, взять 5 хла. а оно, это изделие на s ..."
46625,.,neautral,.


#### 12. Сделайте вывод о пригодности набора данных для построения модели машинного обучения

In [28]:
# Набор данных содержит большое количество отзывов с тремя классами тональности: positive, negative и neutral.
# Данные не содержат пропусков, что делает обработку более легкой.
# Тексты отзывов непохожи друг на друга, что является плюсом для обучения модели.
# Следовательно, набор данных пригоден для построения модели классификации тональности отзывов.

# Часть II. Построение модели машинного обучения для набора данных: Отзывы об одежде

## Задание

Вам нужно решить задачу классификации с помощью алгоритма

Логистическая регрессия LogisticRegression



Целевая переменная, результат: **mark**

In [29]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from warnings import filterwarnings
filterwarnings(action='ignore')
from sklearn.model_selection import train_test_split
from sklearn import metrics

#### 13. Разделить на обучающую и тестовую выборки

In [30]:
train, test = train_test_split(df, test_size = 0.4, stratify = df['mark'], random_state = 42)

#### 14. Разделить выборку на признаки (Х) и результат (Y)

In [31]:
X_train = train['feedback']
y_train = train.mark
X_test = test['feedback']
y_test = test.mark
fn = ['feedback']
cn = df['mark'].unique()

#### 15. TF-IDF векторизация и мешок слов

In [32]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from nltk import ngrams
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(X_train)
list(vec.vocabulary_.items())[:10]

[('мне', 2333),
 ('как', 1806),
 ('видно', 793),
 ('не', 2539),
 ('повезло', 3385),
 ('заказом', 1525),
 ('всех', 932),
 ('все', 925),
 ('хорошо', 5408),
 ('бракованная', 631)]

#### 16. Сформировать модель машинного обучения

In [33]:
clf = LogisticRegression(random_state=42, max_iter=500)

#### 17. Обучить модель

In [34]:
clf.fit(bow, y_train)

#### 18. Оценить качество модели

In [35]:
from sklearn.metrics import *
pred = clf.predict(vec.transform(X_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    neautral       0.55      0.55      0.55       391
    negative       0.68      0.64      0.66       411
    positive       0.78      0.82      0.80       398

    accuracy                           0.67      1200
   macro avg       0.67      0.67      0.67      1200
weighted avg       0.67      0.67      0.67      1200



In [36]:
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    tokens = word_tokenize(text, language='russian')
    stop_words = set(stopwords.words('russian'))
    tokens = [word for word in tokens if word not in stop_words]
    lemmas = mystem.lemmatize(' '.join(tokens))
    lemmas = [lemma.strip() for lemma in lemmas if lemma.strip()]
    return ' '.join(lemmas)

#### 19. Выполнить предсказание класса для трех разных фраз

In [62]:
phrase="Заказ шёл 3 с лишним месяца, но так и не дошёл. Через спор, спустя много сообщений, вернули деньги."
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Жилет отлично, только чуть маленький!"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Заказала товар в апреле, до сих пор не пришел. Открыла спор, продавец ничего не ответил"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

заказ идти лишний месяц доходить спор спустя сообщение вернуть деньги
['negative']
жилет отлично маленький
['positive']
заказывать товар апрель сей пора приходить открывать спор продавец отвечать
['negative']


#### 20. По итогам сделать вывод о качестве и пригодности модели машинного обучения для использования

In [None]:
# Модель логистической регрессии LogisticRegression при выдаче позитивной оценки ориентировалась на слово "рекомендовать", игнорируя другие аспекты.
# Так, очень долгую доставку модель отнесла к положительным отзывам.
# Следовательно, для практического применения модель может быть использована, однако стоит опробировать другие модели или методы обработки текста для повышения качества выдачи результата.

#### 21. Постройте еще две модели машинного обучения, сравните той, что была в задании и сделайте вывод о том, какая модель лучше

In [None]:
# Модель К-ближайших соседей

In [38]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from warnings import filterwarnings
filterwarnings(action='ignore')
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier

In [59]:
url = 'https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/clothes_review03.csv'
data = pd.read_csv(url)
data.head(30)

Unnamed: 0.1,Unnamed: 0,feedback,mark
0,71502,хорошая нравиться! только вот на собачье ленто...,positive
1,6845,"Товар не пришёл. Открыла спор, алиэкспресс вер...",negative
2,18923,качество на 2,negative
3,4174,"заказала товар в апреле, до сих пор не пришел....",negative
4,77352,"жилет отлично,только чуть малннький",positive
5,58816,Качество хорошее и доставка супер быстрая.,positive
6,12604,свитер не соответствует фото. на самом деле о...,negative
7,58454,"Отличное платье для летних вечеров, пошито кач...",positive
8,13562,"Девочки, взяла 5 хл. а оно, это изделие на s ...",negative
9,46625,.,neautral


In [40]:
train, test = train_test_split(data, test_size = 0.4, stratify = data['mark'], random_state = 42)

In [41]:
X_train = train['feedback']
y_train = train.mark
X_test = test['feedback']
y_test = test.mark
fn = ['feedback']
cn = data['mark'].unique()

In [42]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import CountVectorizer
from nltk import ngrams
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(X_train)
list(vec.vocabulary_.items())[:30]

[('мне', 2333),
 ('как', 1806),
 ('видно', 793),
 ('не', 2539),
 ('повезло', 3385),
 ('заказом', 1525),
 ('всех', 932),
 ('все', 925),
 ('хорошо', 5408),
 ('бракованная', 631),
 ('пришла', 3905),
 ('пришлось', 3908),
 ('деньги', 1194),
 ('через', 5484),
 ('спор', 4762),
 ('возвращать', 866),
 ('если', 1419),
 ('закрыть', 1557),
 ('глаза', 1059),
 ('на', 2429),
 ('это', 5645),
 ('то', 4993),
 ('целом', 5449),
 ('жилетка', 1473),
 ('хорошая', 5399),
 ('но', 2706),
 ('данного', 1138),
 ('продавца', 3944),
 ('больше', 600),
 ('рискну', 4303)]

In [43]:
mod_knn=KNeighborsClassifier(n_neighbors=5)
mod_knn.fit(bow, y_train)

In [44]:
pred = mod_knn.predict(vec.transform(X_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    neautral       0.66      0.43      0.52       614
    negative       0.51      0.55      0.53       359
    positive       0.43      0.79      0.56       227

    accuracy                           0.53      1200
   macro avg       0.53      0.59      0.53      1200
weighted avg       0.57      0.53      0.53      1200



In [60]:
phrase="Заказ шёл 3 с лишним месяца, но так и не дошёл. Через спор, спустя много сообщений, вернули деньги."
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Жилет отлично, только чуть маленький!"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Заказала товар в апреле, до сих пор не пришел. Открыла спор, продавец ничего не ответил"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

заказ идти лишний месяц доходить спор спустя сообщение вернуть деньги
['negative']
жилет отлично маленький
['positive']
заказывать товар апрель сей пора приходить открывать спор продавец отвечать
['negative']


In [None]:
# Модель деревья решений

In [45]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from warnings import filterwarnings
filterwarnings(action='ignore')
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier, plot_tree

In [46]:
url = 'https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/clothes_review03.csv'
data = pd.read_csv(url)
data.head(5)

Unnamed: 0.1,Unnamed: 0,feedback,mark
0,71502,хорошая нравиться! только вот на собачье ленто...,positive
1,6845,"Товар не пришёл. Открыла спор, алиэкспресс вер...",negative
2,18923,качество на 2,negative
3,4174,"заказала товар в апреле, до сих пор не пришел....",negative
4,77352,"жилет отлично,только чуть малннький",positive


In [47]:
train, test = train_test_split(data, test_size = 0.4, stratify = data['mark'], random_state = 42)

In [48]:
X_train = train['feedback']
y_train = train.mark
X_test = test['feedback']
y_test = test.mark
fn = ['feedback']
cn = data['mark'].unique()

In [49]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import CountVectorizer
from nltk import ngrams
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(X_train)
list(vec.vocabulary_.items())[:30]

[('мне', 2333),
 ('как', 1806),
 ('видно', 793),
 ('не', 2539),
 ('повезло', 3385),
 ('заказом', 1525),
 ('всех', 932),
 ('все', 925),
 ('хорошо', 5408),
 ('бракованная', 631),
 ('пришла', 3905),
 ('пришлось', 3908),
 ('деньги', 1194),
 ('через', 5484),
 ('спор', 4762),
 ('возвращать', 866),
 ('если', 1419),
 ('закрыть', 1557),
 ('глаза', 1059),
 ('на', 2429),
 ('это', 5645),
 ('то', 4993),
 ('целом', 5449),
 ('жилетка', 1473),
 ('хорошая', 5399),
 ('но', 2706),
 ('данного', 1138),
 ('продавца', 3944),
 ('больше', 600),
 ('рискну', 4303)]

In [51]:
mod_dt = DecisionTreeClassifier(max_depth = 3, random_state = 1)
mod_dt.fit(bow,y_train)

In [52]:
pred = mod_knn.predict(vec.transform(X_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    neautral       0.66      0.43      0.52       614
    negative       0.51      0.55      0.53       359
    positive       0.43      0.79      0.56       227

    accuracy                           0.53      1200
   macro avg       0.53      0.59      0.53      1200
weighted avg       0.57      0.53      0.53      1200



In [61]:
phrase="Заказ шёл 3 с лишним месяца, но так и не дошёл. Через спор, спустя много сообщений, вернули деньги."
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Жилет отлично, только чуть маленький!"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

phrase="Заказала товар в апреле, до сих пор не пришел. Открыла спор, продавец ничего не ответил"
phrase=preprocess_text(phrase)
print(phrase)
pred = clf.predict(vec.transform([phrase]))
print(pred)

заказ идти лишний месяц доходить спор спустя сообщение вернуть деньги
['negative']
жилет отлично маленький
['positive']
заказывать товар апрель сей пора приходить открывать спор продавец отвечать
['negative']


In [64]:
# Ни одна из рассматриваемых моделей не распознала нейтральный отзыв (был указан при введении кода data.head(30) как neutral).
# Логистическая регрессия показала наилучший общий результат с точностью около 67% (показатель метрики качества macro average f1-score = 0.67).
# У деревьев решений и модели К-ближайших соседей этот показатель равен 53%.
# Логистическая регрессия также лучше справляется с нейтральным классом (55% против 52% у других моделей).
# С негативным классом (66% против 53% у других моделей).
# И позитивным классом (80% против 56% у других моделей).
# Следовательно, для построения модели классификации тональности отзывов лучше всего подходит модель логистической регрессии (представленная в задании).
# Однако даже у LogisticRegression есть потенциал для улучшения.