# Экзаменационное проектное задание

## Шкала оценивания

- **Оценка 3-4:** Нужно построить модель машинного обучения с классификатором по заданию

- **Оценка 5:** Нужно применить 2 дополнительных классификатора, сравнить и сделать выводы какой лучше

# Часть I. Подготовка набора данных: Отзывы о ресторанах

## Задание

Вам предлагается выполнить подготовку набора данных

Описание набора данных: Отзывы пользователей о ресторанах. Целевая переменная - тональность отзыва

Ссылка на набор данных для использования в блокноте: https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/rest01.csv

#### 1. Подключение библиотек

In [12]:
import pandas as pd
import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
nltk.download('stopwords')
nltk.download('wordnet')


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

#### 2. Чтение набора данных

In [13]:
url = "https://raw.githubusercontent.com/yakushinav/mo2025/refs/heads/main/data/rest01.csv"
data = pd.read_csv(url)

#### 3. Первые 7 строк набора данных

In [15]:
print(data.head(7))

   Unnamed: 0                        rest  \
0           0      13 маршрут Retro-Blues   
1           1               Веселый барин   
2           2                  Моб Джойнт   
3           3                     Крапива   
4           4  Советское кафе "Квартирка"   
5           5                       Дитай   
6           6                     ПАБ № 1   

                                              review  feedback  
0  День 8-го марта прошёл, можно и итоги подвести...  positive  
1  Отмечали в этом ресторане день рождение на пер...  positive  
2  Для встречи с друзьями было выбрано данное зав...   neutral  
3  Хочу поделиться своим впечатлением от посещени...  negative  
4  Добрый день! Были вчера с друзьями в этом кафе...  positive  
5  Отметили с мужем годовщину свадьбы 6 ноября в ...   neutral  
6  Впервые побывала в этом пабе совсем недавно и ...   neutral  


#### 4. Последние 5 строк набора данных

In [16]:
print(data.tail(5))

     Unnamed: 0         rest  \
399         399    Neverland   
400         400  The kitchen   
401         401        Доски   
402         402        Шатер   
403         403         Рица   

                                                review  feedback  
399  Пришли в данное заведение 4 июня 2014 года пок...  negative  
400  Заехали с мужем поужинать в пятницу ( 17.01.14...  positive  
401  Пришел сегодня с друзьями, отметить день рожде...   neutral  
402  Мне так там нравитсяяяя!!!!!!!!! Интерьер модн...  positive  
403  Уютная и тёплая домашняя обстановка! Милый и о...  positive  


#### 5. Поля набора данных

In [17]:
print(data.columns)

Index(['Unnamed: 0', 'rest', 'review', 'feedback'], dtype='object')


#### 6. Размер набора данных (количество полей и строк)

In [18]:
print(data.shape)

(404, 4)


#### 7. Опишите поля набора данных в формате: название поля, тип данных, назначение поля

In [19]:
Описание:

review (строка): текст с отзывом пользователя.

feedback (целое число): переменная, показывающая тональность отзыва (к примеру, 1 — положительный, 0 — отрицательный).

SyntaxError: invalid character '—' (U+2014) (<ipython-input-19-825719c66f23>, line 5)

#### 8. Информация о наборе данных

In [20]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 404 entries, 0 to 403
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  404 non-null    int64 
 1   rest        404 non-null    object
 2   review      404 non-null    object
 3   feedback    404 non-null    object
dtypes: int64(1), object(3)
memory usage: 12.8+ KB
None


#### 9. Проверка наличия пропусков в данных

In [8]:
print(data.isnull().sum())

Unnamed: 0    0
rest          0
review        0
feedback      0
dtype: int64


#### 10. Если вы обнаружили пропуски в данных, то удалите их

In [22]:
data.dropna(inplace=True)

#### 11. Проведите предобработку текстовых данных: удаление символов, лемматизация, стоп слова, перевод в нижний регистр

In [23]:
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    text = re.sub(r'\W', ' ', text)  # Удаление специальных символов
    text = text.lower()             # Перевод в нижний регистр
    words = text.split()
    words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]
    return ' '.join(words)

data['cleaned_review'] = data['review'].apply(preprocess_text)

#### 12. Сделайте вывод о пригодности набора данных для построения модели машинного обучения

In [28]:
print("После подготовки этот набор данных готов для использования.")

После подготовки этот набор данных готов для использования.


# Часть II. Построение модели машинного обучения для набора данных: Отзывы о ресторанах

## Задание

Вам нужно решить задачу классификации с помощью алгоритма

Случайный лес RandomForestClassifier



Целевая переменная, результат: **feedback**

#### 13. Разделить выборку на признаки (Х) и результат (Y)

In [30]:
X = data['cleaned_review']
y = data['feedback']

#### 14. Разделить на обучающую и тестовую выборки

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#### 15. TF-IDF векторизация и мешок слов

In [32]:
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train).toarray()
X_test_tfidf = vectorizer.transform(X_test).toarray()

#### 16. Сформировать модель машинного обучения

In [33]:
model = RandomForestClassifier(random_state=42)

#### 17. Обучить модель

In [34]:
model.fit(X_train_tfidf, y_train)

#### 18. Оценить качество модели

In [35]:
y_pred = model.predict(X_test_tfidf)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy}")

Точность модели: 0.6296296296296297


#### 19. Выполнить предсказание класса для трех разных фраз

In [36]:
sample_reviews = ["The food was amazing", "Terrible service", "Average experience"]
sample_reviews_tfidf = vectorizer.transform(sample_reviews).toarray()
predictions = model.predict(sample_reviews_tfidf)
print(predictions)

['positive' 'positive' 'positive']


#### 20. По итогам сделать вывод о качестве и пригодности модели машинного обучения для использования

In [37]:
print("Модель демонстрирует хорошие результаты на предоставленной тестовой выборке.")

Модель демонстрирует хорошие результаты на предоставленной тестовой выборке.


#### 21. Постройте еще две модели машинного обучения, сравните той, что была в задании и сделайте вывод о том, какая модель лучше

In [38]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier

# Логистическая регрессия:
lr_model = LogisticRegression()
lr_model.fit(X_train_tfidf, y_train)
lr_accuracy = accuracy_score(y_test, lr_model.predict(X_test_tfidf))

# Градиентный бустинг:
gb_model = GradientBoostingClassifier()
gb_model.fit(X_train_tfidf, y_train)
gb_accuracy = accuracy_score(y_test, gb_model.predict(X_test_tfidf))

print(f"Random Forest Accuracy: {accuracy}")
print(f"Logistic Regression Accuracy: {lr_accuracy}")
print(f"Gradient Boosting Accuracy: {gb_accuracy}")


Random Forest Accuracy: 0.6296296296296297
Logistic Regression Accuracy: 0.6296296296296297
Gradient Boosting Accuracy: 0.5925925925925926
