In [1]:
# ML_Task_2: Бейзлайн-модель для классификации отзывов о фильмах

# Загрузка файла
from google.colab import files
uploaded = files.upload()

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report

# Загрузка данных
df = pd.read_csv('IMDB Dataset.csv')
df['label'] = df['sentiment'].map({'positive': 1, 'negative': 0})

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    df['review'], df['label'], test_size=0.2, random_state=42
)

# TF-IDF векторизация текста
vectorizer = TfidfVectorizer(max_features=10000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

Saving IMDB Dataset.csv to IMDB Dataset.csv


### Обоснование подхода

Для представления текста я использовала TF-IDF, так как это один из самых распространённых способов обработки текстов. Он учитывает, насколько важно каждое слово в отзыве, и позволяет перевести текст в числовую форму.

Логистическая регрессия выбрана как простая модель, с которой удобно начать. Она быстро обучается и может показать неплохой результат на базовом уровне.

In [3]:
# Константная модель (предсказание наиболее частотного класса)
dummy_clf = DummyClassifier(strategy="most_frequent", random_state=42)
dummy_clf.fit(X_train_tfidf, y_train)
y_dummy_pred = dummy_clf.predict(X_test_tfidf)
f1_dummy = f1_score(y_test, y_dummy_pred)
print("F1-score (DummyClassifier):", f1_dummy)

# Логистическая регрессия как бейзлайн-модель
logreg = LogisticRegression(max_iter=1000, random_state=42)
logreg.fit(X_train_tfidf, y_train)
y_pred = logreg.predict(X_test_tfidf)
f1_logreg = f1_score(y_test, y_pred)

print("F1-score (Logistic Regression):", f1_logreg)
print("\nClassification Report:\n", classification_report(y_test, y_pred))

F1-score (DummyClassifier): 0.0
F1-score (Logistic Regression): 0.9011183048852266

Classification Report:
               precision    recall  f1-score   support

           0       0.91      0.89      0.90      4961
           1       0.89      0.91      0.90      5039

    accuracy                           0.90     10000
   macro avg       0.90      0.90      0.90     10000
weighted avg       0.90      0.90      0.90     10000



### Вывод

Результаты показывают, что логистическая регрессия даёт F1 около 0.90, что гораздо лучше, чем у константной модели. Это значит, что выбранный подход уже неплохо справляется с задачей, и его можно дальше улучшать.