# ИУ5-25М Рыжкова Юлия Николаевна 
# РК №2

## CountVectorizer (SVC) и TfidfVectorizer (LogisticRegression)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

import warnings
warnings.filterwarnings('ignore')

Выбран набор данных IMDB, содержащий 50 000 рецензий на фильмы, предназначен для обработки естественного языка (NLP) или анализа текста.

Это набор данных для бинарной классификации тональности, который содержит значительно больше данных, чем предыдущие эталонные наборы. Он включает в себя 25 000 ярко выраженных (полярных) отзывов на фильмы для обучения и 25 000 — для тестирования.

Задача: предсказать количество положительных и отрицательных отзывов, используя алгоритмы классификации текста

In [2]:
file_path = 'IMDB_Dataset.csv'
df = pd.read_csv(file_path, low_memory=False)
df.head(5)

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


In [3]:
# Разделяем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df['review'], df['sentiment'], test_size=0.2, random_state=1)

## Способ 1. Классификация на основе CountVectorizer (SVC)

CountVectorizer: Преобразует текст в матрицу частот слов. Простая "bag of words" модель: каждое слово — признак, значение — количество раз, когда оно встречается.

SVC (Support Vector Classifier): Ищет "гиперплоскость", которая максимально разделяет классы. Особенно эффективен при большом количестве признаков (что типично для текстов).

In [4]:
# Векторизация текста
count_vectorizer = CountVectorizer(stop_words='english', max_features=5000)
X_train_count = count_vectorizer.fit_transform(X_train)
X_test_count = count_vectorizer.transform(X_test)

# Обучение классификатора
svc_model = LinearSVC()
svc_model.fit(X_train_count, y_train)

# Оценка модели
y_pred_svc = svc_model.predict(X_test_count)
target_names = [str(cls) for cls in np.unique(y_test)]
print(classification_report(y_test, y_pred, target_names=target_names))

NameError: name 'y_pred' is not defined

## Способ 2. Классификация на основе TfidfVectorizer (LogisticRegression)

TfidfVectorizer: Учитывает не только частоту слова, но и то, насколько оно уникально в других документах (TF-IDF: term frequency × inverse document frequency). Придаёт больший вес значимым словам и уменьшает влияние часто встречающихся (например, “the”, “a”).

Logistic Regression: Простая, быстрая линейная модель, предсказывает вероятность принадлежности к классу. Хорошо работает при разреженных признаках.

In [None]:
# Векторизация текста
vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Обучение классификатора
model = LogisticRegression(max_iter=1000)
model.fit(X_train_vec, y_train)

# Оценка модели
y_pred = model.predict(X_test_vec)
print(classification_report(y_test, y_pred, target_names=target_names))

## Вывод

Оба метода показывают хорошие результаты на задаче бинарной классификации текста.
Модель с TfidfVectorizer + LogisticRegression показала качество немного выше за счёт более тонкого подхода к весам слов.
Метод с CountVectorizer + SVC также эффективен, особенно при более простом словаре. Выбор зависит от задачи и требований к скорости и интерпретируемости.