In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score
import kagglehub

In [None]:
path = kagglehub.dataset_download("alexandertesemnikov/kinopoisktop250russiandataset")
file_path = f"{path}/kinopoisk-top250.csv"
data = pd.read_csv(file_path)
print(data.head())

   rating               movie  year  country  rating_ball  \
0       0  Побег из Шоушенка   1994      США        9.111   
1       1       Зеленая миля   1999      США        9.062   
2       2       Форрест Гамп   1994      США        8.913   
3       3    Список Шиндлера   1993      США        8.817   
4       4                1+1   2011  Франция        8.807   

                                            overview  \
0  Бухгалтер Энди Дюфрейн обвинён в убийстве собс...   
1  Пол Эджкомб — начальник блока смертников в тюр...   
2  От лица главного героя Форреста Гампа; слабоум...   
3  Фильм рассказывает реальную историю загадочног...   
4  Пострадав в результате несчастного случая; бог...   

                        director  \
0                 Фрэнк Дарабонт   
1                 Фрэнк Дарабонт   
2                 Роберт Земекис   
3                Стивен Спилберг   
4   Оливье Накаш;  Эрик Толедано   

                                        screenwriter  \
0                      

In [None]:
# Создание целевой переменной (категории рейтинга)
def categorize_rating(rating):
    if rating >= 8.5:
        return "high"
    elif rating >= 7.0:
        return "medium"
    else:
        return "low"

data['rating_category'] = data['rating'].apply(categorize_rating)

# Объединение полей 'screenwriter' и 'actors' в один текстовый признак
data['combined_text'] = data['screenwriter'] + " " + data['actors']

# Токенизация и нормализация текста
data['combined_text'] = data['combined_text'].str.lower()  # Приведение к нижнему регистру

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(data['combined_text'], data['rating_category'], test_size=0.2, random_state=42)

# Векторизация текста
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Обучение классификатора
classifier = MultinomialNB()
classifier.fit(X_train_vec, y_train)

# Предсказание на тестовых данных
y_pred = classifier.predict(X_test_vec)

# Оценка качества модели
print("Classification Report:")
print(classification_report(y_test, y_pred))
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")

Classification Report:
              precision    recall  f1-score   support

        high       0.98      1.00      0.99        49
         low       0.00      0.00      0.00         1

    accuracy                           0.98        50
   macro avg       0.49      0.50      0.49        50
weighted avg       0.96      0.98      0.97        50

Accuracy: 0.98


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
external_data = pd.read_csv(file_path)
external_data['combined_text'] = external_data['screenwriter'] + " " + external_data['actors']
external_data['combined_text'] = external_data['combined_text'].str.lower()
external_data['rating_category'] = external_data['rating'].apply(categorize_rating)

X_external_vec = vectorizer.transform(external_data['combined_text'])
y_external_pred = classifier.predict(X_external_vec)

print("External Data Classification Report:")
print(classification_report(external_data['rating_category'], y_external_pred))
print(f"External Data Accuracy: {accuracy_score(external_data['rating_category'], y_external_pred)}")

External Data Classification Report:
              precision    recall  f1-score   support

        high       0.96      1.00      0.98       241
         low       0.00      0.00      0.00         7
      medium       0.00      0.00      0.00         2

    accuracy                           0.96       250
   macro avg       0.32      0.33      0.33       250
weighted avg       0.93      0.96      0.95       250

External Data Accuracy: 0.964


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
