In [2]:
#Отобрать в датасете lenta.ru топ 4 темы и построить для них модель классификации.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, f1_score, precision_score, recall_score

# Загрузка датасета
df = pd.read_csv('lenta-ru-news.csv')

# Отбор топ-4 тем
top_topics = df['topic'].value_counts().nlargest(4).index.tolist()
df_top = df[df['topic'].isin(top_topics)]

# Удаление строк с пропущенными значениями в 'text' и 'topic'
df_top = df_top.dropna(subset=['text', 'topic'])

# Подготовка данных
X = df_top['text']  
y = df_top['topic']

# Преобразование текста в числовые данные
vectorizer = CountVectorizer()
X_vectorized = vectorizer.fit_transform(X)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Прогнозирование на тестовой выборке
y_pred = model.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

# Расчет F1, Precision и Recall с указанием average
f1 = f1_score(y_test, y_pred, average='weighted')
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')

print(f'Accuracy: {accuracy:.4f}')
print('Classification Report:\n', report)
print('F1 Score:', f1)
print('Precision:', precision)
print('Recall:', recall)




Accuracy: 0.8370
Classification Report:
               precision    recall  f1-score   support

 Бывший СССР       0.86      0.67      0.75      6612
         Мир       0.78      0.91      0.84     10160
      Россия       0.86      0.85      0.86     11001
   Экономика       0.89      0.86      0.88      5676

    accuracy                           0.84     33449
   macro avg       0.85      0.82      0.83     33449
weighted avg       0.84      0.84      0.84     33449

F1 Score: 0.8352099836729624
Precision: 0.841247488241731
Recall: 0.8370055906006159
