# Импорты и переменные

In [42]:
!pip install corus
!pip install pymorphy3
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

from sklearn.dummy import DummyClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import classification_report
from tqdm import tqdm
import pandas as pd
import re
import pymorphy3
from nltk.corpus import stopwords
from corus import load_lenta

# Загружаем стоп-слова
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

# Загружаем данные
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)

max_samples = 100000 # обрежем датасет до 100000 записей

--2025-03-04 19:41:41--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250304%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250304T194142Z&X-Amz-Expires=300&X-Amz-Signature=2cb22332f8cf93b71e198c6bba2223862e2fb9c42f4f0fcd02c9cc89b0b73972&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2025-03-04 19:41:42--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Лемматизация и предобработка текста

In [43]:
morph = pymorphy3.MorphAnalyzer()

def preprocess_text(text):
    text = text.lower()  # Приводим к нижнему регистру
    text = re.sub(r'\d+', '', text)  # Убираем числа
    text = re.sub(r'[^а-яА-Яa-zA-Z\s]', '', text)  # Убираем знаки препинания
    words = text.split()  # Токенизация
    words = [morph.parse(word)[0].normal_form for word in words if word not in stop_words]  # Лемматизация
    return ' '.join(words)

# Преобразуем записи в DataFrame
data = []
for record in tqdm(records, desc="Загрузка данных"):
    data.append({
        "title": record.title,
        "text": record.text,
        "topic": record.topic.strip()  # Убираем лишние пробелы
    })

df = pd.DataFrame(data)

# Фильтрация классов: удаляем те, где менее 100 объектов класса
class_counts = df['topic'].value_counts()
print(f"Число строк до фильтрации: {len(df)}")
print(df['topic'].value_counts())
valid_classes = class_counts[class_counts >= 100].index
df_filtered = df[df['topic'].isin(valid_classes)]
print()
# Ограничиваем размер выборки до 100000
if len(df_filtered) > max_samples:
    df_filtered = df_filtered.sample(n=max_samples, random_state=42)

# После выборки проверяем классы заново
class_counts_after = df_filtered['topic'].value_counts()
valid_classes_after = class_counts_after[class_counts_after >= 100].index
df_final = df_filtered[df_filtered['topic'].isin(valid_classes_after)]

# Если после фильтрации строк стало меньше 10,000 — дополняем их из самых популярных тем
if len(df_final) < max_samples:
    remaining_samples = max_samples - len(df_final)
    most_common_topic = df_filtered['topic'].value_counts().idxmax()
    additional_samples = df_filtered[df_filtered['topic'] == most_common_topic].sample(n=remaining_samples, random_state=42)
    df_final = pd.concat([df_final, additional_samples])

# Итоговый датасет
print(f"Число строк после финальной фильтрации: {len(df_final)}")
print(df_final['topic'].value_counts())

# Применяем предобработку текста
tqdm.pandas(desc="Предобработка текста")
df_final['processed_text'] = df_final['text'].progress_apply(preprocess_text)

Загрузка данных: 739351it [01:19, 9284.72it/s] 


Число строк до фильтрации: 739351
topic
Россия               160519
Мир                  136680
Экономика             79538
Спорт                 64421
Культура              53803
Бывший СССР           53402
Наука и техника       53136
Интернет и СМИ        44675
Из жизни              27611
Дом                   21734
Силовые структуры     19596
Ценности               7766
Бизнес                 7399
Путешествия            6408
69-я параллель         1268
Крым                    666
Культпросвет            340
                        203
Легпром                 114
Библиотека               65
Оружие                    3
ЧМ-2014                   2
МедНовости                1
Сочи                      1
Name: count, dtype: int64
Число строк после финальной фильтрации: 100000
topic
Россия               22080
Мир                  18403
Экономика            10838
Спорт                 8819
Культура              7248
Наука и техника       7229
Бывший СССР           7120
Интернет и СМИ      

Предобработка текста: 100%|██████████| 100000/100000 [31:20<00:00, 53.18it/s]


# Подготовка выборок

In [45]:
X = df_final['processed_text']
y = df_final['topic']

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, stratify=y, random_state=222)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=222)

# Векторизация корпуса текстов

In [46]:
count_vectorizer = CountVectorizer()
X_train_count = count_vectorizer.fit_transform(X_train)
X_val_count = count_vectorizer.transform(X_val)
X_test_count = count_vectorizer.transform(X_test)

tfidf_vectorizer = TfidfVectorizer()
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_val_tfidf = tfidf_vectorizer.transform(X_val)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Обучение моделей, подбор гиперпараметров

Обучение моделей и подбор гиперпараметров производится на 3 вариантах:

* Наивный байесовсикй классификатор MultinomialNB для countvectorizer
* Логистическая регрессия для countvectorizer + gridsearch
* Логистическая регрессия для TF-IDF + gridsearch

Сравнение результатов моделей производится на отложенной валидационной выборке.

Итоговый тест выполнен для лучшей модели

## MultinomialNB

In [49]:
# Наивный байесовский классификаторхорошо работает для задач текстовой классификации, особенно при использовании векторизации через CountVectorizer или TfidfVectorizer. Dummy_classifier не справляется совсем
nb_classifier = MultinomialNB()
nb_classifier.fit(X_train_count, y_train)
y_pred_nb = nb_classifier.predict(X_val_count)
print("Результаты для MultinomialNB + CountVectorizer:")
print(classification_report(y_val, y_pred_nb))

Результаты для MultinomialNB + CountVectorizer:


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


                   precision    recall  f1-score   support

   69-я параллель       0.00      0.00      0.00        36
           Бизнес       0.40      0.01      0.02       198
      Бывший СССР       0.78      0.74      0.76      1424
              Дом       0.85      0.65      0.74       589
         Из жизни       0.67      0.49      0.57       748
   Интернет и СМИ       0.72      0.61      0.66      1193
         Культура       0.82      0.85      0.83      1449
              Мир       0.76      0.85      0.81      3680
  Наука и техника       0.79      0.84      0.81      1446
      Путешествия       1.00      0.06      0.12       171
           Россия       0.72      0.82      0.77      4416
Силовые структуры       0.57      0.10      0.17       514
            Спорт       0.96      0.94      0.95      1764
         Ценности       0.98      0.56      0.72       204
        Экономика       0.75      0.89      0.82      2168

         accuracy                           0.77     2

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Logistic Regression с CountVectorizer

In [61]:
lr_count = LogisticRegression(random_state=222)
param_grid = {
    'C': [0.1, 1, 10],  # Параметр регуляризации
    'max_iter': [100, 200, 300],  # Число итераций
    'solver': ['liblinear']  # Алгоритмы оптимизации
}

grid_search_count = GridSearchCV(estimator=lr_count, param_grid=param_grid, cv=5, n_jobs=-1, verbose=1)
grid_search_count.fit(X_train_count, y_train)

# Лучшая модель для CountVectorizer
best_lr_count = grid_search_count.best_estimator_

# Оценка модели на валидационной выборке с CountVectorizer
y_pred_val_count = best_lr_count.predict(X_val_count)
print("Результаты для Logistic Regression + CountVectorizer:")
print(classification_report(y_val, y_pred_val_count))

Fitting 5 folds for each of 9 candidates, totalling 45 fits
Результаты для Logistic Regression + CountVectorizer:
                   precision    recall  f1-score   support

   69-я параллель       0.78      0.19      0.31        36
           Бизнес       0.58      0.26      0.36       198
      Бывший СССР       0.84      0.80      0.82      1424
              Дом       0.84      0.79      0.81       589
         Из жизни       0.65      0.56      0.60       748
   Интернет и СМИ       0.76      0.71      0.73      1193
         Культура       0.86      0.88      0.87      1449
              Мир       0.79      0.84      0.81      3680
  Наука и техника       0.84      0.82      0.83      1446
      Путешествия       0.84      0.54      0.65       171
           Россия       0.77      0.84      0.80      4416
Силовые структуры       0.68      0.43      0.53       514
            Спорт       0.96      0.96      0.96      1764
         Ценности       0.92      0.83      0.87       204


## Logistic Regression с TfidfVectorizer

In [62]:
lr_tfidf = LogisticRegression(random_state=222)
param_grid = {
    'C': [0.1, 1, 10],  # Параметр регуляризации
    'max_iter': [100, 200, 300],  # Число итераций
    'solver': ['liblinear']  # Алгоритмы оптимизации
}


grid_search_tfidf = GridSearchCV(estimator=lr_tfidf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=1)
grid_search_tfidf.fit(X_train_tfidf, y_train)

# Лучшая модель для TfidfVectorizer
best_lr_tfidf = grid_search_tfidf.best_estimator_

# Оценка модели на валидационной выборке с TfidfVectorizer
y_pred_val_tfidf = best_lr_tfidf.predict(X_val_tfidf)
print("Результаты для Logistic Regression + TfidfVectorizer:")
print(classification_report(y_val, y_pred_val_tfidf))

Fitting 5 folds for each of 9 candidates, totalling 45 fits
Результаты для Logistic Regression + TfidfVectorizer:
                   precision    recall  f1-score   support

   69-я параллель       0.86      0.17      0.28        36
           Бизнес       0.68      0.24      0.36       198
      Бывший СССР       0.84      0.83      0.83      1424
              Дом       0.85      0.79      0.82       589
         Из жизни       0.68      0.57      0.62       748
   Интернет и СМИ       0.77      0.71      0.74      1193
         Культура       0.86      0.90      0.88      1449
              Мир       0.79      0.85      0.82      3680
  Наука и техника       0.83      0.85      0.84      1446
      Путешествия       0.83      0.53      0.65       171
           Россия       0.79      0.84      0.81      4416
Силовые структуры       0.69      0.41      0.52       514
            Спорт       0.96      0.96      0.96      1764
         Ценности       0.89      0.82      0.85       204


# Сравнение результатов моделей

In [None]:
# Валидация происходит на отложенной валидационной выборке
# Сравниваем результаты для трех моделей
print("Сравнение моделей по результатам на валидационной выборке:")
print("MultinomialNB: \n", classification_report(y_val, y_pred_nb))
print()
print("Logistic Regression + CountVectorizer: \n", classification_report(y_val, y_pred_val_count))
print()
print("Logistic Regression + TfidfVectorizer: \n", classification_report(y_val, y_pred_val_tfidf))
print()

# Финальное тестирование

In [64]:
# Лучашя модель по результатам: TF-IDF:
print("Лучшая модель: Logistic Regression + CountVectorizer")
best_model = best_lr_tfidf
y_pred_test = best_lr_tfidf.predict(X_test_tfidf)
print("\n Результаты: \n \n", classification_report(y_test, y_pred_test))

Лучшая модель: Logistic Regression + CountVectorizer

 Результаты: 
 
                    precision    recall  f1-score   support

   69-я параллель       0.92      0.31      0.47        35
           Бизнес       0.65      0.28      0.40       197
      Бывший СССР       0.83      0.82      0.83      1424
              Дом       0.87      0.82      0.84       590
         Из жизни       0.69      0.58      0.63       748
   Интернет и СМИ       0.78      0.72      0.75      1193
         Культура       0.89      0.90      0.89      1450
              Мир       0.80      0.85      0.82      3681
  Наука и техника       0.83      0.85      0.84      1446
      Путешествия       0.80      0.61      0.70       171
           Россия       0.78      0.83      0.81      4416
Силовые структуры       0.65      0.39      0.49       514
            Спорт       0.96      0.98      0.97      1764
         Ценности       0.93      0.79      0.85       204
        Экономика       0.85      0.87     

# Вывод

* Произведена подготовка датасета, включающая в себя очистку, лемматизацию, привдение к единообразию, токенизацию.
* Корпус текстов собран в датасет. Датасет разделен на тренеровочную, валидационную и тестовую выборки. Выборки созданы с учетом стратификации, редкие темы (меньше 65 объектов) отсеяны.
* Для моделей произведено обучение и валидирование результатов
* Лучшая модель протестирована на отложенной тестовой выборке.
* Лучшие результаты показала модель логистической регрессии + TF-IDF с результатом метрики accuracy, равно 0.82 при обучении на корпусе 100 000 строк.