In [1]:
%%capture
!pip install corus
!pip install natasha
!pip install pymorphy3

from corus import load_lenta
import nltk
import pandas as pd
import numpy as np
import natasha
import random
import itertools
import re
import pymorphy3
import spacy

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, RegexpTokenizer
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score, f1_score, make_scorer

from joblib import Parallel, delayed

np.random.seed(998)

## Загрузка данных

In [2]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2025-03-04 10:16:21--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250304%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250304T101621Z&X-Amz-Expires=300&X-Amz-Signature=2d448cc698463cdf392ef093bee576ecee0f2e2acb8a39c1bf5355590ae27831&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2025-03-04 10:16:21--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-

In [3]:
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)

In [4]:
# длина оригинального датасета через копию генератора
records, records_copy = itertools.tee(records)
total_len = sum(1 for _ in records_copy)
total_len

739351

Здесь генерируются 100 тысяч рандомных индексов от 0 до размера датасета. Т.к. в первой ячейке зафиксирован сид, то они воспроизводимы. Далее по этим 100к индексам из датасета выбирается 100к текстов.

In [6]:
sample_size = 100000

random_idx = np.random.choice(total_len, size=sample_size, replace=False)
sampled_records = []
for i, record in enumerate(records):
    if i in random_idx:
        sampled_records.append((i, record))

In [7]:
df = pd.DataFrame({
    'index_new': [i[0] for i in sampled_records],
    'title': [i[1].title for i in sampled_records],
    'text': [i[1].text for i in sampled_records],
    'topic': [i[1].topic for i in sampled_records]
})

print(df.head())

   index_new                                              title  \
0          0  Названы регионы России с самой высокой смертно...   
1         22    Россия передумала бойкотировать Давосский форум   
2         28  Биатлонистов Чехии, Канады и США заподозрили в...   
3         30  Главой украинских раскольников захотели сделат...   
4         36  Порошенко уселся в президиуме собора украински...   

                                                text        topic  
0  Вице-премьер по социальным вопросам Татьяна Го...       Россия  
1  Официальная делегация правительства России при...    Экономика  
2  Комментатор Дмитрий Губерниев сообщил, что ино...        Спорт  
3  Предстоятелем новой украинской православной це...  Бывший СССР  
4  Президент Украины Петр Порошенко занял место в...  Бывший СССР  


## EDA и обработка

In [8]:
df.title.sample(5).values

# во всех заголовках есть юникод символы no-break space
# но пока что опустим заголовки - для признаков возьмем текст

array(['Мединский пообещал наказывать за\xa0мат в\xa0произведениях искусства',
       'Неадекватная пассажирка потребовала остановить самолет на\xa0ходу',
       '«Роснефть» и\xa0PDVSA подписали документы о\xa0стратегическом сотрудничестве',
       'Российский чемпион мира вернулся в "Витязь"',
       'Иммигрант из\xa0Ганы назвал своего сына Сильвио Берлускони'],
      dtype=object)

In [9]:
df.text.sample(1).values

array(['В воскресенье влиятельный американский сенатор Джон Маккейн, представляющий в конгрессе правящую республиканскую партию, подверг резкой критике политику российских властей. Выступая в эфире телеканала NBC, Маккейн призвал Джорджа Буша пересмотреть свое отношение к Владимиру Путину. Маккейн упрекнул российские власти в "подавлении гражданских свобод в стране", "поддержке авторитарного режима Александра Лукашенко", а также недостаточном сотрудничестве с США по "ядерной проблеме" Ирана. "Я думаю, нам пора принять ответные меры, и они должны быть жесткими", - заявил сенатор. В знак протеста против политики Путина Маккейн вновь призвал Буша бойкотировать саммит "Большой восьмерки", который состоится в июле этого года в Санкт-Петербурге. Напомним, что на прошлой неделе американский лидер уже заявлял, что подобный бойкот стал бы ошибкой для США. Вместе с тем Буш выразил надежду, что Россия станет более открытым обществом, хотя в ней и происходит наступление на демократические институт

In [10]:
display(df.topic.unique())
display(df[df.topic == ''].sample(5))

array(['Россия', 'Экономика', 'Спорт', 'Бывший СССР', 'Мир',
       'Наука и техника', 'Из жизни', 'Интернет и СМИ',
       'Силовые структуры', 'Культура', 'Ценности', 'Путешествия', 'Дом',
       '69-я параллель', 'Крым', 'Культпросвет ', 'Бизнес', '', 'Легпром',
       'Оружие', 'Библиотека'], dtype=object)

Unnamed: 0,index_new,title,text,topic
31997,237096,Годовой доход Путина сократился на два миллион...,Президент и члены правительства России отчитал...,
41717,308158,Сборная России по волейболу вышла в финал Олим...,.RedirectTo http://olympic2012.lenta.ru/news/2...,
41829,308925,Штангист принес России шестое серебро Олимпиад...,.RedirectTo http://olympic2012.lenta.ru/news/2...,
27171,201269,Украина заявила об отсутствии потребности в эк...,Украина не испытывает критической потребности ...,
82746,612345,Польское посольство в Москве закидали помидорами,Польское посольство в Москве облили томатным с...,


In [11]:
# есть пустая категория, судя по всему с неклассифицированными статьями, их всего 27
# удалю их
# и есть категории с 6 и 1 значениями, объединю эти категории в класс Другое
df = df[df.topic != '']
df.loc[(df['topic'] == 'Библиотека') | (df['topic'] == 'Оружие'),'topic'] = 'Другое'

# классы очень несбалансированные, но т.к. это был случайный выбор + доля достаточно большая считаем что выборка репрезентативная
display(df.topic.value_counts())

Unnamed: 0_level_0,count
topic,Unnamed: 1_level_1
Россия,21953
Мир,18381
Экономика,10849
Спорт,8742
Наука и техника,7166
Культура,7161
Бывший СССР,7048
Интернет и СМИ,6074
Из жизни,3742
Дом,2943


В функции для очистки текста ниже есть нормализация, очистка от посторонних символов (с помощью метода isalpha) + токенизция, очистка от стоп-слов на русском и лемматизация. Слова на латинице остаются т.к. могут служить индикатором принадлежности текста к определенной категории, например, латинские названия компаний могут говорить о принадлежности текста топику Мир..

In [12]:
df['text'] = df['text'].str.lower()

In [13]:
%%capture
!python -m spacy download ru_core_news_sm

In [14]:
nlp = spacy.load("ru_core_news_sm", disable=["parser", "ner"])
russian_stopwords = set(stopwords.words('russian'))

def clean_text_spacy(text):
    doc = nlp(text)
    lemmas = [
        token.lemma_
        for token in doc
        if token.is_alpha and token.text not in russian_stopwords
    ]
    return lemmas

# def clean_text_parallel(texts):
#     return Parallel(n_jobs=12)(delayed(clean_text_spacy)(text) for text in texts)


# я правда пыталась это ускорить, но в любом случае оно работает больше часа

In [15]:
# def clean_texts_parallel(texts, batch_size=1000, n_process=16):
#     docs = nlp.pipe(texts, batch_size=batch_size, n_process=n_process)
#     cleaned_texts = [clean_text_spacy(doc) for doc in docs]
#     return cleaned_texts

In [16]:
X = df['text'].apply(clean_text_spacy)

In [17]:
X[200]

['около',
 'человек',
 'задержать',
 'страна',
 'европа',
 'латинский',
 'америка',
 'подозрение',
 'связь',
 'итальянский',
 'преступный',
 'группировка',
 'ндрангета',
 'сообщать',
 'the',
 'local',
 'обвинять',
 'работа',
 'криминальный',
 'синдикат',
 'действовать',
 'весь',
 'мир',
 'сообщаться',
 'итальянский',
 'правоохранитель',
 'декабрь',
 'провести',
 'совместный',
 'операция',
 'немецкий',
 'бельгийский',
 'голландский',
 'спецслужба',
 'мафиозный',
 'клан',
 'название',
 'ндрангета',
 'образовать',
 'калабрии',
 'горный',
 'регион',
 'юг',
 'италия',
 'ранее',
 'писать',
 'the',
 'local',
 'это',
 'единственный',
 'опг',
 'действовать',
 'обитаемый',
 'континент',
 'основный',
 'деятельность',
 'называть',
 'торговля',
 'кокаин',
 'покупка',
 'получить',
 'прибыль',
 'доля',
 'разный',
 'сфера',
 'бизнес',
 'декабрь',
 'стать',
 'известный',
 'итальянский',
 'полиция',
 'арестовать',
 'ювелир',
 'сеттимо',
 'минео',
 'которого',
 'считать',
 'новый',
 'глава',
 'сицилийски

In [18]:
le = LabelEncoder()
y = le.fit_transform(df['topic'])

In [19]:
len(y)

99973

In [20]:
len(X)

99973

In [21]:
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.4, stratify=y, random_state=998
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=998
)

## Baseline

В качестве бейслайна предсказываем самый популярный класс и смотрим на F1

In [22]:
dummy = DummyClassifier(strategy='most_frequent')
dummy.fit(X_train, y_train)
y_pred_dummy = dummy.predict(X_val)
f1_dummy = f1_score(y_val, y_pred_dummy, average='weighted')
print(f"F1 score for baseline: {f1_dummy:.3f}")

F1 score for baseline: 0.079


## Обучение логисической регресии

Т. к. классы в выборке сильно отличаются по размеру для измерения качества берем F1, в отличие от accuracy она не позволит модели выигрывать по качеству за счет хороших предсказаний на самых больших классах.

Далее подбираем параметры для двух моделей с разными векторайзерами и смотрим у какой лучше финальная метрика (и прочие в classification report)

In [23]:
def train_model(vectorizer, params, X_train, y_train):
    pipeline = Pipeline([
        ('vectorizer', vectorizer),
        ('model', LogisticRegression(max_iter=1000, random_state=998))
    ])
    f1_scorer = make_scorer(f1_score, average='weighted')
    grid = GridSearchCV(
        pipeline,
        params,
        cv=4,
        n_jobs=-1,
        verbose=1,
        scoring=f1_scorer
    )
    grid.fit(X_train, y_train)
    return grid

In [24]:
count_params = {
    'vectorizer__max_features': [5000, 10000],
    'vectorizer__ngram_range': [(1,2)],
    'vectorizer__max_df': [0.9, 0.95],
    'vectorizer__min_df': [300, 600, 900],
    'model__C': [0.1, 1]
}

tfidf_params = {
    'vectorizer__max_features': [5000, 10000],
    'vectorizer__ngram_range': [(1,2)],
    'vectorizer__use_idf': [True, False],
    'model__C': [0.1, 1]
}

In [25]:
# обучение моделей и поиск лучших параметров
count_grid = train_model(
    CountVectorizer(analyzer=lambda x: x),
    count_params,
    X_train,
    y_train
)

tfidf_grid = train_model(
    TfidfVectorizer(analyzer=lambda x: x),
    tfidf_params,
    X_train,
    y_train
)

Fitting 4 folds for each of 24 candidates, totalling 96 fits




Fitting 4 folds for each of 8 candidates, totalling 32 fits




In [26]:
print(count_grid.best_params_)
print(tfidf_grid.best_params_)

{'model__C': 0.1, 'vectorizer__max_df': 0.9, 'vectorizer__max_features': 5000, 'vectorizer__min_df': 300, 'vectorizer__ngram_range': (1, 2)}
{'model__C': 1, 'vectorizer__max_features': 10000, 'vectorizer__ngram_range': (1, 2), 'vectorizer__use_idf': True}


In [27]:
y_pred_count = count_grid.best_estimator_.predict(X_val)
y_pred_tfidf = tfidf_grid.best_estimator_.predict(X_val)

print("CountVectorizer:")
print(classification_report(y_val, y_pred_count, target_names=le.classes_))

print("TfidfVectorizer:")
print(classification_report(y_val, y_pred_tfidf, target_names=le.classes_))

CountVectorizer:
                   precision    recall  f1-score   support

   69-я параллель       0.57      0.11      0.19        35
           Бизнес       0.55      0.39      0.46       196
      Бывший СССР       0.80      0.74      0.77      1409
              Дом       0.79      0.73      0.76       589
           Другое       0.00      0.00      0.00         1
         Из жизни       0.58      0.56      0.57       749
   Интернет и СМИ       0.73      0.68      0.70      1215
             Крым       0.50      0.19      0.27        16
    Культпросвет        0.00      0.00      0.00         9
         Культура       0.85      0.85      0.85      1432
          Легпром       0.00      0.00      0.00         3
              Мир       0.76      0.81      0.79      3677
  Наука и техника       0.79      0.78      0.78      1433
      Путешествия       0.74      0.48      0.58       175
           Россия       0.75      0.80      0.78      4391
Силовые структуры       0.59      0.50

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [28]:
print("LogReg + CountVectorizer val F1:", count_grid.best_estimator_.score(X_val, y_val))
print("LogReg + TfidfVectorizer val F1:", tfidf_grid.best_estimator_.score(X_val, y_val))

LogReg + CountVectorizer val F1: 0.7813953488372093
LogReg + TfidfVectorizer val F1: 0.8072518129532383


In [29]:
# выбор векторайзера и модели с лучшим скором
best_model = count_grid if count_grid.best_score_ > tfidf_grid.best_score_ else tfidf_grid

In [30]:
# финальная оценка лучшей модели на тесте
y_pred = best_model.best_estimator_.predict(X_test)
print("test F1 score:", f1_score(y_test, y_pred, average = 'weighted'))
print(classification_report(y_test, y_pred, target_names=le.classes_))

test F1 score: 0.7960298260211817
                   precision    recall  f1-score   support

   69-я параллель       0.80      0.12      0.21        34
           Бизнес       0.64      0.11      0.18       196
      Бывший СССР       0.82      0.78      0.80      1410
              Дом       0.84      0.76      0.80       588
           Другое       0.00      0.00      0.00         2
         Из жизни       0.68      0.57      0.62       748
   Интернет и СМИ       0.77      0.70      0.74      1215
             Крым       0.00      0.00      0.00        16
    Культпросвет        0.00      0.00      0.00         9
         Культура       0.86      0.87      0.86      1432
          Легпром       0.00      0.00      0.00         4
              Мир       0.79      0.83      0.81      3676
  Наука и техника       0.81      0.85      0.83      1434
      Путешествия       0.80      0.58      0.67       175
           Россия       0.76      0.84      0.80      4390
Силовые структуры    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


В итоге F1 лучше у модели с TF-IDF: 0.8 weighted и 0.55 macro. По classification report можно увидеть почему: большие классы модель предсказывает гораздо точнее, чем небольшие. Улучшить модель можно учитывая веса классов и продолжа подбирать гиперпараметры + возможно увеличив количество признаков т.к. 10тыс для корпуса в 100тыс текстов это не так много