# Set-up

In [1]:
!pip install pymorphy2
!pip install pymorphy2-dicts



In [2]:
import pandas as pd
import numpy as np
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from pymorphy2 import MorphAnalyzer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt

In [3]:
!pip install corus



In [4]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2025-02-26 15:05:51--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250226%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250226T150552Z&X-Amz-Expires=300&X-Amz-Signature=180c8e321106d653d9280b35284832b9d8d2df6798556c9afc7a494edea65fdb&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2025-02-26 15:05:52--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMA

# Data preproc

In [5]:
import os
import itertools
from corus import load_lenta

print(os.listdir('/kaggle/working'))
lenta_path = '/kaggle/working/lenta-ru-news.csv.gz'
records = load_lenta(lenta_path)
exs = list(itertools.islice(records, 3))
print(vars(exs[0]))

['morph_df.pkl', 'lenta-ru-news.csv.gz', '.virtual_documents', 'lenta-ru-news.csv.gz.1']
{'url': 'https://lenta.ru/news/2018/12/14/cancer/', 'title': 'Названы регионы России с\xa0самой высокой смертностью от\xa0рака', 'text': 'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.', 'topic': 'Россия', 'tags': 'Общество', 'date': None}


In [6]:
# take 100k with saving classes distrib

records_dlist = [{'text': rec.text, 'topic': rec.topic} for rec in records if rec.topic != '']
df = pd.DataFrame(records_dlist)
df.head(2)

Unnamed: 0,text,topic
0,С начала расследования российского вмешательст...,Мир
1,Хакерская группировка Anonymous опубликовала н...,Мир


In [7]:
topic_counts = df['topic'].value_counts()
rare_topics = topic_counts[topic_counts < 3].index
df_filtered = df[~df['topic'].isin(rare_topics)]

In [8]:
# для сохранения соотношений классов используется stratify

In [9]:
n_sampl = 1e5
df_sampl, _ = train_test_split(df_filtered, train_size=int(n_sampl), stratify=df_filtered['topic'])
print(df_sampl['topic'].value_counts())
df_sampl.head(2)

topic
Россия               21717
Мир                  18492
Экономика            10761
Спорт                 8715
Культура              7279
Бывший СССР           7225
Наука и техника       7189
Интернет и СМИ        6044
Из жизни              3736
Дом                   2940
Силовые структуры     2651
Ценности              1051
Бизнес                1001
Путешествия            867
69-я параллель         172
Крым                    90
Культпросвет            46
Легпром                 15
Библиотека               9
Name: count, dtype: int64


Unnamed: 0,text,topic
237338,"Футбольный клуб «Анжи» в воскресенье, 6 апреля...",Спорт
200336,"Олесь Бузина, шеф-редактор украинской газеты «...",Интернет и СМИ


In [10]:
df_sampl['topic'].unique()

array(['Спорт', 'Интернет и СМИ', 'Бывший СССР', 'Культура', 'Мир',
       'Россия', 'Экономика', 'Наука и техника', 'Силовые структуры',
       'Путешествия', 'Ценности', 'Из жизни', '69-я параллель', 'Бизнес',
       'Дом', 'Культпросвет ', 'Крым', 'Легпром', 'Библиотека'],
      dtype=object)

In [11]:
topic2int = {topic:i for i,topic in enumerate(df_sampl['topic'].unique())}
int2topic = {i:topic for i,topic in enumerate(df_sampl['topic'].unique())}
df_sampl['label'] = df_sampl['topic'].map(topic2int)

In [12]:
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))
stemmer = SnowballStemmer("russian")

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [13]:
print(np.random.choice(list(stop_words), 25))

['всю' 'иногда' 'и' 'ее' 'ж' 'мы' 'опять' 'в' 'не' 'какой' 'над' 'том'
 'можно' 'было' 'зачем' 'об' 'этой' 'что' 'можно' 'лучше' 'ничего' 'чтоб'
 'сам' 'что' 'такой']


In [14]:
# стандартный пайплайн с лекции:
# нижний регистр -> фильтация чисел -> удаление стоп-слов, стемматизация (пока что, т.к. она быстрее)

def proc_text(text):
    text = text.lower()
    text = re.sub(r'[^a-zа-яё\s]', '', text)
    words = words = [word for word in text.split() if word not in stop_words]
    words = [stemmer.stem(word) for word in words]
    return ' '.join(words)

In [15]:
ex = proc_text(df_sampl['text'].iloc[0])
print(ex)

начальник администрац министр внутрен дел груз шот хизанишв сообщ агентств ри новост воскресен зон грузиноосетинск конфликт погибл грузинск милиционер министр внутрен дел южн осет миха миндза сво сторон утвержда убит милиционер спецназовц верс хизанишв грузинск полицейск патрул попа засад устроен осетин полицейск уаз обстреля гранатомет крупнокалиберн оруд результат погибл начальник одн управлен мвд груз арч цхак водител рост джапаридз слов хизанишв верс подтвержда групп мониторинг обс побыва мест событ миндза сво сторон утвержда сотрудник осетинск правоохранительн орган останов машин котор еха четвер грузинск спецназовц переброшен регион веден диверсион деятельн якоб пыта въеха сел дидмух останов дво вышл машин откр огон ответн огн грузин убит югоосетинск сторон призыва свидетел наблюдател смеша сил поддержан мир российск миротворц


In [25]:
%%time
df_sampl['proc_text'] = df_sampl['text'].apply(proc_text)

CPU times: user 10min 50s, sys: 965 ms, total: 10min 51s
Wall time: 10min 51s


In [26]:
print(len(df_sampl['proc_text']), len(df_sampl['label']))

100000 100000


In [27]:
train_frac, val_frac, test_frac = 0.6, 0.2, 0.2

X, y = df_sampl['proc_text'], df_sampl['label']
X_train, X_valtest, y_train, y_valtest = train_test_split(X, y, test_size=(val_frac+test_frac), random_state=59, stratify=df_sampl['label'])
X_val, X_test, y_val, y_test = train_test_split(X_valtest, y_valtest, test_size=0.5, random_state=59, stratify=y_valtest)

print(len(X_train), len(X_val), len(X_test))

60000 20000 20000


# Dummy

In [35]:
vectorizer = CountVectorizer(max_df=0.9, min_df=0.003)
X_train_vec = vectorizer.fit_transform(X_train)
X_val_vec = vectorizer.transform(X_val)
X_test_vec = vectorizer.transform(X_test)

In [36]:
pd.DataFrame(X_train_vec.toarray(), columns=vectorizer.get_feature_names_out()).head()

Unnamed: 0,abc,afp,agenc,air,airlines,america,and,android,ap,appl,...,якоб,ян,январ,янукович,япон,японск,ярк,ярославск,ясн,ящик
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0


In [38]:
dummy_clf = DummyClassifier(strategy='stratified', random_state=59).fit(X_train_vec, y_train)
test_preds = dummy_clf.predict(X_test_vec)
print(classification_report(y_test, test_preds, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.07      0.07      0.07      1445
              Мир       0.19      0.19      0.19      3699
  Наука и техника       0.06      0.06      0.06      1438
        Экономика       0.11      0.11      0.11      2152
            Спорт       0.08      0.08      0.08      1743
           Россия       0.22      0.22      0.22      4344
           Бизнес       0.00      0.01      0.00       200
         Культура       0.07      0.07      0.07      1456
   Интернет и СМИ       0.07      0.06      0.06      1209
              Дом       0.03      0.03      0.03       588
      Путешествия       0.01      0.01      0.01       173
   69-я параллель       0.00      0.00      0.00        34
Силовые структуры       0.02      0.02      0.02       530
         Ценности       0.01      0.01      0.01       210
         Из жизни       0.05      0.05      0.05       747
    Культпросвет        0.00      0.00      0.00       

# Log reg

In [39]:
count_vectorizer = CountVectorizer(max_df=0.9, min_df=0.003)
X_train_vec = count_vectorizer.fit_transform(X_train)
X_val_vec = count_vectorizer.transform(X_val)
X_test_vec = count_vectorizer.transform(X_test)

In [43]:
log_reg = LogisticRegression(max_iter=250, random_state=59).fit(X_train_vec, y_train)
test_preds = log_reg.predict(X_test_vec)
print(classification_report(y_test, test_preds, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.73      0.72      0.72      1445
              Мир       0.75      0.76      0.76      3699
  Наука и техника       0.78      0.78      0.78      1438
        Экономика       0.79      0.79      0.79      2152
            Спорт       0.96      0.94      0.95      1743
           Россия       0.73      0.76      0.74      4344
           Бизнес       0.40      0.35      0.38       200
         Культура       0.83      0.82      0.83      1456
   Интернет и СМИ       0.68      0.67      0.67      1209
              Дом       0.81      0.76      0.78       588
      Путешествия       0.72      0.60      0.65       173
   69-я параллель       0.57      0.24      0.33        34
Силовые структуры       0.51      0.50      0.51       530
         Ценности       0.86      0.80      0.83       210
         Из жизни       0.49      0.52      0.50       747
    Культпросвет        0.50      0.11      0.18       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [44]:
tfidf_vec = TfidfVectorizer(max_df=0.9, min_df=0.003)
X_train_vec = tfidf_vec.fit_transform(X_train)
X_val_vec = tfidf_vec.transform(X_val)
X_test_vec = tfidf_vec.transform(X_test)

In [45]:
pd.DataFrame(X_train_vec.toarray(), columns=vectorizer.get_feature_names_out()).head()

Unnamed: 0,abc,afp,agenc,air,airlines,america,and,android,ap,appl,...,якоб,ян,январ,янукович,япон,японск,ярк,ярославск,ясн,ящик
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.051795,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [46]:
log_reg_ = LogisticRegression(max_iter=250, random_state=59).fit(X_train_vec, y_train)
test_preds_ = log_reg_.predict(X_test_vec)
print(classification_report(y_test, test_preds_, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.80      0.76      0.78      1445
              Мир       0.77      0.83      0.80      3699
  Наука и техника       0.82      0.83      0.83      1438
        Экономика       0.82      0.85      0.83      2152
            Спорт       0.96      0.96      0.96      1743
           Россия       0.74      0.83      0.78      4344
           Бизнес       0.62      0.17      0.26       200
         Культура       0.85      0.86      0.86      1456
   Интернет и СМИ       0.76      0.72      0.74      1209
              Дом       0.87      0.77      0.81       588
      Путешествия       0.78      0.48      0.59       173
   69-я параллель       1.00      0.03      0.06        34
Силовые структуры       0.64      0.35      0.45       530
         Ценности       0.95      0.72      0.82       210
         Из жизни       0.62      0.53      0.57       747
    Культпросвет        0.00      0.00      0.00       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# Experiments

In [15]:
# tf-idf хуже сошелся на самых редких классах, но компенсировал это более высоким качеством на частых классах
# интуитивно кажется, что если потерпеть выполнение лемматизации вместо стемминга, то, возможно, редкие классы 
# будут предсказываться лучше

morph = MorphAnalyzer()

def proc_text_morph(text):
    text = text.lower()
    text = re.sub(r'[^a-zа-яё\s]', '', text)
    words = [word for word in text.split() if word not in stop_words]
    words = [morph.parse(word)[0].normal_form for word in words]
    return ' '.join(words)

In [16]:
%%time
df_sampl['proc_text_morph'] = df_sampl['text'].apply(proc_text_morph)

CPU times: user 36min 21s, sys: 856 ms, total: 36min 22s
Wall time: 36min 23s


In [17]:
df_sampl.to_pickle('/kaggle/working/morph_df.pkl')

In [57]:
train_frac, val_frac, test_frac = 0.6, 0.2, 0.2

X, y = df_sampl['proc_text_morph'], df_sampl['label']
X_train, X_valtest, y_train, y_valtest = train_test_split(X, y, test_size=(val_frac+test_frac), random_state=59, stratify=df_sampl['label'])
X_val, X_test, y_val, y_test = train_test_split(X_valtest, y_valtest, test_size=0.5, random_state=59, stratify=y_valtest)

print(len(X_train), len(X_val), len(X_test))

tfidf_vec = TfidfVectorizer(max_df=0.9, min_df=0.003)
X_train_vec = tfidf_vec.fit_transform(X_train)
X_val_vec = tfidf_vec.transform(X_val)
X_test_vec = tfidf_vec.transform(X_test)

60000 20000 20000


In [58]:
log_reg_ = LogisticRegression(max_iter=250, random_state=59).fit(X_train_vec, y_train)
test_preds_ = log_reg_.predict(X_test_vec)
print(classification_report(y_test, test_preds_, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.80      0.77      0.79      1445
              Мир       0.78      0.83      0.80      3699
  Наука и техника       0.82      0.83      0.82      1438
        Экономика       0.81      0.85      0.83      2152
            Спорт       0.96      0.96      0.96      1743
           Россия       0.75      0.83      0.79      4344
           Бизнес       0.61      0.18      0.28       200
         Культура       0.85      0.86      0.86      1456
   Интернет и СМИ       0.76      0.71      0.74      1209
              Дом       0.85      0.76      0.81       588
      Путешествия       0.79      0.48      0.60       173
   69-я параллель       0.00      0.00      0.00        34
Силовые структуры       0.67      0.34      0.45       530
         Ценности       0.95      0.73      0.82       210
         Из жизни       0.63      0.54      0.58       747
    Культпросвет        0.00      0.00      0.00       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [60]:
# точность стала совсем ненмого выше, по крайней мере лемматизация не ухудшила качество
# следующее попытка в улучшение - взять побольше итераций, взять поменьше min_df в надежде улучшить качество на редких классах

tfidf_vec = TfidfVectorizer(max_df=0.9, min_df=0.0003)
X_train_vec = tfidf_vec.fit_transform(X_train)
X_val_vec = tfidf_vec.transform(X_val)
X_test_vec = tfidf_vec.transform(X_test)

log_reg_ = LogisticRegression(max_iter=250, random_state=59).fit(X_train_vec, y_train)
test_preds_ = log_reg_.predict(X_test_vec)
print(classification_report(y_test, test_preds_, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.82      0.80      0.81      1445
              Мир       0.78      0.84      0.81      3699
  Наука и техника       0.82      0.84      0.83      1438
        Экономика       0.82      0.85      0.84      2152
            Спорт       0.96      0.96      0.96      1743
           Россия       0.76      0.84      0.80      4344
           Бизнес       0.64      0.14      0.23       200
         Культура       0.85      0.88      0.87      1456
   Интернет и СМИ       0.78      0.72      0.75      1209
              Дом       0.88      0.78      0.82       588
      Путешествия       0.77      0.47      0.59       173
   69-я параллель       0.50      0.03      0.06        34
Силовые структуры       0.71      0.33      0.45       530
         Ценности       0.95      0.73      0.82       210
         Из жизни       0.66      0.56      0.61       747
    Культпросвет        0.00      0.00      0.00       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [63]:
# перед гридсерчем попробую ещё использовать биграммы в векторайзере

tfidf_vec = TfidfVectorizer(ngram_range=(1, 2), max_df=0.9, min_df=0.0003)
X_train_vec = tfidf_vec.fit_transform(X_train)
X_val_vec = tfidf_vec.transform(X_val)
X_test_vec = tfidf_vec.transform(X_test)

print(X_train_vec.toarray().shape)

(60000, 57163)


In [64]:
log_reg_ = LogisticRegression(max_iter=250, random_state=59).fit(X_train_vec, y_train)
test_preds_ = log_reg_.predict(X_test_vec)
print(classification_report(y_test, test_preds_, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

      Бывший СССР       0.83      0.79      0.81      1445
              Мир       0.78      0.85      0.82      3699
  Наука и техника       0.82      0.84      0.83      1438
        Экономика       0.82      0.86      0.84      2152
            Спорт       0.96      0.96      0.96      1743
           Россия       0.76      0.85      0.80      4344
           Бизнес       0.65      0.12      0.20       200
         Культура       0.86      0.88      0.87      1456
   Интернет и СМИ       0.80      0.71      0.75      1209
              Дом       0.89      0.76      0.82       588
      Путешествия       0.79      0.45      0.57       173
   69-я параллель       0.67      0.06      0.11        34
Силовые структуры       0.72      0.32      0.44       530
         Ценности       0.97      0.74      0.84       210
         Из жизни       0.67      0.55      0.60       747
    Культпросвет        0.00      0.00      0.00       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [28]:
# для кросс-валидации в gridsearch можно объединить train и val

X, y = df_sampl['proc_text_morph'], df_sampl['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=59, stratify=df_sampl['label'])

print(len(X_train), len(X_test))

tfidf_vec = TfidfVectorizer(max_df=0.9, min_df=0.003)
X_train_vec = tfidf_vec.fit_transform(X_train)
X_test_vec = tfidf_vec.transform(X_test)


80000 20000


In [30]:
%%time

# качество с биграммами стало ещё чуть лучше (macro_avg +0.01), но матрица векторов получилась слишком большая, 
# возможно она того не стоит, уберу биграммы из гридсерча

log_reg_ = LogisticRegression()

param_grid = {
    'C': [0.1, 1, 10],
    'solver': ['liblinear', 'saga', 'lbfgs'],
    'max_iter': [100, 200, 300]
}

grid_search = GridSearchCV(log_reg_, param_grid, cv=5, n_jobs=-1, verbose=1)

grid_search.fit(X_train_vec, y_train)

print("Best parameters found: ", grid_search.best_params_)
print("Best cross-validation score: {:.3f}".format(grid_search.best_score_))

Fitting 5 folds for each of 27 candidates, totalling 135 fits
Best parameters found:  {'C': 10, 'max_iter': 100, 'solver': 'liblinear'}
Best cross-validation score: 0.797
CPU times: user 2min 2s, sys: 4.55 s, total: 2min 6s
Wall time: 45min 59s


In [31]:
best_model = grid_search.best_estimator_
test_preds_ = best_model.predict(X_test_vec)
print(classification_report(y_test, test_preds_, zero_division=0, target_names=[topic for topic in topic2int.keys()]))

                   precision    recall  f1-score   support

            Спорт       0.96      0.96      0.96      1743
   Интернет и СМИ       0.73      0.69      0.71      1209
      Бывший СССР       0.79      0.81      0.80      1445
         Культура       0.86      0.88      0.87      1456
              Мир       0.78      0.82      0.80      3698
           Россия       0.77      0.83      0.80      4344
        Экономика       0.82      0.86      0.84      2152
  Наука и техника       0.82      0.81      0.81      1438
Силовые структуры       0.66      0.44      0.53       530
      Путешествия       0.80      0.57      0.67       173
         Ценности       0.93      0.82      0.87       210
         Из жизни       0.60      0.53      0.57       747
   69-я параллель       0.56      0.14      0.23        35
           Бизнес       0.68      0.29      0.41       200
              Дом       0.84      0.80      0.82       588
    Культпросвет        0.00      0.00      0.00       

In [32]:
# gridsearch позволил добиться наивысшего macro_f1 скора, на удивление лучшая модель
# работает на недефолтном солвере liblinear, с низким количеством итераций и
# слабой регуляризацией (больше C - меньше регуляризация)
# liblinear обучает (если я не ошибся) для каждого класса свой бинарный классификатор,
# реализуя стратегию OVR, что помогает лучше классифицировать новости, т.к.
# классов у нас много, и учить одну модель под столько распределений, видимо, не лучшая
# стратегия