In [1]:
%%capture
!pip install corus
!pip install gensim
!pip install navec
!pip install pymorphy3
!python -m spacy download ru_core_news_sm

import nltk
import pandas as pd
import numpy as np
import random
import itertools
import re
import spacy
import gensim
import urllib.request

from corus import load_lenta
from navec import Navec
from gensim.models import Word2Vec, KeyedVectors
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, RegexpTokenizer
from pymorphy3 import MorphAnalyzer

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score, f1_score, make_scorer
from sklearn.base import BaseEstimator, TransformerMixin


from joblib import Parallel, delayed

np.random.seed(998)

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

import warnings
warnings.filterwarnings('ignore')

## Загрузка и предобработка данных

Эта часть во многом аналогична первому
 ДЗ: загружаем датасет, по сгенерированным рандомным 10 тысячам индексов выбираем 10 тысяч строк (т.к. со 100 возникали проблемы с колабом), предобрабатываем текст с помощью spacy, делим на трейн/валидацию/тест.

Хотелось бы взять 100к с тем же рандом сидом и посмотреть как на тех же текстах одна и та же логистическая регрессия работает с разными признаками (из векторайзеров и из эмбеддингов), но сейчас я могу работать только в колабе, а он на 100к иногда очень неприятно отключается

In [2]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2025-03-14 06:23:43--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250314%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250314T062343Z&X-Amz-Expires=300&X-Amz-Signature=55f83137f7ee039bbbd3d34d85cecc715276e34071717cd5c819034c5c1417cc&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2025-03-14 06:23:43--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-

In [3]:
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)

In [4]:
# длина оригинального датасета через копию генератора
records, records_copy = itertools.tee(records)
total_len = sum(1 for _ in records_copy)
total_len

739351

In [5]:
sample_size = 10000

random_idx = np.random.choice(total_len, size=sample_size, replace=False)
sampled_records = []
for i, record in enumerate(records):
    if i in random_idx:
        sampled_records.append((i, record))

In [6]:
df = pd.DataFrame({
    'index_new': [i[0] for i in sampled_records],
    'title': [i[1].title for i in sampled_records],
    'text': [i[1].text for i in sampled_records],
    'topic': [i[1].topic for i in sampled_records]
})

print(df.head())

   index_new                                              title  \
0        143  Обвиненного в госизмене ученого наказали за от...   
1        222  Лукашенко объяснил ненужность российской авиаб...   
2        293  Кадыров попросил ему не мешать и еще больше денег   
3        312  Хваставшийся в Instagram дорогой одеждой батюш...   
4        325  Венгры взбунтовались против рабского труда и у...   

                                                text        topic  
0  Заключенному под стражу по делу о госизмене ро...       Россия  
1  Поднятие вопроса о возможности создания в Бело...  Бывший СССР  
2  Глава Чеченской республики Рамзан Кадыров отре...    Экономика  
3  Представители Тверской епархии сочли поведение...     Ценности  
4  В Венгрии сотни людей вышли на акции протеста ...          Мир  


In [7]:
display(df.topic.unique())
# display(df[df.topic == ''].sample(5))

array(['Россия', 'Бывший СССР', 'Экономика', 'Ценности', 'Мир',
       'Интернет и СМИ', 'Спорт', 'Силовые структуры', 'Из жизни', 'Дом',
       'Наука и техника', 'Путешествия', 'Культура', '69-я параллель',
       'Крым', 'Бизнес', 'Культпросвет ', 'Легпром', ''], dtype=object)

In [8]:
# есть пустая категория, судя по всему с неклассифицированными статьями, их всего 27
# удаляем их
# и есть категории с 6 и 1 значениями, объединю эти категории в класс Другое
df = df[df.topic != '']
df.loc[(df['topic'] == 'Культпросвет ') | (df['topic'] == 'Легпром') | (df['topic'] == 'Крым'),'topic'] = 'Другое'

# классы очень несбалансированные, но т.к. это был случайный выбор + доля достаточно большая считаем что выборка репрезентативная
display(df.topic.value_counts())

Unnamed: 0_level_0,count
topic,Unnamed: 1_level_1
Россия,2251
Мир,1862
Экономика,1098
Спорт,848
Бывший СССР,745
Культура,695
Наука и техника,694
Интернет и СМИ,582
Из жизни,380
Дом,263


In [9]:
df['text'] = df['text'].str.lower()

In [10]:
nlp = spacy.load("ru_core_news_sm", disable=["parser", "ner"])
russian_stopwords = set(stopwords.words('russian'))

def clean_text_spacy(text):
    doc = nlp(text)
    lemmas = [
        token.lemma_
        for token in doc
        if token.is_alpha and token.text not in russian_stopwords
    ]
    return lemmas

In [11]:
X = df['text'].apply(clean_text_spacy)

In [12]:
le = LabelEncoder()
y = le.fit_transform(df['topic'])

In [13]:
len(y)

9997

In [14]:
len(X)

9997

In [15]:
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.4, stratify=y, random_state=998
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=998
)

In [16]:
# делаем доп.сет параметров для русвек-а, проверяем что теги те же, которые есть в модели
def add_pos_tags(docs):
    pos_docs = []
    for doc in docs:
        text = " ".join(doc)
        spacy_doc = nlp(text)
        pos_docs.append([f"{word.text}_{word.pos_}" for word in spacy_doc])
    return pos_docs

X_train_pos = add_pos_tags(X_train)
X_val_pos = add_pos_tags(X_val)
X_test_pos = add_pos_tags(X_test)

In [17]:
print(len(X_train), len(X_val), len(X_test))
print(len(X_train_pos), len(X_val_pos), len(X_test_pos))

5998 1999 2000
5998 1999 2000


In [18]:
X_train_pos[1]

['япония_NOUN',
 'воссоздать_VERB',
 'снег_NOUN',
 'имперский_ADJ',
 'штурмовик_NOUN',
 'киносаги_NOUN',
 'звёздный_ADJ',
 'война_NOUN',
 'сообщать_VERB',
 'the_X',
 'daily_X',
 'mirror_X',
 'скульптура_NOUN',
 'высота_NOUN',
 'около_ADP',
 'девять_NUM',
 'метр_NOUN',
 'создать_VERB',
 'снежный_ADJ',
 'фестиваль_NOUN',
 'саппоро_X',
 'центр_NOUN',
 'композиция_NOUN',
 'расположен_ADJ',
 'дарт_PROPN',
 'вейдер_PROPN',
 'окружение_NOUN',
 'три_NUM',
 'штурмовик_NOUN',
 'задний_ADJ',
 'план_NOUN',
 'разместить_VERB',
 'космический_ADJ',
 'истребитель_NOUN',
 'вселенная_ADJ',
 'звёздный_ADJ',
 'война_NOUN',
 'отмечаться_VERB',
 'автор_NOUN',
 'скульптура_NOUN',
 'создание_NOUN',
 'которой_PRON',
 'уйти_VERB',
 'около_ADP',
 'месяц_NOUN',
 'стать_VERB',
 'бригада_NOUN',
 'сухопутный_ADJ',
 'сила_NOUN',
 'самооборона_NOUN',
 'япония_NOUN',
 'изготовление_NOUN',
 'композиция_NOUN',
 'использоваться_VERB',
 'бульдозер_NOUN',
 'строительный_ADJ',
 'лес_NOUN',
 'скульптура_NOUN',
 'создать_VERB'

## Создние эмбеддингов с Gensim

In [63]:
model = Word2Vec(
    sentences=X_train,
    vector_size=300, # возьмем +- стандартный размер
    window=5, #контекстное окно в 5 слов
    min_count=10, #не берем сова встречающиеся меньше 10 раз
    sg=1, # будем использовать stopgram
    negative=5, # текстов довольно большое количство, поэтому используем negative sampling по 5 внеконтекстным словам
    workers=4
    )


In [64]:
model.build_vocab(X_train)
model.train(X_train, total_examples=model.corpus_count, epochs=30)



(20350866, 23788290)

In [65]:
print(model.wv.doesnt_match(["футбол", "хоккей", "россия"]))


россия


In [66]:
display(model.wv.most_similar("чикаго"))
display(model.wv.most_similar("йорк"))

# не то чтобы чикаго ред..но йорк действительно бывает нью

[('ред', 0.4450737237930298),
 ('уингс', 0.423820436000824),
 ('нхл', 0.41377466917037964),
 ('рейнджерс', 0.4127780497074127),
 ('нба', 0.4094655513763428),
 ('полуфинальный', 0.3998700976371765),
 ('даллас', 0.39225339889526367),
 ('офф', 0.3904896378517151),
 ('плей', 0.38632234930992126),
 ('филадельфия', 0.3817029595375061)]

[('нью', 0.9472789764404297),
 ('йоркский', 0.5443930625915527),
 ('джерси', 0.5142751932144165),
 ('рейнджерс', 0.4043721854686737),
 ('майами', 0.3841198980808258),
 ('лос', 0.32682138681411743),
 ('ford', 0.32471179962158203),
 ('питтсбург', 0.3241317868232727),
 ('wti', 0.32367128133773804),
 ('филадельфия', 0.3163060247898102)]

## Загрузка готовых эмбеддингов

Из Navec попробуем взять модель news, т.к. у нас новостной корпус. Из rusvectores также возьмем модель обученную на новостях, хоть у нее и не лучшее качество на различных метриках, она не такая тяжелая как другие и в теории может давать хорошие показатели именно для домена новостей.

In [23]:

!wget https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar

--2025-03-14 06:52:39--  https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar
Resolving storage.yandexcloud.net (storage.yandexcloud.net)... 213.180.193.243, 2a02:6b8::1d9
Connecting to storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 26634240 (25M) [application/x-tar]
Saving to: ‘navec_news_v1_1B_250K_300d_100q.tar’


2025-03-14 06:52:42 (12.8 MB/s) - ‘navec_news_v1_1B_250K_300d_100q.tar’ saved [26634240/26634240]



In [24]:
path = 'navec_news_v1_1B_250K_300d_100q.tar'
navec = Navec.load(path)

In [25]:
urllib.request.urlretrieve(
    "https://rusvectores.org/static/models/rusvectores4/news/news_upos_cbow_600_2_2018.vec.gz",
    "news_upos_cbow_600_2_2018.vec.gz"
)

('news_upos_cbow_600_2_2018.vec.gz',
 <http.client.HTTPMessage at 0x7ad247719550>)

In [26]:
rusvec_path = 'news_upos_cbow_600_2_2018.vec.gz'
rusvec = gensim.models.KeyedVectors.load_word2vec_format(rusvec_path)

In [27]:
rusvec.most_similar(positive=['чикаго_NOUN'], topn=10)

[('даллас_NOUN', 0.6791614890098572),
 ('филадельфия_NOUN', 0.6719862222671509),
 ('детройт_NOUN', 0.6665207743644714),
 ('блэкхоукс_NOUN', 0.6618371605873108),
 ('айлендерс_NOUN', 0.6555952429771423),
 ('питтсбург_NOUN', 0.639214813709259),
 ('милуоки_NOUN', 0.6332553625106812),
 ('блэкхокс_NOUN', 0.6322605013847351),
 ('бостон_NOUN', 0.627689778804779),
 ('сент-луис_NOUN', 0.6221750378608704)]

## Обучение логистической регрессии

Во-первых, для каждой модели сделаем отдельный класс основанный на базовом с BaseEstimator из skearn, для того чтобы было удобнее передавать эмбеддинги в пайплайн обучения.

Особо параметры тут не настраиваются, но возьмем параметр аггрегации векторов слов в вектор всего текста, и параметр, отвечающий за нулевой/случайный вектор для незнакомых слов.

И дальше сделаем два пайплайна - для моделей без POS-тегов и для RusVectores, в котором POS теги добавляются к признакам.

___
Второй пайплайн я так и не использовала,  т.к. были проблемы с обучением с RusVectores - при самом обучении при присвоении тегов или их удалении из слов загруженного словаря падал колаб и это ничем не фиксилось. Поэтому добавила при формировании выборок второй сет с pos-тегами X_*_pos, в итоге особого смысла это не имело, т.к. результаты у rusvec странно низкие и вообще navec всех победил...такие дела.

In [28]:
class BaseEmbedder(BaseEstimator, TransformerMixin):
    def __init__(self, aggregation='mean', oov_strategy='zeros'):
        self.aggregation = aggregation
        self.oov_strategy = oov_strategy
        self.vector_size = None

    def _get_vector(self, word):
        raise NotImplementedError

    def transform(self, X):
        embeddings = []
        for doc in X:
            vectors = []
            for word in doc:
                vec = self._get_vector(word)
                if vec is not None:
                    vectors.append(vec)

            if not vectors:
                vectors = [np.zeros(self.vector_size)]

            if self.aggregation == 'mean':
                emb = np.mean(vectors, axis=0)
            elif self.aggregation == 'sum':
                emb = np.sum(vectors, axis=0)
            elif self.aggregation == 'max':
                emb = np.max(vectors, axis=0)
            embeddings.append(emb)
        return np.array(embeddings)

    def fit(self, X, y=None):
        return self

In [29]:
# класс для обработки созданных с gensim эмбеддингов
class CustomEmbedder(BaseEmbedder):
    def __init__(self, model, aggregation='mean', oov_strategy='zeros'):
        super().__init__(aggregation=aggregation, oov_strategy=oov_strategy)
        self.model = model.wv if isinstance(model, Word2Vec) else model
        self.vector_size = self.model.vector_size

    def _get_vector(self, word):
        try:
            return self.model.get_vector(word)
        except KeyError:
            if self.oov_strategy == 'zeros':
                return np.zeros(self.vector_size)
            elif self.oov_strategy == 'random':
                return np.random.normal(scale=0.1, size=self.vector_size)
            return None

# класс для обработки navec эмбеддингов
class NavecEmbedder(BaseEmbedder):
    def __init__(self, model, aggregation='mean', oov_strategy='zeros'):
        super().__init__(aggregation=aggregation, oov_strategy=oov_strategy)
        self.model = model
        self.vector_size = self._detect_vector_size()

    def _detect_vector_size(self):
        for word in ['год', 'россия', 'время']:
            try:
                return self.model[word].shape[0]
            except KeyError:
                continue
        raise ValueError("")

    def _get_vector(self, word):
        try:
            return self.model[word]
        except KeyError:
            if self.oov_strategy == 'zeros':
                return np.zeros(self.vector_size)
            elif self.oov_strategy == 'random':
                return np.random.normal(scale=0.1, size=self.vector_size)
            return None

# класс для обработки rusvec, который в итоге не использовался из-за добавления пос-тегов в признаки
class RusvecEmbedder(BaseEmbedder):
    def __init__(self, model, aggregation='mean', oov_strategy='zeros'):
        super().__init__(aggregation=aggregation, oov_strategy=oov_strategy)
        self.model = model.wv if isinstance(model, Word2Vec) else model
        self.vector_size = self.model.vector_size
        self.morph = MorphAnalyzer()

    def _get_vector(self, word):
        word_with_pos = f"{word}_{self.morph.parse(word)[0].tag.POS}"
        try:
            return self.model.get_vector(word)
        except KeyError:
            if self.oov_strategy == 'zeros':
                return np.zeros(self.vector_size)
            elif self.oov_strategy == 'random':
                return np.random.normal(scale=0.1, size=self.vector_size)
            return None

In [30]:
# пайплайн для всех моделей
def train_model(embedder, params, X_train, y_train):
    pipeline = Pipeline([
        ('embedder', embedder),
        ('model', LogisticRegression(max_iter=1000))
    ])
    f1_scorer = make_scorer(f1_score, average='weighted')
    grid = GridSearchCV(
        pipeline,
        params,
        cv=4,
        n_jobs=-1,
        verbose=1,
        scoring=f1_scorer
    )
    grid.fit(X_train, y_train)
    return grid

In [31]:
# отдельный пайплайн для rusvec, тоже не использовался, но на всякий случай..можно было делать и так
def train_rusvec_model(model, params, X_train, y_train):
    pipeline = Pipeline([
        ('embedder', RusvecEmbedder(model)),
        ('model', LogisticRegression(max_iter=100))
    ])
    f1_scorer = make_scorer(f1_score, average='weighted')
    grid = GridSearchCV(
        pipeline,
        params,
        cv=4,
        n_jobs=-1,
        verbose=1,
        scoring=make_scorer(f1_score, average='weighted')
    )
    grid.fit(X_train, y_train)
    return grid

На всякий раз еще раз уточню, что отдельный класс и пайплайн для русвек модели не использовались т.к. есть второй сет признаков с пос-тегами. И т.к. сама модель русвек сохранена в формате gensim, используем класс custom (сделанный для word2vec модели gensim) для передачи эмбеддингов в модель.

In [32]:
base_params = {
    'embedder__aggregation': ['mean', 'sum'],
    'embedder__oov_strategy': ['zeros'],
    'model__C': [1]
    }

gensim_params = base_params.copy()
navec_params = base_params.copy()
rusvec_params = base_params.copy()

In [52]:
rusvec_params = {
    'embedder__aggregation': ['mean'],
    'embedder__oov_strategy': ['zeros'],
    'model__C': [1]
    }


# и чем именно русвек перегружает оперативную память..
# сделала отдельные параметры чтобы получить хоть какой-то результат на этих эмбеддингах

In [34]:
gensim_embedder = CustomEmbedder(model=model)
navec_embedder = NavecEmbedder(model=navec)
rusvec_embedder = CustomEmbedder(model=rusvec)

In [35]:
gensim_logreg = train_model(gensim_embedder, gensim_params, X_train, y_train)

Fitting 4 folds for each of 2 candidates, totalling 8 fits


In [36]:
navec_logreg = train_model(navec_embedder, navec_params, X_train, y_train)

Fitting 4 folds for each of 2 candidates, totalling 8 fits


In [55]:
rusvectors_logreg = train_model(rusvec_embedder, rusvec_params, X_train_pos, y_train)

Fitting 4 folds for each of 1 candidates, totalling 4 fits


In [56]:
models = {
    'Word2Vec Custom': gensim_logreg,
    'Navec': navec_logreg,
    'RusVectores': rusvectors_logreg
}

In [57]:
for name, model in models.items():
  y_pred = model.predict(X_val)
  print(f"--- {name} ---")
  print(classification_report(y_val, y_pred, target_names=le.classes_))
  print("\n")

--- Word2Vec Custom ---
                   precision    recall  f1-score   support

   69-я параллель       0.00      0.00      0.00         3
           Бизнес       0.00      0.00      0.00        19
      Бывший СССР       0.72      0.51      0.60       149
              Дом       0.86      0.62      0.72        52
           Другое       0.00      0.00      0.00         3
         Из жизни       0.62      0.46      0.53        76
   Интернет и СМИ       0.67      0.53      0.59       116
         Культура       0.83      0.87      0.85       139
              Мир       0.70      0.86      0.77       372
  Наука и техника       0.72      0.79      0.76       139
      Путешествия       0.80      0.22      0.35        18
           Россия       0.71      0.81      0.76       450
Силовые структуры       0.62      0.15      0.25        52
            Спорт       0.97      0.95      0.96       169
         Ценности       1.00      0.48      0.65        23
        Экономика       0.75   

In [58]:

best_model = max(models.values(), key=lambda x: x.best_score_)
print(best_model.best_params_)

{'embedder__aggregation': 'mean', 'embedder__oov_strategy': 'zeros', 'model__C': 1}


In [59]:
best_model

## Добавление весов TF-IDF для лучших эмбеддингов

Т.к. модель показала лучший результат именно с эмбеддингами Navec сделаем еще один класс основанный на NavecEmbedder и добавим туда аггрегацию эмбеддингов слов для всего текста с усреднением по весам TF-IDF.

И сравним как это будет влиять на качество модели по сравнению с простой аггрегацией по сумме/усреднению в базовом классе.

In [43]:
from sklearn.feature_extraction.text import TfidfVectorizer

class TfidfNavecEmbedder(NavecEmbedder):
    def __init__(self, model, oov_strategy='zeros', min_df=1, max_df=1.0):
        super().__init__(model=model, aggregation='mean', oov_strategy=oov_strategy)
        self.min_df = min_df
        self.max_df = max_df
        self.tfidf_vectorizer = TfidfVectorizer(
            min_df=min_df,
            max_df=max_df,
            tokenizer=lambda x: x,  # т.к. у нас уже все тексты разбиты на токены просто передаем списки
            preprocessor=lambda x: x,
            token_pattern=None
        )
        self.vocabulary_ = None
        self.idf = None
        self.word_to_tfidf_index = None

    def fit(self, X, y=None):
        self.tfidf_vectorizer.fit(X)
        self.vocabulary_ = self.tfidf_vectorizer.vocabulary_
        self.idf = self.tfidf_vectorizer.idf_
        self.word_to_tfidf_index = {word: idx for word, idx in self.vocabulary_.items()}

        return self

    def transform(self, X):
        tfidf_matrix = self.tfidf_vectorizer.transform(X)
        embeddings = []
        for i, doc in enumerate(X):
            doc_tfidf = tfidf_matrix[i].toarray().flatten()
            doc_embedding = np.zeros(self.vector_size)
            total_weight = 0
            for word in doc:
                vec = self._get_vector(word)
                if vec is None:
                    continue
                if word in self.word_to_tfidf_index:
                    idx = self.word_to_tfidf_index[word]
                    weight = doc_tfidf[idx]
                    doc_embedding += vec * weight
                    total_weight += weight

            if total_weight > 0:
                doc_embedding /= total_weight

            embeddings.append(doc_embedding)
        return np.array(embeddings)

In [48]:
tfidf_embedder = TfidfNavecEmbedder(model=navec)

tfidf_params = {
    'embedder__oov_strategy': ['zeros'],
    'embedder__min_df': [3, 5],
    'embedder__max_df': [0.9, 0.95, 0.99],
    'model__C': [1]
}


In [49]:
tfidf_grid = train_model(tfidf_embedder, tfidf_params, X_train, y_train)

Fitting 4 folds for each of 6 candidates, totalling 24 fits


In [50]:
best_model_nvtf = tfidf_grid.best_estimator_
best_params = tfidf_grid.best_params_
print("Best parameters:", best_params)

Best parameters: {'embedder__max_df': 0.9, 'embedder__min_df': 3, 'embedder__oov_strategy': 'zeros', 'model__C': 1}


In [51]:
y_pred = best_model_nvtf.predict(X_val)
print(f"Val F1 score navec and tf-idf: {f1_score(y_val, y_pred, average='weighted'):.4f}")

Val F1 score navec and tf-idf: 0.7119


Интересно, простое усреднение сработало лучше, чем усреднение с tf-idf весами..

## Финальная оценка моделей

In [60]:
y_pred_custom = gensim_logreg.predict(X_test)
y_pred_navec = navec_logreg.predict(X_test)
y_pred_rusvec = rusvectors_logreg.predict(X_test_pos)
y_pred_navectfidf = best_model_nvtf.predict(X_test)


In [61]:
print(f"Test F1 score w2v custom embeddings: {f1_score(y_test, y_pred_custom, average='weighted'):.4f}")
print(f"Test F1 score navec: {f1_score(y_test, y_pred_navec, average='weighted'):.4f}")
print(f"Test F1 score rusvec: {f1_score(y_val, y_pred, average='weighted'):.4f}")
print(f"Test F1 score navec and tf-idf weights: {f1_score(y_test, y_pred_navectfidf, average='weighted'):.4f}")

Test F1 score w2v custom embeddings: 0.7336
Test F1 score navec: 0.7500
Test F1 score rusvec: 0.0827
Test F1 score navec and tf-idf weights: 0.7296


В итоге лучше всех оказалась модель с navec с простым усреднением векторов для получения вектора текста. Если бы тексов было больше чем 10к то метрика явно была бы гораздо лучше, но пока что так как есть, в будущем надо попробовать прогнать эту тетрадку на чем-то более мощном и предсказуемом чем колаб.