# Импорты и переменные

In [8]:
!pip install corus
!pip install pymorphy3
!pip install gensim
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
!pip install navec
!wget https://storage.yandexcloud.net/natasha-navec/packs/navec_hudlit_v1_12B_500K_300d_100q.tar #модель navec
!wget https://vectors.nlpl.eu/repository/20/184.zip #модель rusvector

from sklearn.dummy import DummyClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import classification_report
from tqdm import tqdm
import pandas as pd
import numpy as np
import zipfile
import os
import re
import pymorphy3
import nltk
from nltk.corpus import stopwords
from corus import load_lenta

import gensim
from gensim.models import Word2Vec
from navec import Navec
from gensim.models import KeyedVectors

# Загружаем стоп-слова
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

# Загружаем данные
path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)

max_samples = 10000 # обрежем датасет до 100000 записей

--2025-03-14 19:44:50--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.116.4
Connecting to github.com (github.com)|140.82.116.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250314%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250314T194450Z&X-Amz-Expires=300&X-Amz-Signature=e770db4963db42070d938ba85476fa95459e9c45a485ba5281f1b13ce3f37c59&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2025-03-14 19:44:50--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Лемматизация и предобработка текста

In [9]:
morph = pymorphy3.MorphAnalyzer()

def preprocess_text(text):
    text = text.lower()  # Приводим к нижнему регистру
    text = re.sub(r'\d+', '', text)  # Убираем числа
    text = re.sub(r'[^а-яА-Яa-zA-Z\s]', '', text)  # Убираем знаки препинания
    words = text.split()  # Токенизация
    words = [morph.parse(word)[0].normal_form for word in words if word not in stop_words]  # Лемматизация
    return words #word2vecпринимает данные в виде списка предложений, где каждое предложение — это список слов

# Преобразуем записи в DataFrame
data = []
for record in tqdm(records, desc="Загрузка данных"):
    data.append({
        "title": record.title,
        "text": record.text,
        "topic": record.topic.strip()  # Убираем лишние пробелы
    })

df = pd.DataFrame(data)

# Фильтрация классов: удаляем те, где менее 100 объектов класса
class_counts = df['topic'].value_counts()
print(f"Число строк до фильтрации: {len(df)}")
print(df['topic'].value_counts())
valid_classes = class_counts[class_counts >= 100].index
df_filtered = df[df['topic'].isin(valid_classes)]
print()

# Ограничиваем размер выборки до 100000
if len(df_filtered) > max_samples:
    df_filtered = df_filtered.sample(n=max_samples, random_state=42)

# После выборки проверяем классы заново
class_counts_after = df_filtered['topic'].value_counts()
valid_classes_after = class_counts_after[class_counts_after >= 100].index
df_final = df_filtered[df_filtered['topic'].isin(valid_classes_after)]

# Если после фильтрации строк стало меньше 10,000 — дополняем их из самых популярных тем
if len(df_final) < max_samples:
    remaining_samples = max_samples - len(df_final)
    most_common_topic = df_filtered['topic'].value_counts().idxmax()
    additional_samples = df_filtered[df_filtered['topic'] == most_common_topic].sample(n=remaining_samples, random_state=42)
    df_final = pd.concat([df_final, additional_samples])

# Итоговый датасет
print(f"Число строк после финальной фильтрации: {len(df_final)}")
print(df_final['topic'].value_counts())

# Применяем предобработку текста
tqdm.pandas(desc="Предобработка текста")
df_final['processed_text'] = df_final['text'].progress_apply(preprocess_text)

Загрузка данных: 739351it [01:17, 9531.96it/s] 


Число строк до фильтрации: 739351
topic
Россия               160519
Мир                  136680
Экономика             79538
Спорт                 64421
Культура              53803
Бывший СССР           53402
Наука и техника       53136
Интернет и СМИ        44675
Из жизни              27611
Дом                   21734
Силовые структуры     19596
Ценности               7766
Бизнес                 7399
Путешествия            6408
69-я параллель         1268
Крым                    666
Культпросвет            340
                        203
Легпром                 114
Библиотека               65
Оружие                    3
ЧМ-2014                   2
МедНовости                1
Сочи                      1
Name: count, dtype: int64

Число строк после финальной фильтрации: 10000
topic
Россия               2407
Мир                  1802
Экономика            1045
Спорт                 873
Бывший СССР           748
Культура              729
Наука и техника       701
Интернет и СМИ        572
И

Предобработка текста: 100%|██████████| 10000/10000 [02:59<00:00, 55.82it/s]


# Подготовка выборок

In [10]:
X = df_final['processed_text']
y = df_final['topic']

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, stratify=y, random_state=222)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=222)

# Загрузка word2vec эмбеддингов

Обучение моделей и подбор гиперпараметров производится на 3 моделях:

* Word2Vec
* Navec
* Rusvectores

## Word2Vec

In [11]:
w2v_model = Word2Vec(sentences=X_train, vector_size=100, window=5, min_count=5, workers=4, sg=0)

In [12]:
words_in_vocab = list(w2v_model.wv.key_to_index.keys())
print(words_in_vocab[:10])  # Показываем только первые 10 слов


['год', 'который', 'россия', 'сообщать', 'также', 'человек', 'время', 'свой', 'заявить', 'процент']


In [13]:
# Оценка качества эмбеддингов
print("Пример слов, похожих на 'машина':", w2v_model.wv.most_similar('человек', topn=10))
print("Слово, которое не подходит к остальным: ", w2v_model.wv.doesnt_match(['автомобиль', 'транспорт', 'дерево', 'машина']))

Пример слов, похожих на 'машина': [('семья', 0.8197800517082214), ('сириец', 0.7667872309684753), ('усыновить', 0.709941565990448), ('ребёнок', 0.7098533511161804), ('проживать', 0.686340868473053), ('виновныхв', 0.6855184435844421), ('ранение', 0.6844428777694702), ('пассажир', 0.6753224730491638), ('военнослужащий', 0.6736987829208374), ('родственник', 0.6706948280334473)]
Слово, которое не подходит к остальным:  транспорт


## Navec

In [15]:
path = 'navec_hudlit_v1_12B_500K_300d_100q.tar'
navec_model = Navec.load(path)

word = 'россия'
vector = navec_model[word]  # Получаем вектор для слова 'россия'
print(f"Вектор для слова '{word}':", vector)

Вектор для слова 'россия': [ 0.22543699 -0.39721358  0.6805563   0.21706595 -0.19716908 -0.20722607
 -0.07350219  0.13129961 -0.17141329  0.09088685  0.21599719 -0.09282316
  0.00766279 -0.11043157 -0.07346303  0.42286018 -0.26629096  0.31371886
 -0.08937341  0.09485467 -0.04480258 -0.44643393 -0.3061798  -0.2882515
  0.5377174   0.36234093  0.0030303   0.23453966 -0.28672412 -0.20668298
 -0.19193137  0.04902396  0.8125157   0.5318507  -0.6188356  -0.04572238
 -0.02173791 -0.66719943 -0.7230108  -0.2762196  -0.23562106  0.5413357
 -0.05294172  0.6201654  -0.8374897  -0.36382714  0.4649254  -0.13510832
  0.09727751 -0.10602053  0.37899598 -0.36541265 -0.20060915  0.10681065
 -0.5519943  -0.13753682 -0.01502502  0.09474958 -0.05980838 -0.02857767
 -0.55855787 -0.04823827 -0.3578416   0.88438463  0.32023084 -0.25467572
  0.22748815 -0.6873215  -0.04857488 -0.7444249  -0.41156083  0.19128552
  0.07123397 -0.14737812 -0.39385885 -0.24628565  0.5453377  -0.05320076
  0.06201499 -0.04103868 -

## Rusvectors

In [16]:
# Распаковываем архив
zip_path = '184.zip'
output_dir = '/content/models/'  # Папка для распаковки

# Распаковываем архив
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(output_dir)

# Проверяем, что было распаковано
print("Файлы в распакованном архиве:", os.listdir(output_dir))

Файлы в распакованном архиве: ['model.bin', 'news_upos_cbow_600_2_2018.vec', 'README', 'model.hdf5', 'vocab.txt', 'meta.json', 'options.json', 'model.txt']


In [17]:
# Путь к распакованной модели (предположим, что это файл .vec)
model_path = os.path.join(output_dir, 'model.txt')

# Загрузка модели (для текстового формата используем binary=False)
rusvectores_model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)


In [18]:
# Пример использования модели
word = 'машина_NOUN'
vector = rusvectores_model[word]  # Получаем вектор для слова
print(f"Вектор для слова '{word}':", vector)

# Пример поиска похожих слов
similar_words = rusvectores_model.most_similar(word, topn=10)
print(f"Похожие слова для '{word}':", similar_words)

Вектор для слова 'машина_NOUN': [-6.16980083e-02  1.38541609e-01  1.00030132e-01  2.34297980e-02
  1.11793719e-01  2.28444517e-01 -2.10410625e-01  1.63041517e-01
  1.77408546e-01 -4.21602756e-01 -2.47368976e-01 -2.04373840e-02
 -4.40045178e-01 -1.93381414e-01 -4.40929830e-03  5.53002581e-02
 -2.66674191e-01  6.14620447e-02 -6.63286895e-02  2.14453697e-01
  2.31444240e-01 -6.41284958e-02  4.39997405e-01  2.50135422e-01
 -7.03658089e-02 -2.60625500e-02 -8.10098723e-02 -3.93783003e-02
 -1.80126771e-01  2.61675864e-01 -2.92723119e-01 -1.32760048e-01
 -9.94674563e-02 -4.11767215e-02  1.28507882e-01  1.84862703e-01
 -1.20293371e-01 -7.81306326e-02  1.52414709e-01 -3.34452301e-01
 -1.90250993e-01 -1.96084231e-01  5.41896112e-02  2.50238508e-01
  1.76131621e-01  3.68228436e-01 -9.92657244e-02 -1.66030508e-02
  1.06333375e-01  4.77112792e-02 -5.73637962e-01  1.14929825e-01
  4.82819676e-02 -2.55000800e-01 -2.35229015e-01 -6.26579374e-02
  6.29792316e-03 -5.20189367e-02  1.06577158e-01 -3.626882

# Векторизация текстов с использованием w2v, navec и rusvectores

In [19]:
import numpy as np

def get_w2v_embedding_word2vec(text, model, vector_size=100):
    '''Функция векторизации текста с использованием модели Word2Vec'''
    embeddings = []
    for word in text:
        if word in model.wv:  # Для Word2Vec используем model.wv
            embeddings.append(model.wv[word])  # Получаем вектор
    if embeddings:
        return np.mean(embeddings, axis=0)  # Усредняем вектора
    else:
        return np.zeros(vector_size)  # Если нет векторов, возвращаем нулевой вектор


In [20]:
import numpy as np

def get_w2v_embedding_navec(text, model, vector_size=300):
    '''Функция векторизации текста с использованием модели Navec'''
    embeddings = []

    for word in text:
        if word in model:  # Для Navec используем прямой доступ через модель
            embeddings.append(model[word])  # Получаем вектор для слова

    # Если есть вектора, усредняем их
    if embeddings:
        embeddings = np.array(embeddings)

        # Проверяем, что все вектора имеют нужную размерность
        if embeddings.shape[1] != vector_size:
            embeddings = np.resize(embeddings, (embeddings.shape[0], vector_size))  # Подгоняем размерность вектора

        # Усредняем вектора
        return np.mean(embeddings, axis=0)  # Усредняем вектора
    else:
        return np.zeros(vector_size)  # Если нет векторов, возвращаем нулевой вектор



In [21]:
def get_w2v_embedding_rusvectores(text, model, vector_size=100):
    '''Функция векторизации текста с использованием модели RusVectores'''
    embeddings = []
    for word in text:
        if word in model:  # Для RusVectores используем прямой доступ через модель
            embeddings.append(model[word])  # Получаем вектор для слова
    if embeddings:
        return np.mean(embeddings, axis=0)  # Усредняем вектора
    else:
        return np.zeros(vector_size)  # Если нет векторов, возвращаем нулевой вектор


In [22]:
# Применение функции для векторизации (для всех трех моделей)
X_train_w2v = np.array([get_w2v_embedding_word2vec(text, w2v_model) for text in X_train])
X_val_w2v = np.array([get_w2v_embedding_word2vec(text, w2v_model) for text in X_val])
X_test_w2v = np.array([get_w2v_embedding_word2vec(text, w2v_model) for text in X_test])

X_train_navec = np.array([get_w2v_embedding_navec(text, navec_model) for text in X_train])
X_val_navec = np.array([get_w2v_embedding_navec(text, navec_model) for text in X_val])
X_test_navec = np.array([get_w2v_embedding_navec(text, navec_model) for text in X_test])

X_train_rusvectores = np.array([get_w2v_embedding_rusvectores(text, rusvectores_model) for text in X_train])
X_val_rusvectores = np.array([get_w2v_embedding_rusvectores(text, rusvectores_model) for text in X_val])
X_test_rusvectores = np.array([get_w2v_embedding_rusvectores(text, rusvectores_model) for text in X_test])


## Logistic Regression с эмбеддингами

In [23]:
# Логистическая регрессия
lr = LogisticRegression(max_iter=300, random_state=222)

In [24]:
# Обучение модели для word2vec
lr.fit(X_train_w2v, y_train)
y_pred_w2v = lr.predict(X_val_w2v)
print("Результаты для модели с word2vec:")
print(classification_report(y_val, y_pred_w2v))

Результаты для модели с word2vec:
                   precision    recall  f1-score   support

      Бывший СССР       0.54      0.20      0.29       150
              Дом       0.77      0.62      0.69        66
         Из жизни       0.36      0.20      0.25        66
   Интернет и СМИ       0.48      0.35      0.40       114
         Культура       0.56      0.63      0.60       145
              Мир       0.62      0.76      0.69       361
  Наука и техника       0.58      0.63      0.60       140
      Путешествия       0.00      0.00      0.00        20
           Россия       0.62      0.79      0.69       481
Силовые структуры       0.00      0.00      0.00        51
            Спорт       0.92      0.91      0.92       175
         Ценности       1.00      0.09      0.17        22
        Экономика       0.76      0.81      0.79       209

         accuracy                           0.65      2000
        macro avg       0.56      0.46      0.47      2000
     weighted avg   

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [25]:
# Обучение модели для navec
lr.fit(X_train_navec, y_train)
y_pred_navec = lr.predict(X_val_navec)
print("Результаты для модели с navec:")
print(classification_report(y_val, y_pred_navec))

Результаты для модели с navec:
                   precision    recall  f1-score   support

      Бывший СССР       0.74      0.61      0.67       150
              Дом       0.85      0.71      0.78        66
         Из жизни       0.46      0.44      0.45        66
   Интернет и СМИ       0.68      0.62      0.65       114
         Культура       0.83      0.81      0.82       145
              Мир       0.72      0.78      0.75       361
  Наука и техника       0.74      0.71      0.73       140
      Путешествия       0.82      0.45      0.58        20
           Россия       0.70      0.80      0.74       481
Силовые структуры       0.38      0.10      0.16        51
            Спорт       0.96      0.94      0.95       175
         Ценности       0.76      0.59      0.67        22
        Экономика       0.78      0.84      0.81       209

         accuracy                           0.74      2000
        macro avg       0.73      0.65      0.67      2000
     weighted avg      

In [26]:
# Обучение модели для rusvectores
lr.fit(X_train_rusvectores, y_train)
y_pred_rusvectores = lr.predict(X_val_rusvectores)
print("Результаты для модели с rusvectores:")
print(classification_report(y_val, y_pred_rusvectores))

Результаты для модели с rusvectores:
                   precision    recall  f1-score   support

      Бывший СССР       0.00      0.00      0.00       150
              Дом       0.00      0.00      0.00        66
         Из жизни       0.00      0.00      0.00        66
   Интернет и СМИ       0.00      0.00      0.00       114
         Культура       0.00      0.00      0.00       145
              Мир       0.00      0.00      0.00       361
  Наука и техника       0.00      0.00      0.00       140
      Путешествия       0.00      0.00      0.00        20
           Россия       0.24      1.00      0.39       481
Силовые структуры       0.00      0.00      0.00        51
            Спорт       0.00      0.00      0.00       175
         Ценности       0.00      0.00      0.00        22
        Экономика       0.00      0.00      0.00       209

         accuracy                           0.24      2000
        macro avg       0.02      0.08      0.03      2000
     weighted avg

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


# Logistic Regression + Navec + с TfidfVectorizer

Для того чтобы улучшить качество модели, мы можем использовать взвешенные эмбеддинги. Это означает, что вместо того, чтобы просто усреднять все вектора слов в тексте, мы будем учитывать важность каждого слова с помощью веса tf-idf.

In [27]:
# Преобразуем каждый список слов в строку
X_train_str = [' '.join(text) for text in X_train]
X_val_str = [' '.join(text) for text in X_val]
X_test_str = [' '.join(text) for text in X_test]

# Теперь применим TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=10000, stop_words=list(stop_words))

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train_str)
X_val_tfidf = tfidf_vectorizer.transform(X_val_str)
X_test_tfidf = tfidf_vectorizer.transform(X_test_str)

# Получаем словарь слов и их индексов
tfidf_vocab = tfidf_vectorizer.get_feature_names_out()


In [31]:
def get_w2v_embedding_navec_tfidf(text, model, tfidf_matrix, tfidf_vocab, vector_size=300):
    '''Функция векторизации текста с использованием модели Navec и tf-idf весов'''
    embeddings = []

    for word in text:
        if word in model:  # Для Navec используем прямой доступ через модель
            word_index = tfidf_vocab.tolist().index(word) if word in tfidf_vocab else -1

            if word_index != -1:
                tfidf_weight = tfidf_matrix[0, word_index]  # Получаем вес слова из tf-idf
                embeddings.append(model[word] * tfidf_weight)  # Взвешиваем вектор

    # Усредняем вектора
    if embeddings:
        embeddings = np.array(embeddings)

        # Проверяем, что все вектора имеют нужную размерность
        if embeddings.shape[1] != vector_size:
            embeddings = np.resize(embeddings, (embeddings.shape[0], vector_size))  # Подгоняем размерность вектора

        # Усредняем взвешенные вектора
        return np.mean(embeddings, axis=0)
    else:
        return np.zeros(vector_size)  # Если нет векторов, возвращаем нулевой вектор

In [32]:
def get_w2v_embedding_navec_tfidf(text, model, tfidf_matrix, tfidf_vocab, vector_size=300):
    '''Функция векторизации текста с использованием модели Navec и tf-idf весов'''
    embeddings = []

    for word in text:
        if word in model:  # Для Navec используем прямой доступ через модель
            word_index = tfidf_vocab.tolist().index(word) if word in tfidf_vocab else -1

            if word_index != -1:
                tfidf_weight = tfidf_matrix[0, word_index]  # Получаем вес слова из tf-idf
                embeddings.append(model[word] * tfidf_weight)  # Взвешиваем вектор

    # Усредняем вектора
    if embeddings:
        embeddings = np.array(embeddings)

        # Проверяем, что все вектора имеют нужную размерность
        if embeddings.shape[1] != vector_size:
            embeddings = np.resize(embeddings, (embeddings.shape[0], vector_size))  # Подгоняем размерность вектора

        # Усредняем взвешенные вектора
        return np.mean(embeddings, axis=0)
    else:
        return np.zeros(vector_size)  # Если нет векторов, возвращаем нулевой вектор

In [None]:
# Применение взвешенной функции для векторизации
# Преобразуем тексты в tf-idf матрицы
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train_str)
X_val_tfidf = tfidf_vectorizer.transform(X_val_str)
X_test_tfidf = tfidf_vectorizer.transform(X_test_str)

# Получаем словарь слов и их индексов
tfidf_vocab = tfidf_vectorizer.get_feature_names_out()

# Векторизация для Navec с tf-idf
X_train_navec_tfidf = np.array([get_w2v_embedding_navec_tfidf(text, navec_model, X_train_tfidf, tfidf_vocab) for text in X_train])
X_val_navec_tfidf = np.array([get_w2v_embedding_navec_tfidf(text, navec_model, X_val_tfidf, tfidf_vocab) for text in X_val])
X_test_navec_tfidf = np.array([get_w2v_embedding_navec_tfidf(text, navec_model, X_test_tfidf, tfidf_vocab) for text in X_test])

In [None]:
def train_and_evaluate(X_train, X_val, y_train, y_val):
    model = LogisticRegression(max_iter=1000, random_state=42)
    model.fit(X_train, y_train)  # Обучаем модель
    y_pred_val = model.predict(X_val)  # Прогноз на валидационной выборке
    return classification_report(y_val, y_pred_val)

# Обучение и оценка для Navec с tf-idf
print("Logistic Regression с Navec + tf-idf:")
report_navec_tfidf = train_and_evaluate(X_train_navec_tfidf, X_val_navec_tfidf, y_train, y_val)
print(report_navec_tfidf)

# Выводы

# Вывод

* Произведена подготовка датасета, включающая в себя очистку, лемматизацию, привдение к единообразию, токенизацию на список слов
* Корпус текстов собран в датасет. Датасет разделен на тренеровочную, валидационную и тестовую выборки. Выборки созданы с учетом стратификации, редкие темы (меньше 65 объектов) отсеяны.
* Обучены word2vec-эмбеддинги с помощью библиотеки gensim: word2vec, предобученная модель Navec, предобученная модель Rusvectors. Лучший результат на валидационной выборке с accuracy 0.74 показала модель Navec.
* Для моделей произведено обучение и валидирование результатов
* Выполнена доработка качества модели, взяв для ее обучения  набор эмбеддингов NAVEC, используя его с взвешиванием через tf-idf. После улучшения модель логистической регрессии показала результат ___________ (не успел досчитать)
