## OTUS, Курс NLP
## ДЗ №03: Тематическое моделирование
### Выполнил: Кирилл Н., ibnkir@yandex.ru, 09.04.2024 г.
***

__Задание:__

В качестве данных возьмите либо датасет, собранный на первом занятии (предпочтительно), либо скачайте данные с 
отзывами на фильмы с сайта [IMDB](https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews), 
в которых для каждого отзыва поставлена семантическая оценка - "позитивный" или "негативный".
    
1. Разбейте собранные данные на train/test, отложив 20-30% наблюдений для тестирования.
2. Примените tf-idf преобразование для текстового описания. Используйте как отдельные токены, так и биграммы, отсейте стоп-слова, а также слова, которые встречаются слишком редко или слишком часто (параметры min/max_df), не забудьте убрать l2 регуляризацию, которая по умолчанию включена.
3. Обучите random forest или градиентный бустинг (LightGBM или catboost) на полученных векторах и подберите оптимальную комбинацию гиперпараметров с помощью GridSearch
4. Теперь воспользуйтесь предобученными word2vec/fasttext эмбеддингами для векторизации текста. Векторизуйте тексты с помощью метода word2vec/fasttext c весами tf-idf
Совет: для текстов на русском языке можно взять предобученные эмбеддинги с сайта rusvectores https://rusvectores.org/ru/models/ (вам подходят эмбеддинги с параметром тэгсет НЕТ). Для английского языка можете воспользоваться word2vec, обученными на Google News
5. Повторите эксперимент из пункта 3 с использованием полученных в пункте 4 векторов.

In [1]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report, accuracy_score, f1_score
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier

import gensim
import gensim.downloader

from collections import defaultdict
from tqdm import tqdm

import warnings
warnings.filterwarnings("ignore")

import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

#### Получение исходных данных

Загружаем данные из ДЗ №1 (новости на Хабре)

In [2]:
data = pd.read_excel('habr_news_dataset_20240218.xlsx', usecols=['idx', 'body', 'categs'], index_col=0)
print(len(data))
data.sample(5)

20000


Unnamed: 0_level_0,body,categs
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
16296,Apple выпустила macOS Ventura и iPadOS 16.1. Вместе с ними стали доступны минорные обновления всех остальных операционных систем компании.,Разработка под iOS;Разработка под macOS;Планшеты;Ноутбуки
9489,"МТС и VK до конца года вдвое увеличат мощности и возможности своих сетей доставки контента (CDN), чтобы ускорить загрузку контента стриминговых сервисов для российских пользователей.",IT-инфраструктура;Сетевые технологии;Облачные сервисы;IT-компании
17220,28 сентября 2022 года Роскомнадзор потребовал от Apple объяснить удаление всех мобильных приложений российской компании VK из магазина App Store.,Разработка под iOS;Законодательство в IT;Социальные сети и сообщества;IT-компании
4697,"Вопреки слухам, Apple не стала ограничивать скорость USB-C на iPhone 15, порт совместим с любыми зарядными устройствами и кабелями с поддержкой USB 3 и USB Power Delivery, включая кабели сторонних производителей.",Гаджеты;Смартфоны;Энергия и элементы питания
12431,"Apple в полном объёме исполнила предписание Федеральной антимонопольной службы, выданное в 2020 году после расследования, проведённого по жалобе «Лаборатории Касперского».",Законодательство в IT;IT-компании


Каждой статье соответствует несколько категорий, возьмем самые первые из них

In [3]:
data['categs'] = data['categs'].apply(lambda x: x.split(';')[0])
data.sample(5)

Unnamed: 0_level_0,body,categs
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
6763,Tesla подаёт в суд на компанию по производству суперконденсаторов в Австралии за нарушение патентных прав. При этом автопроизводитель ранее обещал открыть все свои патенты.,Законодательство в IT
14260,"14 декабря 2022 года ретейлер DNS начал продавать карты оплаты для польского PS Store (номиналом от 50 до 200 злотых) с инструкцией, как завести польский аккаунт PS Store.",Монетизация игр
18380,"В магазинах американской сети Walmart и на AliExpress обнаружили модели внешних SSD объёмом на 1 ГБ, продающиеся как 30 ТБ. Их стоимость составляет всего $31-39, что очень насторожило некоторых пользователей Сети. Один из них (Ray Redacted) купил SSD на AliExpress и разобрал, чтобы понять, почему устройства так дёшево стоят. Оказалось, что фактический объём накопителей во много раз меньше заявленного, а из-за смены прошивки компьютер опознаёт их с неверным объёмом.",Накопители
7453,"Virgin Galactic представила членов экипажа, которые 29 июня отправятся на борт миссии «Galactic 01» в рамках первого полностью коммерческого пилотируемого космического полёта компании. В состав команды войдут Колин Беннетт, ведущий астронавт-инструктор Virgin Galactic, Уолтер Вилладеи и Анджело Ландольфи — два старших офицера итальянских ВВС, а также Панталеоне Карлуччи, пилот и технический инженер из Национального исследовательского совета Италии.",Космонавтика
16365,"С 21 ноября 2022 года стоимость семейного тарифного плана видеосервиса YouTube Premium увеличится с $17,99 до $22,99 в месяц. Данный тип подписки открывает доступ к дополнительным функциям шести учётных записей за фиксированную плату.",Облачные сервисы


Посмотрим самые популярные категории

In [4]:
all_categs = data['categs'].value_counts()
print(all_categs)

categs
Информационная безопасность      1944
Научно-популярное                1891
Законодательство в IT             812
Гаджеты                           770
IT-инфраструктура                 636
                                 ... 
VIM                                 1
Блог компании Журнал Хакер          1
Блог компании Mindbox               1
Microsoft SQL Server                1
Блог компании РН-БашНИПИнефть       1
Name: count, Length: 432, dtype: int64


Оставим статьи, относящиеся к 5 самым большим категориям

In [5]:
selected_categs = all_categs.index[:5]
print(selected_categs)

Index(['Информационная безопасность', 'Научно-популярное',
       'Законодательство в IT', 'Гаджеты', 'IT-инфраструктура'],
      dtype='object', name='categs')


In [6]:
data = data[data['categs'].isin(selected_categs)].reset_index(drop=True)
print(len(data))
data.head(5)

6053


Unnamed: 0,body,categs
0,"Пользователь Reddit под ником VegetableLuck обнаружила и поделилась зловредом для ПК, спрятанным в электронике контролера зарядного блока гаджета для взрослых. Код малвари начали изучать эксперты.",Информационная безопасность
1,Wyze Labs расследует проблему безопасности во время сбоя в обслуживании своей системы умных камер. Некоторые клиенты смогли получить доступ с камер других пользователей во вкладке «События» в приложении.,Информационная безопасность
2,"Google тестирует новую функцию, предотвращающую атаки с помощью вредоносных общедоступных веб-сайтов через браузер пользователей в частных сетях. Она позволит защитить принтеры, маршрутизаторы и иные устройства, не подключённые к Интернету напрямую.",Информационная безопасность
3,"Исследователи Group-IB обнаружили троян GoldPickaxe, который похищает биометрические данные пользователей iPhone. Отмечается, что злоумышленники используют их для создания дипфейков.",Информационная безопасность
4,"НАСА открыло набор кандидатов для участия в миссии, целью которой является моделирование жизни на Марсе в течение года. Проект под названием CHAPEA станет вторым из серии трёх наземных миссий. Он стартует весной 2025 года.",Научно-популярное


#### Предобработка текстовых данных

Воспользуемся моделью [ru_core_news_md](https://spacy.io/models/ru) из библиотеки spacy, чтобы получить леммы с тегами, т.к. далее мы будем использовать word2vec-модель с тегами Universal Tags (анализатор из библиотеки pymorphy не подходит, т.к. он генерирует теги из другого набора - OpenCorpora)

In [None]:
#!pip install -U spacy>=3.0

In [None]:
#!python -m spacy download ru_core_news_md

In [7]:
import spacy

nlp = spacy.load('ru_core_news_md')

2024-04-09 21:21:04,120 : INFO : Loading dictionaries from C:\Users\Kirill_Nosov\anaconda3\Lib\site-packages\pymorphy3_dicts_ru\data
2024-04-09 21:21:04,185 : INFO : format: 2.4, revision: 417150, updated: 2022-01-08T22:09:24.565962


Проводим предобработку новостей из колонки 'body', оставляя только слова, относящиеся к значащим частям речи и не входящим в стоп-лист. Результаты сохраняем в новой колонке 'preproc_body'

In [8]:
from spacy.lang.ru import stop_words

stop_words = stop_words.STOP_WORDS
selected_pos = {'NOUN', 'VERB', 'ADV', 'ADJ', 'PROPN'}

preproc_body = []
for doc in tqdm(nlp.pipe(data['body']), total=len(data)):
    preproc_body.append(
        ' '.join([
            f"{token.lemma_.lower().strip()}_{token.pos_}" \
            for token in doc \
            if token.pos_ in selected_pos and not (token.is_space or token.is_stop or token.is_punct or token.like_num)
        ])
    )
    
data['preproc_body'] = preproc_body

100%|██████████████████████████████████████████████████████████████████████████████| 6053/6053 [02:13<00:00, 45.49it/s]


In [9]:
data.sample(3)

Unnamed: 0,body,categs,preproc_body
614,"30 ноября 2023 года компания Zyxel предупредила о шести уязвимостях, включая три критические (высокого уровня опасности), которые обнаружили специалисты по ИБ во встроенном ПО для популярных сетевых хранилищ NAS326 (версия прошивки 5.21(AAZF.14)C0 и более ранняя) и NAS542 (версия прошивки 5.21(ABAG.11)C0 и более ранняя).",Информационная безопасность,ноябрь_NOUN год_NOUN компания_NOUN zyxel_PROPN предупредить_VERB уязвимость_NOUN критический_ADJ высокий_ADJ уровень_NOUN опасность_NOUN обнаружить_VERB специалист_NOUN иб_PROPN встроенном_ADJ популярный_ADJ сетевой_ADJ хранилище_NOUN nas326_PROPN версия_NOUN прошивка_NOUN ранний_ADJ nas542_PROPN версия_NOUN прошивка_NOUN ранний_ADJ
2902,"Согласно последним исследованиям, Nematostella vectensis (литоральные роющие актинии из семейства Edwardsiidae) способны к удивительно сложному обучению, о чем свидетельствует их способность запоминать связь между светом и электрическими импульсами.\n_x000D_\n«Это именно то, что называется ассоциативным обучением, — говорит старший автор работы, нейробиолог из Фрибургского университета Саймон Шпрехер. — Доказательство того, что даже животные без мозга способны демонстрировать сложное поведение благодаря только лишь своей нервной системе».\n_x000D_\nЖивотные с мозгом могут связать стимул с реакцией и изменить своё поведение, основываясь на том, что они узнали и запомнили. Например, если вам не повезло узнать, что прикосновение к горячей плите причиняет боль, вы измените своё поведение, ...",Научно-популярное,последний_ADJ исследование_NOUN литоральный_ADJ рыть_VERB актиния_NOUN семейство_NOUN edwardsiidae_PROPN способный_ADJ удивительно_ADV сложный_ADJ обучение_NOUN свидетельствовать_VERB способность_NOUN запоминать_VERB связь_NOUN свет_NOUN электрический_ADJ импульсами_NOUN называться_VERB ассоциативный_ADJ обучение_NOUN говорить_VERB старший_ADJ автор_NOUN работа_NOUN нейробиолог_NOUN фрибургского_ADJ университет_NOUN саймон_PROPN шпрехер_PROPN доказательство_NOUN животное_NOUN мозг_NOUN способный_ADJ демонстрировать_VERB сложный_ADJ поведение_NOUN нервный_ADJ система_NOUN животное_NOUN мозг_NOUN связать_VERB стимул_NOUN реакция_NOUN изменить_VERB поведение_NOUN основываться_VERB узнать_VERB запомнить_VERB повезти_VERB узнать_VERB прикосновение_NOUN горячий_ADJ плита_NOUN причинять_VERB ...
1562,"В Сбербанке предупредили, что мошенники часто создают фальшивые сети Wi-Fi и взламывают уже действующие публичные точки доступа, чтобы получать персональные данные россиян для кражи денег со счетов.",Информационная безопасность,сбербанк_PROPN предупредить_VERB мошенник_NOUN создавать_VERB фальшивый_ADJ сеть_NOUN wi_NOUN fi_PROPN взламывать_VERB действовать_VERB публичный_ADJ точка_NOUN доступ_NOUN получать_VERB персональный_ADJ россиянин_NOUN кража_NOUN деньга_NOUN счёт_NOUN


In [10]:
# Сохраняем датасет в excel-файл
data.to_excel('habr_news_dataset_20240218_preproc.xlsx', index_label='idx')

Закодируем целевую переменную

In [11]:
label_encoder = LabelEncoder()
data['categs_encoded'] = label_encoder.fit_transform(data['categs'])

Разбиваем выборку на train и test

In [12]:
X_train, X_test, y_train, y_test = train_test_split(data['preproc_body'], 
                                                    data['categs_encoded'], 
                                                    test_size=0.2, 
                                                    random_state=42,
                                                    stratify=data['categs_encoded'])

#### Векторизация без использования предобученной модели

Строим BoW на основе tf-idf

In [13]:
tfidf_vectorizer = TfidfVectorizer(
    analyzer='word',
    norm=None,
    ngram_range=(1, 2),
    min_df=20,
    max_df=0.8,
    lowercase=False
)

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

Размер словаря векторайзера:

In [52]:
len(tfidf_vectorizer.vocabulary_)

1560

Сетка параметров и кросс-валидатор:

In [14]:
param_grid = {
    'n_estimators': [50, 100, 200, 300, 500], 
    'max_depth': [5, 8, 10, 15, 20]
}

cv = KFold(n_splits=5, shuffle=True, random_state=42)

Ищем наилучшие гиперпараметры классификатора

In [38]:
rfc_1 = RandomForestClassifier(random_state=42)
gs_1 = GridSearchCV(rfc_1, param_grid, cv=cv, n_jobs=-1)

print('Идет поиск наилучших гиперпараметров классификатора...')
%time gs_1.fit(X_train_tfidf, y_train)
print('Поиск завершен.')

Идет поиск наилучших гиперпараметров классификатора...
CPU times: total: 5.61 s
Wall time: 49.8 s
Поиск завершен.


Найденные параметры

In [41]:
print(f"Best n_estimators = {gs_1.best_params_['n_estimators']}")
print(f"Best max_depth = {gs_1.best_params_['max_depth']}")

Best n_estimators = 500
Best max_depth = 20


Обучаем классификатор с наилучшими гиперпараметрами

In [42]:
best_rfc_1 = gs_1.best_estimator_ 
y_pred = best_rfc_1.predict(X_test_tfidf)

print('Accuracy: ', accuracy_score(y_test, y_pred))
print('F1: ', f1_score(y_test, y_pred, average = 'macro'))
print(classification_report(y_test, y_pred))

Accuracy:  0.7167630057803468
F1:  0.5613877864549826
              precision    recall  f1-score   support

           0       1.00      0.05      0.09       127
           1       0.80      0.64      0.71       154
           2       0.80      0.23      0.35       163
           3       0.56      0.95      0.71       389
           4       0.94      0.94      0.94       378

    accuracy                           0.72      1211
   macro avg       0.82      0.56      0.56      1211
weighted avg       0.79      0.72      0.67      1211



#### Векторизация с использованием предобученной модели word2vec

Посмотрим, какие модели доступны для скачивания через API gensim

In [23]:
print(list(gensim.downloader.info()['models'].keys()))

['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']


Загружаем "word2vec-ruscorpora-300"

In [24]:
wv = gensim.downloader.load('word2vec-ruscorpora-300')

2024-04-09 21:32:18,335 : INFO : loading projection weights from C:\Users\Kirill_Nosov/gensim-data\word2vec-ruscorpora-300\word2vec-ruscorpora-300.gz
2024-04-09 21:32:21,528 : INFO : KeyedVectors lifecycle event {'msg': 'loaded (184973, 300) matrix of type float32 from C:\\Users\\Kirill_Nosov/gensim-data\\word2vec-ruscorpora-300\\word2vec-ruscorpora-300.gz', 'binary': True, 'encoding': 'utf8', 'datetime': '2024-04-09T21:32:21.528550', 'gensim': '4.3.0', 'python': '3.11.7 | packaged by Anaconda, Inc. | (main, Dec 15 2023, 18:05:47) [MSC v.1916 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.19045-SP0', 'event': 'load_word2vec_format'}


Посмотрим на загруженную модель

In [25]:
# Общее количество слов
len(wv)

184973

In [26]:
# Первые 10 слов в словаре
wv.index_to_key[:10]

['весь_DET',
 'человек_NOUN',
 'мочь_VERB',
 'год_NOUN',
 'сказать_VERB',
 'время_NOUN',
 'говорить_VERB',
 'становиться_VERB',
 'знать_VERB',
 'самый_DET']

In [27]:
# Оценим, например, семантическую близость для произвольного слова
wv.most_similar(positive='говорить_VERB', topn=10)

[('сказать_VERB', 0.7460559606552124),
 ('заговаривать_VERB', 0.6289093494415283),
 ('разговаривать_VERB', 0.6109618544578552),
 ('думать_VERB', 0.5952857136726379),
 ('толковать_VERB', 0.5946201086044312),
 ('рассуждать_VERB', 0.5899632573127747),
 ('рассказывать_VERB', 0.5743502974510193),
 ('отвечать_VERB', 0.5691350698471069),
 ('возражать_VERB', 0.5670305490493774),
 ('уверять_VERB', 0.5664991736412048)]

Cоздаем свой словарь, в котором каждому слову будет соответствовать предобученный вектор

In [28]:
word2vec = dict(zip(wv.index_to_key, wv.vectors))

Создаем класс для расчета средневзвешенных эмбедингов предобученной модели с весами idf, при этом используем ранее обученный tfidf_vectorizer

In [43]:
class TfidfEmbeddingVectorizer(object):
    def __init__(self, word2vec, tfidf_vectorizer):
        self.word2vec = word2vec
        self.word2weight = None
        self.dim = len(word2vec.popitem()[1])
        self.tfidf = tfidf_vectorizer

    def fit(self, X, y=None):
        max_idf = max(self.tfidf.idf_)
        self.word2weight = defaultdict(lambda: max_idf, [(w, self.tfidf.idf_[i]) for w, i in self.tfidf.vocabulary_.items()])
        return self

    def transform(self, X):
        return np.array([
            np.mean(
                [self.word2vec[w] * self.word2weight[w] for w in doc.split() if w in self.word2vec] \
                or [np.zeros(self.dim)], 
                axis=0
            ) for doc in X
        ])

In [44]:
tfidf_emb_vectorizer = TfidfEmbeddingVectorizer(word2vec, tfidf_vectorizer) 

tfidf_emb_vectorizer.fit(X_train)
X_train_emb = tfidf_emb_vectorizer.transform(X_train)
X_test_emb = tfidf_emb_vectorizer.transform(X_test)

In [45]:
rfc_2 = RandomForestClassifier(random_state=42)
gs_2 = GridSearchCV(rfc_2, param_grid, cv=cv, n_jobs=-1)

print('Идет поиск наилучших гиперпараметров классификатора...')
%time gs_2.fit(X_train_emb, y_train)
print('Поиск завершен.')

Идет поиск наилучших гиперпараметров классификатора...
CPU times: total: 55.3 s
Wall time: 10min 35s
Поиск завершен.


In [47]:
print(f"Best n_estimators = {gs_2.best_params_['n_estimators']}")
print(f"Best max_depth = {gs_2.best_params_['max_depth']}")

Best n_estimators = 500
Best max_depth = 20


In [48]:
best_rfc_2 = gs_2.best_estimator_
y_pred = best_rfc_2.predict(X_test_emb)

print('Accuracy: ', accuracy_score(y_test, y_pred))
print('F1: ', f1_score(y_test, y_pred, average = 'macro'))
print(classification_report(y_test, y_pred))

Accuracy:  0.7415359207266722
F1:  0.6337950678377972
              precision    recall  f1-score   support

           0       0.87      0.16      0.27       127
           1       0.85      0.63      0.72       154
           2       0.65      0.44      0.52       163
           3       0.63      0.90      0.74       389
           4       0.89      0.95      0.92       378

    accuracy                           0.74      1211
   macro avg       0.78      0.61      0.63      1211
weighted avg       0.77      0.74      0.71      1211



Как видим, добавление информации о корпусе документов (т.е. весов tf-idf) привело к улучшению качества модели.