- Скачать нейросеть BERT для лингвистических задач и реализовать процедуру классификации текстов (без оглядки на качество классификации)

In [1]:
import numpy as np
import pandas as pd
import torch
import os
import json

from tqdm import tqdm
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
from sklearn.decomposition import PCA
from sklearn.cluster import AgglomerativeClustering
from torch.utils.data import Dataset, DataLoader
from transformers import BertModel, BertTokenizer

In [2]:
# скачаем датасет с текстами из статей
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2

--2024-12-14 11:40:15--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2
Resolving github.com (github.com)... 140.82.116.4
Connecting to github.com (github.com)|140.82.116.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-dac89df8aced?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20241214%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20241214T114015Z&X-Amz-Expires=300&X-Amz-Signature=c4d8718f96dffea5fac6946a6fc84d3962e6fb4a99f96ed0020cade51659de91&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.bz2&response-content-type=application%2Foctet-stream [following]
--2024-12-14 11:40:15--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/619f9f00-1e96-11ea-946e-dac89df8aced?X-Amz-Algorithm=AWS4-HMA

In [3]:
!bzip2 -d lenta-ru-news.csv.bz2

In [4]:
df = pd.read_csv('/content/lenta-ru-news.csv', low_memory=False)
df['topic'].unique()

array(['Библиотека', 'Россия', 'Мир', 'Экономика', 'Интернет и СМИ',
       'Спорт', 'Культура', 'Из жизни', 'Силовые структуры',
       'Наука и техника', 'Бывший СССР', nan, 'Дом', 'Сочи', 'ЧМ-2014',
       'Путешествия', 'Ценности', 'Легпром', 'Бизнес', 'МедНовости',
       'Оружие', '69-я параллель', 'Культпросвет ', 'Крым'], dtype=object)

In [58]:
# выберем все статьи с темами о путешествиях и ценностях
texts = df.loc[df['topic'].isin(['Путешествия', 'Ценности']), 'text']
texts.count()

14174

In [59]:
texts = texts.to_numpy()
texts[0]

'Названы самые раздражающие фотографии, которые уехавшие в отпуск люди выкладывают в социальные сети, сообщает The Daily Mail. Соответствующий антирейтинг был составлен на основе опроса посетителей онлайн-сервиса для туристов Top10.com. Интернет-пользователи назвали самым раздражающим видом снимков с отдыха скриншоты прогноза погоды в месте пребывания — 51 процент опрошенных не желают видеть такие фото в своей новостной ленте в соцсети. Особое недовольство вызывают селфи, они бесят 44 процента респондентов. Замыкает тройку лидеров негатива такой вид фото, как hot dog legs (многие любят фотографировать свои загорелые конечности на фоне моря, бассейна и т.д.). «Ноги-сосиски» в соцсетях портят настроение 32 процентам опрошенных. Самые ненавистные для пользователей типы снимков друзей расположились в рейтинге Top10.com так:\n Скриншоты из iPhone о прогнозе погоды на курорте \n Отпускные селфи\n Снимки ног на фоне моря, бассейна и т.д. (так называемые hot dog legs)\n Фотографии в прыжке\n О

In [7]:
# скачаем BERT для русскоязычных текстов
!gdown http://files.deeppavlov.ai/deeppavlov_data/bert/rubert_cased_L-12_H-768_A-12_pt.tar.gz

Downloading...
From: http://files.deeppavlov.ai/deeppavlov_data/bert/rubert_cased_L-12_H-768_A-12_pt.tar.gz
To: /content/rubert_cased_L-12_H-768_A-12_pt.tar.gz
100% 662M/662M [00:32<00:00, 20.3MB/s]


In [8]:
!tar -xzf /content/rubert_cased_L-12_H-768_A-12_pt.tar.gz

In [9]:
with open("/content/rubert_cased_L-12_H-768_A-12_pt/bert_config.json", "r") as read_file, open("/content/rubert_cased_L-12_H-768_A-12_pt/config.json", "w") as conf:
    file = json.load(read_file)
    conf.write(json.dumps(file))
!rm /content/rubert_cased_L-12_H-768_A-12_pt/bert_config.json

In [96]:
# берем модель и токенизатор из распакованной папки
tokenizer = BertTokenizer.from_pretrained('rubert_cased_L-12_H-768_A-12_pt')
model = BertModel.from_pretrained('rubert_cased_L-12_H-768_A-12_pt', output_hidden_states = True)

In [97]:
# класс CustomDataset на основе импортированного класса Dataset
class CustomDataset(Dataset):
    def __init__(self, X):
        self.text = X
    def tokenize(self, text):
        # максимальная длина токенизированного текста - 150 токенов
        return tokenizer(text, return_tensors='pt', padding='max_length', truncation=True, max_length=150)
    def __len__(self):
        return self.text.shape[0]
    def __getitem__(self, index):
        output = self.text[index]
        output = self.tokenize(output)
        return {k: v.reshape(-1) for k, v in output.items()}

eval_ds = CustomDataset(texts)
eval_dataloader = DataLoader(eval_ds, batch_size=10)

In [98]:
# функция получения эмбендингов
# берется выход из последнего слоя и усредняется по каждому значению
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output['last_hidden_state']
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

In [99]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
model.eval()

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(119547, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=Fals

In [100]:
embeddings = torch.Tensor().to(device)

In [101]:
with torch.no_grad():
    for n_batch, batch in enumerate(tqdm(eval_dataloader)):
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        embeddings = torch.cat([embeddings, mean_pooling(outputs, batch['attention_mask'])])
    embeddings = embeddings.cpu().numpy()

100%|██████████| 1418/1418 [02:09<00:00, 10.99it/s]


In [138]:
# чтобы сократить длительность расчетов, уменьшим размерность эмбеддингов с 768 до 15
pca = PCA(n_components=15, random_state=42)
emb_15d = pca.fit_transform(embeddings)

In [139]:
from sklearn.cluster import AgglomerativeClustering
# определяем автоматически число кластеров
clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=0.6, metric='cosine', linkage='average').fit(emb_15d)

In [140]:
# уменьшим размерность до двух, чтобы построить график
pca = PCA(n_components=2, random_state=42)
emb_2d = pd.DataFrame(pca.fit_transform(embeddings), columns=['x1', 'x2'])
emb_2d['label'] = clustering.labels_
emb_2d['label'].nunique()   # получилось 62 кластера

62

In [141]:
emb_2d['label'].count()

14174

In [142]:
import plotly.express as px
# интерактивный график
fig = px.scatter(emb_2d, x='x1', y='x2', color='label', width=800, height=600)
fig.show()

# на графике можем увидеть 2 выраженных "облака", поробуем взять 2 кластера :

In [143]:
clustering = AgglomerativeClustering(n_clusters=2, distance_threshold=None, metric='cosine', linkage='average').fit(emb_15d)

In [144]:
pca = PCA(n_components=2, random_state=42)
emb_2d = pd.DataFrame(pca.fit_transform(embeddings), columns=['x1', 'x2'])
emb_2d['label'] = clustering.labels_
emb_2d['label'].nunique()

2

In [145]:
fig = px.scatter(emb_2d, x='x1', y='x2', color='label', width=800, height=600)
fig.show()

In [146]:
# функция для просмотра результатов
def show_text(cluster, n):
    for i in range(n):
        print(i, texts[emb_2d['label'] == cluster][i].split('.')[0])

In [147]:
# синий кластер
show_text(cluster=0, n=10)

0 Названы самые раздражающие фотографии, которые уехавшие в отпуск люди выкладывают в социальные сети, сообщает The Daily Mail
1 Владивостокский ресторан Zuma назван самым лучшим в России
2 Жители Дубая и туристы смогут воспользоваться бесплатными такси-суперкарами по выходным дням с 21 ноября по 6 декабря включительно, сообщает информационный интернет-портал Emirates 24/7
3 Отец с сыном из английского графства Кент построили 13-метровую яхту во дворе собственного дома
4 Австрийская авиакомпания FlyNiki открывает 10-минутный авиаперелет из Вены в Братиславу, сообщает издание Daily Telegraph
5 Премьер-министр Греции Алексис Ципрас призвал отказаться от отелей системы «все включено» на курортах страны, сообщает The Daily Mail
6 Китайский лоукостер Spring Airlines собрался предложить своим пассажирам стоячие места
7 Большинство российских путешественников отметят День святого Валентина в Сочи, Санкт-Петербурге и Мюнхене
8 Китай планирует создать международную туристическую зону на границе

In [148]:
# желтый кластер
show_text(cluster=1, n=10)

0 Комнату, в которой в начале 1990-х жили вокалист американской группы Nirvana Курт Кобейн и исполнительница Кортни Лав, предложили снять через Airbnb
1 Первый в мире отель, который будет полностью обеспечиваться электроэнергией от работы солнечных батарей, откроют в Объединенных Арабских Эмиратах в первой половине 2017 года
2 Компания Caviar представила новую коллекцию часов, на декор которых дизайнеров вдохновила российская история
3 Производитель электромобилей Tesla Motors намеревается начать продажи кроссовера Model X до 30 сентября 2015 года
4 Южнокорейский конгломерат Shinsegae International приобрел старинный французский дом моды Поля Пуаре (Paul Poiret)
5 Мануфактура из Шаффхаузена, до недавнего времени специализировавшаяся только на мужских моделях, выпустила в линейке Portofino Automatic парные часы в корпусе диаметром 40 и 37 миллиметров
6 Часовой бренд Longines расширил свою женскую коллекцию — в ней появилась модель Mini в корпусе диаметром 16 миллиметров с бриллиантами п

- как видно в синем кластере содержатся по большей части тексты относящиеся к категории 'Путешествия'
- желтый это категория 'ценности'
- однако судя по графику, существует зона где оба кластера перекрываются, следовательно тексты затрагивают общие для 2х категорий темы