Идеи:
- Применить идеалогию изображений: использовать вектора слов как строки или столбцы
- Нужна функция, которая возвращает N матриц X для обучения
- https://www.reddit.com/r/MLQuestions/comments/e8kyc3/finetuning_bert_for_a_regression_task/

# Модель оценки заголовка

Введенные или сгенерированные заголовки нужно как-то оценивать. Так как главной целью обычно является увеличение количества просмотров, то в качестве критерия можно использовать число просмотров у ранее опубликованных статей.

Таким образом, перед нами стоит задача регрессии: на входе заголовок, на выходе число (балл от 0 до 10 с точностью 0.1).

В качестве библиотеки, реализующей модель русского языка, мы используем spaCy (в первую очередь из соображений скорости).

Для работы с текстами мы используем библиотеку [Transformers](https://huggingface.co/transformers/), обладающую высокой эффективностью для задач «понимания» текста (NLU) и его генерации (NLG). Библиотека предоставляет удобный интерфес для работы с предобученными NLP-моделями на основе архитектуры transformer.

## 1. Подготовка датасета

В нашем распоряжении множество данных, полученных в результате парсинга. Объединим их в один большой датасет для построения модели оценки заголовков. Для его построения нам нужны те датасеты (сайты), для которых имеется информация о количестве просмотров статьи.

In [1]:
import warnings
warnings.filterwarnings('ignore')

# standard libraries
import pickle
import io

# data processing libraries
import numpy as np
import pandas as pd

# make numpy printouts easier to read
np.set_printoptions(precision=3, suppress=True)

# data processing progress bar
from tqdm.auto import tqdm
tqdm.pandas()

# visualization
import matplotlib.pyplot as plt
import seaborn as sns

# обработка естественного языка
#import spacy
#nlp = spacy.load("ru_core_news_lg")

# библиотеки для машинного и глубокого обучения
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mse

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = 'DeepPavlov/rubert-base-cased'
import torch.nn.functional as F

%matplotlib inline

In [2]:
# пути к датасетам
DATASETS_PATH = "/home/leo/DATASETS"
# TOKENIZED_TITLES_PATH = f"{DATASETS_PATH}/tokenized_titles.pickle"

# словарь с источником данных и их характеристиками
with open('../sources.pickle', 'rb') as f:
    sources = pickle.load(f)
    
# Токенизация большого числа заголовков — затратная по времени операция.
# Поэтому предварительно токенизированные заголовки хранятся в виде
# сжатого датафрайма
#tokenized_titles = pd.read_pickle(TOKENIZED_TITLES_PATH, compression='gzip')

In [None]:
# for i in [3, 8, 9]:
#     spacy.displacy.render(tokenized_titles.iloc[i], style='ent', jupyter=True)

In [None]:
# tokenized_titles.to_pickle(path=TOKENIZED_TITLES_PATH, compression='gzip')

In [10]:
# соединяем датасеты в один общий датасет с именем df
dfs = dict()

for source in sources:
    dfs[source] = pd.read_csv(f"{DATASETS_PATH}/{source}.csv",
                              index_col=0,
                              parse_dates=['post_time', 'parse_time'])
    dfs[source]['source'] = source
    
df = pd.concat(dfs[key] for key in dfs)

# удаляем дубликаты
df = df.drop_duplicates()

# преобразуем количество просмотров к текстовому значению
df.views_num = df.views_num.apply(lambda x: int(''.join(filter(str.isdigit, str(x)))))

# удаляем записи без просмотров (обычно это закрытые и недоступные статьи)
df = df.drop(df[df.views_num == 0.0].index)

# объединим датасет с токенизированные заголовки
# df = df.join(tokenized_titles)
df = df.loc[~df.index.duplicated(keep='last')]

# 2. Векторизация текста и построение модели на PyTorch

Начнем с базовой модели: сопоставим каждому заголовку векторное представление в виде набора векторов для слов, дополним векторные представления нулевыми векторами, сложим их в трехмерный тензор, обучим модель для оценки заголовков и проверим качество скользящим контролем.

In [12]:
# В качестве конечных данных нам нужны лишь сведения
# о токенах заголовков и количестве просмотров статей.
Xy = df[['title', 'views_num']]

# удаляем пропущенные значения, если таковые есть
Xy = Xy.dropna(axis=0)

# разобьем все группы на 21 класс от 0 до 20
# по числу оценок от 0.0 до 10.0 с шагом 0.5
Xy = Xy.sort_values(by='views_num')
score = np.linspace(0, 1, Xy.shape[0])
Xy['score'] = score
Xy = Xy.drop(columns='views_num')

# представим данные в виде кортежей (токенизированный текст, метка)
# data = Xy.apply(lambda row: (row['doc'], row['score']), axis=1).to_list()

In [19]:
max_length = Xy.title.apply(len).max()

In [11]:
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# в библиотеке transformers таск sentiment-analysis
# соответствует TextClassificationPipeline
classifier = pipeline(task="sentiment-analysis",
                      model=model,
                      tokenizer=tokenizer)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at DeepPavlov/rubert-base-cased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
pt_batch = tokenizer(
    Xy.title.to_list(),
    padding=True,
    truncation=True,
    max_length=max_length,
    return_tensors="pt"
)

https://habr.com/ru/post/91894     Продолжаем делать обзоры игр для Linux или сво...
https://habr.com/ru/post/29361                Наши нигде не упустят шанса отличиться
https://habr.com/ru/post/91849     Обзор игры America's Army: Special Forces для ...
https://habr.com/ru/post/104954                      Обзор игры «Alchemia» для Linux
https://habr.com/ru/post/30612                             Google Translation Center
                                                         ...                        
https://habr.com/ru/post/50764               Jailbreak iPod Touch 2G — redsn0w вышел
https://habr.com/ru/post/109263          Домены разблокированы, а кто бы сомневался?
https://habr.com/ru/post/49151                                    Новый qutim из SVN
https://habr.com/ru/post/36359     Еженедельный подкаст от Umputun (US, Чикаго) #173
https://habr.com/ru/post/38997                                             Хабра RSS
Name: title, Length: 1000, dtype: object

In [None]:
model_checkpoint = "rubert-base-cased"  # https://huggingface.co/DeepPavlov/rubert-base-cased
batch_size = 16

In [None]:
from datasets import load_dataset, load_metric

In [None]:
def load_data(limit=0, split=0.8):
    train_data = data
    np.random.shuffle(train_data)
    train_data = train_data[-limit:]
    texts, labels = zip(*train_data)
    cats = [{'POSITIVE': bool(y)} for y in labels]
    split = int(len(train_data) * split)
    return (texts[:split], cats[:split]), (texts[split:], cats[split:])

In [None]:
Xy['tuples']

In [None]:
max_tokens_in_title = Xy.doc.apply(len).max()
cols_num = 96

def make_stack(doc):
    # представляем заголовок как набор векторов
    words_stack = np.vstack(word.vector for word in doc)
    
    # дополняем плоскость нулями
    zeros_rows_num = max_tokens_in_title-words_stack.shape[0]
    zeros_stack = np.zeros((zeros_rows_num, cols_num))
    plate_stack = np.vstack([words_stack, zeros_stack])
    return plate_stack

In [None]:
y = Xy.views_num.values

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=42)

In [None]:
X_train = torch.from_numpy(X_train).float().to(device)

In [None]:
y_train = torch.from_numpy(y_train).float().to(device)

In [None]:
y_train

# 4. Проверка дополнительных гипотез

In [None]:
# генерация дополнительных признаков
# Xy.loc[:, ['title']] = Xy.title.apply(str)

# Xy.loc[:, ['doc']] = Xy.title.progress_apply(nlp)

# длина заголовка в символах
# Xy.loc[:, ['len']] = Xy.title.apply(len)

# количество токенов
# Xy.loc[:, ['tokens_num']] = Xy.tokens.apply(lambda x: len(x))