# Модель оценки заголовка

Введенные или сгенерированные заголовки нужно как-то оценивать. Так как главной целью обычно является увеличение количества просмотров, то в качестве критерия нужно использовать число просмотров у ранее опубликованных статей. То есть перед нами стоит задача **регрессии**: на входе заголовок, на выходе число (балл от 0.0 до 10.0 с точностью 0.1).

In [55]:
import warnings
warnings.filterwarnings('ignore')

# standard libraries
import gc
import pickle
import io

# data processing libraries
import numpy as np
import pandas as pd

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mse

# make numpy printouts easier to read
np.set_printoptions(precision=3, suppress=True)

# data processing progress bar
from tqdm.auto import tqdm
tqdm.pandas()

# visualization
import matplotlib.pyplot as plt
import seaborn as sns

# пути к датасетам
DATASETS_PATH = "/home/leo/DATASETS"

# общий для приложений словарь с источником данных и их характеристиками
with open('../sources.pickle', 'rb') as f:
    sources = pickle.load(f)

%matplotlib inline

# 1. Подготовка данных
## 1.1. Соединение датафреймов

В нашем распоряжении имеется множество данных, полученных в результате парсинга. Объединим их в один большой датасет для построения модели оценки заголовков. Для построения будем использовать те датасеты (сайты), которые содержат информацию о количестве просмотров статей.

In [2]:
# соединяем датасеты в один общий датасет с именем df
dfs = dict()

for source in sources:
    dfs[source] = pd.read_csv(f"{DATASETS_PATH}/{source}.csv",
                              index_col=0,
                              parse_dates=['post_time', 'parse_time'])
    dfs[source]['source'] = source
    
df = pd.concat(dfs[key] for key in dfs)

# преобразуем количество просмотров
df.views_num = df.views_num.apply(lambda x: int(''.join(filter(str.isdigit, str(x)))))

# удаляем закрытые и недоступные статьи
df = df.drop(df[df.views_num == 0.0].index)

# удаляем дубликаты
df = df.drop_duplicates()
df = df.loc[~df.index.duplicated(keep='last')]
df.head()

Unnamed: 0,title,post_time,short_text,views_num,parse_time,filename,source,likes_num,favs_num,comments_num
https://tproger.ru/articles/kak-bystro-razvernut-hranilishhe-i-analitiku-dannyh-dlja-biznesa/,Как быстро развернуть хранилище и аналитику да...,2021-03-01 12:32:23+03:00,Сегодня хочу рассказать историю проекта по зап...,7825,2021-03-14,59a7ab25-11f7-502a-b63a-bbdcb121f488,tproger,,,
https://tproger.ru/articles/7-prakticheskih-zadanij-s-sobesedovanija-na-poziciju-junior-java-developer/,7 практических заданий с собеседования на пози...,2021-03-01 09:05:11+03:00,Для начинающего разработчика очень важно не то...,6741,2021-03-14,80f10716-5243-55ca-a67d-4dfe77cd27a5,tproger,,,
https://tproger.ru/quiz/test-chto-mozhet-jeta-nejroset/,"Тест: что реально, а что создала нейросеть?",2021-02-26 19:39:50+03:00,Сегодня нейронные сети используются в сельском...,4032,2021-03-14,aaffd2c5-592f-5d7b-b972-95073d0da49a,tproger,,,
https://tproger.ru/articles/kak-najti-dejstvitelno-horoshij-kurs-po-razrabotke-8-shagov-na-puti-k-pravilnomu-vyboru/,Как найти действительно хороший курс по разраб...,2021-02-26 17:29:00+03:00,Сразу хочется пошутить и предложить разработат...,1121,2021-03-14,16f80dbb-8e7c-5a5b-9025-b2fdef30bfd0,tproger,,,
https://tproger.ru/articles/blackbox-skanery-v-processe-ocenki-bezopasnosti-prilozhenija/,Blackbox-сканеры в процессе оценки безопасност...,2021-02-26 15:16:46+03:00,Профиль задач quality engineer (QE) достаточно...,187,2021-03-14,9d58bde6-7aaf-57a4-b381-25171b9a368f,tproger,,,


## 1.2. Коррекция случаев заниженного числа просмотров
Число просмотров на сайтах иногда существуенно отстает от предполагаемого или не всегда корректно рассчитано. Особенно это заметно на когда количество просмотров меньше числа лайков и добавлений в избранные статьи. Чтобы скорректировать такие значения, построим простую  регрессионную SGD-модель на данных, внушающих доверие и экстраполируем результат на «подозрительные» данные о числе просмотров.

In [3]:
df['post_time'] = pd.to_datetime(df['post_time'], utc=True)
df['mln_secs_to_now'] = (pd.Timestamp.now(tz='UTC') - df['post_time']).apply(lambda x: x.total_seconds())*1e-6
df_tmp = df[['likes_num', 'favs_num', 'comments_num', 'views_num']].dropna()
df_tmp['suspicious'] = [False]*df_tmp.shape[0]
for col in ('likes', 'favs', 'comments'):
    df_tmp['suspicious'] += df_tmp[f'{col}_num'] > 0.1*df_tmp['views_num']

df_tmp_susp = df_tmp[df_tmp['suspicious'] == True]
df_tmp = df_tmp[df_tmp['suspicious'] == False]
df_tmp = df_tmp.drop(columns=['suspicious'])
df_tmp_susp = df_tmp_susp.drop(columns=['suspicious'])

y = df_tmp['views_num']
X = df_tmp.drop(columns=['views_num'])
reg = make_pipeline(StandardScaler(),
                    RandomForestRegressor(n_jobs=20))
reg.fit(X, y)
df_tmp_susp['views_num'] = reg.predict(df_tmp_susp.drop(columns=['views_num']))
df_tmp_susp['views_num'] = df_tmp_susp['views_num'].apply(round)
df_tmp = pd.concat([df_tmp, df_tmp_susp])
df.update(df_tmp)

## 1.3. Преобразование целевой переменной: от числа просмотров к рейтингу
Оставим только данные, которые используются для построения модели: текст заголовка (`X`) и число просмотров (`y`):

In [38]:
Xy = df[['title', 'views_num']]
Xy['title'] = Xy['title'].apply(str)
max_title_length = Xy.title.apply(len).max()

Отсортируем статьи по количеству просмотров и зададим для каждой позиции рейтинг `score`, равномерно распределенный между 0 для непросматриваемой статьи и 10 для самой просматриваемой. Таким образом, оценка в 9.0 означает, что подобные заголовки имели не меньшее число просмотров, чем 90% иследованного набора данных.

In [39]:
Xy.sort_values(by='views_num', inplace=True)
Xy['score'] = np.linspace(0, 99, Xy.shape[0])
Xy['score'] = Xy['score'].apply(round)
X, y = Xy.title.to_list(), Xy.score.to_list()
del Xy

Разобьем данные на обучающую, тестовую и валидационную выборки. Валидационную выборку мы используем для оценки и настройки, не трогая тестовую выборку, оставляя ее для оценки лишь конечной модели.

In [40]:
train_texts, test_texts, train_labels, test_labels = train_test_split(X, y, test_size=.2)
train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=.2)

# 2. Построение модели глубокого обучения

Для работы с текстами мы используем библиотеку [transformers](https://huggingface.co/transformers/), обладающую высокой эффективностью для задач распознавания особенностей текста (NLU) и его генерации (NLG). Библиотека предоставляет удобный интерфейс для работы с предобученными NLP-моделями на основе архитектуры transformer. Фактически это pytorch-модели для NLP-задач, которые легко переводить в tensorflow-модели и обратно.

In [61]:
from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification
from transformers import Trainer, TrainingArguments

model_name = 'DeepPavlov/rubert-base-cased'

model = AutoModelForSequenceClassification.from_pretrained(model_name)

# AutoTokenizer в новых версиях по умолчанию возвращает
# быстрый токенизатор на Rust, а не токенизатор на основе Python
# для нашей задачи это не подходит
# https://fantashit.com/autotokenizer-from-pretrained-bert-throws-typeerror-when-encoding-certain-input/
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model.resize_token_embeddings(len(tokenizer))

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at DeepPavlov/rubert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Embedding(119547, 768, padding_idx=0)

Передадим тексты токенизатору. Флаги `truncation = True` и `padding = True` гарантируют, что последовательности будут дополнены до одинаковой длины и усечены, чтобы не превышать максимальную входную длину последовательности.

In [62]:
train_encodings = tokenizer(train_texts,
                            truncation=True,
                            padding=True,
                            max_length=max_title_length)

val_encodings = tokenizer(val_texts,
                          truncation=True,
                          padding=True,
                          max_length=max_title_length)

test_encodings = tokenizer(test_texts,
                           truncation=True,
                           padding=True,
                           max_length=max_title_length)

Теперь представим размеченные тексты и метки в виде `Dataset`-объекта. Для этого наследуем класс от `torch.utils.data.Dataset`, в котором реализуем методы `__len__` и `__getitem__`. Это позволяет отправлять данные пакетно, батчами и обучать модель с помощью метода `forward()`.

In [63]:
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

class TitlesDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)
    

train_dataset = TitlesDataset(train_encodings, train_labels)
val_dataset = TitlesDataset(val_encodings, val_labels)
test_dataset = TitlesDataset(test_encodings, test_labels)

In [64]:
gc.collect()
#torch.cuda.empty_cache()

training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset
)

trainer.train()

RuntimeError: CUDA error: device-side assert triggered

https://towardsdatascience.com/cuda-error-device-side-assert-triggered-c6ae1c8fa4c3

# XXX Archive & Drafts XXX

In [None]:
# генерация дополнительных признаков
# Xy.loc[:, ['title']] = Xy.title.apply(str)

# Xy.loc[:, ['doc']] = Xy.title.progress_apply(nlp)

# длина заголовка в символах
# Xy.loc[:, ['len']] = Xy.title.apply(len)

# количество токенов
# Xy.loc[:, ['tokens_num']] = Xy.tokens.apply(lambda x: len(x))

# Токенизация большого числа заголовков — затратная по времени операция.
# Поэтому предварительно токенизированные заголовки хранятся в виде
# сжатого датафрайма
#tokenized_titles = pd.read_pickle(TOKENIZED_TITLES_PATH, compression='gzip')

# for i in [3, 8, 9]:
#     spacy.displacy.render(tokenized_titles.iloc[i], style='ent', jupyter=True)

# tokenized_titles.to_pickle(path=TOKENIZED_TITLES_PATH, compression='gzip')