Идеи:
- Применить идеалогию изображений: использовать вектора слов как строки или столбцы

# Модель оценки заголовка

Введенные или сгенерированные заголовки нужно как-то оценивать. Так как главной целью обычно является увеличение количества просмотров, то в качестве критерия можно использовать число просмотров у ранее опубликованных статей.

Таким образом, перед нами стоит задача регрессии: на входе заголовок, на выходе число (балл от 0 до 10 с точностью 0.1).

В качестве библиотеки, реализующей модель русского языка, мы используем spaCy (в первую очередь из соображений скорости).

## 1. Подготовка датасета

В нашем распоряжении множество данных, полученных в результате парсинга. Объединим их в один большой датасет для построения модели оценки заголовков. Для его построения нам нужны те датасеты (сайты), для которых имеется информация о количестве просмотров статьи.

In [1]:
import warnings
warnings.filterwarnings('ignore')

# standard libraries
import pickle

# data processing libraries
import numpy as np
import pandas as pd

# Make numpy printouts easier to read.
np.set_printoptions(precision=3, suppress=True)

# data processing progress bar
from tqdm.auto import tqdm
tqdm.pandas()

# visualization
import matplotlib.pyplot as plt
import seaborn as sns

# обработка естественного языка
import spacy
spacy.prefer_gpu()
nlp = spacy.load("ru_core_news_lg")

# библиотеки для машинного и глубокого обучения
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mse

import torch
from torch import nn
from torch.nn import functional as F
use_cuda = torch.cuda.is_available()
device = torch.device("cuda" if use_cuda else "cpu")

# пути к датасетам
DATASETS_PATH = "/home/leo/DATASETS"
TOKENIZED_TITLES_PATH = f"{DATASETS_PATH}/tokenized_titles.pickle"

# словарь с источником данных и их характеристиками
with open('../sources.pickle', 'rb') as f:
    sources = pickle.load(f)
    
# Токенизация большого числа заголовков — затратная по времени операция.
# Поэтому предварительно токенизированные заголовки хранятся в виде
# сжатого датафрайма
tokenized_titles = pd.read_pickle(TOKENIZED_TITLES_PATH, compression='gzip')

In [11]:
# tokenized_titles.to_pickle(path=TOKENIZED_TITLES_PATH, compression='gzip')

In [2]:
# соединяем датасеты в один общий датасет с именем df
dfs = dict()

for source in sources:
    dfs[source] = pd.read_csv(f"{DATASETS_PATH}/{source}.csv",
                              index_col=0,
                              parse_dates=['post_time', 'parse_time'])
    dfs[source]['source'] = source
    
df = pd.concat(dfs[key] for key in dfs)

# удаляем дубликаты
df = df.drop_duplicates()

# преобразуем количество просмотров к текстовому значению
df.views_num = df.views_num.apply(lambda x: int(''.join(filter(str.isdigit, str(x)))))

# приводим число просмотров к нормированной логарифмической шкале
df.views_num = np.log(df.views_num)/np.log(df.views_num.max())

# удаляем записи без просмотров (обычно это закрытые и недоступные статьи)
df = df.drop(df[df.views_num == np.NINF].index)

# объединим датасет с токенизированные заголовки
df = df.join(tokenized_titles)
df = df.loc[~df.index.duplicated(keep='last')]

# 2. Векторизация текста и построение модели на PyTorch

Начнем с базовой модели: сопоставим каждому заголовку векторное представление в виде набора векторов для слов, дополним векторные представления нулевыми векторами, сложим их в трехмерный тензор, обучим модель для оценки заголовков и проверим качество скользящим контролем.

In [3]:
# В качестве конечных данных нам нужны лишь сведения
# о токенах заголовков и количестве просмотров статей.
Xy = df[['doc', 'views_num']]

# удаляем пропущенные значения, если таковые есть
Xy = Xy.dropna(axis=0)

In [None]:
max_tokens_in_title = Xy.doc.apply(len).max()
cols_num = 96

def make_stack(doc):
    # представляем заголовок как набор векторов
    words_stack = np.vstack(word.vector for word in doc)
    
    # дополняем плоскость нулями
    zeros_rows_num = max_tokens_in_title-words_stack.shape[0]
    zeros_stack = np.zeros((zeros_rows_num, cols_num))
    plate_stack = np.vstack([words_stack, zeros_stack])
    return plate_stack

Xy['stack'] = Xy.doc.progress_apply(lambda x: make_stack(x))

  0%|          | 0/228674 [00:00<?, ?it/s]

In [89]:
y = Xy.views_num.values

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=42)

In [25]:
X_train = torch.from_numpy(X_train).float().to(device)

In [27]:
y_train = torch.from_numpy(y_train).float().to(device)

In [29]:
y_train

tensor([0.6151, 0.7249, 0.3381,  ..., 0.5632, 0.3411, 0.5415])

# 4. Проверка дополнительных гипотез

In [None]:
# генерация дополнительных признаков
# Xy.loc[:, ['title']] = Xy.title.apply(str)

# Xy.loc[:, ['doc']] = Xy.title.progress_apply(nlp)

# длина заголовка в символах
# Xy.loc[:, ['len']] = Xy.title.apply(len)

# количество токенов
# Xy.loc[:, ['tokens_num']] = Xy.tokens.apply(lambda x: len(x))