Идеи:
# Применить идеалогию изображений: использовать вектора слов как строки или столбцы

# Модель оценки заголовка

Введенные или сгенерированные заголовки нужно как-то оценивать. Так как главной целью обычно является увеличение количества просмотров, то в качестве критерия можно использовать число просмотров у ранее опубликованных статей.

Таким образом, перед нами стоит задача регрессии: на входе заголовок, на выходе число (балл от 0 до 10 с точностью 0.1).

В качестве библиотеки, реализующей модель русского языка, мы используем spaCy (в первую очередь из соображений скорости).

## 1. Подготовка датасета

В нашем распоряжении множество данных, полученных в результате парсинга. Объединим их в один большой датасет для построения модели оценки заголовков. Для его построения нам нужны те датасеты (сайты), для которых имеется информация о количестве просмотров статьи.

In [5]:
# standard libraries
import pickle

# data processing libraries
import numpy as np
import pandas as pd

# Make numpy printouts easier to read.
np.set_printoptions(precision=3, suppress=True)

# data processing progress bar
from tqdm.auto import tqdm
tqdm.pandas()

# visualization
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
# обработка естественного языка
import spacy
spacy.prefer_gpu()
nlp = spacy.load("ru_core_news_lg")

In [7]:
# библиотеки для машинного и глубокого обучения
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mse
from catboost import CatBoostRegressor

import torch
use_cuda = torch.cuda.is_available()
device = torch.device("cuda" if use_cuda else "cpu")

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.layers.experimental import preprocessing
print(tf.__version__)

2.4.1


In [8]:
# пути к датасетам
DATASETS_PATH = "/home/leo/DATASETS"
TOKENIZED_TITLES_PATH = f"{DATASETS_PATH}/tokenized_titles.pickle"

In [9]:
# словарь с источником данных и их характеристиками
with open('../sources.pickle', 'rb') as f:
    sources = pickle.load(f)

In [10]:
# Токенизация большого числа заголовков — затратная по времени операция.
# Поэтому предварительно токенизированные заголовки хранятся в виде
# сжатого датафрайма
tokenized_titles = pd.read_pickle(TOKENIZED_TITLES_PATH, compression='gzip')

In [11]:
# tokenized_titles.to_pickle(path=TOKENIZED_TITLES_PATH, compression='gzip')

In [12]:
# соединяем датасеты в один общий датасет с именем df
dfs = dict()

for source in sources:
    dfs[source] = pd.read_csv(f"{DATASETS_PATH}/{source}.csv",
                              index_col=0,
                              parse_dates=['post_time', 'parse_time'])
    dfs[source]['source'] = source
    
df = pd.concat(dfs[key] for key in dfs)

# удаляем дубликаты
df = df.drop_duplicates()

# преобразуем количество просмотров к текстовому значению
df.views_num = df.views_num.apply(lambda x: int(''.join(filter(str.isdigit, str(x)))))

# приводим число просмотров к нормированной логарифмической шкале
df.views_num = np.log(df.views_num)/np.log(df.views_num.max())

# удаляем записи без просмотров (обычно это закрытые и недоступные статьи)
df = df.drop(df[df.views_num == np.NINF].index)

  result = getattr(ufunc, method)(*inputs, **kwargs)


In [13]:
# объединим датасет с токенизированные заголовки
df = df.join(tokenized_titles)
df = df.loc[~df.index.duplicated(keep='last')]

In [14]:
df

Unnamed: 0,title,post_time,short_text,views_num,parse_time,filename,source,likes_num,favs_num,comments_num,doc
https://habr.com/ru/company/2035_university/blog/550390/,Университет 20.35: инструкция к применению,2021-04-02 12:24:00,,0.405759,2021-04-03 12:50:49.824755,a659ebb5-8f09-5258-b7ce-d49be6c73f73,habr,1.0,6.0,3.0,"(Университет, 20.35, :, инструкция, к, примене..."
https://habr.com/ru/company/JetBrains-education/blog/547768/,Полезные материалы для разработчика,2021-03-19 09:02:00,,0.545704,2021-04-05 22:41:25.590225,1b81698c-3101-5086-8326-d153f823a983,habr,8.0,146.0,0.0,"(Полезные, материалы, для, разработчика)"
https://habr.com/ru/company/JetBrains-education/blog/548334/,Как провести лето с пользой: стажировки в JetB...,2021-03-22 12:16:00,,0.575289,2021-04-05 22:38:39.566842,8d215bfa-7d56-52df-b0c9-19d0daf7cdee,habr,14.0,7.0,4.0,"(Как, провести, лето, с, пользой, :, стажировк..."
https://habr.com/ru/company/JetBrains-education/blog/548762/,Computer Science Center открыл приём заявок на...,2021-03-24 13:09:00,,0.482559,2021-04-05 22:41:15.104612,81c0f89d-dbb8-591e-b940-aeb251efc139,habr,8.0,31.0,1.0,"(Computer, Science, Center, открыл, приём, зая..."
https://habr.com/ru/company/JetBrains-education/blog/550274/,"О стажировках для тех, кто еще не :) Эпизод 1",2021-04-01 18:57:00,,0.501080,2021-04-05 22:41:31.372370,c80e97ca-da04-5b9a-9a95-6e6d487c6a55,habr,1.0,9.0,0.0,"(О, стажировках, для, тех, ,, кто, еще, не, :)..."
...,...,...,...,...,...,...,...,...,...,...,...
https://tproger.ru/video/web-development-for-beginners/?autoplay=1,Курс «Основы веб-разработки»,2017-05-02 22:53:24+03:00,Совместный курс Технотрек Mail.Ru Group и МФТИ...,0.546544,2021-03-14 00:00:00.000000,5f54f5bb-5243-52c2-9fb1-30a1416cffd7,tproger,,,,"(Курс, «, Основы, веб, -, разработки, »)"
https://tproger.ru/video/web-service-development-java/?autoplay=1,Курс «Разработка веб-сервиса на Java»,2017-10-04 15:37:39+03:00,"Русскоязычный курс, посвященный изучению языка...",0.509727,2021-03-14 00:00:00.000000,bf54f362-23fe-524e-b3fd-3abe7a97703f,tproger,,,,"(Курс, «, Разработка, веб, -, сервиса, на, Jav..."
https://tproger.ru/video/web-technostream-django/?autoplay=1,Курс лекций по веб-технологиям и разработке на...,2017-04-25 22:23:41+03:00,Курс посвящен разработке серверной части веб-п...,0.543355,2021-03-14 00:00:00.000000,fb6b4e47-e474-57c7-9f5f-f5d6d7d87db7,tproger,,,,"(Курс, лекций, по, веб, -, технологиям, и, раз..."
https://tproger.ru/video/what-neural-network-is-and-how-it-works/?autoplay=1,Что такое нейронная сеть и как она работает — ...,2019-11-26 18:30:56+03:00,Оригинал видео на английском можно посмотреть ...,0.635783,2021-03-14 00:00:00.000000,d3d1ac03-e084-5b5a-af78-c8644673f7c4,tproger,,,,"(Что, такое, нейронная, сеть, и, как, она, раб..."


# 2. Векторизация текста и построение модели на PyTorch

Начнем с базовой модели: сопоставим каждому заголовку векторное представление, обучим модель для оценки заголовков и проверим качество скользящим контролем.

In [15]:
# В качестве конечных данных нам нужны лишь сведения
# о токенах заголовков и количестве просмотров статей.
Xy = df[['doc', 'views_num']]

# удаляем пропущенные значения, если таковые есть
Xy = Xy.dropna(axis=0)

In [16]:
X = Xy.doc.apply(lambda x: x.vector)
X = np.stack(X.values)
y = Xy.views_num.values

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=42)

In [25]:
X_train = torch.from_numpy(X_train).float().to(device)

In [27]:
y_train = torch.from_numpy(y_train).float().to(device)

In [29]:
y_train

tensor([0.6151, 0.7249, 0.3381,  ..., 0.5632, 0.3411, 0.5415])

# 4. Проверка дополнительных гипотез

In [None]:
# генерация дополнительных признаков
# Xy.loc[:, ['title']] = Xy.title.apply(str)

# Xy.loc[:, ['doc']] = Xy.title.progress_apply(nlp)

# длина заголовка в символах
# Xy.loc[:, ['len']] = Xy.title.apply(len)

# количество токенов
# Xy.loc[:, ['tokens_num']] = Xy.tokens.apply(lambda x: len(x))