# Модель оценки заголовка

Введенные или сгенерированные заголовки нужно как-то оценивать. Так как главной целью обычно является увеличение количества просмотров, то в качестве критерия нужно использовать число просмотров у ранее опубликованных статей. То есть перед нами стоит задача **регрессии**: на входе заголовок, на выходе число (балл от 0.0 до 10.0 с точностью 0.1).


In [1]:
import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"

# 1. Подготовка данных для модели оценки заголовка



In [2]:
import numpy as np
import pandas as pd
from google.colab import drive
drive.mount('/content/gdrive')
data_path='/content/gdrive/My Drive/Colab Notebooks/title/data'

Mounted at /content/gdrive


In [3]:
Xy = pd.read_pickle(f'{data_path}/Xy.pickle', compression='gzip')
X, y = Xy.title, Xy.score
del Xy

Разобьем данные на обучающую, тестовую и валидационную выборки. Валидационную выборку мы используем для оценки и настройки, не трогая тестовую выборку, оставляя ее для оценки лишь конечной модели.

In [4]:
from sklearn.model_selection import train_test_split
train_texts, test_texts, train_labels, test_labels = train_test_split(X.to_list(), y.to_list(), test_size=.2)
train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=.2)

# 2. Построение модели глубокого обучения

Для работы с текстами мы используем библиотеку [transformers](https://huggingface.co/transformers/), обладающую высокой эффективностью для задач распознавания особенностей текста (NLU) и его генерации (NLG). Библиотека предоставляет удобный интерфейс для работы с предобученными NLP-моделями на основе архитектуры transformer. Фактически это pytorch-модели для NLP-задач, которые легко переводить в tensorflow-модели и обратно.


In [5]:
%%bash
pip3 install transformers

Collecting transformers
  Downloading https://files.pythonhosted.org/packages/d8/b2/57495b5309f09fa501866e225c84532d1fd89536ea62406b2181933fb418/transformers-4.5.1-py3-none-any.whl (2.1MB)
Collecting sacremoses
  Downloading https://files.pythonhosted.org/packages/08/cd/342e584ee544d044fb573ae697404ce22ede086c9e87ce5960772084cad0/sacremoses-0.0.44.tar.gz (862kB)
Collecting tokenizers<0.11,>=0.10.1
  Downloading https://files.pythonhosted.org/packages/ae/04/5b870f26a858552025a62f1649c20d29d2672c02ff3c3fb4c688ca46467a/tokenizers-0.10.2-cp37-cp37m-manylinux2010_x86_64.whl (3.3MB)
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py): started
  Building wheel for sacremoses (setup.py): finished with status 'done'
  Created wheel for sacremoses: filename=sacremoses-0.0.44-cp37-none-any.whl size=886084 sha256=db21fe603885689b13f3aa75c18601c326b7bd81f12a602087ebc58be39c52bf
  Stored in directory: /root/.cache/pip/wheels/3e/fb/c0/13ab4d63d537658f44836674

In [6]:
from transformers import BertTokenizer
from transformers import BertForSequenceClassification

model_name = 'DeepPavlov/rubert-base-cased'
model = BertForSequenceClassification.from_pretrained(model_name,
                                                      num_labels=2,
                                                      output_attentions=False,
                                                      output_hidden_states=False)

# в случае ошибки, учесть fast-версию
# https://fantashit.com/autotokenizer-from-pretrained-bert-throws-typeerror-when-encoding-certain-input/
tokenizer = BertTokenizer.from_pretrained(model_name)
model.resize_token_embeddings(len(tokenizer))

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=642.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=711456796.0, style=ProgressStyle(descri…




Some weights of BertForSequenceClassification were not initialized from the model checkpoint at DeepPavlov/rubert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1649718.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=112.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2.0, style=ProgressStyle(description_wi…




Embedding(119547, 768, padding_idx=0)

Передадим тексты токенизатору. Флаги `truncation = True` и `padding = True` гарантируют, что последовательности будут дополнены до одинаковой длины и усечены, чтобы не превышать максимальную входную длину последовательности.

In [7]:
max_length = 32  # макс. длина заголовка в токенах
train_encodings = tokenizer(train_texts,
                            truncation=True,
                            padding=True,
                            max_length=max_length)

val_encodings = tokenizer(val_texts,
                          truncation=True,
                          padding=True,
                          max_length=max_length)

test_encodings = tokenizer(test_texts,
                           truncation=True,
                           padding=True,
                           max_length=max_length)

Теперь представим размеченные тексты и метки в виде `Dataset`-объекта. Для этого наследуем класс от `torch.utils.data.Dataset`, в котором реализуем методы `__len__` и `__getitem__`. Это позволяет отправлять данные пакетно, батчами и обучать модель с помощью метода `forward()`.

In [8]:
import torch

class TitlesDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)
    

train_dataset = TitlesDataset(train_encodings, train_labels)
val_dataset = TitlesDataset(val_encodings, val_labels)
test_dataset = TitlesDataset(test_encodings, test_labels)

In [21]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    save_steps=500,
    num_train_epochs=40,
    per_device_train_batch_size=512,
    per_device_eval_batch_size=512,
    weight_decay=0.01,
    warmup_steps=500,
    logging_dir='./logs',
    logging_steps=500
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset
)

torch.cuda.empty_cache()
#trainer.train()
trainer.train("/content/results/checkpoint-5500")

RuntimeError: ignored

In [None]:
# from torch.utils.data import DataLoader
# from transformers import BertForSequenceClassification, AdamW

# device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
# torch.cuda.empty_cache()

# model_name = 'bert-base-multilingual-cased'
# model = BertForSequenceClassification.from_pretrained(model_name,
#                                                       num_labels = 101,
#                                                       output_attentions = False,
#                                                       output_hidden_states = False)
# model.to(device)
# model.train()

# train_loader = DataLoader(train_dataset,
#                           batch_size=8,
#                           shuffle=True)

# optim = AdamW(model.parameters(), lr=5e-5)

# for epoch in range(3):
#     for batch in train_loader:
#         optim.zero_grad()
#         input_ids = batch['input_ids'].to(device)
#         attention_mask = batch['attention_mask'].to(device)
#         labels = batch['labels'].to(device)
#         outputs = model(input_ids,
#                         attention_mask=attention_mask,
#                         labels=labels)
#         loss = outputs[0]
#         print(loss)
#         loss.backward()
#         optim.step()

# model.eval()

In [20]:
!rm -rf sample_data