## Материалы для знакомства c PyTorch и Transformers

* https://www.youtube.com/watch?v=qKL9hWQQQic
* https://arxiv.org/pdf/1706.03762.pdf
* https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452
* https://huggingface.co/blog/bert-101

* https://huggingface.co/docs/transformers/main/en/index
* https://pytorch.org/tutorials/beginner/basics/quickstart_tutorial.html
* https://machinelearningmastery.com/pytorch-tutorial-develop-deep-learning-models/


## Transformers

Transformers - это пакет, который предоставляет инструменты для простой загрузки и использования предобученных SOTA моделей машинного обучения. 

In [None]:
!pip install torch
!pip install transformers datasets

[Hugging Face BERT models](https://huggingface.co/models?sort=downloads&search=bert)
![image-2.png](attachment:image-2.png)

[Русскоязычная модель для эмбеддингов предложений](https://huggingface.co/cointegrated/rubert-tiny2)
![image.png](attachment:image.png)

In [1]:
import json
from pprint import pprint
import re

import pandas as pd
import torch
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neural_network import MLPClassifier
from sklearn.pipeline import Pipeline
from transformers import AutoModel, AutoTokenizer

In [2]:
# специальный объект-токенизатор, который преобразует строки к нужному модели виду
rubert_tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")

In [3]:
# обрабатывать можно как 1 пример, так и батчи
texts = ["продавец мила (шевченко 17)", "кассир в пиццерию г витебск"]
# токенизируем батч и смотрим на результат
encoded_texts = rubert_tokenizer(
    texts, padding=True, truncation=True, return_tensors="pt"
)
for k, v in encoded_texts.items():
    print(k, "=>\n", v)

input_ids =>
 tensor([[    2, 50848, 11951,   971,    12,   336,  2535, 10497,   685,    13,
             3,     0,     0],
        [    2, 60045,   870,   314, 48762, 25312,  2686,   315, 25040,   988,
         52710,   865,     3]])
token_type_ids =>
 tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
attention_mask =>
 tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [4]:
# вот так выглядят данные после этого шага
rubert_tokenizer.decode(encoded_texts["input_ids"][0])

'[CLS] продавец мила ( шевченко 17 ) [SEP] [PAD] [PAD]'

In [5]:
# создаем объект-модель
# предупреждение говорит о том, что эту модель надо дообучать
rubert_model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")

Some weights of the model checkpoint at cointegrated/rubert-tiny2 were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.decoder.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [6]:
# model - callable объект ...
model_output = rubert_model(**encoded_texts)
# и возвращает специальный объект BaseModelOutputWithPoolingAndCrossAttentions
# для разных моделей могут возвращаться разные объекты, нужно быть внимательным
print("Тип результата:", type(model_output))
print(
    "Размерность трехмерного тензора со скрытыми состоянями модели: ",
    model_output.last_hidden_state.shape,
)
# нам нужно сделать срез так, как предлагают сами авторы модели:
embeddings = model_output.last_hidden_state[:, 0, :]
# ... и опционально нормализовать эмбеддинги
embeddings = torch.nn.functional.normalize(embeddings)
print("Размерность батча эмбеддингов: ", embeddings.shape)

Тип результата: <class 'transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions'>
Размерность трехмерного тензора со скрытыми состоянями модели:  torch.Size([2, 13, 312])
Размерность батча эмбеддингов:  torch.Size([2, 312])


In [7]:
embeddings

tensor([[ 2.8943e-02, -5.0244e-02, -7.8985e-02, -8.4074e-02, -5.9612e-03,
         -1.7475e-02, -1.5316e-02, -2.8070e-02, -1.7053e-03,  2.8987e-02,
          2.6499e-02, -3.9807e-02,  4.0313e-02,  4.9844e-02,  5.9612e-02,
         -5.7806e-02,  5.2571e-02,  2.3915e-02,  1.2160e-02,  4.8263e-02,
         -1.7403e-03, -4.8624e-04,  1.0781e-02, -1.5538e-02,  1.0777e-01,
          1.4003e-02,  1.5913e-02,  7.4606e-03, -4.0181e-02,  1.6072e-02,
         -4.1244e-03,  1.9664e-02,  1.9901e-02, -6.5723e-02, -5.0434e-02,
         -1.7168e-02,  7.0580e-02, -8.0662e-03, -4.3247e-02, -3.2058e-02,
         -1.4544e-01,  1.0295e-01,  1.2049e-01, -4.6864e-02, -9.7900e-03,
         -9.5861e-02,  9.8281e-02, -5.3196e-02,  8.9461e-03,  4.4318e-03,
         -2.8308e-02, -1.7248e-02, -1.8647e-02,  1.1467e-02,  7.9162e-04,
          8.3070e-02,  6.7830e-02,  5.3903e-03, -4.1022e-02,  2.1465e-03,
         -1.3058e-02,  2.1448e-02,  7.2634e-02,  6.0540e-02, -1.3626e-02,
          1.0140e-01, -2.5507e-02,  6.

## Создание и обучение модели

In [8]:
from sklearn.base import BaseEstimator, TransformerMixin


class FullDescriptionCreator(BaseEstimator, TransformerMixin):
    """Добавляет столбец с полным описанием вакансии"""

    patt = re.compile("[^\s\w]")

    def __init__(self, responsibilities):
        self.responsibilities = responsibilities

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()
        X["responsibilities"] = self.responsibilities
        X["full_description"] = (
            X["name"] + " " + X["responsibilities"].fillna("")
        ).map(str.lower)
        X.loc[:, "full_description"] = X["full_description"].str.replace(
            self.patt, " ", regex=True
        )
        return X

In [9]:
class BertEmbedder(BaseEstimator, TransformerMixin):
    """Получаете эмбеддинги для батча текстов"""

    def __init__(self, bert_tokenizer, bert_model):
        self.bert_tokenizer = bert_tokenizer
        self.bert_model = bert_model

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        with torch.no_grad():
            t = self.bert_tokenizer(
                X.tolist(), padding=True, truncation=True, return_tensors="pt"
            )

            model_output = self.bert_model(**t)
            embeddings = model_output.last_hidden_state[:, 0, :]
            embeddings = torch.nn.functional.normalize(embeddings)
        return embeddings.numpy()

In [10]:
# загрузка данных (обсуждали на прошлой встрече)
# оставим от трейна 3 тыс. строчек, потому что все 15 тыс. обработать сразу с бертом
# требует слишком много вычислительных ресурсов
train = pd.read_csv("./data/competition/v1/train.csv", index_col="index").sample(
    3000, random_state=20221202
)
train = train.query("target != -1")

with open(
    "./data/competition/vacancy_descriptions/2_parsed.json", "r", encoding="utf8"
) as fp:
    descriptions = json.load(fp)

responsibilities = pd.Series(
    {
        description["ID"]: r[0]
        if (r := description["Content"].get("Обязанности")) is not None
        else None
        for description in descriptions
    },
    name="responsibilities",
)

X_train, y_train = train.drop(columns=["target"]), train["target"]

In [11]:
%%time
# пайплайн с прошлой встречи
clf_tfidf = Pipeline(
    [
        ("add_full_description", FullDescriptionCreator(responsibilities)),
        (
            "tfidf",
            ColumnTransformer(
                [("vectorize", TfidfVectorizer(max_features=128), "full_description")]
            ),
        ),
        (
            "clf",
            # заменена модель-классификатор
            MLPClassifier(
                hidden_layer_sizes=(64, 64), random_state=20221202, max_iter=500
            ),
        ),
    ]
)

clf_tfidf.fit(X_train, y_train)
print(clf_tfidf.score(X_train, y_train))

0.9274035317200785
Wall time: 4.91 s


In [12]:
%%time
clf_bert = Pipeline(
    [
        ("add_full_description", FullDescriptionCreator(responsibilities)),
        (
            "bert",
            # изменен способ векторизации текстов
            ColumnTransformer([("vectorize", BertEmbedder(rubert_tokenizer, rubert_model), "full_description")]),
        ),
        (
            "clf",
            # заменена модель-классификатор
            MLPClassifier(
                hidden_layer_sizes=(64, 64), random_state=20221202, max_iter=500
            ),
        ),
    ]
)

clf_bert.fit(X_train, y_train)
print(clf_bert.score(X_train, y_train))

1.0
Wall time: 1min 9s
