## Hugging Face

[Hugging Face](https://huggingface.co/) — это платформа и сообщество для разработки моделей машинного обучения в области обработки естественного языка (и не только) и обмена ими. Здесь можно найти готовые модели, узнать об их параметрах и применении, а также делиться своими разработками и идеями с другими специалистами.

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/huggingface.png" width="700"></center>

Можно выделить 4 основные составляющие:
*   Токенизаторы
*   Модели
*   Датасеты
*   Обучение

### Pipeline

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.3/L10/full_nlp_pipeline.png" width="900"></center>

<center><em>Source: <a href="https://huggingface.co/learn/nlp-course/chapter2/2?fw=pt">Hugging Face NLP course</a></em></center>

Наиболее простой способ работать с Hugging Face — использовать обёртку *pipeline*, которая включает в себя токенизацию, обработку токенов моделью и постобработку результата работы модели — перевод в человекочитаемое представление.

Вариантов базовых pipeline'ов множество, вот часть из них:
* feature-extraction (get the vector representation of a text)
* fill-mask
* ner (named entity recognition)
* question-answering
* summarization
* text-generation
* translation
* zero-shot-classification

Рассмотрим несколько наиболее распространённых задач.

**Sentiment Analysis**

С задачей оценки эмоциального окраса предложений мы познакомились в конце прошлой лекции.

In [1]:
!pip install torch transformers


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")

classifier("This is an amaizing course")

  from .autonotebook import tqdm as notebook_tqdm
No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use mps:0


[{'label': 'POSITIVE', 'score': 0.9969174861907959}]

**Zero-shot classification**

Zero-Shot Learning — это сценарий машинного обучения, в котором модель  обучается распознавать и классифицировать объекты без предварительного обучения на каких-либо примерах из этих категорий.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.3/L10/zero_shot_learning.jpg" width="700"></center>

<center><em>Source: <a href="https://saturncloud.io/blog/breaking-the-data-barrier-how-zero-shot-one-shot-and-few-shot-learning-are-transforming-machine-learning/">Zero-Shot Learning</a></em></center>

In [3]:
classifier = pipeline("zero-shot-classification")

classifier(
    "This is a chapter about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision d7645e1 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use mps:0


{'sequence': 'This is a chapter about the Transformers library',
 'labels': ['business', 'education', 'politics'],
 'scores': [0.4091823697090149, 0.4075642228126526, 0.1832534819841385]}

***Генерация текста*** выглядит аналогично. Для выбора конкретной модели используется параметр `model`.

In [4]:
generator = pipeline("text-generation", model="distilgpt2")

generator(
    "In this course, we will teach you how to", max_length=30, num_return_sequences=2
)

Device set to use mps:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Both `max_new_tokens` (=256) and `max_length`(=30) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[{'generated_text': 'In this course, we will teach you how to use the Java EE Java EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE EE'},
 {'generated_text': 'In this course, we will teach you how to get started with a few simple steps to build a simple, simple PHP application for your PHP applicat

Следующий pipeline служит для заполнения пропусков `<mask>` в тексте и называется ***fill-mask***.

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/fill_mask.png" width="600"></center>

In [5]:
unmasker = pipeline("fill-mask")

unmasker(
    "This course will teach you all about <mask> models and <mask> learning.", top_k=2
)

No model was supplied, defaulted to distilbert/distilroberta-base and revision fb53ab8 (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use mps:0
  return forward_call(*args, **kwargs)


[[{'score': 0.12782734632492065,
   'token': 30412,
   'token_str': ' mathematical',
   'sequence': '<s>This course will teach you all about mathematical models and<mask> learning.</s>'},
  {'score': 0.0628170445561409,
   'token': 774,
   'token_str': ' role',
   'sequence': '<s>This course will teach you all about role models and<mask> learning.</s>'}],
 [{'score': 0.2166939377784729,
   'token': 37700,
   'token_str': ' reinforcement',
   'sequence': '<s>This course will teach you all about<mask> models and reinforcement learning.</s>'},
  {'score': 0.1486194133758545,
   'token': 3563,
   'token_str': ' machine',
   'sequence': '<s>This course will teach you all about<mask> models and machine learning.</s>'}]]

Важной задачей является разметка текстов, в частности, выделение именованных сущностей (**Named Entity Recognition**, ***NER***):

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/ner.png" width="800"></center>

In [6]:
ner = pipeline("ner", aggregation_strategy="simple")

ner("My name is Kristina and I work at Gazprombank in Moscow.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use mps:0
  return

[{'entity_group': 'PER',
  'score': 0.9992409,
  'word': 'Kristina',
  'start': 11,
  'end': 19},
 {'entity_group': 'ORG',
  'score': 0.9977871,
  'word': 'Gazprombank',
  'start': 34,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9987488,
  'word': 'Moscow',
  'start': 49,
  'end': 55}]

Закончим с примерами задачей ***Question Answering, QA***.

В данном случае ответ не генерируется, а **извлекается** (extract) из контекста. Контекст не может быть пустым.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.3/L10/qa_example.png" width="500"></center>

<center><em>Source: <a href="https://www.deleeuw.me.uk/posts/Using-PrimeQA-For-NLP-Question-Answering/">Using PrimeQA For NLP Question Answering</a></em></center>

In [7]:
question_answerer = pipeline("question-answering")

question_answerer(
    question="Where do I work?",
    context="My name is Kristina and I work at Gazprombank in Moscow.",
)

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use mps:0


{'score': 0.7286897254016367, 'start': 34, 'end': 45, 'answer': 'Gazprombank'}

## Архитектура сети Transformer

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/transformer_architecture.png" width="450"></center>

<center><em>Архитектура трансформера</em></center>

<center><em>Source: <a href="https://arxiv.org/pdf/1706.03762.pdf"> Attention Is All You Need</a></em></center>

## Encoder

### Алгоритм

<div align="center">
    <table >
     <tr>
       <td>

Порядок вычислений трансформера-кодировщика:

1. Добавляются позиционные векторы $p_i$:

$\qquad \large h_i = x_i + p_i;$

$\qquad \large H = (h_1, \dots, h_n).$

$\qquad$ Размерность: $dim \ x_i, \ p_i, \ h_i = 512, \ dim \ H = 512 \times n$

2. Многомерное самовнимание:

$\qquad \large h^j_i = \text{Attn}(\color{red}{W^j_q}h_i, \color{red}{W^j_k}H, \color{red}{W^j_v}H).$

$\qquad$ Размерность: $j = 1, \dots, J=8, \ dim \ h^j_i = 64, \ dim \ W^j_q, \ W^j_k, \ W^j_k = 64 \times 512 $

3. Конкатенация:

$\qquad \large h'_i =  MH_j (h^j_i) \equiv [h^1_i, \dots, h^J_i].$

$\qquad$ Размерность: $dim \ h'_i = 512$

4. Сквозная связка + нормировка уровня:

$\qquad \large h''_i =  LN(h'_i + h_i; \color{red}{\mu_1, \sigma_1}).$

$\qquad$ Размерность: $dim \ h''_i, \ \mu_1, \ \sigma_1 = 512$

5. Полносвязная 2-хслойная сеть FFN:

$\qquad \large h'''_i = \color{red}{W_2}\text{ReLU}(\color{red}{W_1}h''_i + \color{red}{b_1}) + \color{red}{b_2}.$

$\qquad$ Размерность: $dim \ W_1 = 2048\times512, \ dim \ W_2 = 512\times2048$

6. Сквозная связь + нормировка уровня:

$\qquad \large z_i = LN(h'''_i + h''_i; \color{red}{\mu_2, \sigma_2}).$

$\qquad$ Размерность: $dim \ z_i, \ \mu_2, \ \sigma_2 = 512$
       </td>
        <td>
<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/transformer_encoder.png" width="200"></center>

<em>Архитектура трансформера-кодировщика</em>

<em>Source: <a href="http://www.machinelearning.ru/wiki/images/1/19/Voron-ML-Attention-slides.pdf"> К.В. Воронцов, Машинное обучение: Обработка

последовательностей и модели внимания</a></em>
        </td>
     </tr>
    </table>
    </div>

##BERT

[Оригинальная статья](https://arxiv.org/abs/1810.04805)

### Пример применения

In [8]:
import torch
from transformers import AutoTokenizer, AutoModel


tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")


def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors="pt")
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

In [9]:
print("BERT output shape:", embed_bert_cls("Привет мир", model, tokenizer).shape)

BERT output shape: (312,)


У такого подхода есть минус. Нам необходимо разбираться с тем, как выглядит выход модели. Обычно это словарь, по одному из ключей которого находится нужный нам вектор.

Можем попробовать иную форму запуска.

Теперь подадим 3 предложения и убедимся, что их векторы-представления совпадают по размеру.

In [10]:
from sentence_transformers import SentenceTransformer


model = SentenceTransformer("cointegrated/rubert-tiny2")
sentences = ["привет мир", "hello world", "предложение подлиннее для проверки"]
embeddings = model.encode(sentences)

print("BERT output shape:", embeddings.shape)

ModuleNotFoundError: No module named 'sentence_transformers'

Самый простой способ использовать готовые модели — импортировать [pipeline 🛠️[doc]](https://huggingface.co/docs/transformers/main_classes/pipelines).

Попробуем оценить сегодняшнюю погоду.

In [None]:
from transformers import pipeline

classifier = pipeline(
    task="sentiment-analysis", model="blanchefort/rubert-base-cased-sentiment"
)
type(classifier)

In [None]:
classifier("Отличное морозное утро!")

In [None]:
classifier("Отличное морозное утро, холод собачий!")

## Decoder

### Алгоритм

<div align="center">
    <table >
     <tr>
       <td>
       
Авторегрессионный синтез последовательности:

$\large y_0 = \langle {BOS} \rangle$ — эмбеддинг символа начала.

Для всех $t = 1, 2, \dots$ выполняется следующая последовательность вычислений:

1. Маскирование "данных из будущего":

$\qquad \large h_t = y_{t-1} + p_t;$

$\qquad \large H_t = (h_1, \dots, h_t).$

2. Многомерное самовнимание:

$\qquad \large h'_t = LN \circ MH_j \circ \text{Attn}(\color{red}{W^j_q}h_t, \color{red}{W^j_k}H_t, \color{red}{W^j_v}H_t).$

3. Многомерное внимание на кодировку $Z$:

$\qquad \large h''_t = LN \circ MH_j \circ \text{Attn}(\color{red}{W^j_q}h'_t, \color{red}{W^j_k}Z, \color{red}{W^j_v}Z).$

4. Двухслойная полносвязная сеть:

$\qquad \large y_t = LN \circ FFN(h''_t).$

5. Линейный предсказывающий слой:

$\qquad \large p(\tilde w | t) \text{SoftMax}_{\tilde w}(\color{red}{W_y}y_t + b_y).$

Генерация $\tilde w_t = \text{argmax}(p(\tilde w | t))$ продолжается пока $\tilde w_t \neq \langle {EOS} \rangle$.

       
</td>
<td>
<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.3/L10/out/transformer_decoder.png" width="350">

<em>Архитектура трансформера-декодировщика</em>

<em>Source: <a href="http://www.machinelearning.ru/wiki/images/1/19/Voron-ML-Attention-slides.pdf"> К.В. Воронцов, Машинное обучение:

Обработка последовательностей и модели внимания</a></em>
        </td>
     </tr>
    </table>
    </div>

## GPT

**GPT — фактически decoder-only модель.**

### Архитектура

При генерации продолжения текста с помощью GPT происходит следующее:

1. Входной текст токенизируется в последовательность чисел (токенов).
2. Список токенов проходит через Embedding layer (линейный слой) и преобразуется в список эмбеддингов.
3. К каждому эмбеддингу прибавляется **positional embedding**.
4. Список эмбеддингов проходит через несколько одинаковых блоков (Transformer Decoder Block).
5. После того, как список эмбеддингов пройдёт через последний блок, эмбеддинг, соответствующий последнему токену, матрично умножается на всё тот же входной, но уже транспонированный Embedding Layer, и после применения SoftMax получается распределение вероятностей следующего токена.
6. Из этого распределения выбирается следующий токен (например, с помощью argmax).
7. Полученный токен добавляется к входному списку токенов, шаги 1–6 повторяются.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.3/L10/gpt3.gif" width="800"></center>

<center><em>Source: <a href="https://jalammar.github.io/how-gpt3-works-visualizations-animations/">How GPT3 Works — Visualizations and Animations</a></em></center>

### Пример применения

In [None]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model_name = "sberbank-ai/rugpt3large_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name).to(device)

In [None]:
text = "Вопрос: 'Сколько будет 2+2?'\nОтвет:"
input_ids = tokenizer.encode(text, return_tensors="pt").to(device)
out = model.generate(input_ids, do_sample=False, max_length=20, pad_token_id=20)

generated_text = list(map(tokenizer.decode, out))[0]

print(generated_text)

Похожим способом можно кратко пересказывать тексты, если в конце дописывать `«TL:DR»`, т.к. модель во время обучения запомнила, что после этих символов идёт краткое содержание. Подбор модификаций текста называется **«Prompt Engineering»**. Такая простая идея позволяет решать практически неограниченное количество задач. Именно поэтому многие считают GPT-3 подобием сильного искусственного интеллекта.

### Интерактивная визуализация работы GPT

https://bbycroft.net/llm

## PyTorch & LSTM

In [None]:
!pip install torchmetrics

In [None]:
import numpy as np
import pandas as pd

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from torchmetrics import F1Score

import nltk
from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize

from tqdm.notebook import tqdm

In [None]:
nltk.download('punkt_tab')

### Данные & предобработка

In [None]:
base_url = "https://github.com/madrugado/keras-tutorial/raw/master/data"
df_train = pd.read_csv(f"{base_url}/train.csv")
df_test = pd.read_csv(f"{base_url}/test.csv")
df_val = pd.read_csv(f"{base_url}/val.csv")

In [None]:
df_train.head()

In [None]:
train_corpus = list(df_train["text"])

In [None]:
tokens = []

for text in tqdm(train_corpus):
  tokens.extend(word_tokenize(text))

tokens_filtered = [word for word in tokens if word.isalnum()]

In [None]:
max_words = 2000
dist = FreqDist(tokens_filtered)
tokens_filtered_top = [pair[0] for pair in dist.most_common(max_words-1)]

In [None]:
vocabulary = {v: k for k, v in dict(enumerate(tokens_filtered_top, 1)).items()}

In [None]:
def text_to_sequence(text, maxlen):
    result = []
    tokens = word_tokenize(text.lower())
    tokens_filtered = [word for word in tokens if word.isalnum()]
    for word in tokens_filtered:
        if word in vocabulary:
            result.append(vocabulary[word])
    padding = [0]*(maxlen-len(result))
    return padding + result[-maxlen:]

In [None]:
max_len = 40
x_train = np.array([text_to_sequence(text, max_len) for text in tqdm(df_train["text"])], dtype=np.int32)
x_test = np.array([text_to_sequence(text, max_len) for text in tqdm(df_test["text"])], dtype=np.int32)
x_val = np.array([text_to_sequence(text, max_len) for text in tqdm(df_val["text"])], dtype=np.int32)

In [None]:
x_train.shape

In [None]:
y_train = np.array(df_train["class"])
y_val = np.array(df_val["class"])

### Обучение модели

In [None]:
class LSTMTextClassifier(nn.Module):
    def __init__(self, vocab_size=2000, embedding_dim=32, hidden_size=32, num_classes=2):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_size, batch_first=True)
        self.linear = nn.Linear(hidden_size, num_classes)

    def forward(self, x):
        x = self.embedding(x)
        output, _ = self.lstm(x)
        output = self.linear(output[:, -1, :])
        return output

In [None]:
class TextDataWrapper(Dataset):
    def __init__(self, data, target=None, transform=None):
        self.data = torch.from_numpy(data).long()
        if target is not None:
            self.target = torch.from_numpy(target).long()
        else:
          self.target = None
        self.transform = transform

    def __getitem__(self, index):
        x = self.data[index]
        y = self.target[index] if self.target is not None else -1

        if self.transform:
            x = self.transform(x)
        return x, y

    def __len__(self):
        return len(self.data)

In [None]:
batch_size = 256

train_dataset = TextDataWrapper(x_train, y_train)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

val_dataset = TextDataWrapper(x_val, y_val)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=True)

In [None]:
epochs = 10

model = LSTMTextClassifier()
print(model)
print("Parameters:", sum([param.nelement() for param in model.parameters()]))

model.train()
f1 = F1Score(task="binary")

optimizer = torch.optim.Adam(model.parameters(), lr=10e-3)
criterion = nn.CrossEntropyLoss()

loss_history = []

for epoch in range(1,epochs+1):
    print(f"Train epoch {epoch}/{epochs}")
    temp_loss = []
    temp_metrics = []

    for i, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

        temp_loss.append(loss.float().item())
        temp_metrics.append(f1(output.argmax(1), target).item())

    epoch_loss = np.array(temp_loss).mean()
    epoch_f1 = np.array(temp_metrics).mean()
    print(f'Loss: {epoch_loss}, f1 score: {epoch_f1}')