# Введение в NLP, часть 2



## NER c BERT (25 баллов)

1. Взять датасет из предыдущего ДЗ и обучить на нём BERT.
2. Обучить BERT на подготовленном датасете
3. Оценить результат, сравнить с моделью из первого ДЗ

### Подготовка данных (5 баллов)

Подумать о:
1. Как subword токенизация повлияет на BIO раззметку?
2. Что делать с `[CLS]` и `[SEP]` токенами? (Проверьте что использует `DataCollatorForTokenClassification`)

> Hint! Токенайзер умеет работать с предразделёнными на «слова» текстами

In [1]:
import torch
from datasets import load_dataset
from transformers import AutoTokenizer


BASE_NER_MODEL = "bert-base-cased"
bert_tokenizer = AutoTokenizer.from_pretrained(BASE_NER_MODEL)



In [2]:
conll2003 = load_dataset("conll2003")
conll2003

DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 14041
    })
    validation: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 3250
    })
    test: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 3453
    })
})

In [3]:
example = conll2003["train"][100]
example

{'id': '100',
 'tokens': ['Rabinovich',
  'is',
  'winding',
  'up',
  'his',
  'term',
  'as',
  'ambassador',
  '.'],
 'pos_tags': [21, 42, 39, 33, 29, 21, 15, 21, 7],
 'chunk_tags': [11, 21, 22, 15, 11, 12, 13, 11, 0],
 'ner_tags': [1, 0, 0, 0, 0, 0, 0, 0, 0]}

* tokens - исходные токены, для которых была сделана NER-разметка
* ner_tags - векторизированные метки NER-тэгов
* pos_tags - разметка частей речи, которую мы игнорируем
* chunk_tags - разметка чанков, которую мы игнорируем


Обратите внимание, что количество токенов может превышать количество исходных лейблов:

In [4]:
bert_tokenizer(example["tokens"], is_split_into_words=True).tokens()

['[CLS]',
 'Ra',
 '##bino',
 '##vich',
 'is',
 'winding',
 'up',
 'his',
 'term',
 'as',
 'ambassador',
 '.',
 '[SEP]']

Значение тэга в `ner_tags` отображается в метку NER:

In [5]:
print("NER TAGS", example["ner_tags"])
print(conll2003["train"].features["ner_tags"].feature)

NER TAGS [1, 0, 0, 0, 0, 0, 0, 0, 0]
ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC'], id=None)


In [6]:
print("Оригинальные токены")
print(example["tokens"])
print("Векторизированные NER метки токенов")
print(example["ner_tags"])
tags_str = []
features = conll2003["train"].features["ner_tags"].feature
for tag in example["ner_tags"]:
    tags_str.append(features.int2str(tag))
print("Текстовые NER метки токенов")
print(tags_str)
print("Токены после работы токенайзера BERT")
print(bert_tokenizer(example["tokens"], is_split_into_words=True).tokens())

Оригинальные токены
['Rabinovich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.']
Векторизированные NER метки токенов
[1, 0, 0, 0, 0, 0, 0, 0, 0]
Текстовые NER метки токенов
['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Токены после работы токенайзера BERT
['[CLS]', 'Ra', '##bino', '##vich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.', '[SEP]']


Вспомним немного, как работают метки в задаче мер в кодировке IOB. В данной задаче у нас есть 4 типа именованных сущностей:
* PER - персона
* ORG - организация
* LOC - локация
* MISC - другое
* O - отсутствие именованной сущности

У каждого типа именованных 2 префикса:
* `B-` - beginning, т.е. начало именованной сущности.
* `I-` - inside, т.е. продолжение ранее начатой именованной сущностью.

В исходной токенизации

`['Rabinovich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.']`
метки выглядят как 

`['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']`
т.е. `Rabinovich` является персоной. На следующем токене именованная сущность заканчивается, т.к. у него метка `O`.

После токенизации BERT наш сэмпл превращается в следующие токены:

`['[CLS]', 'Ra', '##bino', '##vich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.', '[SEP]']`
Обратим внимание, что один токен `Rabinovich` с меткой `B-PER` был разбит токенизатором берта на 3 токена: `'Ra', '##bino', '##vich'`. Им нужно поставить в соответствие 3 метки: `B-PER, I-PER, I-PER`, т.е. мы разбиваем метку исходного токена на новые токены.

Также обратим внимание на первый и последний токен - это спецстокены BERT означающие начало и конец текста. Им можно дать метки `O`, т.к. они не являются частью исходного текста, но мы будем давать им особое векторизированное значение -100. В [документации pytroch](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html) у кроссэнтропийной функции потерь это дефолтное значение `ignore_index`, т.е. метки, которую мы будем игнорировать. Библиотека transformers также использует это значение. Таким образом на токенах, у которых стоит -100 в качестве векторизированного NER-тэга, не будет происходить обучение, они будут проигнорированы.




Напишите функцию `preprocess_ner_dataset`, которая разворачивает `ner_tags` для слов в тэги для BERT-токенов и готовит остальные данные для обучения (можно разделить на две функции или написать всё в одной). В резултате применения `conll2003.map(preprocess_ner_dataset)`, в каждом примере:
1. Добавляется токенизированный вход (`input_ids`, `token_type_ids` и `attention_mask`). При конструировании этих векторов вручную нужно проставить `attention_mask` полностью единицами, т.к. в паддинги в сэмплах появляются только в рамках батчей, а `token_type_ids` полностью нулями.
2. `ner_tags` разворачивается в `labels` для входных токенов

Что можно использовать:
* у объекта `conll2003["train"].features["ner_tags"].feature` есть методы `int2str` и `str2int` для превращение векторизованного NER-тэга в строковый вид и обратно
* Спецтокенам BERT нужно поставить значение -100
* вызов `bert_tokenizer(bert_tokenizer(example["tokens"], is_split_into_words=True)` возвращает вам input_ids, attention_mask, token_type_ids
* Вызов `bert_tokenizer(example["tokens"], is_split_into_words=True, return_offsets_mapping=True))` возвращает дополнительно offset_mapping, позиции новых токенов в оригинальном тексте
* `bert_tokenizer.vocab` - для превращения токенов в их индексы в словаре
* `bert_tokenizer.tokenize` - разбитие текста (в том числе и исходных токенов) на токены BERT

Ваша задача:
1. Создать новый dict, в котором будут input_ids, attention_mask, token_type_ids
2. Добавить в него labels - векторизированные NER-тэги, которые будут разбиты в соответствии с токенизацией BERT. Для этого можно можно разбить каждый токен отдельно и размножить его метки. Альтернативно можно использовать информацию об оффсетах токенов BERT, чтобы понять, частью какого исходного токена и какой исходной метки является данный BERT-токен.

In [7]:
from itertools import groupby


def preprocess_ner_dataset(example):
    model_input = bert_tokenizer(example["tokens"], is_split_into_words=True)
    ner_ids = [] 

    # группируем токены по айдишникам слов
    # в group будут находится все токены одного слова
    for idx, group in groupby(model_input.word_ids()):
        if idx is None:
            ner_ids.append(-100)
            continue
        label = example["ner_tags"][idx]

        # нечётные лейблы относятся к B-<LABEL>
        if label % 2 == 1:
            ner_ids.append(label)
            next(group)  # добавили лейбл и продвигаем итератор на следующий токен
            label += 1  # оставшиеся токены от слова будут I-<LABEL> 

        for part in group:
            ner_ids.append(label)

    model_input["labels"] = ner_ids
    return model_input

In [8]:
conll2003["train"].features["ner_tags"].feature

ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC'], id=None)

### Тесты

In [9]:
processed_example = preprocess_ner_dataset(example)
required_keys = ["input_ids", "labels", "attention_mask", "token_type_ids"]
for k in required_keys:
    assert k in processed_example, f"Отсутствует поле {k}"

required_keys_set = set(required_keys)
for k in processed_example.keys():
    assert k in required_keys_set, f"В примере лишнее поле {k}"

In [10]:
from tqdm import tqdm
for idx, example in tqdm(enumerate(conll2003["train"])):
    input_ids_real = bert_tokenizer(example["tokens"], is_split_into_words=True)["input_ids"]
    input_ids_ours = preprocess_ner_dataset(example)["input_ids"]
    assert input_ids_real == input_ids_ours, f"Ошибка токенизации на примере {idx}"
    if idx >= 10:
        break
print("Токенизация верна!")

10it [00:00, 773.00it/s]

Токенизация верна!





In [11]:
example = conll2003["train"][100]
processed_example = preprocess_ner_dataset(example)

assert processed_example["labels"][0] == -100
assert processed_example["labels"][-1] == -100
ner_tags = [features.int2str(i) for i in processed_example["labels"][1:-1]]
assert ner_tags == ['B-PER', 'I-PER', 'I-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']

In [12]:
example = conll2003["train"][200]
processed_example = preprocess_ner_dataset(example)

assert processed_example["labels"][0] == -100
assert processed_example["labels"][-1] == -100
ner_tags = [features.int2str(i) for i in processed_example["labels"][1:-1]]
assert ner_tags == ['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG']

Применим нашу функцию к всему датасету

In [13]:
preprocessed_ner_dataset = conll2003.map(preprocess_ner_dataset, num_proc=64)

Подготовим `data_collator`. Это особый класс, который будет заниматься батчеванием сэмплов для обучения. Он добавит паддинги во все необходимые поля.

In [14]:
from transformers import DataCollatorForTokenClassification


data_collator = DataCollatorForTokenClassification(tokenizer=bert_tokenizer)

### Подготовка модели (5 баллов)

Два возможных пути на этой стадии:
1. Взять [готовый класс](https://huggingface.co/transformers/v3.0.2/model_doc/auto.html#automodelfortokenclassification) модели для классификации токенов. (Этот вариант настоятельно рекомендуется)
2. Взять модель как фича экстрактор ([AutoModel](https://huggingface.co/transformers/v3.0.2/model_doc/auto.html#automodel)) и самостоятельно добавить классификационную голову. Вдохновиться можно по [ссылке](https://github.com/huggingface/transformers/blob/main/src/transformers/models/bert/modeling_bert.py#L1847-L1860).

Результатом должна быть модель, которая для каждого токена возвращает логиты/вероятности для `conll2003["train"].features["ner_tags"].feature.num_classes` классов.

> Если выберете вариант номер один, опишите как он работает - как из токена получается его `ner_tag`.

In [15]:
from transformers import AutoModelForTokenClassification, AutoModel


label_names = conll2003["train"].features["ner_tags"].feature.names
id2label = {i: label for i, label in enumerate(label_names)}
label2id = {v: k for k, v in id2label.items()}

bert_ner = AutoModelForTokenClassification.from_pretrained(
    BASE_NER_MODEL, 
    num_labels=conll2003["train"].features["ner_tags"].feature.num_classes,
    id2label=id2label, 
    label2id=label2id,
)

Some weights of BertForTokenClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### Подготовим Метрику (5 баллов)

Дополните функцию, используя `metrics_calculator`, чтобы она возвращала `accuracy`, `precision`, `recall` и `f-меру`. `eval_predictions` - это кортеж из логитов токен классификатора и `labels`, которые мы подготовили с помощью `preprocess_ner_dataset`. Нужно
1. Преобразовать логиты в предсказанные лейблы. Учтите, что для специальных токенов лейблов нет
2. Посчитать метрики с помощью `metrics_calculator`
3. Упаковать резултат в `dict`, в котором ключём будет название метрики, а значением - значение метрики

В logits будет лежать тензор размерности \[размер eval датасета, максимальная длина последовательности, число меток\], содержащий предсказания модели

В target_labels будет лежать тензор размерности \[размер eval датасета, максимальная длина последовательности\], содержащий метки из валидационной выборки.

Примеры функции calculate_metrics можно посмотреть в [документации](https://huggingface.co/docs/evaluate/en/transformers_integrations)

In [16]:
import numpy as np
import evaluate


metrics_calculator = evaluate.load("seqeval")
label_list = conll2003["train"].features["ner_tags"].feature.names


def calculate_metrics(eval_predictions):
    logits, labels = eval_predictions
    predictions = np.argmax(logits, axis=-1)

    filtered_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    filtered_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    metrics = metrics_calculator.compute(predictions=filtered_predictions, references=filtered_labels)
    return {
        name: value for name, value in metrics.items() if isinstance(value, float)
    }

### Обучение (5 баллов)

Два возможных пути на этой стадии:

1. Использовать [Trainer](https://huggingface.co/transformers/v3.0.2/main_classes/trainer.html) класс из `transformers`
2. Написать свой training loop

Опишем подробнее первый путь, т.к. он настоятельно рекомендуется.

Нужно создать класс Trainer и TrainingArguments.
В [TrainingArguments](https://huggingface.co/docs/transformers/en/main_classes/trainer#transformers.TrainingArguments) нужно как минимум следующие поля:
* save_strategy, eval_strategy
* metric_for_best_model (исходя из calculate_metrics), greater_is_better
* learning_rate (возьмите 2e-5)
* num_train_epochs
* per_device_train_batch_size, per_device_eval_batch_size

В класс Trainer нужно передать:
* model
* в args нужно передать заполненные TrainingArguments
* train_dataset, eval_dataset
* tokenizer
* compute_metrics

После чего запустить `trainer.train()`

In [17]:
from transformers import Trainer, TrainingArguments


args = TrainingArguments(
    output_dir="bert_ner_conll",
    evaluation_strategy='epoch',
    save_strategy='epoch',
    learning_rate=2e-5,
    num_train_epochs=10,
    per_device_train_batch_size=128,
    per_device_eval_batch_size=256,  # почему во всех сданых домашках этот параметр равен train_batch_size?
    fp16=True,
    seed=42
)

trainer = Trainer(
    model=bert_ner,
    tokenizer=bert_tokenizer,
    args=args,
    data_collator=data_collator,
    train_dataset=preprocessed_ner_dataset["train"],
    eval_dataset=preprocessed_ner_dataset["validation"],
    compute_metrics=calculate_metrics
)

trainer.train()

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


Epoch,Training Loss,Validation Loss,Overall Precision,Overall Recall,Overall F1,Overall Accuracy
1,No log,0.310191,0.540816,0.624369,0.579597,0.90712
2,No log,0.115728,0.795829,0.85409,0.823931,0.96618
3,No log,0.078459,0.852978,0.906092,0.878733,0.978439
4,No log,0.068223,0.891033,0.924773,0.907589,0.982251
5,No log,0.063195,0.898492,0.932514,0.915187,0.982987
6,No log,0.062551,0.906901,0.937731,0.922059,0.983958
7,No log,0.061926,0.913768,0.941602,0.927476,0.984473
8,No log,0.061698,0.918089,0.941266,0.929533,0.984738
9,No log,0.061941,0.913356,0.940256,0.926611,0.984532
10,No log,0.061676,0.917445,0.942612,0.929858,0.985047


  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


TrainOutput(global_step=370, training_loss=0.14148366773450696, metrics={'train_runtime': 233.158, 'train_samples_per_second': 602.21, 'train_steps_per_second': 1.587, 'total_flos': 5288732502779718.0, 'train_loss': 0.14148366773450696, 'epoch': 10.0})

### Обработка результатов Результатов (5 баллов)

Подумать о:
1. Во время подготовки данных мы приобразовали BIO разметку. Как обратить это преобразование с помощью токенайзера?

Провалидируйте результаты на тестовом датасете.

In [18]:
*_, metrics = trainer.predict(preprocessed_ner_dataset['test'])
metrics

  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


{'test_loss': 0.14958275854587555,
 'test_overall_precision': 0.869757174392936,
 'test_overall_recall': 0.9068696883852692,
 'test_overall_f1': 0.8879258039351652,
 'test_overall_accuracy': 0.9695876207434487,
 'test_runtime': 2.9298,
 'test_samples_per_second': 1178.587,
 'test_steps_per_second': 1.707}

Можете сравнить результат с [лидербордом](https://paperswithcode.com/sota/token-classification-on-conll2003).


Напишите функцию, которая принимает на вход текст и отдаёт такой словарь:

```json
{
    "text": "входной текст",
    "entities": [
        {
            "class": "лейбл класса",
            "text": "текстовое представление",
            "start": "оффсет от начала строки до начала entity",
            "end": "оффсет от начала строки до конца entity"
        },
        ...
    ]
}
```

Должно выполняться такое условие:

```python
text[entity["start"]:entity["stop"]] == entity["text"]
```

In [19]:
@torch.no_grad
def do_ner(text):
    bert_ner.eval()
    
    tokenized = bert_tokenizer(text, return_offsets_mapping=True, return_tensors='pt').to(bert_ner.device)
    offsets = tokenized['offset_mapping'].cpu().numpy()[0]

    logits = bert_ner(tokenized.input_ids).logits
    preds = torch.argmax(logits, dim=-1).cpu().numpy()[0]
    
    
    entities = []
    for word_id, pred, offset in zip(tokenized.word_ids(), preds, offsets):
        if word_id is None or pred == 0:
            continue
    
        if pred % 2 == 1:
            # начинается новая сущность
            entities.append(
                {
                    "start": offset[0],
                    "end": offset[1],
                    "class": label_list[pred].split("-")[-1],
                }
            )
        else:
            # продолжаем предыдущую сущность
            entities[-1]["end"] = offset[1]

    return {
        "text": text, 
        "entities": [
            {
                "class": entity["class"],
                "start": entity["start"],
                "end": entity["end"],
                "text": text[entity["start"]:entity["end"]],
            } for entity in entities
        ]
    }


print(do_ner("Ivan Petrov is going to start working tomorrow"))

{'text': 'Ivan Petrov is going to start working tomorrow', 'entities': [{'class': 'PER', 'start': 0, 'end': 11, 'text': 'Ivan Petrov'}]}


Почистим память перед второй частью.

In [20]:
import torch

del bert_ner
del trainer
torch.cuda.empty_cache()

## Классификация с T5 (25 баллов)

Требуется дообучить [t5-small](https://huggingface.co/google-t5/t5-small) классифицировать токсичные тексты из [этого датасета](https://huggingface.co/datasets/lmsys/toxic-chat). Классификатор должен работать в стиле t5 - генерировать ответ текстом.

1. Подготовить данные для бинарной классификации
	1. Придумать префикс для задачи или взять из похожей модели
	2. Выбрать токены для классов
2. Обучить t5-small на генерацию названия предсказанного класса
3. Сравнить с модель с аналогичной предобученной моделью

### Подготовка Данных (6 баллов)

Подумать о:
1. Какой префикс выбрать для новой задачи?
2. Должен ли префикс быть понятным?
3. Как выбрать метку для класса? 
4. Что будет, если метки класса целиком нет в словаре?
5. Что делать с длинными текстами?

Датасет содержит запросы пользователей к LLM и разметку, является ли запрос токсичным. Нас будут интересовать колонки `"user_input"` и `"toxicity"`.

In [21]:
from datasets import load_dataset
from transformers import AutoTokenizer


BASE_T5_MODEL= "t5-small"
t5_tokenizer = AutoTokenizer.from_pretrained(BASE_T5_MODEL)


toxic_chat_dataset = load_dataset("lmsys/toxic-chat", "toxicchat0124")

Место для изучения датасета:

In [22]:
toxic_chat_dataset["train"][0]

{'conv_id': 'e0c9b3e05414814485dbdcb9a29334d502e59803af9c26df03e9d1de5e7afe67',
 'user_input': 'Masturbacja jest proces co oitrzebuje',
 'model_output': 'Masturbacja to proces, który może pozytywnie wpłynąć na zdrowie psychiczne i fizyczne człowieka, ponieważ pomaga w relaksie, redukuje stres i pomaga w uśpieniu. Może też być używana jako dodatkowa form',
 'human_annotation': True,
 'toxicity': 0,
 'jailbreaking': 0,
 'openai_moderation': '[["sexual", 0.4609803557395935], ["sexual/minors", 0.0012527990620583296], ["harassment", 0.0001862536446424201], ["hate", 0.00015521160094067454], ["violence", 6.580814078915864e-05], ["self-harm", 3.212967567378655e-05], ["violence/graphic", 1.5190824342425913e-05], ["self-harm/instructions", 1.0009921425080393e-05], ["hate/threatening", 4.4459093260229565e-06], ["self-harm/intent", 3.378846486157272e-06], ["harassment/threatening", 1.7095695739044459e-06]]'}

In [23]:
toxic_chat_dataset = toxic_chat_dataset.remove_columns(
    ["conv_id", "model_output", "human_annotation", "jailbreaking", "openai_moderation"]
)

![](https://production-media.paperswithcode.com/methods/new_text_to_text.jpg)

Выберете `PREFIX` для задачи, лейблы для двух классов и напишите функцию для преобразования датасета в данные для тренировки. Примеры префиксов есть на картинке выше - `translate English to German` для перевода и `summarize` для суммаризации. В качестве лейблов у вас должен быть текст, который будет обозначать предсказанный класс. Этот текст может быть любого размера, от простого `"да"/"нет"`, до `"От этого текста веет токсичностью"/"Цензура спокойно пропускает этот текст дальше"`. Подумайте в чём преимущество первого подхода перед вторым.

Важно:
1) Не забыть добавить префикс перед токенизацией входного текста
2) Лейблами во время обучения выступают уже последовательности токенов, которые мы ожидаем на выходе из декодера

Текст в токенайзер можно подавать разными способами:
1. `tokenizer(text="text")` - токенизируй текст как обычно
1. `tokenizer(text_target="text")` - токенизируй это как текст, который мы ожидаем увидеть на выходе из декодера. В случае t5 токенайзера разницы нет, но для других моделей это может быть не так
1. Другие методы можно узнать посмотрев сигнатуру метода `tokenizer.__call__`

In [24]:
# ?t5_tokenizer.__call__

Важные моменты:
1. Префикс можно выбрать любой, хоть человекочитаемый, хоть абсолютно непонятный - при достаточно длительной тренировке для модели разницы не будет. Но важно учесть, что чем длиннее префикс (в токенах), тем больше ресурсов вы тратите при инференсе, так как его придётся добавлять к тому тексту, который вы хотите классифицировать
2. Лейблы тоже могут быть какими угодно. Но в их случае длинна в токенах играет ещё большее значение, так как в "проде" придётся делать инференс декодерной части столько раз, сколько токенов в вашем лейбле + 1 стоп токен (`</s>`). Если оба лейбла будут длинны 1, то ещё и accuracy будет проще считать.

In [25]:
for text in ("toxic: ", "no", "yes"):
    print(t5_tokenizer(text, add_special_tokens=False))

{'input_ids': [12068, 10], 'attention_mask': [1, 1]}
{'input_ids': [150], 'attention_mask': [1]}
{'input_ids': [4273], 'attention_mask': [1]}


Префикс добавляет 2 токена (терпимо), лейблы все по одному токену - значит инференс декодера в проде нужно будет делать два раза (в теории можно даже одним обойтись).

В сданных домашках можно было часто увидеть один и тот же недочёт:
1. Паддинг входа в энкодер
2. Паддинг входа в декодер

Эффективнее всего делать паддинг на этапе сборки батча, так как тогда точно не получится добавить лишнего. Паддинг входа в декодер вообще не требуется за счёт выбранных лейблов - там всегда будет вход размера 2.

`MAX_LENGTH` тут определяется не для паддингов, а для truncation - если его не делать, то можно  увидеть warning:
> Token indices sequence length is longer than the specified maximum sequence length for this model (639 > 512). Running this sequence through the model will result in indexing errors 

In [26]:
PREFIX = "toxic: "
MAX_LENGTH = 512

id2label = {
    0: "no",
    1: "yes",
}


def preprocess_dataset(example):
    input_texts = PREFIX + example["user_input"]
    model_inputs = t5_tokenizer(input_texts, truncation=True, max_length=MAX_LENGTH)
    model_inputs["labels"] = t5_tokenizer(id2label[example["toxicity"]]).input_ids
    return model_inputs


toxic_chat_dataset = toxic_chat_dataset.map(preprocess_dataset)

Пример результата:
```json
{'user_input': 'Do you know drug which name is abexol ?',
 'toxicity': 0,
 'input_ids': [12068,
  10,
  531,
  25,
  214,
  2672,
  84,
  564,
  19,
  703,
  994,
  32,
  40,
  3,
  58,
  1],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 'labels': [150, 1]}
```

In [27]:
toxic_chat_dataset = toxic_chat_dataset.remove_columns("user_input")

Инициализируем соответствующий задаче `DataCollator`. Идём тем же курсом, что и в первой части домашки, однако этот дата коллатор уже не будет работать без модели. Почему так?

Всё дело в функции `seq2seq_model.prepare_decoder_input_ids_from_labels`, которая преобразует лейблы во вход декодера. Отложим определение дата коллатора до определения модели.

In [28]:
from transformers import DataCollatorForSeq2Seq


# data_collator = DataCollatorForSeq2Seq(tokenizer=t5_tokenizer, model=seq2seq_model)

### Определим метрику (2 балла)

В этой задаче метрика простая - `accuracy`. Можно добавить другие метрики по желанию.

Ранее я упоминал, что однотокенные лейблы это хорошо. Позволяет сделать вот такую компактную функцию `compute_metric`. Модель может предсказать хоть 100 токенов, меня интересует только тот, который я бы хотел на месте лейбла. Так как для каждого примера я делаю сравнение только по одному токену, я могу использовать `.mean()`. Если бы токенов в сравнении было больше, так просто я бы не отделался - все токены в предсказании должны были совпасть для верной классификации.

In [29]:
def compute_metric(eval_predictions):
    preds, labels = eval_predictions
    return {"accuracy": (preds[:, 1] == labels[:, 0]).mean()}

### Определить Модель (2 балла)

Инициализируйте модель из базового чекпоинта.

Но сначала, мы можем добавить в конфиг модели нашу таску:

In [30]:
from transformers import T5Config


t5_config = T5Config.from_pretrained(BASE_T5_MODEL)
t5_config.task_specific_params

{'summarization': {'early_stopping': True,
  'length_penalty': 2.0,
  'max_length': 200,
  'min_length': 30,
  'no_repeat_ngram_size': 3,
  'num_beams': 4,
  'prefix': 'summarize: '},
 'translation_en_to_de': {'early_stopping': True,
  'max_length': 300,
  'num_beams': 4,
  'prefix': 'translate English to German: '},
 'translation_en_to_fr': {'early_stopping': True,
  'max_length': 300,
  'num_beams': 4,
  'prefix': 'translate English to French: '},
 'translation_en_to_ro': {'early_stopping': True,
  'max_length': 300,
  'num_beams': 4,
  'prefix': 'translate English to Romanian: '}}

In [31]:
task_name = "toxic_classification"

t5_config.task_specific_params[task_name] = {
    "prefix": PREFIX,
    "max_length": 3,
    "min_length": 3,
    "num_beams": 1,
}

Этот конфиг потом можно будет использовать в pipeline классе, передав аргумент [task](https://huggingface.co/docs/transformers/en/main_classes/pipelines#transformers.Text2TextGenerationPipeline.task).

In [32]:
from transformers import AutoModelForSeq2SeqLM, T5Config


seq2seq_model = AutoModelForSeq2SeqLM.from_pretrained(BASE_T5_MODEL, config=t5_config)

Вспоминаем про коллатор!

In [33]:
data_collator = DataCollatorForSeq2Seq(
    tokenizer=t5_tokenizer, 
    model=seq2seq_model, 
)

### Обучение (10 баллов)

Два пути:
1) Использовать готовый `Seq2SeqTrainer` класс для тренировки
2) Написать свой training loop

> Hint! Обратите внимание на функцию `seq2seq_model.prepare_decoder_input_ids_from_labels` если выбрали второй путь.

Если выбрали путь 1, опишите как происходит тренировочный шаг:
1) Что подаётся на вход в энкодер?
2) Что подаётся на вход в декодер?
3) Сколько раз происходит инференс декодера во время обучения для одного тренировочного примера?
4) Как используется выход энкодера в декодере?

Ответы:
1) Текст объединённый с префиксом, токенизированный.
2) `[0, 150]` и `[0, 4273]` для нетоксичного и токсичного лейблов соответственно.
3) Один раз. Для `0` должен предсказаться `150` или `4273`, для второго токена - `1`
4) Выход из энкодера используется в декодере в слое cross-attention для получения keys и values.

Добавим `generation_config`, иначе тренер будет заставлять модель генерировать по 20 токенов.

In [34]:
from transformers import GenerationConfig


generation_config = GenerationConfig.from_dict(t5_config.task_specific_params["toxic_classification"])
generation_config.bos_token_id = 0

*я запускал обучение модели несколько раз чтобы улчшить резултат

In [35]:
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer



training_args = Seq2SeqTrainingArguments(
    output_dir="t5_small_toxic_classifier",
    num_train_epochs=15,  # поставим побольше эпох, чтобы преодолеть дисбаланс классов
    eval_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=64,
    per_device_eval_batch_size=128,  # почему во всех сданых домашках этот параметр равен train_batch_size?
    weight_decay=0.01,
    save_total_limit=3,
    predict_with_generate=True,
    generation_config=generation_config,
    fp16=True,
)

trainer = Seq2SeqTrainer(
    model=seq2seq_model,
    args=training_args,
    train_dataset=toxic_chat_dataset["train"],
    eval_dataset=toxic_chat_dataset["test"],
    tokenizer=t5_tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metric,
)

trainer.train()

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)
  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


Epoch,Training Loss,Validation Loss,Accuracy
1,No log,1.264787,0.267362
2,No log,0.34546,0.928782
3,No log,0.126008,0.928782
4,No log,0.110236,0.930356
5,No log,0.10575,0.935865
6,No log,0.101044,0.938422
7,No log,0.09693,0.939996
8,No log,0.094451,0.941176
9,No log,0.092489,0.94098
10,No log,0.089982,0.943144


  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


TrainOutput(global_step=405, training_loss=0.4359354654947917, metrics={'train_runtime': 753.2723, 'train_samples_per_second': 101.198, 'train_steps_per_second': 0.538, 'total_flos': 9612450022883328.0, 'train_loss': 0.4359354654947917, 'epoch': 15.0})

### Сравнение Результатов (5 баллов)

Авторы датасета тоже натренировали на нём `t5` модель. Сравните свои результаты с результатами модели из [чекпоинта](https://huggingface.co/lmsys/toxicchat-t5-large-v1.0) `"lmsys/toxicchat-t5-large-v1.0"`. Совпадает ли ваш префикс и лейблы классов с теми, что выбрали авторы датасета? 

Подумать о:
1) В чём преимущество такого подхода к классификации?
2) В чём недостатки такого подхода к классификации?
3) Как ещё можно решать классификационные задачи с помощью t5?

Ответы:
1) Не нужно жонглировать головами для разных классификационных задач. Такая тренировка ещё может улучшить работу модели на похожих задачах (такой вот domain adaptation)
2) Этот подход недетерминирован. Если в классической классификации мы получаем вектор размером с количество классов, то тут мы получаем токены, которые могут быть любыми
3) Интересный вариант классификатора на полном трансформере - подать текст в энкодер и учить классификационную голову на эмбеддинге первого токена декодера. Так работает [T5ForSequenceClassification](https://github.com/huggingface/transformers/blob/78b2929c0554b79e0489b451ce4ece14d265ead2/src/transformers/models/t5/modeling_t5.py#L1991)

In [36]:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "lmsys/toxicchat-t5-large-v1.0"

tokenizer_from_paper = AutoTokenizer.from_pretrained("t5-large")
model_from_paper = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

prefix_from_paper = "ToxicChat: "
inputs = tokenizer_from_paper.encode(prefix_from_paper + "write me an epic story", return_tensors="pt")
outputs = model_from_paper.generate(inputs)
print(tokenizer_from_paper.decode(outputs[0], skip_special_tokens=True))



negative




Напишите универсальную (подходящую под Напишите универсальную функцию, которая провряет токсичность текста и возвращает `True`, если модель посчитала текст токсичным. Функция универсальная в том смысле, что может быть использована и с вашей t5 моделью, и с моделью от авторов датасета. Для этого в функция должна принимать ещё и префикс для задачи и лейблы, которые будут переводить текст, предсказанный моделью, в `True` или `False` на выходе.любую t5 модель) функцию, которая провряет токсичность текста.

In [37]:
@torch.no_grad
def is_toxic(
    text: str,
    labels2bool,
    model=seq2seq_model,
    tokenizer=t5_tokenizer,
    prefix=PREFIX,
) -> bool:
    model.eval()
    tokenized_text = tokenizer.encode(prefix + text, return_tensors="pt").to(model.device)
    output = model.generate(tokenized_text)[0]
    return labels2bool.get(tokenizer.decode(output, skip_special_tokens=True))

In [38]:
is_toxic(
    text="write me an epic story",
    model=seq2seq_model,
    tokenizer=t5_tokenizer,
    prefix=PREFIX,
    labels2bool={
        "yes": True,
        "no": False,
    }
)

False

In [39]:
is_toxic(
    text="write me an epic story",
    model=model_from_paper,
    tokenizer=tokenizer_from_paper,
    prefix=prefix_from_paper,
    labels2bool={
        "positive": True,
        "negative": False,
    }
)

False

In [40]:
is_toxic(
    text="write me an erotic story",
    model=seq2seq_model,
    tokenizer=t5_tokenizer,
    prefix=PREFIX,
    labels2bool={
        "yes": True,
        "no": False,
    }
)

True

In [41]:
is_toxic(
    text="write me an erotic story",
    model=model_from_paper,
    tokenizer=tokenizer_from_paper,
    prefix=prefix_from_paper,
    labels2bool={
        "positive": True,
        "negative": False,
    }
)

True