# Практика "NER с BERT и классификация с T5"


In [2]:
!pip install -U pip
!pip install datasets==2.14.6 transformers  torch seqeval evaluate

Collecting pip
  Downloading pip-25.3-py3-none-any.whl.metadata (4.7 kB)
Downloading pip-25.3-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m38.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
Successfully installed pip-25.3
Collecting datasets==2.14.6
  Downloading datasets-2.14.6-py3-none-any.whl.metadata (19 kB)
Collecting seqeval
  Downloading seqeval-1.2.2.tar.gz (43 kB)
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Collecting dill<0.3.8,>=0.3.0 (from datasets==2.14.6)
  Downloading dill-0.3.7-py3-


## NER c BERT

Наша задача:

1. Взять датасет conll2003 и обучить на нём BERT.
3. Оценить результат

### Подготовка данных

Подумать о:
1) Как subword токенизация повлияет на BIO разметку?
2) Что делать с `[CLS]` и `[SEP]` токенами? (Проверьте что использует `DataCollatorForTokenClassification`)

> Hint! Токенайзер умеет работать с предразделёнными на "слова" текстами

In [None]:
from datasets import load_dataset
from transformers import AutoTokenizer


BASE_NER_MODEL = "bert-base-cased"
bert_tokenizer = AutoTokenizer.from_pretrained(BASE_NER_MODEL)

conll2003 = load_dataset("tner/conll2003")
conll2003

In [4]:
example = conll2003["train"][100]
example

{'tokens': ['Rabinovich',
  'is',
  'winding',
  'up',
  'his',
  'term',
  'as',
  'ambassador',
  '.'],
 'tags': [3, 0, 0, 0, 0, 0, 0, 0, 0]}

* tokens - исходные токены, для которых была сделана NER-разметка
* tags - векторизированные метки NER-тэгов
* pos_tags - разметка частей речи, которую мы игнорируем
* chunk_tags - разметка чанков, которую мы игнорируем

Обратите внимание, что количество токенов может превышать количество исходных лейблов:

In [5]:
bert_tokenizer(example["tokens"], is_split_into_words=True).tokens()

['[CLS]',
 'Ra',
 '##bino',
 '##vich',
 'is',
 'winding',
 'up',
 'his',
 'term',
 'as',
 'ambassador',
 '.',
 '[SEP]']

Значение тэга в tags отображается в метку NER:

In [6]:
print("NER TAGS", example["tags"])
print(conll2003["train"].features["tags"].feature)

NER TAGS [3, 0, 0, 0, 0, 0, 0, 0, 0]
Value(dtype='int32', id=None)


In [7]:
conll2003["train"].features["tags"].feature

Value(dtype='int32', id=None)

In [8]:
print("Оригинальные токены")
print(example["tokens"])
print("Векторизированные NER метки токенов")
print(example["tags"])

label_names = [
  "O",
  "B-ORG",
  "B-MISC",
  "B-PER",
  "I-PER",
  "B-LOC",
  "I-ORG",
  "I-MISC",
  "I-LOC"
]

tags_str = []
features = conll2003["train"].features["tags"].feature
for tag in example["tags"]:
    tags_str.append(label_names[tag])
print("Текстовые NER метки токенов")
print(tags_str)
print("Токены после работы токенайзера BERT")
print(bert_tokenizer(example["tokens"], is_split_into_words=True).tokens())

Оригинальные токены
['Rabinovich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.']
Векторизированные NER метки токенов
[3, 0, 0, 0, 0, 0, 0, 0, 0]
Текстовые NER метки токенов
['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Токены после работы токенайзера BERT
['[CLS]', 'Ra', '##bino', '##vich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.', '[SEP]']


Вспомним немного, как работают метки в задаче мер в кодировке BIO. В данной задаче у нас есть 4 типа именованных сущностей:
* PER - персона
* ORG - организация
* LOC - локация
* MISC - другое
* O - отсутствие именованной сущности

У каждого типа именованных 2 префикса:
* `B-` - beginning, т.е. начало именованной сущности.
* `I-` - inside, т.е. продолжение ранее начатой именованной сущностью.

В исходной токенизации

`['Rabinovich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.']`
метки выглядят как

`['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']`
т.е. `Rabinovich` является персоной. На следующем токене именованная сущность заканчивается, т.к. у него метка `O`.

После токенизации BERT наш сэмпл превращается в следующие токены:

`['[CLS]', 'Ra', '##bino', '##vich', 'is', 'winding', 'up', 'his', 'term', 'as', 'ambassador', '.', '[SEP]']`
Обратим внимание, что один токен `Rabinovich` с меткой `B-PER` был разбит токенизатором берта на 3 токена: `'Ra', '##bino', '##vich'`. Им нужно поставить в соответствие 3 метки: `B-PER, I-PER, I-PER`, т.е. мы разбиваем метку исходного токена на новые токены.

Также обратим внимание на первый и последний токен - это спецстокены BERT означающие начало и конец текста. Им можно дать метки `O`, т.к. они не являются частью исходного текста, но мы будем давать им особое векторизированное значение -100. В [документации pytroch](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html) у кроссэнтропийной функции потерь это дефолтное значение `ignore_index`, т.е. метки, которую мы будем игнорировать. Библиотека transformers также использует это значение. Таким образом на токенах, у которых стоит -100 в качестве векторизированного NER-тэга, не будет происходить обучение, они будут проигнорированы.




Напишите функцию `preprocess_ner_dataset`, которая разворачивает `tags` для слов в тэги для BERT-токенов и готовит остальные данные для обучения (можно разделить на две функции или написать всё в одной). В резултате применения `conll2003.map(preprocess_ner_dataset)`, в каждом примере:
1. Добавляется токенизированный вход (`input_ids`, `token_type_ids` и `attention_mask`). При конструировании этих векторов вручную нужно проставить `attention_mask` полностью единицами, т.к. в паддинги в сэмплах появляются только в рамках батчей, а `token_type_ids` полностью нулями.
2. `tags` разворачивается в `labels` для входных токенов

Что можно использовать:
* у объекта `conll2003["train"].features["tags"].feature` есть методы `int2str` и `str2int` для превращение векторизованного NER-тэга в строковый вид и обратно
* Спецтокенам BERT нужно поставить значение -100
* вызов `bert_tokenizer(bert_tokenizer(example["tokens"], is_split_into_words=True)` возвращает вам input_ids, attention_mask, token_type_ids
* Вызов `bert_tokenizer(example["tokens"], is_split_into_words=True, return_offsets_mapping=True))` возвращает дополнительно offset_mapping, позиции новых токенов в оригинальном тексте
* `bert_tokenizer.vocab` - для превращения токенов в их индексы в словаре
* `bert_tokenizer.tokenize` - разбитие текста (в том числе и исходных токенов) на токены BERT

Ваша задача:
1. Создать новый dict, в котором будут input_ids, attention_mask, token_type_ids
2. Добавить в него labels - векторизированные NER-тэги, которые будут разбиты в соответствии с токенизацией BERT. Для этого можно можно разбить каждый токен отдельно и размножить его метки. Альтернативно можно использовать информацию об оффсетах токенов BERT, чтобы понять, частью какого исходного токена и какой исходной метки является данный BERT-токен.

In [9]:
example

{'tokens': ['Rabinovich',
  'is',
  'winding',
  'up',
  'his',
  'term',
  'as',
  'ambassador',
  '.'],
 'tags': [3, 0, 0, 0, 0, 0, 0, 0, 0]}

In [10]:
def preprocess_ner_dataset(example):
    tokenized = bert_tokenizer(example["tokens"], is_split_into_words=True)

    word_ids = tokenized.word_ids()
    labels = []
    prev_word_id = None
    for word_id in word_ids:
      if word_id is None:
        labels.append(-100)
      else:
        word_label = label_names[example['tags'][word_id]]
        if word_id != prev_word_id:
          labels.append(word_label)
        else:
          if word_label == "O":
            labels.append("O")
          elif word_label[0] == "I":
            labels.append(word_label)
          elif word_label[0] == "B":
            labels.append("I-" + word_label[2:])
      prev_word_id = word_id

    labels = [label_names.index(label) if isinstance(label, str) else label for label in labels]

    return {
        "input_ids": tokenized["input_ids"],
        "token_type_ids": tokenized["token_type_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": labels
    }

Пример получившегося выхода:
```python
>>> preprocessed_ner_dataset["train"][100]
{'id': '100',
 'tokens': ['Rabinovich',
  'is',
  'winding',
  'up',
  'his',
  'term',
  'as',
  'ambassador',
  '.'],
 'pos_tags': [21, 42, 39, 33, 29, 21, 15, 21, 7],
 'chunk_tags': [11, 21, 22, 15, 11, 12, 13, 11, 0],
 'tags': [1, 0, 0, 0, 0, 0, 0, 0, 0],
 'input_ids': [101,
  16890,
  25473,
  11690,
  1110,
  14042,
  1146,
  1117,
  1858,
  1112,
  9088,
  119,
  102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 'labels': [-100, 1, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, -100]}
```

### Тесты

In [11]:
processed_example = preprocess_ner_dataset(example)
required_keys = ["input_ids", "labels", "attention_mask", "token_type_ids"]
for k in required_keys:
    assert k in processed_example, f"Отсутствует поле {k}"

required_keys_set = set(required_keys)
for k in processed_example.keys():
    assert k in required_keys_set, f"В примере лишнее поле {k}"

In [12]:
from tqdm import tqdm
for idx, example in tqdm(enumerate(conll2003["train"])):
    input_ids_real = bert_tokenizer(example["tokens"], is_split_into_words=True)["input_ids"]
    input_ids_ours = preprocess_ner_dataset(example)["input_ids"]
    assert input_ids_real == input_ids_ours, f"Ошибка токенизации на примере {idx}"
    if idx >= 100:
        break
print("Токенизация верна!")

100it [00:00, 506.16it/s]

Токенизация верна!





In [13]:
example = conll2003["train"][100]
processed_example = preprocess_ner_dataset(example)

assert processed_example["labels"][0] == -100
assert processed_example["labels"][-1] == -100
tags = [label_names[i] for i in processed_example["labels"][1:-1]]
assert tags == ['B-PER', 'I-PER', 'I-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']

In [14]:
example = conll2003["train"][200]
processed_example = preprocess_ner_dataset(example)

assert processed_example["labels"][0] == -100
assert processed_example["labels"][-1] == -100
tags = [label_names[i] for i in processed_example["labels"][1:-1]]
assert tags == ['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG']

Применим нашу функцию к всему датасету:

In [15]:
preprocessed_ner_dataset = conll2003.map(preprocess_ner_dataset)

Map:   0%|          | 0/14041 [00:00<?, ? examples/s]

Map:   0%|          | 0/3250 [00:00<?, ? examples/s]

Map:   0%|          | 0/3453 [00:00<?, ? examples/s]

In [16]:
def preprocess_ner_dataset(example):
    tokenized = bert_tokenizer(
        example["tokens"],
        is_split_into_words=True,
        truncation=True
      )

    word_ids = tokenized.word_ids()
    labels = []

    prev_word_id = None
    for word_id in word_ids:
      if word_id is None:
        labels.append(-100)
      elif word_id != prev_word_id:
        labels.append(label_names[example['tags'][word_id]])
      else:
        labels.append(-100)
      prev_word_id = word_id

    return {
        "input_ids": tokenized["input_ids"],
        "token_type_ids": tokenized["token_type_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": labels
    }

Подготовим `data_collator`. Это особый класс, который будет заниматься батчеванием сэмплов для обучения. Он добавит паддинги во все необходимые поля.

In [17]:
from transformers import DataCollatorForTokenClassification


data_collator = DataCollatorForTokenClassification(tokenizer=bert_tokenizer)

### Подготовка модели

Два возможных пути на этой стадии:
1. Взять [готовый класс](https://huggingface.co/transformers/v3.0.2/model_doc/auto.html#automodelfortokenclassification) модели для классификации токенов. (Этот вариант настоятельно рекомендуется)
2) Взять модель как фича экстрактор ([AutoModel](https://huggingface.co/transformers/v3.0.2/model_doc/auto.html#automodel)) и самостоятельно добавить классификационную голову. Вдохновиться можно по [ссылке](https://github.com/huggingface/transformers/blob/main/src/transformers/models/bert/modeling_bert.py#L1847-L1860)

Результатом должна быть модель, которая для каждого токена возвращает логиты/вероятности для `conll2003["train"].features["tags"].feature.num_classes` классов.

In [18]:
from transformers import AutoModelForTokenClassification

num_labels = len(label_names)
id2label = {i: label for i, label in enumerate(label_names)}
label2id = {label: i for i, label in enumerate(label_names)}

model = AutoModelForTokenClassification.from_pretrained(
    BASE_NER_MODEL,
    num_labels=num_labels,
    id2label=id2label,
    label2id=label2id
)

model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

Some weights of BertForTokenClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### Подготовим Метрику

Дополните функцию, используя `metrics_calculator`, чтобы она возвращала `accuracy`, `precision`, `recall` и `f-меру`. `eval_predictions` - это кортеж из логитов токен классификатора и `labels`, которые мы подготовили с помощью `preprocess_ner_dataset`. Нужно:
1. Преобразовать логиты в предсказанные лейблы. Учтите, что для специальных токенов лейблов нет
2. Посчитать метрики с помощью `metrics_calculator`
3. Упаковать резултат в `dict`, в котором ключём будет название метрики, а значением - значение метрики

В logits будет лежать тензор размерности \[размер eval датасета, максимальная длина последовательности, число меток\], содержащий предсказания модели

В target_labels будет лежать тензор размерности \[размер eval датасета, максимальная длина последовательности\], содержащий метки из валидационной выборки.

Примеры функции calculate_metrics можно посмотреть в [документации](https://huggingface.co/docs/evaluate/en/transformers_integrations)

In [19]:
import evaluate


metrics_calculator = evaluate.load("seqeval")


def calculate_metrics(eval_predictions):
    logits, target_labels = eval_predictions
    predictions = logits.argmax(axis=-1)

    predictions_list = []
    references_list = []
    for i in range(logits.shape[0]):
      sentence_prediction = []
      sentence_reference = []
      for j in range(logits.shape[1]):
        if target_labels[i][j] == -100:
          continue
        else:
          sentence_prediction.append(id2label[predictions[i][j]])
          sentence_reference.append(id2label[target_labels[i][j]])
      predictions_list.append(sentence_prediction)
      references_list.append(sentence_reference)

    return metrics_calculator.compute(
        predictions=predictions_list,
        references=references_list
    )


Downloading builder script: 0.00B [00:00, ?B/s]

### Обучение

Два возможных пути на этой стадии:

1. Использовать [Trainer](https://huggingface.co/docs/transformers/main_classes/trainer) класс из `transformers`
2. Написать свой training loop.

Опишем подробнее первый путь, т.к. он настоятельно рекомендуется.

Нужно создать класс Trainer и TrainingArguments.
В [TrainingArguments](https://huggingface.co/docs/transformers/en/main_classes/trainer#transformers.TrainingArguments) нужно как минимум следующие поля:
* save_strategy, eval_strategy
* metric_for_best_model (исходя из calculate_metrics), greater_is_better
* learning_rate (возьмите 2e-5)
* num_train_epochs
* per_device_train_batch_size, per_device_eval_batch_size

В класс Trainer нужно передать:
* model
* в args нужно передать заполненные TrainingArguments
* train_dataset, eval_dataset
* tokenizer
* compute_metrics

После чего запустить `trainer.train()`

In [20]:
from transformers import Trainer, TrainingArguments

trainer_args = TrainingArguments(
    eval_strategy="epoch",
    save_strategy="epoch",
    metric_for_best_model="overall_f1",
    greater_is_better=True,
    learning_rate=2e-5,
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8
)

trainer = Trainer(
    model=model,
    args=trainer_args,
    train_dataset=preprocessed_ner_dataset["train"],
    eval_dataset=preprocessed_ner_dataset["validation"],
    tokenizer=bert_tokenizer,
    compute_metrics=calculate_metrics,
    data_collator=data_collator
)

trainer.train()

  trainer = Trainer(
  | |_| | '_ \/ _` / _` |  _/ -_)
[34m[1mwandb[0m: (1) Create a W&B account
[34m[1mwandb[0m: (2) Use an existing W&B account
[34m[1mwandb[0m: (3) Don't visualize my results
[34m[1mwandb[0m: Enter your choice:

 3


[34m[1mwandb[0m: You chose "Don't visualize my results"


Epoch,Training Loss,Validation Loss,Loc,Misc,Org,Per,Overall Precision,Overall Recall,Overall F1,Overall Accuracy
1,0.075,0.064103,"{'precision': 0.9356040447046301, 'recall': 0.9569951007076756, 'f1': 0.946178686759957, 'number': 1837}","{'precision': 0.7938775510204081, 'recall': 0.8438177874186551, 'f1': 0.818086225026288, 'number': 922}","{'precision': 0.8753541076487252, 'recall': 0.9217002237136466, 'f1': 0.8979295314202688, 'number': 1341}","{'precision': 0.9465811965811965, 'recall': 0.9619978284473398, 'f1': 0.9542272482498654, 'number': 1842}",0.902491,0.933019,0.917501,0.982894
2,0.0353,0.07096,"{'precision': 0.9544468546637744, 'recall': 0.9580838323353293, 'f1': 0.95626188535724, 'number': 1837}","{'precision': 0.8743343982960596, 'recall': 0.8904555314533622, 'f1': 0.8823213326168726, 'number': 922}","{'precision': 0.9015544041450777, 'recall': 0.9082774049217002, 'f1': 0.9049034175334324, 'number': 1341}","{'precision': 0.9455212152959664, 'recall': 0.9799131378935939, 'f1': 0.9624100239936018, 'number': 1842}",0.927354,0.943117,0.935169,0.98456
3,0.0203,0.06448,"{'precision': 0.9598698481561823, 'recall': 0.9635274904735982, 'f1': 0.9616951915240424, 'number': 1837}","{'precision': 0.8731656184486373, 'recall': 0.903470715835141, 'f1': 0.8880597014925373, 'number': 922}","{'precision': 0.9022611232676878, 'recall': 0.9224459358687547, 'f1': 0.9122418879056048, 'number': 1341}","{'precision': 0.9619098712446352, 'recall': 0.9733984799131379, 'f1': 0.9676200755531571, 'number': 1842}",0.933698,0.947997,0.940793,0.986185


Trainer is attempting to log a value of "{'precision': 0.9356040447046301, 'recall': 0.9569951007076756, 'f1': 0.946178686759957, 'number': 1837}" of type <class 'dict'> for key "eval/LOC" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.
Trainer is attempting to log a value of "{'precision': 0.7938775510204081, 'recall': 0.8438177874186551, 'f1': 0.818086225026288, 'number': 922}" of type <class 'dict'> for key "eval/MISC" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.
Trainer is attempting to log a value of "{'precision': 0.8753541076487252, 'recall': 0.9217002237136466, 'f1': 0.8979295314202688, 'number': 1341}" of type <class 'dict'> for key "eval/ORG" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.
Trainer is attempting to log a value of "{'precision': 0.9465811965811965, 'recall': 0.9619978284473398, 

TrainOutput(global_step=5268, training_loss=0.06561176090776331, metrics={'train_runtime': 3687.7098, 'train_samples_per_second': 11.423, 'train_steps_per_second': 1.429, 'total_flos': 965529651799170.0, 'train_loss': 0.06561176090776331, 'epoch': 3.0})

### Обработка результатов Результатов

Подумать о:
1) Во время подготовки данных мы преобразовали BIO разметку. Как обратить это преобразование с помощью токенайзера?

Провалидируйте результаты на тестовом датасете.

In [21]:
outputs = trainer.predict(preprocessed_ner_dataset["test"])
outputs.metrics

{'test_loss': 0.1754576712846756,
 'test_LOC': {'precision': 0.9101057579318449,
  'recall': 0.9286570743405276,
  'f1': 0.9192878338278933,
  'number': 1668},
 'test_MISC': {'precision': 0.7343550446998723,
  'recall': 0.8190883190883191,
  'f1': 0.7744107744107744,
  'number': 702},
 'test_ORG': {'precision': 0.8653957250144425,
  'recall': 0.9018663455749548,
  'f1': 0.8832547169811321,
  'number': 1661},
 'test_PER': {'precision': 0.9541227526348419,
  'recall': 0.9517625231910947,
  'f1': 0.9529411764705883,
  'number': 1617},
 'test_overall_precision': 0.8854005832904444,
 'test_overall_recall': 0.9137747875354107,
 'test_overall_f1': 0.8993639452818681,
 'test_overall_accuracy': 0.9733161656972872,
 'test_runtime': 11.0098,
 'test_samples_per_second': 313.629,
 'test_steps_per_second': 39.238}

Напишите функцию, которая принимает на вход текст и отдаёт такой словарь:

```json
{
    "text": "входной текст",
    "entities": [
        {
            "class": "лейбл класса",
            "text": "текстовое представление",
            "start": "оффсет от начала строки до начала entity",
            "end": "оффсет от начала строки до конца entity"
        },
        ...
    ]
}

Должно выполняться такое условие:

```python
text[entity["start"]:entity["stop"]] == entity["text"]
```

In [None]:
import torch

@torch.no_grad()
def do_ner(text):
    tokenized = bert_tokenizer(
        text,
        return_offsets_mapping=True,
        return_tensors="pt"
    ).to(model.device)

    model.eval()
    logits = model(
        input_ids=tokenized.input_ids,
        attention_mask=tokenized.attention_mask
    ).logits
    preds = logits.argmax(dim=-1)

    word_ids = tokenized.word_ids()
    word_labels = {}
    word_spans = {}
    prev_word_id = None
    for i in range(preds.shape[1]):
      if word_ids[i] is None:
        continue
      elif word_ids[i] != prev_word_id:
        word_labels[word_ids[i]] = preds[0][i]
        word_spans[word_ids[i]] = tokenized['offset_mapping'][0][i]
      else:
        word_spans[word_ids[i]] = word_spans[word_ids[i]][0], tokenized['offset_mapping'][0][i][1]
      prev_word_id = word_ids[i]

    current_entity = None
    entities = []
    for i in sorted(word_labels.keys()):
      text_label = id2label[word_labels[i].item()]
      if text_label.startswith("B-"):
        if current_entity:
          entities.append(current_entity.copy())
        current_entity = {
          "class": text_label[2:],
          "start": word_spans[i][0].item(),
          "end": word_spans[i][1].item()
        }
      elif text_label.startswith("I-") and current_entity:
        if current_entity["class"] == text_label[2:]:
          current_entity["end"] = word_spans[i][1].item()
        else:
          entities.append(current_entity.copy())
          current_entity = None
      elif text_label == "O" and current_entity:
        entities.append(current_entity.copy())
        current_entity = None

    if current_entity:
      entities.append(current_entity.copy())

    for entity in entities:
      entity["text"] = text[entity["start"]:entity["end"]]

    return {
        "text": text,
        "entities": entities
    }

print(do_ner("Ivan and Dima is going to start working tomorrow"))

## Классификация с T5

Требуется дообучить [t5-small](https://huggingface.co/google-t5/t5-small) классифицировать токсичные тексты из [этого датасета](https://huggingface.co/datasets/lmsys/toxic-chat). Классификатор должен работать в стиле t5 - генерировать ответ текстом.

1. Подготовить данные для бинарной классификации
	1. Придумать префикс для задачи или взять из похожей модели
	2. Выбрать тексты для обозначения классов
2. Обучить t5-small на генерацию выбранных названия классов
3. Сравнить с модель с аналогичной предобученной моделью

### Подготовка Данных

Подумать о:
1) Какой префикс выбрать для новой задачи?
2) Должен ли префикс быть понятным?
3) Как выбрать метку для класса?
4) Что будет, если метки класса целиком нет в словаре?
5) Что делать с длинными текстами?

Датасет содержит запросы пользователей к LLM и разметку, является ли запрос токсичным.

In [None]:
from datasets import load_dataset
from transformers import AutoTokenizer


BASE_T5_MODEL= "t5-small"
t5_tokenizer = AutoTokenizer.from_pretrained(BASE_T5_MODEL)


toxic_chat_dataset = load_dataset("lmsys/toxic-chat", "toxicchat0124")

Место для изучения датасета:

In [None]:
toxic_chat_dataset["train"][0]

Нас будут интересовать колонки `"user_input"` и `"toxicity"`. Убираем ненужные колонки из датасета:

In [None]:
toxic_chat_dataset = toxic_chat_dataset.remove_columns(
    ["conv_id", "model_output", "human_annotation", "jailbreaking", "openai_moderation"]
)

![](https://production-media.paperswithcode.com/methods/new_text_to_text.jpg)

Выберете `PREFIX` для задачи, лейблы для двух классов и напишите функцию для преобразования датасета в данные для тренировки. Примеры префиксов - `translate English to German` для перевода и `summarize` для суммаризации. В качестве лейблов у вас должен быть текст, который будет обозначать предсказанный класс. Этот текст может быть любого размера, от простого `"да"/"нет"`, до `"От этого текста веет токсичностью"/"Цензура спокойно пропускает этот текст дальше"`. Подумайте в чём преимущество первого подхода перед вторым.

Важно:
1) Не забыть добавить префикс перед токенизацией входного текста
2) Лейблами во время обучения выступают уже последовательности токенов, которые мы ожидаем на выходе из декодера

Текст в токенайзер можно подавать разными способами:
1. `tokenizer(text="text")` - токенизируй текст как обычно
1. `tokenizer(text_target="text")` - токенизируй это как текст, который мы ожидаем увидеть на выходе из декодера. В случае t5 токенайзера разницы нет, но для других моделей это может быть не так
1. Другие методы можно узнать посмотрев сигнатуру метода `tokenizer.__call__`

In [None]:
# ?t5_tokenizer.__call__

In [None]:
PREFIX = ...
MAX_LENGTH = ...

# словарь из индексов классов в выбранные лейблы
id2label = {
    0: ...,
    1: ...,
}


def preprocess_dataset(example):
    ...


toxic_chat_dataset = toxic_chat_dataset.map(preprocess_dataset)

Пример результата:
```json
{'user_input': 'Do you know drug which name is abexol ?',
 'toxicity': 0,
 'input_ids': [12068,
  10,
  531,
  25,
  214,
  2672,
  84,
  564,
  19,
  703,
  994,
  32,
  40,
  3,
  58,
  1],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 'labels': [150, 1]}
```
Значения в `'labels'` в вашем случае могут отличаться, это зависит от выбранного вами текстового представления в `id2label` словаре.

Инициализируем соответствующий задаче `DataCollator`.

In [None]:
from transformers import DataCollatorForSeq2Seq


data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=seq2seq_model)

### Определим метрику

В этой задаче метрика простая - `accuracy`. Можно добавить другие метрики по желанию. Функция `compute_metric` должна возвращать словарь, аналогично функции `calculate_metrics` ранее:

```json
{
    "accuracy": значение точности,
    ...
}
```

Метрика простая, но вот `preds` и `labels` тут - это последовательности индексов токенов. Нужно это учесть.

In [None]:
def compute_metric(eval_predictions):
    preds, labels = eval_predictions
    ...


def check_compute_metric():
    import torch

    # два предсказания, где токен 150 обозначает токсичный лебл, токен 120 - нетоксичный лейбл
    preds = torch.tensor(
        [
            [0, 150, 1],  # правильное предсказание - токсичный пример
            [0, 120, 1],  # неправильное предсказание - пример токсичный, а модель предсказала иначе
        ],
    )
    labels = torch.tensor(
        [
            [150, 1],
            [150, 1],
        ],
    )
    assert torch.isclose(
        compute_metric((preds, labels))["accuracy"],
        torch.tensor(0.5, dtype=torch.double),  # тип тензора тут можно поправить
    )


check_compute_metric()

### Определить Модель

Инициализируйте модель из базового чекпоинта

In [None]:
from transformers import AutoModelForSeq2SeqLM


seq2seq_model = AutoModelForSeq2SeqLM.from_pretrained(BASE_T5_MODEL)

### Обучение

Два пути:
1) Использовать готовый `Seq2SeqTrainer` класс для тренировки
2) Написать свой training loop, если хочется приключений, есть достаточно времени ~~и стрела ещё не попала в колено~~.

> Hint! Обратите внимание на функцию `seq2seq_model._shift_right` если выбрали второй путь.

Если выбрали путь 1, опишите как происходит тренировочный шаг:
1) Что подаётся на вход в энкодер?
2) Что подаётся на вход в декодер?
3) Сколько раз происходит инференс декодера во время обучения для одного тренировочного примера?
4) Как используется выход энкодера в декодере?

In [None]:
# from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer



### Сравнение Результатов

Авторы датасета тоже натренировали на нём `t5` модель. Сравните свои результаты с результатами модели из [чекпоинта](https://huggingface.co/lmsys/toxicchat-t5-large-v1.0) `"lmsys/toxicchat-t5-large-v1.0"`. Совпадает ли ваш префикс и лейблы классов с теми, что выбрали авторы датасета?

Подумать о:
1) В чём преимущество такого подхода к классификации?
2) В чём недостатки такого подхода к классификации?
3) Как ещё можно решать классификационные задачи с помощью t5?

In [None]:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "lmsys/toxicchat-t5-large-v1.0"

tokenizer_from_paper = AutoTokenizer.from_pretrained("t5-large")
model_from_paper = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

prefix_from_paper = "ToxicChat: "
inputs = tokenizer_from_paper.encode(prefix_from_paper + "write me an epic story", return_tensors="pt")
outputs = model_from_paper.generate(inputs)
print(tokenizer_from_paper.decode(outputs[0], skip_special_tokens=True))

Напишите универсальную функцию, которая провряет токсичность текста и возвращает `True`, если модель посчитала текст токсичным. Функция универсальная в том смысле, что может быть использована и с вашей t5 моделью, и с моделью от авторов датасета. Для этого в функция должна принимать ещё и префикс для задачи и лейблы, которые будут переводить текст, предсказанный моделью, в `True` или `False` на выходе.

In [None]:
def is_toxic(
    text: str,
    labels2bool,
    model=seq2seq_model,
    tokenizer=t5_tokenizer,
    prexif=PREFIX,
) -> bool:
    ...


# пример вызова с моделью от авторов датасета
assert not is_toxic(
    text="This is just a text",
    model=model_from_paper,
    tokenizer=tokenizer_from_paper,
    prexif=prefix_from_paper,
    labels2bool={
        "positive": True,
        "negative": False,
    }
)