### Baseline модель для определения именованных сущностей по кейсу от Rutube.
Поскольку нам нужно распознать нестандартные NER, можно воспользоваться помощью языковых моделей, в данном случае - Bert.
Данные вы уже получили  - это разметка, сделанная на Толоке, она не идеальна, но это часть практической задачи, с которой можно столкнуться в реальности. 

Небольшое введение в NER https://habr.com/ru/companies/contentai/articles/449514/

In [1]:
# считаем данные
import pandas as pd
data = pd.read_csv("../ner_data_train.csv")

In [2]:
data.head(5)

Unnamed: 0,video_info,entities
0,<НАЗВАНИЕ:> Агент 117: Из Африки с любовью — Р...,"{""label"":""локация""\,""offset"":26\,""length"":6\,""..."
1,<НАЗВАНИЕ:> Коленвал Инфинити Ку икс 56= 5.6 V...,"{""label"":""организация""\,""offset"":196\,""length""..."
2,<НАЗВАНИЕ:> ВЫЗОВ ДЕМОНА = Вызвал Серого Челов...,"{""label"":""название проекта""\,""offset"":12\,""len..."
3,<НАЗВАНИЕ:> Довоенная немецкая кирха в Калинин...,"{""label"":""не найдено""\,""offset"":162\,""length"":..."
4,"<НАЗВАНИЕ:> ""Спартаку"" помогли судьи? Локомоти...","{""label"":""команда""\,""offset"":13\,""length"":8\,""..."


In [3]:
# данные спарсены с Толоки, поэтому могут иметь проблемы с символами и их нужно избежать, 
# удалить лишние '\' например, преобразовать из str в список dict-ов
import json
df = data.copy()
df['entities'] = df['entities'].apply(lambda l: l.replace('\,', ',')if isinstance(l, str) else l)
df['entities'] = df['entities'].apply(lambda l: l.replace('\\\\', '\\')if isinstance(l, str) else l)
df['entities'] = df['entities'].apply(lambda l: '[' + l + ']'if isinstance(l, str) else l)
df['entities'] = df['entities'].apply(lambda l: json.loads(l)if isinstance(l, str) else l)

In [4]:
df.head(3)

Unnamed: 0,video_info,entities
0,<НАЗВАНИЕ:> Агент 117: Из Африки с любовью — Р...,"[{'label': 'локация', 'offset': 26, 'length': ..."
1,<НАЗВАНИЕ:> Коленвал Инфинити Ку икс 56= 5.6 V...,"[{'label': 'организация', 'offset': 196, 'leng..."
2,<НАЗВАНИЕ:> ВЫЗОВ ДЕМОНА = Вызвал Серого Челов...,"[{'label': 'название проекта', 'offset': 12, '..."


#### Оригинал туториала на медицинских данных можно посмотреть тут https://gist.github.com/avidale/cacf235aebeaaf4c578389e1146c3c57

In [5]:
# Теперь из наших данных нам нужно извлечь для каждого слова (токена) его тег (label) из разметки, чтобы потом предать в модель классификации токенов
from razdel import tokenize

def extract_labels(item):
    
    # воспользуемся удобным токенайзером из библиотеки razdel, 
    # она помимо разбиения на слова, сохраняет важные для нас числа - начало и конец слова в токенах
    
    raw_toks = list(tokenize(item['video_info']))
    words = [tok.text for tok in raw_toks]
    # присвоим для начала каждому слову тег 'О' - тег, означающий отсутствие NER-а
    word_labels = ['O'] * len(raw_toks)
    char2word = [None] * len(item['video_info'])
    # так как NER можем состаять из нескольких слов, то нам нужно сохранить эту инфорцию
    for i, word in enumerate(raw_toks):
        char2word[word.start:word.stop] = [i] * len(word.text)

    labels = item['entities']
    if isinstance(labels, dict):
        labels = [labels]
    if labels is not None:
        for e in labels:
            if e['label'] != 'не найдено':
                e_words = sorted({idx for idx in char2word[e['offset']:e['offset']+e['length']] if idx is not None})
                if e_words:
                    word_labels[e_words[0]] = 'B-' + e['label']
                    for idx in e_words[1:]:
                        word_labels[idx] = 'I-' + e['label']
                else:
                    continue
            else:
                continue
        return {'tokens': words, 'tags': word_labels}
    else: return {'tokens': words, 'tags': word_labels}

In [6]:
print(extract_labels(df.iloc[0]))

{'tokens': ['<', 'НАЗВАНИЕ', ':', '>', 'Агент', '117', ':', 'Из', 'Африки', 'с', 'любовью', '—', 'Русский', 'тизер', '=', 'трейлер', '(', '2021', ')', '<', 'ОПИСАНИЕ', ':', '>', 'Лучший', 'Telegram', 'канал', 'о', 'кино', '<', 'LINK', '>', 'Сотрудничество', '<', 'LINK', '>', 'Дата', 'выхода', '26', 'августа', '2021', 'Оригинальное', 'название', ':', 'OSS', '117', ':', 'Alerte', 'rouge', 'en', 'Afrique', 'noire', 'Страна', ':', 'Франция', 'Режиссер', ':', 'Николя', 'Бедос', 'Жанр', ':', 'боевик', ',', 'комедия', 'В', 'главных', 'ролях', ':', 'Жан', 'Дюжарден', ',', 'Пьер', 'Нинэ', ',', 'Мелоди', 'Каста', ',', 'Наташа', 'Линдинжер', ',', 'Владимир', 'Иорданов', ',', 'Фату', 'Н', '’', 'Диайе', ',', 'Пол', 'Уайт', 'Мир', 'изменился', '.', 'Он', 'нет', '.', 'Судьба', 'заносит', 'легендарного', 'Агента', '117', 'в', 'Африку', ',', 'где', 'горячее', 'пустыни', 'только', 'женщины', '.', 'Вооруженный', 'неиссякаемой', 'уверенностью', 'в', 'себе', 'и', 'убийственной', 'харизмой', ',', 'он', 'мож

### Обработаем датасет и разобьем на трейн и тест

In [7]:
from sklearn.model_selection import train_test_split
ner_data = [extract_labels(item) for i, item in df.iterrows()]
ner_train, ner_test = train_test_split(ner_data, test_size=0.2, random_state=1)

In [8]:
import pandas as pd
pd.options.display.max_colwidth = 300
pd.DataFrame(ner_train).sample(3)

Unnamed: 0,tokens,tags
2025,"[<, НАЗВАНИЕ, :, >, Ты, умеешь, хранить, секреты, ?, /, Can, You, Keep, a, Secret, ?, (, 2019, ), Русский, трейлер, <, ОПИСАНИЕ, :, >, В, кино, с, 3, октября, 2019, Страна, :, США, Режиссер, :, Элиз, Дюран, Жанр, :, комедия, В, главных, ролях, :, Александра, Даддарио, ,, Тайлер, Хэклин, У, каждо...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, B-Дата, B-Дата, B-Дата, O, O, B-локация, O, O, B-персона, B-персона, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O..."
1239,"[<, НАЗВАНИЕ, :, >, Что, ?, Где, ?, Когда, ?, Первая, игра, Летней, серии, ., Выпуск, от, 17.05.2003, <, ОПИСАНИЕ, :, >, Летняя, серия, «, Что, ?, Где, ?, Когда, ?, », 2003, года, состоит, из, 4, игр, ., Первые, 3, игры, серии, –, отборочные, ,, четвёртая, игра, –, Финал, серии, ., Играет, коман...","[O, O, O, O, B-название проекта, I-название проекта, I-название проекта, I-название проекта, I-название проекта, O, O, O, B-лига, I-лига, O, O, O, B-Дата, O, O, O, O, B-лига, I-лига, O, B-название проекта, I-название проекта, I-название проекта, I-название проекта, I-название проекта, O, O, B-Да..."
3400,"[<, НАЗВАНИЕ, :, >, Песня, ДЕНЬ, ВСЕМОРСКИЙ, ОСЬМИНОГА, ., Первые, впечатления, ,, г, ., Новосибирск, .., mp, 4, <, ОПИСАНИЕ, :, >, Творческий, комплекс, МОРСКАЯ, СКАЗКА, ., Впечатления, после, встречи, с, песней, ДЕНЬ, ВСЕМОРСКИЙ, ОСЬМИНОГА, ., Виктория, ,, г, ., Новосибирск, Услышать, фрагмент...","[O, O, O, O, O, O, O, O, O, O, O, O, B-локация, I-локация, I-локация, O, O, O, O, O, O, O, O, O, B-название проекта, I-название проекта, O, O, O, O, O, O, O, O, O, O, O, O, B-локация, I-локация, I-локация, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."


#### Посмотрим на получившиеся теги
Подробнее почитать про BIO теги можно тут https://datascience.stackexchange.com/questions/63399/what-is-bio-tags-for-creating-custom-ner-named-entity-recognization

In [9]:
label_list = sorted({label for item in ner_train for label in item['tags']})
if 'O' in label_list:
    label_list.remove('O')
    label_list = ['O'] + label_list
label_list

['O',
 'B-Дата',
 'B-бренд',
 'B-вид спорта',
 'B-видеоигра',
 'B-команда',
 'B-лига',
 'B-локация',
 'B-модель',
 'B-название проекта',
 'B-организация',
 'B-персона',
 'B-сезон',
 'B-серия',
 'I-Дата',
 'I-бренд',
 'I-вид спорта',
 'I-видеоигра',
 'I-команда',
 'I-лига',
 'I-локация',
 'I-модель',
 'I-название проекта',
 'I-организация',
 'I-персона',
 'I-сезон',
 'I-серия']

In [10]:
from datasets import Dataset, DatasetDict

  from .autonotebook import tqdm as notebook_tqdm


In [11]:
ner_data = DatasetDict({
    'train': Dataset.from_pandas(pd.DataFrame(ner_train)),
    'test': Dataset.from_pandas(pd.DataFrame(ner_test))
})
ner_data

DatasetDict({
    train: Dataset({
        features: ['tokens', 'tags'],
        num_rows: 5137
    })
    test: Dataset({
        features: ['tokens', 'tags'],
        num_rows: 1285
    })
})

### Запустим модель RuBert-tiny - классический Bert, поверх которого навешен слой классификации токенов.

In [12]:
from transformers import AutoTokenizer 
from datasets import load_dataset, load_metric

model_checkpoint = "cointegrated/rubert-tiny"
batch_size = 16

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, device='cpu')

In [13]:
example = ner_train[5]
print(example["tokens"])

['<', 'НАЗВАНИЕ', ':', '>', 'Московский', 'международный', 'фестиваль', 'мира', '=', '89', 'и', 'Стас', 'Намин', '.', '«', 'Главный', 'день', '»', '<', 'ОПИСАНИЕ', ':', '>', '12', 'и', '13', 'июня', '1989', 'года', 'на', 'Центральном', 'стадионе', 'имени', 'В', '.', 'И', '.', 'Ленина', 'состоялся', 'первый', 'международный', 'рок', 'фестиваль', '.', 'Концерт', 'собрал', 'свыше', '100', 'тысяч', 'зрителей', '.', 'Советская', 'молодежь', 'тогда', 'увидела', 'и', 'услышала', 'признанных', 'мировых', 'кумиров', ':', 'Scorpions', ',', 'Bon', 'Jovi', ',', 'Ozzy', 'Osbourne', ',', 'Cinderella', ',', 'Motley', 'Crue', '.', 'Приезд', 'западных', 'звезд', 'казался', 'ожившей', 'фантастикой', '.', 'Фестиваль', 'стал', 'не', 'только', 'музыкальной', ',', 'но', 'и', 'важной', 'политической', 'акцией', '.', 'Вся', 'мировая', 'пресса', 'писала', 'о', 'том', ',', 'что', 'СССР', 'и', 'США', ',', 'долгое', 'время', 'находившиеся', 'в', 'состоянии', '"', 'холодной', 'войны', '"', ',', 'наконец', 'то', 'с

In [14]:
tokenized_input = tokenizer(example["tokens"], is_split_into_words=True)
tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
print(tokens)

['[CLS]', '<', 'Н', '##АЗ', '##В', '##АН', '##И', '##Е', ':', '>', 'Московский', 'между', '##народный', 'фестиваль', 'мира', '=', '89', 'и', 'С', '##тас', 'На', '##мин', '.', '«', 'Главный', 'день', '»', '<', 'О', '##П', '##И', '##С', '##АН', '##И', '##Е', ':', '>', '12', 'и', '13', 'июня', '1989', 'года', 'на', 'Центр', '##альном', 'стадион', '##е', 'имени', 'В', '.', 'И', '.', 'Ленина', 'состоялся', 'первый', 'между', '##народный', 'рок', 'фестиваль', '.', 'К', '##он', '##цер', '##т', 'со', '##брал', 'свыше', '100', 'тысяч', 'зрителей', '.', 'Советская', 'м', '##оло', '##де', '##ж', '##ь', 'тогда', 'у', '##вид', '##ела', 'и', 'у', '##сл', '##ыш', '##ала', 'признан', '##ных', 'мир', '##овых', 'к', '##уми', '##ров', ':', 'Sc', '##orp', '##ions', ',', 'Bon', 'Jovi', ',', 'Oz', '##zy', 'Os', '##bour', '##ne', ',', 'Ci', '##nder', '##ella', ',', 'Mot', '##ley', 'C', '##rue', '.', 'При', '##езд', 'запад', '##ных', 'зв', '##езд', 'каз', '##ался', 'о', '##жив', '##шей', 'ф', '##ант', '##аст'

In [15]:
len(example["tags"]), len(tokenized_input["input_ids"])

(170, 274)

In [16]:
print(tokenized_input.word_ids())

[None, 0, 1, 1, 1, 1, 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 9, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 18, 19, 19, 19, 19, 19, 19, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 29, 30, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 39, 40, 41, 42, 43, 43, 43, 43, 44, 44, 45, 46, 47, 48, 49, 50, 51, 51, 51, 51, 51, 52, 53, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 58, 58, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65, 65, 66, 66, 66, 67, 68, 68, 68, 69, 70, 70, 71, 71, 72, 73, 73, 74, 74, 75, 75, 76, 76, 77, 77, 77, 78, 78, 78, 78, 79, 80, 80, 80, 81, 82, 83, 84, 85, 86, 87, 88, 88, 89, 90, 90, 90, 91, 92, 92, 93, 93, 94, 94, 95, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 104, 105, 106, 106, 106, 107, 108, 109, 110, 110, 110, 111, 112, 113, 114, 115, 116, 117, 117, 117, 118, 118, 118, 118, 119, 120, 121, 121, 122, 123, 124, 124, 125, 125, 126, 126, 127, 127, 127, 128, 128, 129, 130, 130, 130, 130, 131, 132, 132, 133, 133, 134, 135, 136, 137, 137, 137, 138, 139, 139, 139, 140, 141, 142, 143, 144, 144, 144, 

In [17]:
word_ids = tokenized_input.word_ids()
aligned_labels = [-100 if i is None else example["tags"][i] for i in word_ids]
print(len(aligned_labels), len(tokenized_input["input_ids"]))

274 274


#### У Bert свой собсвенный токенайзер, который разбивает слова на мелкие токены, поэтому нам нужно корректно сопоставить токены и соответсвующие им неры.

In [18]:
def tokenize_and_align_labels(examples, label_all_tokens=True):
    tokenized_inputs = tokenizer(examples["tokens"], truncation=True, is_split_into_words=True)

    labels = []
    for i, label in enumerate(examples['tags']):
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            # Special tokens have a word id that is None. We set the label to -100 so they are automatically
            # ignored in the loss function.
            if word_idx is None:
                label_ids.append(-100)
            # We set the label for the first token of each word.
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])
            # For the other tokens in a word, we set the label to either the current label or -100, depending on
            # the label_all_tokens flag.
            else:
                label_ids.append(label[word_idx] if label_all_tokens else -100)
            previous_word_idx = word_idx

        label_ids = [label_list.index(idx) if isinstance(idx, str) else idx for idx in label_ids]

        labels.append(label_ids)

    tokenized_inputs["labels"] = labels
    return tokenized_inputs

In [19]:
tokenize_and_align_labels(ner_data['train'][1:2])

{'input_ids': [[2, 32, 293, 16218, 8117, 20795, 8759, 14386, 30, 34, 16992, 12449, 19314, 9147, 705, 19062, 1211, 2179, 15349, 603, 32, 294, 3932, 8759, 3330, 20795, 8759, 14386, 30, 34, 294, 18147, 5972, 2386, 1928, 733, 22970, 613, 17565, 29484, 15479, 12122, 18398, 13334, 1, 16992, 12449, 19314, 9147, 705, 19062, 1211, 2179, 15349, 603, 18, 282, 3200, 860, 20727, 12029, 4375, 29463, 2013, 2262, 18, 294, 15735, 29137, 320, 18029, 18398, 24952, 753, 705, 11316, 4307, 329, 22067, 12427, 283, 4297, 292, 29172, 3330, 1928, 705, 13790, 294, 22797, 1768, 10203, 761, 13951, 3243, 2535, 2641, 18, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [20]:
tokenized_datasets = ner_data.map(tokenize_and_align_labels, batched=True)

Map: 100%|██████████| 5137/5137 [00:02<00:00, 1917.13 examples/s]
Map: 100%|██████████| 1285/1285 [00:00<00:00, 2086.03 examples/s]


#### Сохраняем словарик соотвествия тега и его индекса внутри модели

In [21]:
from transformers import AutoModelForTokenClassification, TrainingArguments, Trainer

model = AutoModelForTokenClassification.from_pretrained(model_checkpoint, num_labels=len(label_list))
model.config.id2label = dict(enumerate(label_list))
model.config.label2id = {v: k for k, v in model.config.id2label.items()}

Some weights of BertForTokenClassification were not initialized from the model checkpoint at cointegrated/rubert-tiny and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [22]:
# Специальный объект для удобного формирования батчей
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer)

### В качестве метрик возьмем precision, recall, accuracy, для этого воспользуемся специализированной под Ner задачу библиотеку seqeval

In [23]:
metric = load_metric("seqeval")

  metric = load_metric("seqeval")


In [25]:
example = ner_train[4]
labels = example['tags']
metric.compute(predictions=[labels], references=[labels])

{'бренд': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 1},
 'локация': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 1},
 'overall_precision': 1.0,
 'overall_recall': 1.0,
 'overall_f1': 1.0,
 'overall_accuracy': 1.0}

In [26]:
args = TrainingArguments(
    "ner",
    evaluation_strategy = "epoch",
    learning_rate=1e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=20,
    weight_decay=0.01,
    save_strategy='no',
    report_to='none',
)

In [27]:
# что мы видим без дообучения модели
import numpy as np

def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=2)

    # Remove ignored index (special tokens)
    true_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    results = metric.compute(predictions=true_predictions, references=true_labels, zero_division=0)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.evaluate()

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


100%|██████████| 81/81 [01:04<00:00,  1.25it/s]


{'eval_loss': 3.4021172523498535,
 'eval_precision': 0.0047858415445587756,
 'eval_recall': 0.05929721815519766,
 'eval_f1': 0.00885685207458933,
 'eval_accuracy': 0.027968280784272867,
 'eval_runtime': 65.676,
 'eval_samples_per_second': 19.566,
 'eval_steps_per_second': 1.233}

In [2]:
pip install torch torchvision torchaudio

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [28]:
import logging
from transformers.trainer import logger as noisy_logger
noisy_logger.setLevel(logging.WARNING)

In [29]:
# Для дообучения берта можно эксперементировать с заморозкой/разморозкой разных слоев, здесь мы оставим все слои размороженными 
# Для быстроты обучения можно заморозить всю бертовую часть, кроме классификатора, но тогда качесвто будет похуже
for param in model.parameters():
    param.requires_grad = True

In [30]:
args = TrainingArguments(
    "ner",
    evaluation_strategy = "epoch",
    learning_rate=1e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=20,
    weight_decay=0.01,
    save_strategy='no',
    report_to='none',
)

In [31]:
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [32]:
trainer.train()

                                                    
  5%|▌         | 322/6440 [09:48<2:58:29,  1.75s/it]

{'eval_loss': 0.6199131608009338, 'eval_precision': 0.12106824925816023, 'eval_recall': 0.011487780155422908, 'eval_f1': 0.020984415985187476, 'eval_accuracy': 0.8719509699218183, 'eval_runtime': 68.741, 'eval_samples_per_second': 18.693, 'eval_steps_per_second': 1.178, 'epoch': 1.0}


  8%|▊         | 500/6440 [14:47<3:07:27,  1.89s/it] 

{'loss': 0.9286, 'learning_rate': 9.22360248447205e-06, 'epoch': 1.55}


                                                    
 10%|█         | 644/6440 [19:45<2:28:52,  1.54s/it]

{'eval_loss': 0.5690023303031921, 'eval_precision': 0.17555081734186212, 'eval_recall': 0.027818448023426062, 'eval_f1': 0.04802644370989695, 'eval_accuracy': 0.8768480238749986, 'eval_runtime': 68.7657, 'eval_samples_per_second': 18.687, 'eval_steps_per_second': 1.178, 'epoch': 2.0}


                                                       
 15%|█▌        | 966/6440 [41:58<2:47:59,  1.84s/it]

{'eval_loss': 0.5419862270355225, 'eval_precision': 0.21285714285714286, 'eval_recall': 0.050343507151706275, 'eval_f1': 0.08142818107295748, 'eval_accuracy': 0.8787904723275519, 'eval_runtime': 66.9559, 'eval_samples_per_second': 19.192, 'eval_steps_per_second': 1.21, 'epoch': 3.0}


 16%|█▌        | 1000/6440 [42:50<2:26:30,  1.62s/it]

{'loss': 0.5724, 'learning_rate': 8.4472049689441e-06, 'epoch': 3.11}


                                                     
 20%|██        | 1288/6440 [51:25<2:00:01,  1.40s/it]

{'eval_loss': 0.52366703748703, 'eval_precision': 0.24059067170898613, 'eval_recall': 0.0752336974884559, 'eval_f1': 0.11462399725451501, 'eval_accuracy': 0.8803831312120208, 'eval_runtime': 65.7769, 'eval_samples_per_second': 19.536, 'eval_steps_per_second': 1.231, 'epoch': 4.0}


 23%|██▎       | 1500/6440 [56:54<2:03:35,  1.50s/it] 

{'loss': 0.525, 'learning_rate': 7.670807453416149e-06, 'epoch': 4.66}


                                                     
 25%|██▌       | 1610/6440 [1:00:45<1:42:09,  1.27s/it]

{'eval_loss': 0.5062850713729858, 'eval_precision': 0.28682042833607907, 'eval_recall': 0.09804031985583962, 'eval_f1': 0.1461306026523418, 'eval_accuracy': 0.883010274138271, 'eval_runtime': 64.327, 'eval_samples_per_second': 19.976, 'eval_steps_per_second': 1.259, 'epoch': 5.0}


                                                        
 30%|███       | 1932/6440 [1:10:03<1:13:08,  1.03it/s]

{'eval_loss': 0.4914077818393707, 'eval_precision': 0.3171300149825204, 'eval_recall': 0.10727559409843451, 'eval_f1': 0.1603197980223017, 'eval_accuracy': 0.8844987403854383, 'eval_runtime': 64.2342, 'eval_samples_per_second': 20.005, 'eval_steps_per_second': 1.261, 'epoch': 6.0}


 31%|███       | 2000/6440 [1:11:48<1:50:35,  1.49s/it] 

{'loss': 0.5083, 'learning_rate': 6.894409937888199e-06, 'epoch': 6.21}


                                                       
 35%|███▌      | 2254/6440 [1:19:00<1:22:05,  1.18s/it]

{'eval_loss': 0.4805564284324646, 'eval_precision': 0.3268229166666667, 'eval_recall': 0.14134474602995833, 'eval_f1': 0.19734255837723091, 'eval_accuracy': 0.8861918707415911, 'eval_runtime': 60.4609, 'eval_samples_per_second': 21.253, 'eval_steps_per_second': 1.34, 'epoch': 7.0}


 39%|███▉      | 2500/6440 [1:24:45<1:32:12,  1.40s/it] 

{'loss': 0.4784, 'learning_rate': 6.118012422360249e-06, 'epoch': 7.76}


                                                       
 40%|████      | 2576/6440 [1:27:51<1:30:48,  1.41s/it]

{'eval_loss': 0.4714696407318115, 'eval_precision': 0.34171311568649754, 'eval_recall': 0.1691631940533844, 'eval_f1': 0.22629854231797808, 'eval_accuracy': 0.8877287121417913, 'eval_runtime': 66.082, 'eval_samples_per_second': 19.446, 'eval_steps_per_second': 1.226, 'epoch': 8.0}


                                                        
 45%|████▌     | 2898/6440 [1:37:57<1:59:58,  2.03s/it]

{'eval_loss': 0.4652794897556305, 'eval_precision': 0.3490440650240262, 'eval_recall': 0.1922513796598716, 'eval_f1': 0.24793928610334437, 'eval_accuracy': 0.8883873584561628, 'eval_runtime': 74.0868, 'eval_samples_per_second': 17.345, 'eval_steps_per_second': 1.093, 'epoch': 9.0}


 47%|████▋     | 3000/6440 [1:40:52<1:38:23,  1.72s/it] 

{'loss': 0.4676, 'learning_rate': 5.341614906832298e-06, 'epoch': 9.32}


                                                       
 50%|█████     | 3220/6440 [1:48:25<1:24:18,  1.57s/it]

{'eval_loss': 0.4622105360031128, 'eval_precision': 0.33960319505282144, 'eval_recall': 0.2226602094830499, 'eval_f1': 0.2689704431822047, 'eval_accuracy': 0.8883613102968374, 'eval_runtime': 68.5528, 'eval_samples_per_second': 18.745, 'eval_steps_per_second': 1.182, 'epoch': 10.0}


 54%|█████▍    | 3500/6440 [1:56:01<1:29:16,  1.82s/it] 

{'loss': 0.4521, 'learning_rate': 4.565217391304348e-06, 'epoch': 10.87}


                                                       
 55%|█████▌    | 3542/6440 [1:58:14<1:11:52,  1.49s/it]

{'eval_loss': 0.4557567834854126, 'eval_precision': 0.35577267837934745, 'eval_recall': 0.2235048992003604, 'eval_f1': 0.2745382859514422, 'eval_accuracy': 0.8893623038480574, 'eval_runtime': 66.579, 'eval_samples_per_second': 19.3, 'eval_steps_per_second': 1.217, 'epoch': 11.0}


                                                        
 60%|██████    | 3864/6440 [2:07:57<1:13:41,  1.72s/it]

{'eval_loss': 0.45051512122154236, 'eval_precision': 0.36402417348027016, 'eval_recall': 0.23065660547358938, 'eval_f1': 0.2823853843502241, 'eval_accuracy': 0.890378182061749, 'eval_runtime': 68.9398, 'eval_samples_per_second': 18.639, 'eval_steps_per_second': 1.175, 'epoch': 12.0}


 62%|██████▏   | 4000/6440 [2:11:32<54:15,  1.33s/it]   

{'loss': 0.4415, 'learning_rate': 3.788819875776398e-06, 'epoch': 12.42}


                                                       
 65%|██████▌   | 4186/6440 [2:17:49<54:23,  1.45s/it]

{'eval_loss': 0.44746655225753784, 'eval_precision': 0.36825590516865686, 'eval_recall': 0.23792093704245973, 'eval_f1': 0.28907666518422226, 'eval_accuracy': 0.8907019234705079, 'eval_runtime': 68.9197, 'eval_samples_per_second': 18.645, 'eval_steps_per_second': 1.175, 'epoch': 13.0}


 70%|██████▉   | 4500/6440 [2:26:20<41:33,  1.29s/it]   

{'loss': 0.4369, 'learning_rate': 3.0124223602484474e-06, 'epoch': 13.98}


                                                     
 70%|███████   | 4508/6440 [2:27:39<33:53,  1.05s/it]

{'eval_loss': 0.4444946348667145, 'eval_precision': 0.3723160485445133, 'eval_recall': 0.24704358598941323, 'eval_f1': 0.2970109339561965, 'eval_accuracy': 0.8911893961664552, 'eval_runtime': 69.1295, 'eval_samples_per_second': 18.588, 'eval_steps_per_second': 1.172, 'epoch': 14.0}


                                                        
 75%|███████▌  | 4830/6440 [2:37:20<38:58,  1.45s/it]

{'eval_loss': 0.44328048825263977, 'eval_precision': 0.37112281581807544, 'eval_recall': 0.24997184367608966, 'eval_f1': 0.2987314512601366, 'eval_accuracy': 0.8911038093572431, 'eval_runtime': 67.4022, 'eval_samples_per_second': 19.065, 'eval_steps_per_second': 1.202, 'epoch': 15.0}


 78%|███████▊  | 5000/6440 [2:41:44<37:20,  1.56s/it]  

{'loss': 0.4318, 'learning_rate': 2.236024844720497e-06, 'epoch': 15.53}


                                                     
 80%|████████  | 5152/6440 [2:47:13<21:45,  1.01s/it]

{'eval_loss': 0.44145458936691284, 'eval_precision': 0.37096905869866925, 'eval_recall': 0.2558846716972632, 'eval_f1': 0.3028626653780784, 'eval_accuracy': 0.8913605697848794, 'eval_runtime': 71.0695, 'eval_samples_per_second': 18.081, 'eval_steps_per_second': 1.14, 'epoch': 16.0}


                                                       
 85%|████████▌ | 5474/6440 [2:56:59<25:04,  1.56s/it]

{'eval_loss': 0.4401530623435974, 'eval_precision': 0.37366375121477163, 'eval_recall': 0.25982655704471225, 'eval_f1': 0.3065169733607919, 'eval_accuracy': 0.8916210513781336, 'eval_runtime': 67.4558, 'eval_samples_per_second': 19.05, 'eval_steps_per_second': 1.201, 'epoch': 17.0}


 85%|████████▌ | 5500/6440 [2:57:43<29:56,  1.91s/it]  

{'loss': 0.4245, 'learning_rate': 1.4596273291925466e-06, 'epoch': 17.08}


                                                     
 90%|█████████ | 5796/6440 [3:06:42<22:00,  2.05s/it]

{'eval_loss': 0.44015267491340637, 'eval_precision': 0.3702167618749511, 'eval_recall': 0.2664151368397342, 'eval_f1': 0.30985362019844787, 'eval_accuracy': 0.8912005596633089, 'eval_runtime': 67.3702, 'eval_samples_per_second': 19.074, 'eval_steps_per_second': 1.202, 'epoch': 18.0}


 93%|█████████▎| 6000/6440 [3:12:03<12:23,  1.69s/it]  

{'loss': 0.4241, 'learning_rate': 6.832298136645964e-07, 'epoch': 18.63}


                                                     
 95%|█████████▌| 6118/6440 [3:16:37<07:30,  1.40s/it]

{'eval_loss': 0.43928012251853943, 'eval_precision': 0.372455848578443, 'eval_recall': 0.2648383827007546, 'eval_f1': 0.30956063847293075, 'eval_accuracy': 0.8914684835877991, 'eval_runtime': 72.4551, 'eval_samples_per_second': 17.735, 'eval_steps_per_second': 1.118, 'epoch': 19.0}


100%|██████████| 6440/6440 [3:25:20<00:00,  1.13s/it]  

KeyboardInterrupt: 

In [33]:
trainer.evaluate()

                                                     
100%|██████████| 6440/6440 [3:27:28<00:00,  1.13s/it]

{'eval_loss': 0.43907949328422546, 'eval_precision': 0.37378330939843624, 'eval_recall': 0.263824755039982, 'eval_f1': 0.30932259342400636, 'eval_accuracy': 0.8915131375752141, 'eval_runtime': 72.1024, 'eval_samples_per_second': 17.822, 'eval_steps_per_second': 1.123, 'epoch': 20.0}


{'eval_loss': 0.43907949328422546,
 'eval_precision': 0.37378330939843624,
 'eval_recall': 0.263824755039982,
 'eval_f1': 0.30932259342400636,
 'eval_accuracy': 0.8915131375752141,
 'eval_runtime': 72.1024,
 'eval_samples_per_second': 17.822,
 'eval_steps_per_second': 1.123,
 'epoch': 20.0}

In [34]:
# Посчитаем метрики на отложенном датасете

predictions, labels, _ = trainer.predict(tokenized_datasets["test"])
predictions = np.argmax(predictions, axis=2)

# Remove ignored index (special tokens)
true_predictions = [
    [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
    for prediction, label in zip(predictions, labels)
]
true_labels = [
    [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
    for prediction, label in zip(predictions, labels)
]

results = metric.compute(predictions=true_predictions, references=true_labels)
results

  _warn_prf(average, modifier, msg_start, len(result))


{'Дата': {'precision': 0.45094217024041583,
  'recall': 0.5783333333333334,
  'f1': 0.5067542898868201,
  'number': 1200},
 'бренд': {'precision': 0.4,
  'recall': 0.0023094688221709007,
  'f1': 0.004592422502870263,
  'number': 866},
 'вид спорта': {'precision': 0.0, 'recall': 0.0, 'f1': 0.0, 'number': 251},
 'видеоигра': {'precision': 0.03076923076923077,
  'recall': 0.00804289544235925,
  'f1': 0.01275239107332625,
  'number': 746},
 'команда': {'precision': 0.0, 'recall': 0.0, 'f1': 0.0, 'number': 412},
 'лига': {'precision': 0.0, 'recall': 0.0, 'f1': 0.0, 'number': 141},
 'локация': {'precision': 0.3528485166710423,
  'recall': 0.44725457570715477,
  'f1': 0.3944819489286763,
  'number': 3005},
 'модель': {'precision': 0.041666666666666664,
  'recall': 0.0020491803278688526,
  'f1': 0.00390625,
  'number': 488},
 'название проекта': {'precision': 0.27936670071501535,
  'recall': 0.1672782874617737,
  'f1': 0.20925784238714615,
  'number': 3270},
 'организация': {'precision': 0.210

In [35]:
from sklearn.metrics import confusion_matrix
import pandas as pd

In [36]:
cm = pd.DataFrame(
    confusion_matrix(sum(true_labels, []), sum(true_predictions, []), labels=label_list),
    index=label_list,
    columns=label_list
)
cm

Unnamed: 0,O,B-Дата,B-бренд,B-вид спорта,B-видеоигра,B-команда,B-лига,B-локация,B-модель,B-название проекта,...,I-видеоигра,I-команда,I-лига,I-локация,I-модель,I-название проекта,I-организация,I-персона,I-сезон,I-серия
O,228586,439,0,0,0,0,0,1153,4,491,...,95,0,0,9,4,377,0,1335,0,0
B-Дата,326,816,0,0,0,0,0,15,0,4,...,0,0,0,0,0,1,0,1,0,0
B-бренд,769,0,2,0,0,0,0,35,5,6,...,10,0,0,0,1,9,0,7,0,0
B-вид спорта,222,1,0,0,0,0,0,8,0,5,...,0,0,0,0,0,4,0,7,0,0
B-видеоигра,648,0,1,0,0,0,0,2,0,22,...,54,0,0,0,0,4,0,2,0,0
B-команда,257,0,0,0,0,0,0,41,0,56,...,0,0,0,0,0,9,0,10,0,0
B-лига,133,1,0,0,0,0,0,5,0,2,...,0,0,0,0,0,0,0,0,0,0
B-локация,1244,9,0,0,0,0,0,1532,0,27,...,0,0,0,0,0,16,0,78,0,0
B-модель,400,0,1,0,0,0,0,16,5,0,...,30,0,0,0,3,4,0,21,0,0
B-название проекта,2318,1,0,0,0,0,0,49,1,695,...,9,0,0,0,0,91,0,29,0,0


In [37]:
model.save_pretrained('ner_bert.bin')
tokenizer.save_pretrained('ner_bert.bin')

('ner_bert.bin\\tokenizer_config.json',
 'ner_bert.bin\\special_tokens_map.json',
 'ner_bert.bin\\vocab.txt',
 'ner_bert.bin\\added_tokens.json',
 'ner_bert.bin\\tokenizer.json')

### Посмотрим на результаты

In [38]:
# text = ' '.join(ner_train[25]['tokens'])
text = ner_train[25]['tokens']

In [39]:
import torch
from transformers import pipeline

pipe = pipeline(model=model, tokenizer=tokenizer, task='ner', aggregation_strategy='average', device='cpu')

def predict_ner(text, tokenizer, model, pipe, verbose=True):
    tokens = tokenizer(text, truncation=True, is_split_into_words=True, return_tensors='pt')
    tokens = {k: v.to(model.device) for k, v in tokens.items()}
    
    with torch.no_grad():
        pred = model(**tokens)
    # print(pred.logits.shape)
    indices = pred.logits.argmax(dim=-1)[0].cpu().numpy()
    token_text = tokenizer.convert_ids_to_tokens(tokens['input_ids'][0])
    labels = []
    for t, idx in zip(token_text, indices):
        if '##' not in t:
            labels.append(label_list[idx])
        if verbose:    
            print(f'{t:15s} {label_list[idx]:10s}')
    return text, pipe(text), labels

In [40]:
predict_ner(text, tokenizer, model, pipe)

[CLS]           O         
<               O         
Н               O         
##АЗ            O         
##В             O         
##АН            O         
##И             O         
##Е             O         
:               O         
>               O         
Как             O         
сделать         O         
ма              O         
##ску           O         
Глава           O         
##ря            O         
из              O         
фильма          O         
М               O         
##А             O         
##Й             B-название проекта
##О             I-название проекта
##Р             O         
Г               I-название проекта
##РО            O         
##М             I-название проекта
\               O         
М               O         
##ас            O         
##ка            O         
из              O         
му              O         
##ль            O         
##т             O         
##фильм         O         
##а             O      

(['<',
  'НАЗВАНИЕ',
  ':',
  '>',
  'Как',
  'сделать',
  'маску',
  'Главаря',
  'из',
  'фильма',
  'МАЙОР',
  'ГРОМ',
  '\\',
  'Маска',
  'из',
  'мультфильма',
  'Шайбу',
  ',',
  'Шайбу',
  '<',
  'ОПИСАНИЕ',
  ':',
  '>',
  'Маска',
  'Главаря',
  'купить',
  ':',
  '<',
  'LINK',
  '>',
  '54170275',
  'Силикон',
  'и',
  'пластик',
  '(',
  'промокод',
  'на',
  'скидку',
  ':',
  'planeta',
  ')',
  '<',
  'LINK',
  '>',
  'trade',
  '.',
  'ru',
  'Полиморфус',
  ':',
  'промокод',
  'на',
  'скидку',
  '(',
  'SP',
  ')',
  ':',
  '<',
  'LINK',
  '>',
  'Пластилин',
  'которым',
  'я',
  'леплю',
  ':',
  '<',
  'LINK',
  '>',
  'Художник',
  'artist_miller',
  ':',
  '<',
  'LINK',
  '>',
  'Маска',
  'из',
  'полиморфуса',
  ':',
  '<',
  'LINK',
  '>',
  'nVSA',
  'Группа',
  'вк',
  ':',
  '<',
  'LINK',
  '>',
  'instagram',
  ':',
  's',
  '.',
  'm',
  '.',
  'o',
  '.',
  't',
  '.',
  'r',
  '.',
  'i_planeta',
  'мой',
  'второй',
  'канал',
  ':',
  '<',
  'LIN

### Тестового датасета у вас пока нет, по которому будет считаться метрика на лидерборде, но прогоним для примера через нашу отложенную выборку, чтобы понять формат выходных данных.
ВАЖНО: в тестовом датасете у вас будет тест в том же формате, что он был в трейне 'video_info', в финальном сабмишене эту колонку и индексы менять нельзя, нужно будет только заполнить колонку 'entities_prediction'

In [41]:
from tqdm.notebook import tqdm

submission = pd.DataFrame(columns=[['video_info', 'entities_prediction']])
submission['entities_prediction'] = submission['entities_prediction'].astype('object')
def sample_submission(text, tokenizer, model, pipe, submission):
    for i, elem in tqdm(enumerate(ner_test)):
        _, _, labels = predict_ner(elem['tokens'], tokenizer, model, pipe, verbose=False)
        submission.loc[i, 'video_info'] = elem

        submission.loc[i, 'entities_prediction'] = [[label] for label in labels]
    return submission

In [42]:
result = sample_submission(text, tokenizer, model, pipe, submission)

ImportError: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html

In [43]:
result

NameError: name 'result' is not defined

In [None]:
len(ner_test)