# Загрузка данных

In [None]:
# libraries
!pip -q install corus navec slovnet ipymarkup sklearn_crfsuite nerus nereval

# DATASETS:
# FactRuEval-2016
!wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip
!unzip master.zip
!rm master.zip
# collection5 (ne5)
!wget http://www.labinform.ru/pub/named_entities/collection5.zip
!unzip collection5.zip
!rm collection5.zip
# BSNLP
!wget http://bsnlp.cs.helsinki.fi/bsnlp-2019/TRAININGDATA_BSNLP_2019_shared_task.zip
!wget http://bsnlp.cs.helsinki.fi/bsnlp-2019/TESTDATA_BSNLP_2019_shared_task.zip
!unzip TRAININGDATA_BSNLP_2019_shared_task.zip
!unzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bg
!rm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip

# for metrics computation
!git clone https://github.com/davidsbatista/NER-Evaluation.git
    
# for slovnet
!wget https://storage.yandexcloud.net/natasha-slovnet/packs/slovnet_ner_news_v1.tar
!wget https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar

In [None]:
# NERUS (не понадобился)
!wget https://storage.yandexcloud.net/natasha-nerus/data/nerus_lenta.conllu.gz

In [2]:
import numpy as np
import pandas as pd
import corus
from copy import deepcopy
import nereval

from navec import Navec
from slovnet import NER
from ipymarkup import show_span_ascii_markup as show_markup
from IPython.display import display

import sys, os
scriptpath = "/kaggle/working/NER-Evaluation/ner_evaluation"
sys.path.append(os.path.abspath(scriptpath))
from ner_eval import compute_metrics, compute_precision_recall_wrapper, collect_named_entities

In [None]:
import wandb
from kaggle_secrets import UserSecretsClient
secret_label = "WANDBKEY"
WANDB_KEY = UserSecretsClient().get_secret(secret_label)
wandb.login(key=WANDB_KEY)

# Ознакомление с набором данных

## Collection5

In [None]:
ne5 = corus.load_ne5('/kaggle/working/Collection5')

In [None]:
for tagged_text in ne5:
    print(tagged_text.text[:800])
    print(tagged_text.spans[:18])
    break

Видим, что тексты - новости, так же тут содержится спорный тег "GEOPOLIT", который можно, на мой взгляд, заменить на "LOC".

In [None]:
ne5 = corus.load_ne5('/kaggle/working/Collection5')
l = 0
s = 0
for tagged_text in ne5:
    l += 1
    s += len(tagged_text.text)
print("Количество текстов: ", l)
print(f"Средняя длина текста: {s/l:.1f} символов")

## Другие датасеты

В планах изначально было дополнительно сравнить модели на датасетах FactRuEval-2016, но там используется более сложная система разметки: были выделены сущности, имеющие нормальные теги, хоть и написанные по-другому "Loc", "Per" и т. д. И внутри этих сущностей были выделены подсущности с названиями в духе "loc_description", "name", "surname", что потребовало бы больших затрат по времени на преобразование этих данных для сравнения с выводами моделей.

Пример:

In [None]:
factru = corus.load_factru('/kaggle/working/factRuEval-2016-master')
for tagged_text in factru:
    text = tagged_text.text
    print(text[:300])
    f_objs = tagged_text.objects
    print(tagged_text.objects[:10])
    break

In [None]:
for obj in f_objs[:5]:
    print("Тип сущности:", obj.type)
    for span in obj.spans:
        print("Тип подсущности:", span.type)
        print("Сама подсущность:", text[span.start:span.stop])
    print()

Последний пример с org_descr вообще что-то очень странное.

Также был еще один вариант с BSNLP, но там разметка еще хуже: в сущностях не выделены их индексы в тексте.

In [None]:
bsnlp = corus.load_bsnlp('/kaggle/working/training_pl_cs_ru_bg_rc1')
for tagged_text in bsnlp:
    print(tagged_text.text[:200])
    print(tagged_text.substrings[:10])
    break

Поэтому в итоге было решено тестировать модели на Collection5.

# Развертывание готовых моделей

## Slovnet

In [37]:
navec = Navec.load('/kaggle/working/navec_news_v1_1B_250K_300d_100q.tar')
slovnet = NER.load('/kaggle/working/slovnet_ner_news_v1.tar')
slovnet.navec(navec);

# Пример использования:
markup = slovnet('ОАО СТАВРОПОЛЬЭНЕРГОБАНК В ЧЕРКЕССКЕ')

show_markup(markup.text, markup.spans)

ОАО СТАВРОПОЛЬЭНЕРГОБАНК В ЧЕРКЕССКЕ
ORG─────────────────────   LOC──────


### Заметка про метрики, предложенные SemEval

Когда я читал про метрики, мне сразу попалась статья, где описывались более сложные метрики, чем те, что обычно используются в бенчмарках. Здесь есть 4 типа метрик:

**Strict**: точное совпадение по позиции и по типу;

**Exact**: точное совпадение по позиции несмотря на тип;

**Partial**: частичное совпадение по позиции несмотря на тип;

**Type**: совпадение по типу по частичному/полному совпадению по позиции.


И по каждой из них результат на каком-либо объекте может быть следующим:

*Correct (COR)* : совпадение;

*Incorrect (INC)* : несовпадение;

*Partial (PAR)* : предсказание модели и правильная разметка частично совпадают;

*Missing (MIS)* : размеченная сущность не выделена моделью;

*Spurius (SPU)* : модель выделила сущность, которой на самом деле нет.


Тогда число возможных сущностей (POS) считается так:

**POS** = COR + INC + PAR + MIS = TP + FN 

Число сущностей, выделенных моделью (ACT):

**ACT** = COR + INC + PAR + SPU = TP + FP



Для **Strict** и **Exact** (полное совпадение) precision и recall считаются по следующей формуле:

Precision = COR / ACT = TP / (TP + FP)

Recall = COR / POS = TP / (TP + FN)

Для **Partial** и **Type** (частичное совпадение) используются следующие формулы:

Precision = (COR + 0.5 * PAR) / ACT = TP / (TP + FP)

Recall = (COR + 0.5 * PAR) / POS = TP / (TP + FN)

Ссылка на источник: <a href="https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/">Named-Entity evaluation metrics based on entity-level</a>

Я попробую посчитать данные метрики для модели slovnet на датасете Collection5 для стандартного набора NER-токенов "LOC", "PER", "ORG", где токен "GEOPOLIT" будет заменен на "LOC".

In [None]:
def compute_f1(p, r):
    if (p + r) == 0:
        return 0
    return 2 * p * r / (p + r)

def test_slovnet_ne5(track_scores):

    metrics_results = {'correct': 0, 'incorrect': 0, 'partial': 0,
                       'missed': 0, 'spurious': 0, 'possible': 0, 'actual': 0, 'precision': 0, 'recall': 0}

    # overall results
    results = {'strict': deepcopy(metrics_results),
               'ent_type': deepcopy(metrics_results),
               'partial':deepcopy(metrics_results),
               'exact':deepcopy(metrics_results)
              }

    ent_types = ['PER', 'LOC', 'ORG']


    # results aggregated by entity type
    evaluation_agg_entities_type = {e: deepcopy(results) for e in ent_types}

    for tagged_text in ne5:
        markup = slovnet(tagged_text.text)

        for span in tagged_text.spans:
            span.e_type = span.type if span.type != 'GEOPOLIT' else 'LOC'
            span.start_offset = span.start
            span.end_offset = span.stop
        for span in markup.spans:
            span.e_type = span.type
            span.start_offset = span.start
            span.end_offset = span.stop
            
        

        tmp_results, tmp_agg_results = compute_metrics(
            tagged_text.spans, markup.spans,  ent_types
        )

        for eval_schema in results.keys():
            for metric in metrics_results.keys():
                results[eval_schema][metric] += tmp_results[eval_schema][metric]

        results = compute_precision_recall_wrapper(results)

        for e_type in ent_types:
            for eval_schema in tmp_agg_results[e_type]:
                for metric in tmp_agg_results[e_type][eval_schema]:
                    evaluation_agg_entities_type[e_type][eval_schema][metric] += tmp_agg_results[e_type][eval_schema][metric]
            # Calculate precision recall at the individual entity level
            evaluation_agg_entities_type[e_type] = compute_precision_recall_wrapper(evaluation_agg_entities_type[e_type])
            
        
    for name, ress in results.items():
        ress['f1'] = compute_f1(ress['precision'], ress['recall'])

    for ent_name, ent_metrics in evaluation_agg_entities_type.items():
        for name, ress in ent_metrics.items():
            ress['f1'] = compute_f1(ress['precision'], ress['recall'])

    return results, evaluation_agg_entities_type

In [None]:
ne5 = corus.load_ne5('/kaggle/working/Collection5')
track_scores = ['precision', 'recall', 'f1']
res, ev_agg = test_slovnet_ne5(track_scores)

In [None]:
track_scores = ['precision', 'recall', 'f1']
res_df = pd.DataFrame({
    name: [res[name][score] for score in track_scores] for name in res.keys()
}, index=track_scores)

ent_dfs = []
ent_types = ['PER', 'LOC', 'ORG']
for ent_type in ent_types:
    cur_dict = ev_agg[ent_type]
    cur_df = pd.DataFrame({
        name: [cur_dict[name][score] for score in track_scores] for name in cur_dict.keys()
    }, index=track_scores)
    ent_dfs.append(cur_df)

In [None]:
print('Result DF:')
display(res_df)
print('Person DF:')
display(ent_dfs[0])
print('Location DF:')
display(ent_dfs[1])
print('Organization DF:')
display(ent_dfs[2])

In [None]:
res["strict"]

Эти метрики очень хорошо отражают поведение модели для каждой сущности, однако довольно странно, что strict и exact оказались нулевыми - результаты, полученные с помощью compute_metrics из гитхаба <a href="https://github.com/davidsbatista/NER-Evaluation">NER-Evaluation</a> (автора статьи, приведенной в начале), показывают, что все точные совпадения по типу и позиции имеют тип "incorrect", скорее всего проблема где-то в реализации этого метода. 

Однако, в связи вышеупомянутыми странностями в полученных результатах и сложности сравнения по данным метрикам, я решил для сравнения моделей использовать общепринятую метрику F1.

## Nereval

Здесь метрики считаются по следующим формулам:

Precision = COR/ACT

Recall = COR/POS

F1 = 2 * precision * recall / (precision + recall)

Правильные ответы модели - совпадение по тексту или типу, более подробно можно посмотреть в реализации мини-библиотеки <a href="https://github.com/jantrienes/nereval/tree/master">Nereval</a>, а именно в реализации <a href="https://github.com/jantrienes/nereval/blob/master/nereval.py">nereval.py</a>

In [38]:
ne5 = corus.load_ne5('/kaggle/working/Collection5')
y_true = {"overall": [], "LOC": [], "PER": [], "ORG": []}
y_pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}

for tagged_text in ne5:
    markup = slovnet(tagged_text.text)
    corr = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    
    # Ground-truth сущности
    for span in tagged_text.spans:
        if span.type in y_pred.keys() or span.type == 'GEOPOLIT':
            ec = nereval.Entity(
                span.text,
                span.type if span.type != 'GEOPOLIT' else 'LOC',
                span.start
            )
            corr[ec.type].append(ec)
            corr["overall"].append(ec)
    
    # Сущности, найденные моделью
    for span in markup.spans:
        if span.type in y_pred.keys():
            ep = nereval.Entity(
                markup.text[span.start:span.stop],
                span.type,
                span.start
            )
            pred[ep.type].append(ep)
            pred["overall"].append(ep)
    
    for key in y_true.keys():
        y_true[key].append(corr[key])
        y_pred[key].append(pred[key])

In [49]:
true_slovnet = deepcopy(y_true)
pred_slovnet = deepcopy(y_pred)

In [41]:
for metric in y_true.keys():
    print(f"{metric.upper()} F1 для Slovnet: {nereval.evaluate(y_true[metric], y_pred[metric])}")

OVERALL F1 для Slovnet: 0.9420835854691678
LOC F1 для Slovnet: 0.9777503090234858
PER F1 для Slovnet: 0.9791983282674771
ORG F1 для Slovnet: 0.8513227852155532


## Deeppavlov

### Загрузка и настройка модели

In [3]:
!pip install -q naeval intervaltree razdel requests docker pullenti_client razdel pymorphy2 gensim 

In [4]:
!pip install -q deeppavlov

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
cudf 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
cuml 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
dask-cudf 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
apache-beam 2.46.0 requires dill<0.3.2,>=0.3.1.1, but you have dill 0.3.7 which is incompatible.
apache-beam 2.46.0 requires pyarrow<10.0.0,>=3.0.0, but you have pyarrow 11.0.0 which is incompatible.
beatrix-jupyterlab 2023.814.150030 requires jupyter-server~=1.16, but you have jupyter-server 2.10.0 which is incompatible.
beatrix-jupyterlab 2023.814.150030 requires jupyterlab~=3.4, but you have jupyterlab 4.0.5 which is incompatible.
chex 0.1.84 requires numpy>=1.24.1, but you have numpy 1.23.5 which is incompatible.
cudf 23.8.0 requires protobuf<5,>=4.21, but you have protobuf 3.20.3 which is incompatible.

Удобство использование модели от Deeppavlov заключается в том, что можно менять их конфиг так, как удобно. Так что я добавлю в вывод модели, в котором уже есть токены и предсказания, позиции токенов в тексте.

In [88]:
from deeppavlov.core.commands.utils import parse_config

cfg = parse_config('ner_collection3_bert')
cfg['chainer']['out'] += ['tokens_offsets']
cfg['chainer']['out']

['x_tokens', 'y_pred', 'tokens_offsets']

In [89]:
cfg2 = parse_config('ner_rus_bert')
cfg2['chainer']['out'] += ['tokens_offsets']
cfg2['chainer']['out']

['x_tokens', 'y_pred', 'tokens_offsets']

In [90]:
ner_model2 = build_model(cfg2, download=True, install=True)

Ignoring transformers: markers 'python_version < "3.8"' don't match your environment


2023-11-19 13:45:59.284 INFO in 'deeppavlov.core.data.utils'['utils'] at line 95: Downloading from http://files.deeppavlov.ai/v1/ner/ner_rus_bert_torch_new.tar.gz to /root/.deeppavlov/models/ner_rus_bert_torch_new.tar.gz
100%|██████████| 1.44G/1.44G [00:13<00:00, 109MB/s] 
2023-11-19 13:46:12.659 INFO in 'deeppavlov.core.data.utils'['utils'] at line 276: Extracting /root/.deeppavlov/models/ner_rus_bert_torch_new.tar.gz archive into /root/.deeppavlov/models/ner_rus_bert_torch
Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertForTokenClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertForTokenClassificatio

Далее можно просто загрузить готовую для использования модель, используя кастомный конфиг.

In [6]:
from deeppavlov import build_model

ner_model = build_model(cfg, download=True, install=True)

Collecting torch<1.14.0,>=1.6.0
  Downloading torch-1.13.1-cp310-cp310-manylinux1_x86_64.whl (887.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m887.5/887.5 MB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting nvidia-cuda-runtime-cu11==11.7.99 (from torch<1.14.0,>=1.6.0)
  Downloading nvidia_cuda_runtime_cu11-11.7.99-py3-none-manylinux1_x86_64.whl (849 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m849.3/849.3 kB[0m [31m52.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cudnn-cu11==8.5.0.96 (from torch<1.14.0,>=1.6.0)
  Downloading nvidia_cudnn_cu11-8.5.0.96-2-py3-none-manylinux1_x86_64.whl (557.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m557.1/557.1 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting nvidia-cublas-cu11==11.10.3.66 (from torch<1.14.0,>=1.6.0)
  Downloading nvidia_cublas_cu11-11.10.3.66-py3-none-manylinux1_x86_64.whl (317.1 MB)
[2K     [90m━━━

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchdata 0.6.0 requires torch==2.0.0, but you have torch 1.13.1 which is incompatible.[0m[31m
[0m

Successfully installed nvidia-cublas-cu11-11.10.3.66 nvidia-cuda-nvrtc-cu11-11.7.99 nvidia-cuda-runtime-cu11-11.7.99 nvidia-cudnn-cu11-8.5.0.96 torch-1.13.1
Collecting pytorch-crf==0.7.*
  Downloading pytorch_crf-0.7.2-py3-none-any.whl (9.5 kB)
Installing collected packages: pytorch-crf
Successfully installed pytorch-crf-0.7.2
Ignoring transformers: markers 'python_version < "3.8"' don't match your environment
Collecting transformers==4.30.0
  Obtaining dependency information for transformers==4.30.0 from https://files.pythonhosted.org/packages/e2/72/1af3d38e98fdcceb3876de4567ac395a66c26976e259fe2d46266e052d61/transformers-4.30.0-py3-none-any.whl.metadata
  Downloading transformers-4.30.0-py3-none-any.whl.metadata (113 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m113.6/113.6 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers==4.30.0)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylin

2023-11-19 13:02:31.591 INFO in 'deeppavlov.core.data.utils'['utils'] at line 95: Downloading from http://files.deeppavlov.ai/v1/ner/ner_rus_bert_coll3_torch.tar.gz to /root/.deeppavlov/models/ner_rus_bert_coll3_torch.tar.gz
100%|██████████| 1.44G/1.44G [00:21<00:00, 67.2MB/s]
2023-11-19 13:02:53.140 INFO in 'deeppavlov.core.data.utils'['utils'] at line 276: Extracting /root/.deeppavlov/models/ner_rus_bert_coll3_torch.tar.gz archive into /root/.deeppavlov/models/ner_rus_bert_coll3_torch


Downloading tokenizer_config.json:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/642 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/1.65M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertForTokenClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForTokenClassification were not initializ

In [None]:
# Пример работы:
ex_dp = ner_model(['ОАО СТАВРОПОЛЬЭНЕРГОБАНК В ЧЕРКЕССКЕ'])
print("Разделение на токены:", ex_dp[0][0])
print("NER-токены:", ex_dp[1][0])
print("Позиции токенов в тексте:", ex_dp[2][0])

### Получение результатов на датасете Collection5

В документации написано, что есть три типа тегов B - начало слова, E - конец, I - то, что внутри. Однако, просмотрев результат работы, очевидно, что есть еще один S - единичный NER-токен.

Также эта модель основана на трансформере BERT и может принимать тексты, после токенизации которых получается не больше 512 токенов. Поэтому придется токенизировать текст токенизатором изначальной модели, разбить на батчи по 512 токенов и потом итерироваться по каждому батчу, превращая токены обратно в текст тем же токенизатором.

UPD: попробовал этот подход и понял, что токенизируют они текст всё равно по-разному, поэтому решил просто разбивать по пробелу на батчи по 256 разбиений, чтобы точно не было конфликтов. К тому же, полученный обратно текст со сплита точно будет таким же, в отличие от tokenizer.convert_tokens_to_string(), который не гарантирует, что тексты будут одинаковые.

UPD2: вместо разделения с помощью сплит теги \r \n \t превращаются в пробелы, из-за этого слетают позиции слов в предсказаниях и падают метрики. Решение - использовать регулярные выражения для разделения текста.

In [None]:
model_tkn = cfg['chainer']['pipe'][2]['pretrained_bert']
model_tkn

In [None]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(model_tkn)

In [79]:
slovnet('Ольга Иванова-Степанова')

SpanMarkup(
    text='Ольга Иванова-Степанова',
    spans=[Span(
         start=0,
         stop=23,
         type='PER'
     )]
)

In [80]:
ner_model(['Ольга Иванова-Степанова'])

[[['Ольга', 'Иванова', '-', 'Степанова']],
 [['B-PER', 'E-PER', 'E-PER', 'E-PER']],
 [[(0, 5), (6, 13), (13, 14), (14, 23)]]]

In [94]:
ner_model2(['Ольга Иванова-Степанова'])

[[['Ольга', 'Иванова', '-', 'Степанова']],
 [['B-PER', 'I-PER', 'I-PER', 'I-PER']],
 [[(0, 5), (6, 13), (13, 14), (14, 23)]]]

In [81]:
slovnet('Би-би-си')

SpanMarkup(
    text='Би-би-си',
    spans=[Span(
         start=0,
         stop=8,
         type='ORG'
     )]
)

In [86]:
ner_model(['Би-би-си'])

[[['Би', '-', 'би', '-', 'си']],
 [['S-ORG', 'S-ORG', 'S-ORG', 'S-ORG', 'S-ORG']],
 [[(0, 2), (2, 3), (3, 5), (5, 6), (6, 8)]]]

In [91]:
ner_model2(['Би-би-си'])

[[['Би', '-', 'би', '-', 'си']],
 [['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG']],
 [[(0, 2), (2, 3), (3, 5), (5, 6), (6, 8)]]]

In [154]:
ner_model2(['ОАО "Би-би-си".'])

[[['ОАО', '"', 'Би', '-', 'би', '-', 'си', '"', '', '.']],
 [['B-ORG',
   'I-ORG',
   'I-ORG',
   'I-ORG',
   'I-ORG',
   'I-ORG',
   'I-ORG',
   'I-ORG',
   'O',
   'O']],
 [[(0, 3),
   (3, 4),
   (4, 6),
   (6, 7),
   (7, 9),
   (9, 10),
   (10, 12),
   (12, 13),
   (13, 13),
   (13, 14)]]]

In [156]:
class TempEnt:
    def __init__(self, start = None, stop = None, type_ = None):
        self.start = start
        self.stop = stop
        self.type = type_

In [174]:
import re
ne5 = corus.load_ne5('/kaggle/working/Collection5')

ent_types = ['LOC', 'PER', 'ORG']

y_true = {"overall": [], "LOC": [], "PER": [], "ORG": []}
y_pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}

# знаки, до и после которых не надо ставить пробел
#no_space = ['-', '(', ')']
no_space_before = ['-', ')', '>', '»', '/']
no_space_after = ['-', '(', '<', '«', '/']
#to_delete = ['"', "'", '(', ')', '<', '>', '.', ',', ':', ';', '«', '»']
# пунктуационные символы, которые не нужно добавлять в предсказания
end_punct = ['.', ':', ',', ';']

# def get_clean_text(text):
#     for s in to_delete:
#         text = text.replace(s, '')
#     return text

for tagged_text in ne5:
    
    corr = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    
    
    cur_text = tagged_text.text
    #tokenized_text = tokenizer.tokenize(cur_text)
    batch_size=512
    ##splitted_text = cur_text.split()
    
    splitted_text = re.split(r'(\s+)', cur_text) # разбиение текста по пробелам
    #token_batches = [tokenized_text[i:i + batch_size] for i in range(0, len(tokenized_text), batch_size)]
    token_batches = [splitted_text[i:i + batch_size] for i in range(0, len(splitted_text), batch_size)]
    
    spans_pred = []
    prev_text_len = 0 # предыдущая длина текста для корректной расстановки стартовых позиций

    for batch in token_batches:
        #input_text = tokenizer.convert_tokens_to_string(batch)
        input_text = ''.join(batch)
        tokens, ner_tokens, offsets = ner_model2([input_text])
        ner_tokens = ner_tokens[0]
        offsets = offsets[0]
#         for tkn, ntkn in zip(tokens[0], ner_tokens):
#             print(f"{tkn} -- {ntkn}")
#         break
        for i in range(len(ner_tokens)):
            token = ner_tokens[i]
            if len(token.split('-')) > 1 and token.split('-')[1] in ent_types: # если тег не O
                if token[0] in ['S', 'B']: # начала сущностей или single сущности
                    new_text = input_text[offsets[i][0]:offsets[i][1]]
#                     if len(new_text) > 0 and new_text[-1] in end_punct: # удаляем пунктуацию из конца строки
#                         new_text = new_text[:-1]
                    spans_pred.append(nereval.Entity(
                        #get_clean_text(new_text),
                        new_text,
                        token.split('-')[1],
                        prev_text_len + offsets[i][0]
                    ))
                elif token[0] in ['I', 'E']: # токены, входящие в уже существующие сущности
                    if len(spans_pred) > 0:
                        old_text = spans_pred[-1].text
                        new_text = input_text[offsets[i][0]:offsets[i][1]]
                        if len(new_text) > 0:
                            # пробел/не пробел для разных знаков
                            if (new_text[0] in no_space_before or old_text[-1] in no_space_after):
                                r = '' # r - разделитель
                            else:
                                r = ' '
                            # удаление пунктуации из конца строки
#                             if new_text[-1] in end_punct:
#                                 new_text = new_text[:-1]
                        spans_pred[-1] = nereval.Entity(
                            #get_clean_text(old_text + r + new_text),
                            old_text + r + new_text,
                            spans_pred[-1].type,
                            spans_pred[-1].start
                        )
                    # Почему-то модель может генерерировать E теги вместо S
                    else:
                        spans_pred.append(nereval.Entity(
                            input_text[offsets[i][0]:offsets[i][1]],
                            token.split('-')[1],
                            prev_text_len + offsets[i][0]
                        ))
                elif token[0] == 'O':
                    pass
                else:
                    print('Unexpected token:', token)
        prev_text_len += len(input_text)
    

    
    spans_true = []
    for span in tagged_text.spans:
        t = span.type if span.type != 'GEOPOLIT' else 'LOC'
        if t in corr.keys():
            text = span.text
            for symbol in end_punct:
                if text[-1] == symbol:
                    text = text[:-1]
            spans_true.append(nereval.Entity(
                text,
                t,
                span.start 
            ))
    
    for span_true in spans_true:
        corr[span_true.type].append(span_true)
    corr["overall"] = spans_true
    
    new_spans_pred = []
    for span_pred in spans_pred:
        
        text = span_pred.text
        if len(text) > 0:
            if text[-1] in end_punct:
                text = text[:-1]
            list_double = [m.start() for m in re.finditer('"', text)]
            list_single = [m.start() for m in re.finditer("'", text)]
            for l in [list_double, list_single]:
                if len(l) == 2:
                    text = text[:l[0] + 1] + text[l[0] + 2:l[1] - 1] + text[l[1]:]
                elif len(l) == 1:
                    text = text[:l[0] + 1] + text[l[0] + 2:]
                elif len(l) == 0:
                    pass
                else:
                    print(span_pred)
        else:
            print(span_pred)
        new_spans_pred.append(nereval.Entity(
            text,
            span_pred.type,
            span_pred.start
        ))
    for span_pred in new_spans_pred:
        pred[span_pred.type].append(span_pred)
    pred["overall"] = new_spans_pred
    
    for key in y_true.keys():
        y_true[key].append(corr[key])
        y_pred[key].append(pred[key])

Entity(text='ОАО " Современный коммерческий флот " (ОАО " Совкомфлот ")', type='ORG', start=206)
Entity(text='ОАО " Новороссийское морское пароходство " (ОАО " Новошип ")', type='ORG', start=616)
Entity(text='ОАО " НК " Роснефть "', type='ORG', start=112)
Entity(text='ОАО " НК " Роснефть "', type='ORG', start=421)
Entity(text='', type='PER', start=1753)
Entity(text='ОАО " Акционерный коммерческий банк " Банк Москвы "', type='ORG', start=3264)
Entity(text='АО " Нефтяная компания " ЮКОС "', type='ORG', start=1941)
Entity(text='ОАО " ОК " Русал "', type='ORG', start=1349)
Entity(text='', type='ORG', start=1395)
Entity(text='Единая Россия Ватаным Татарстан " (" Моя родина Татарстан "', type='ORG', start=150)
Entity(text='ОАО " НПО " Сатурн "', type='ORG', start=2549)
Entity(text='" Ата-Журт " (" Отечество ")', type='ORG', start=1122)
Entity(text='" Ар-Намыс " (" Достоинство ")', type='ORG', start=1281)
Entity(text='Леонид Кожара. Укрзалізниці " (" Украинских железных дорог "', type='PER', 

In [169]:
import re
ne5 = corus.load_ne5('/kaggle/working/Collection5')

ent_types = ['LOC', 'PER', 'ORG']

y_true = {"overall": [], "LOC": [], "PER": [], "ORG": []}
y_pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}

# знаки, до и после которых не надо ставить пробел
no_space_before = ['-', ')', '>', '»']
no_space_after = ['-', '(', '<', '«']
# пунктуационные символы, которые не нужно добавлять в предсказания
end_punct = ['.', ':', ',', ';', ')', '>', '»', '(', '<', '«', "'", '"', ' ']


for tagged_text in ne5:
    
    corr = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    pred = {"overall": [], "LOC": [], "PER": [], "ORG": []}
    
    
    cur_text = tagged_text.text
    #tokenized_text = tokenizer.tokenize(cur_text)
    batch_size=512
    ##splitted_text = cur_text.split()
    
    splitted_text = re.split(r'(\s+)', cur_text) # разбиение текста по пробелам
    #token_batches = [tokenized_text[i:i + batch_size] for i in range(0, len(tokenized_text), batch_size)]
    token_batches = [splitted_text[i:i + batch_size] for i in range(0, len(splitted_text), batch_size)]
    
    spans_pred = []
    prev_text_len = 0 # предыдущая длина текста для корректной расстановки стартовых позиций

    for batch in token_batches:
        #input_text = tokenizer.convert_tokens_to_string(batch)
        input_text = ''.join(batch)
        tokens, ner_tokens, offsets = ner_model2([input_text])
        ner_tokens = ner_tokens[0]
        offsets = offsets[0]
#         for tkn, ntkn in zip(tokens[0], ner_tokens):
#             print(f"{tkn} -- {ntkn}")
#         break
        for i in range(len(ner_tokens)):
            token = ner_tokens[i]
            if len(token.split('-')) > 1 and token.split('-')[1] in ent_types: # если тег не O
                if token[0] in ['S', 'B']: # начала сущностей или single сущности
#                     new_text = input_text[offsets[i][0]:offsets[i][1]]
#                     spans_pred.append(nereval.Entity(
#                         new_text,
#                         token.split('-')[1],
#                         prev_text_len + offsets[i][0]
#                     ))
                    spans_pred.append(TempEnt(
                        offsets[i][0],
                        offsets[i][1],
                        token.split('-')[1],
                    ))
                elif token[0] in ['I', 'E']: # токены, входящие в уже существующие сущности
                    if len(spans_pred) > 0:
#                         old_text = spans_pred[-1].text
#                         new_text = input_text[offsets[i][0]:offsets[i][1]]

#                         spans_pred[-1] = nereval.Entity(
#                             old_text + r + new_text,
#                             spans_pred[-1].type,
#                             spans_pred[-1].start
#                         )
                        spans_pred[-1] = TempEnt(
                            spans_pred[-1].start,
                            offsets[i][1],
                            spans_pred[-1].type,
                        )
                    # Почему-то модель может генерерировать E теги вместо S
                    else:
                        spans_pred.append(TempEnt(
                            offsets[i][0],
                            offsets[i][1],
                            token.split('-')[1]
                        ))
#                         spans_pred.append(nereval.Entity(
#                             input_text[offsets[i][0]:offsets[i][1]],
#                             token.split('-')[1],
#                             prev_text_len + offsets[i][0]
#                         ))
                        
                elif token[0] == 'O':
                    pass
                else:
                    print('Unexpected token:', token)
        prev_text_len += len(input_text)
    

    
    spans_true = []
    for span in tagged_text.spans:
        t = span.type if span.type != 'GEOPOLIT' else 'LOC'
        if t in corr.keys():
            text = span.text
            while text[-1] in end_punct:
                text = text[:-1]
            spans_true.append(nereval.Entity(
                text,
                t,
                span.start 
            ))
    
    for span_true in spans_true:
        corr[span_true.type].append(span_true)
    corr["overall"] = spans_true
    
    new_spans_pred = []
    for span_pred in spans_pred:
        text = cur_text[span_pred.start:span_pred.stop]
        while len(text) > 0 and text[-1] in end_punct:
            text = text[:-1]
        else:
            #print(text)
            pass
        new_spans_pred.append(nereval.Entity(
            text,
            span_pred.type,
            span_pred.start
        ))
    for span_pred in new_spans_pred:
        pred[span_pred.type].append(span_pred)
    pred["overall"] = new_spans_pred
    
    for key in y_true.keys():
        y_true[key].append(corr[key])
        y_pred[key].append(pred[key])

In [176]:
i = 0
for corrs, preds in zip(y_true['overall'], y_pred['overall']):
    for cs, ps in zip(corrs, preds):
        for c in corrs:
            if ps.start == c.start and c != ps:
                print(c, '-', ps)
                i += 1
    if i > 100:
        break

Entity(text='РФ', type='LOC', start=362) - Entity(text='РФ-', type='LOC', start=362)
Entity(text='Л.Швецова', type='PER', start=1128) - Entity(text='Л.Швецова политикой', type='PER', start=1128)
Entity(text='СК', type='ORG', start=1636) - Entity(text='СК РФ', type='ORG', start=1636)
Entity(text='ОАО "Аэрофлот - российские авиалинии"', type='ORG', start=157) - Entity(text='ОАО "Аэрофлот-российские авиалинии"', type='ORG', start=157)
Entity(text='ФГАОУ ВПО "Национальный исследовательский университет "Высшая школа экономики"', type='ORG', start=517) - Entity(text='ФГАОУ ВПО "Национальный исследовательский университет" Высшая школа экономики', type='ORG', start=517)
Entity(text='ЗАО "Национальная резервная корпорация"', type='ORG', start=726) - Entity(text='ЗАО "Национальная резервная корпорация', type='ORG', start=726)
Entity(text='Аэрофлота', type='ORG', start=1328) - Entity(text='Аэрофлота "по и', type='ORG', start=1328)
Entity(text='Федерального собрания', type='ORG', start=1662) - Ent

К сожалению, не хватило времени разобраться, почему такие получаются такие низкие скоры. В отчете будут приведены полученные здесь и взятые из репозитория Slovnet.

UPD: первая модель от Deeppavlov очень странно предсказывало NER-теги (например, Би-би-си оно разбивало как B-ORG E-ORG E-ORG E-ORG E-ORG E-ORG), вторая модель лишена этого недостатка. Остается проблема спорных тегов (например, MEDIA вместо ORG для Spotify). Также в датасете встречаются названия, заключенные или заканчивающиеся различными символами, такими как " ' ( ) и т. д., притом где-то эти символы входят в тег, где-то - нет, у модели ситуация такая же, поэтому скоры для таких случаев снижаются. Это является (одной из) причиной того, почему EXACT в первом варианте оценки давали околонулевые результаты. Нужно лучше обрабатывать такие случаи или правильно настроить конечные позиции токенов для использовании строки из изначального текста.

In [175]:
for metric in y_true.keys():
    print(f"{metric.upper()} F1 для Deeppavlov BERT: {nereval.evaluate(y_true[metric], y_pred[metric])}")

OVERALL F1 для Deeppavlov BERT: 0.9556805574478854
LOC F1 для Deeppavlov BERT: 0.9877088799889518
PER F1 для Deeppavlov BERT: 0.9925225733634312
ORG F1 для Deeppavlov BERT: 0.873776469835583


# Тестирование инференса

In [None]:
ne5 = corus.load_ne5('/kaggle/working/Collection5')
wandb.init(project="Testing NER models")
for tagged_text in ne5:
    res = slovnet(tagged_text.text)
wandb.finish()

In [None]:
import re
ne5 = corus.load_ne5('/kaggle/working/Collection5')
wandb.init(project="Testing NER models")
for tagged_text in ne5:
    cur_text = tagged_text.text
    batch_size=512
    splitted_text = re.split(r'(\s+)', cur_text)
    token_batches = [splitted_text[i:i + batch_size] for i in range(0, len(splitted_text), batch_size)]
    for batch in token_batches:
        input_text = ''.join(batch)
        tokens, ner_tokens, offsets = ner_model([input_text])
wandb.finish()