In [345]:
from nerus import load_nerus
import math
import numpy as np
import torch
import torch.nn.functional as F
from tqdm import tqdm
from transformers import (
    T5ForConditionalGeneration,
    AutoTokenizer,
    Seq2SeqTrainer,
    Seq2SeqTrainingArguments,
    DataCollatorForSeq2Seq,
    AutoModelForTokenClassification
)

# Загружаю данные

In [346]:
docs = load_nerus('nerus_lenta.conllu.gz')

In [347]:
doc = next(docs)

In [348]:
doc.ner.text

'Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.'

In [349]:
types = set()

doc = next(docs)
for j in range(100):
    doc = next(docs)
    print(doc.ner.text)
    for i in doc.ner.spans:
        types.add(i.type)

types

Сотрудники социальной сети Instagram проанализировали поставленные пользователями смайлики, геолокации и хештеги и опубликовали итоги 2018 года. Об этом сообщается на официальном сайте Instagram. Таким образом, самой счастливой геолокацией Instagram признал Диснейленд в Токио, так как больше всего счастливых смайликов в 2018 году пользователи ставили именно под фотографиями из японского Диснейленда. Также эксперты назвали самый популярный фильтр для лица: им стал фильтр с сердечками на глазах. А, например, самыми часто используемыми хештегами в 2018 году были #metoo, #timesup и #marchforourlives. В ноябре сотрудники британской ассоциации потребителей Which? составили рейтинг самых безопасных стран для путешествий. Специалисты проанализировали 20 самых популярных туристических направлений по четырем критериям: уровень преступности, угроза здоровью, вероятность теракта и стихийных бедствий. Самой безопасной страной по всем параметрам стала Исландия.
С начала расследования российского вме

{'LOC', 'ORG', 'PER'}

# Обработка NERUS

In [350]:
ru_ner_tokenizer = AutoTokenizer.from_pretrained("viktoroo/sberbank-rubert-base-collection3")

In [351]:
doc = next(docs)

In [352]:
text = doc.ner.text
markup = doc.ner.spans
text

'В Московской области для вывоза снега задействовано почти 300 площадок, сообщил вице-губернатор региона Дмитрий Пестов. Его слова приводит корреспондент «Лента.ру». «Также в Подмосковье работают девять снегоплавильных установок, позволяющих оперативно растопить большой объем снега», — сказал он. В общей сложности они могут обрабатывать свыше пятисот кубометров снега в час, уточняется в сообщении на сайте областного правительства. На площадках временного складирования снега не должно быть отходов, за этим следят контролирующие службы. Земельные участки для вывоза снега определяются органами местного самоуправления, после зимы они должны очищаться и благоустраиваться. Ранее сообщалось, что коммунальный комплекс региона полностью готов к зимнему сезону. Службы жизнеобеспечения в ходе учения также подтвердили готовность к наступлению холодов. Проверочные мероприятия проходили в середине сентября. В этом году был увеличен резерв коммунальной техники.'

In [353]:
def transform(text, markup): 
    tokens = [text[0:markup[0].start]]
    tags = ['O']
    
    for i in range(len(markup[:-1])):
        tokens.append(text[markup[i].start:markup[i].stop])
        tags.append(markup[i].type)
        tokens.append(text[markup[i].stop:markup[i + 1].start])
        tags.append('O')

    tokens.append(text[markup[-1].start:markup[-1].stop])
    tags.append(markup[-1].type)
    tokens.append(text[markup[-1].stop:])
    tags.append('O')
    
    final_tokens = []
    final_tags = []
    
    for i in range(len(tokens)):
        size = len(tokens[i].split())
        final_tokens += tokens[i].split()
        if tags[i] != "O":
            final_tags.append("B-" + tags[i])
            final_tags += ["I-" + tags[i]] * (size - 1)
        else:
            final_tags += [tags[i]] * size
        
    return final_tokens, final_tags

In [354]:
entity_mapping = {
'O':0, 'B-PER':1, 'I-PER':2, 'B-ORG':3, 'I-ORG':4,'B-LOC':5, 'I-LOC':6,
}

In [355]:
MAX_LEN = 128

def get_transformed(text, markup):
    
    orig_text = text
    text, tags = transform(text, markup)
    
    ids = []
    target_tag =[]
    
    # tokenize words and define tags accordingly
    # running -> [run, ##ning]
    # tags - ['O', 'O']
    for i, s in enumerate(text):
        inputs = ru_ner_tokenizer.encode(s, add_special_tokens=False)
        input_len = len(inputs)
        ids.extend(inputs)
        if not tags[i].startswith("B"):
            target_tag.extend([entity_mapping[tags[i]]] * input_len)
        else:
            target_tag.extend([entity_mapping[tags[i]]] + [entity_mapping[tags[i + 1]]] * (input_len - 1))
    
    ids = [101] + ids + [102]
    target_tag = [0] + target_tag + [0]
    mask = [1] * len(ids)
    token_type_ids = [0] * len(ids)
    
    MAX_LEN = len(ru_ner_tokenizer(orig_text)['input_ids'])
    
    if MAX_LEN < len(ids):
        ids = ids[:MAX_LEN]
        mask = mask[:MAX_LEN]
        token_type_ids = token_type_ids[:MAX_LEN]
        target_tag = target_tag[:MAX_LEN]
    else:
        # construct padding
        padding_len = MAX_LEN - len(ids)
        ids = ids + ([0] * padding_len)
        mask = mask + ([0] * padding_len)
        token_type_ids = token_type_ids + ([0] * padding_len)
        target_tag = target_tag + ([0] * padding_len)
    
    return {'input_ids': torch.tensor(ids, dtype=torch.long),
            'attention_mask': torch.tensor(mask, dtype=torch.long),
            'token_type_ids': torch.tensor(token_type_ids, dtype=torch.long),
            'labels': torch.tensor(target_tag, dtype=torch.long)
           }

In [356]:
gt = get_transformed(text, markup)

In [357]:
gt["labels"].size()

torch.Size([173])

In [358]:
gt

{'input_ids': tensor([   101,    113,   4181,    702,    378,   1551,    849,  60868,  14690,
          19358,  34083, 119096,    651,   1861,   4894,  30906,    121,   2422,
           5401,    133,   8163,   2656,    116,   4851,   1030,   3539,    883,
            126,    806,   1290,   5355,   8664,    151,  31335,    126,    856,
            150,    126,    151,   1080,    113,  18085,   1829,   6340,   8493,
          13090, 101090,   1560,  23576,    121,  63574,  14455,  53457,   2490,
           2125,    378,   7867,  14690,    150,    121,    179,   1239,    795,
            126,    113,   1686,    378,   9439,    991,   1853,  56797,   8262,
          60178,  17255,  14690,    113,   4778,    121,  21277,    113,   4810,
            660,    798,  42699,  12116,   3476,    126,    660,  31929,  21304,
         108775,   2697,  14690,    672,   2077,   1202,  25567,    121,    681,
           2304,  31145, 112883,   3629,    126,  47301,  15144,    849,  60868,
          14690

# Запускаем модель

In [359]:
import math
import numpy as np
import torch
import torch.nn.functional as F
from transformers import (
    T5ForConditionalGeneration,
    AutoTokenizer,
    Seq2SeqTrainer,
    Seq2SeqTrainingArguments,
    DataCollatorForSeq2Seq,
    AutoModelForTokenClassification
)

In [360]:
ru_ner_tokenizer = AutoTokenizer.from_pretrained("viktoroo/sberbank-rubert-base-collection3")
ru_ner_model = AutoModelForTokenClassification.from_pretrained("viktoroo/sberbank-rubert-base-collection3")

In [361]:
tokenized = ru_ner_tokenizer(doc.ner.text, return_tensors='pt')
tokenized

{'input_ids': tensor([[   101,    113,   4181,    702,    378,   1551,    849,  60868,  14690,
          19358,  34083, 119096,    651,   1861,   4894,  30906,    121,   2422,
           5401,    133,   8163,   2656,    116,   4851,   1030,   3539,    883,
            126,    806,   1290,   5355,   8664,    151,  31335,    126,    856,
            150,    126,    151,   1080,    113,  18085,   1829,   6340,   8493,
          13090, 101090,   1560,  23576,    121,  63574,  14455,  53457,   2490,
           2125,    378,   7867,  14690,    150,    121,    179,   1239,    795,
            126,    113,   1686,    378,   9439,    991,   1853,  56797,   8262,
          60178,  17255,  14690,    113,   4778,    121,  21277,    113,   4810,
            660,    798,  42699,  12116,   3476,    126,    660,  31929,  21304,
         108775,   2697,  14690,    672,   2077,   1202,  25567,    121,    681,
           2304,  31145, 112883,   3629,    126,  47301,  15144,    849,  60868,
          1469

In [362]:
with torch.no_grad():
    logits = ru_ner_model(**tokenized).logits
logits

tensor([[[ 9.0683, -3.0247, -2.7455,  ..., -2.1823, -2.4723, -2.6300],
         [ 9.0918, -3.1078, -2.7834,  ..., -2.1370, -2.4202, -2.6132],
         [-0.7322, -1.8068, -1.9989,  ..., -1.5796,  8.1687, -1.0436],
         ...,
         [ 9.1197, -3.1563, -2.6265,  ..., -2.0586, -2.5877, -2.4716],
         [ 9.1226, -3.2229, -2.7619,  ..., -1.8162, -2.6109, -2.5476],
         [ 7.6293, -2.2580, -2.4032,  ..., -2.4169, -1.1092, -2.7714]]])

In [363]:
predicted_token_class_ids = logits.argmax(-1)

In [364]:
predicted_tokens_classes = [ru_ner_model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
predicted_tokens_classes

['O',
 'O',
 'B-LOC',
 'I-LOC',
 'I-LOC',
 'I-LOC',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-PER',
 'I-PER',
 'I-PER',
 'I-PER',
 'I-PER',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-ORG',
 'I-ORG',
 'I-ORG',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-LOC',
 'I-LOC',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 '

In [365]:
len(predicted_tokens_classes)

173

# Сравнение

In [366]:
from sklearn.metrics import f1_score

In [367]:
y_true = gt["labels"].numpy()

In [368]:
y_pred = np.array([entity_mapping[i] for i in predicted_tokens_classes])

In [369]:
y_true, y_pred

(array([0, 0, 5, 6, 6, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]),
 array([0, 0, 5, 6, 6, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 3, 4, 4, 0, 0, 0, 0, 0, 5, 6, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

In [370]:
f1_score(y_pred, y_true, average='macro')

0.8353995803929049

# Проверка

In [ ]:
docs = load_nerus('nerus_lenta.conllu.gz')
scores = []

In [374]:
docs = load_nerus('nerus_lenta.conllu.gz')

for i in tqdm(range(1013, 3000)):
    doc = next(docs)
    
    try:
        text = doc.ner.text
        markup = doc.ner.spans
        
        gt = get_transformed(text, markup)
        
        tokenized = ru_ner_tokenizer(doc.ner.text, return_tensors='pt')
        
        with torch.no_grad():
            logits = ru_ner_model(**tokenized).logits
            
        predicted_token_class_ids = logits.argmax(-1)
        
        predicted_tokens_classes = [ru_ner_model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
        
        y_true = gt["labels"].numpy()
        y_pred = np.array([entity_mapping[i] for i in predicted_tokens_classes])
    
        scores.append(f1_score(y_pred, y_true, average='macro'))
    except Exception as e:
        pass

100%|██████████| 1987/1987 [20:31<00:00,  1.61it/s]


In [376]:
np.mean(scores)

0.7516305165816899