# Лабораторная работа №4
## Извлечение именованных объектов (сущностей)

### Выполнил: Емельянов Андрей Сергеевич гр. 8ПМ21

## Описание задания

**Цель работы**: исследовать возможности и практическую применимость реализаций NER для решения задачи извлечения сущностей

**Входные данные**: тексты, полученные в лабораторной работе №3 с изображений - сканов книги с архивными средневековыми текстами на древненемецком и латыни.

**Выходные данные**: именованные сущности (сущность и тип сущности).


## Ход работы

### Импорт библиотек и чтение данных

In [1]:
import spacy
import spacy_transformers
import en_core_web_trf
from deeppavlov import build_model, configs
import stanza

In [2]:
text_list= []

for i in [1,2,3,4]:
    with open(f'doc{i}.txt', encoding='utf-8') as f:
        lines = f.readlines()
        text_list.append(lines)

### Извлечение именованных сущностей с помощью spaCy

In [3]:
nlp = spacy.load('en_core_web_trf')
nlp = en_core_web_trf.load()
for text in text_list:
    fused = ''
    for line in text:  
        doc = nlp(line)
        for entity in doc.ents:
            fused = fused + entity.text.replace('\n', '') + ' (' + entity.label_ +') '

    print(fused)
    print('\n-----------------------------------\n')

1446 (CARDINAL) Januar 23. (DATE) 1446 (CARDINAL) April 5. (DATE) 452 (CARDINAL) 1446 (CARDINAL) April 5. (DATE) April 5. (DATE) 431 (CARDINAL) 432 (CARDINAL) seyn wirt (PERSON) Holland (GPE) 40. jar. (DATE) Judica (PERSON) Hans von Baysen (PERSON) Elbing (GPE) Judiea (DATE) HM (ORG) Ferner (PERSON) Hollinder (PERSON) Braunsberg (PERSON) Kuoiphof (PERSON) Kannengiesser (PERSON) den Denz. Bec (ORG) 286 (CARDINAL) 22a (CARDINAL) 209 (CARDINAL) Elb (PERSON) 108 (CARDINAL) Anno domini 1446 (DATE) Johannes* Matezke (PERSON) Rutcherus von (PERSON) Birken (GPE) de Elbing (PERSON) Johannes Wintburg (GPE) Johannes (GPE) Sonnenwalt (PERSON) Johannes von Ruden (PERSON) de Brunsberg (PERSON) Nicolaus Rudolffhoven (PERSON) Andreas Bekeman (PERSON) de Koningsberg (PERSON) Nicolaus Plesze (PERSON) Johannes Slesiger (PERSON) de Kneyphabe (PERSON) Georgius Langerbeyn (PERSON) Heynrieus Pfoel de Danezik (PERSON) Lucas Mekelvelt (PERSON) Martinus Cremon (PERSON) Meynhardus Colner (PERSON) Johannes (PERSO

### Извлечение именованных сущностей с помощью DeepPavlov

In [4]:
ner_model = build_model(configs.ner.ner_ontonotes_bert_mult, download=True)
for text in text_list:
    fused = ''
    for line in text:    
        ner_predictions = ner_model([line])

        for token, tag in zip(ner_predictions[0][0], ner_predictions[1][0]):
            if tag != 'O':
                fused = fused + token.replace('\n', '') + ' (' + tag +') '

    print(fused)
    print('\n-----------------------------------\n')

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForTokenClassification: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForTokenClassification were not initialized from the model checkpoint at 

Januar (B-DATE) 23 (I-DATE) . (I-DATE)  (I-DATE) April (B-DATE) 5 (I-DATE) . (I-DATE) 452 (B-CARDINAL) April (B-DATE) 5 (I-DATE) . (I-DATE) April (B-DATE) 5 (I-DATE) . (I-DATE) Holland (B-GPE) Pauli (B-PERSON) 40 (B-DATE) . (I-DATE) jar (I-DATE) . (I-DATE) Elbing (B-GPE) 1446 (B-DATE) Landraths (B-PERSON) Hans (B-PERSON) von (I-PERSON) Baysen (I-PERSON) HM (B-PERSON) Rath (B-PERSON) Hollinder (B-PERSON) Mekelfelds (B-PERSON) Westphuls (B-PERSON) Stüdte (B-GPE) Braunsberg (B-GPE) Kuoiphof (B-GPE) Güste (B-LOC) Nürnberger (B-NORP) 286 (B-CARDINAL) 22a (B-CARDINAL) Thorn (B-PERSON) 209 (B-CARDINAL) Elb (B-PERSON) 108 (B-CARDINAL) Anno (B-DATE) domini (I-DATE) 1446 (I-DATE) . (I-DATE) Bartholomeus (B-PERSON) HRosenick (I-PERSON) Johannes (B-PERSON) * (I-PERSON) Matezke (I-PERSON) * (I-PERSON) Thorun (B-PERSON) Hermannus (B-PERSON) Rusop (I-PERSON) Rutcherus (B-PERSON) von (I-PERSON) Birken (B-PERSON) Elbing (B-GPE) Petrus (B-PERSON) Storm (I-PERSON) Johannes (B-PERSON) Wintburg (I-PERSON) 

### Извлечение именованных сущностей с помощью Stanza

In [5]:
nlp = stanza.Pipeline(lang='en', processors='tokenize,ner')
for text in text_list:
    fused = ''
    for line in text:
        doc = nlp(line)

        for sentence in doc.sentences:
            for entity in sentence.ents:
                fused = fused + entity.text.replace('\n', '') + ' (' + entity.type +') '

    print(fused)
    print('\n-----------------------------------\n')

2023-04-05 22:23:44 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.5.0.json:   0%|   …

2023-04-05 22:23:45 INFO: Loading these models for language: en (English):
| Processor | Package   |
-------------------------
| tokenize  | combined  |
| ner       | ontonotes |

2023-04-05 22:23:45 INFO: Using device: cpu
2023-04-05 22:23:45 INFO: Loading: tokenize
2023-04-05 22:23:45 INFO: Loading: ner
2023-04-05 22:23:46 INFO: Done loading processors!


1446 (CARDINAL) Januar 23 (DATE) 1446 (CARDINAL) April 5 (DATE) 452 (CARDINAL) 1446 (CARDINAL) April 5 (DATE) April 5 (DATE) 692 1446 (CARDINAL) 431 (CARDINAL) 432 (CARDINAL) Geben (PERSON) Holland (GPE) Donrstag nach (PERSON) Pauli (PERSON) 40 (CARDINAL) Stándetag zu Elbing (PERSON) Tagfahrt (GPE) Hans von Baysen (PERSON) Tagfahrt zu Elbing (PERSON) Dienstag (GPE) 1440 (CARDINAL) Weichselausbrüche (GPE) Wissen des HM's (FAC) Eeron (ORG) Ferner kommen zur (PERSON) Verhandlung eim Achtbrief (PERSON) Sache (PERSON) Stüdte Braunsberg (PERSON) Kuoiphof (GPE) Betreff (GPE) Pfundzolles (PERSON) Lande (PERSON) Lederausfuhr (PERSON) Arbeit dor Kannengiesser (PERSON) Verpackung der Heringe (PERSON) den Denz (GPE) 286 (CARDINAL) 22a (CARDINAL) 209 (CARDINAL) 108 (CARDINAL) 1446 (CARDINAL) Johannes* Matezke* (PERSON) Rutcherus (GPE) Petrus Storm (PERSON) Johannes Wintburg (PERSON) Johannes (PERSON) Sonnenwalt (PERSON) Johannes von Ruden (PERSON) Nicolaus Rudolffhoven (PERSON) Andreas Bekeman? (PE

## Заключение
### Результаты:

* Произведено извлечение именованных сущностей с помощью трёх библиотек для задачи NER (spaCy, DeepPavlov, Stanza)

### Выводы:

* **spaCy** не имеет поддержки латинского, с использованием английского пакета он смог извлечь сущности. Качество разметки очень низкое, так как в разметку попадает много слов, не относящихся к присвоенным сущностям.
* **DeepPavlov** произвёл разметку наиболее качественно. Разметке подвергается каждый токен. Языковой пакет универсальный. Есть проблемы с разметкой дат, но делает он это лучше, чем остальные.
* **Stanza** не имеет поддержки NER в стандартном пакете для латинского языка, но английский пакет справляется достаточно качественно. Есть неразмеченные сущности, но нет выбросов (склонен к ошибкам 1 - го порядка, что в контексте задачи лучше).