In [20]:
import pickle
import textwrap
from pprint import pprint


def print_wrapped(text, width=80):
    wrapped_text = textwrap.fill(text, width=width)
    print(wrapped_text)


with open("data.pkl", "rb") as f:
    pavlov = pickle.load(f)

with open("data_my.pkl", "rb") as f:
    bert_base_NER_Russian = pickle.load(f)


def read_texts_from_file(filename):
    with open(filename, "r", encoding="utf-8") as file:
        content = file.read()

    texts = content.split("\n\n")

    cleaned_texts = []
    for text in texts:
        cleaned_text = " ".join(
            line.strip() for line in text.split("\n") if line.strip()
        )
        if cleaned_text:
            cleaned_texts.append(cleaned_text)

    return cleaned_texts


tests = read_texts_from_file("test.txt")
my_labels = (
    (
        ("ООН", "Аббревиатура"),
        ("Нью-Йорке", "Город"),
        ("России", "Страна"),
        ("Сергея Лаврова", "Имя Фамилия"),
        ("Антониу Гутерришем", "Имя Фамилия"),
        ("Израилем", "Страна"),
        ("Лавров", "Фамилия"),
        ("Российская Федерация", "Страна"),
        ("МИД", "Аббревиатура"),
        ("Марии Захаровой", "Имя Фамилия"),
        ("США", "Страна"),
        ("Энтони Блинкен", "Имя Фамилия"),
        ("Германии", "Страна"),
        ("Олаф Шольц", "Имя Фамилия"),
        ("Лавров", "Фамилия"),
        ("Каир", "Город"),
        ("Египта", "Страна"),
        ("Абдул-Фаттахом ас-Сиси", "Имя Фамилия"),
    ),
    (
        ("Александр Сергеевич Пушкин", "Имя Отчество Фамилия"),
        ("Москва", "Город"),
        ("Санкт-Петербург", "Город"),
        ("Сергей Львович Пушкин", "Имя Отчество Фамилия"),
        ("Надежда Осиповна", "Мия Отчество"),
        ("Ганнибал", "Фамилия"),
        ("Петра", "Имя"),
        ("Абрама Петровича Ганнибала", "Имя Отчество Фамилия"),
        ("Пушкин", "Фамилия"),
        ("Гавриил Державин", "Имя Фамилия"),
        ("Василий Жуковский", "Имя Фамилия"),
    ),
    (
        ("Облонских", "Фамилия"),
        ("Степан Аркадьич Облонский", "Имя Отчество Фамилия"),
        ("Дарьи Александровны", "Имя Отчество"),
        ("Долли", "Имя"),
        ("Константине Дмитриевиче Левине", "Имя Отчество Фамилия"),
        ("Матвей", "Имя"),
        ("Анны Аркадьевны Карениной", "Имя Отчество Фамилия"),
        ("Степана Аркадьича", "Имя Отчество"),
    ),
    (
        ("Москве", "Город"),
        ("Государственной Третьяковской галереи", "Организация"),
        ("Крымском Валу", "Улица"),
        ("Михаила Александровича Врубеля", "Имя Отчество Фамилия"),
        ("Ольга Любимова", "Имя Фамилия"),
        ("Зельфира Трегулова", "Имя Фамилия"),
        ("Ирина Шуманова", "Имя Фамилия"),
        ("Третьяковки", "Организация"),
        ("Русского музея", "Организация"),
        ("Санкт-Петербурге", "Город"),
        ("Демон сидящий", "Произведение"),
        ("Царевна-Лебедь", "Произведение"),
    ),
    (
        ("Надежда", "Название корабля"),
        ("Нева", "Название корабля"),
        ("Ивана Фёдоровича Крузенштерна", "Имя Отчество Фамилия"),
        ("Надеждой", "Название корабля"),
        ("Крузенштерн", "Фамилия"),
        ("Невой", "Название корабля"),
        ("Юрий Фёдорович Лисянский", "Имя Отчество Фамилия"),
        ("Кронштадта", "Город"),
        ("Горн", "Название мыса"),
        ("Гавайские острова", "Острова"),
        ("Камчатки", "Полуостров"),
        ("Японию", "Страна"),
        ("Николай Петрович Резанов", "Имя Отчество Фамилия"),
        ("Юнона и Авось", "Произведение"),
        ("Тихого океана", "Океан"),
    ),
    (
        ("Сергей Орел", "Имя Фамилия"),
        ("Орел", "Город"),
        ("Турции", "Страна"),
        ("Иван Рыбкин", "Имя Фамилия"),
        ("Рыбкин", "Организация"),
        ("Берлине", "Город"),
        ("Река Ангара", "Река"),
        ("Ангара", "Организация"),
        ("Ангара Петров", "Имя Фамилия"),
        ("Париж", "Город"),
        ("Токарь", "Фамилия"),
        ("Иванова", "Фамилия"),
        ("Токарь", "Произведения")
    )
)

In [None]:
for i, text in enumerate(tests):
    print("=" * 38 + str(i) + "=" * 38)
    print_wrapped(text)
    print()
    n = max(len(pavlov[i]), len(bert_base_NER_Russian[i]), len(my_labels[i]))
    for j in range(n):
        from_pavlov = ""
        from_bert_base_NER_Russian = ""
        from_my = ""
        if j < len(my_labels[i]):
            from_my = f"Word: {my_labels[i][j][0]}, Entity: {my_labels[i][j][1]}"
        if j < len(pavlov[i]):
            from_pavlov = f"Word: {pavlov[i][j][0]}, Entity: {pavlov[i][j][1]}"
        if j < len(bert_base_NER_Russian[i]):
            from_bert_base_NER_Russian = f"Word: {bert_base_NER_Russian[i][j][0]}, Entity: {bert_base_NER_Russian[i][j][1]}"
        from_pavlov_space_count = 50 - len(from_pavlov)
        if from_pavlov_space_count < 1:
            from_pavlov_space_count = 1
        from_bert_base_NER_Russian_space_count = 50 - len(from_bert_base_NER_Russian)
        if from_bert_base_NER_Russian_space_count < 1:
            from_bert_base_NER_Russian_space_count = 1
        print(
            from_pavlov,
            " " * from_pavlov_space_count,
            from_bert_base_NER_Russian,
            " " * from_bert_base_NER_Russian_space_count,
            from_my,
        )

В среду, 15 мая, в штаб-квартире ООН в Нью-Йорке состоялась встреча министра
иностранных дел России Сергея Лаврова с генеральным секретарем организации
Антониу Гутерришем. Основной темой переговоров стала эскалация напряженности в
зоне конфликта между Израилем и Палестиной. Лавров подчеркнул, что Российская
Федерация призывает все стороны к немедленному прекращению огня. По словам
официального представителя МИД Марии Захаровой, встреча прошла в конструктивном
ключе. Ранее с аналогичными заявлениями выступили госсекретарь США Энтони
Блинкен и канцлер Германии Олаф Шольц. В ближайшее время Лавров также планирует
посетить Каир для консультаций с президентом Египта Абдул-Фаттахом ас-Сиси.

Word: среду, Entity: B-TIME                         Word: Нью, Entity: CITY                             Word: ООН, Entity: Аббревиатура
Word: 15, Entity: B-DATE                            Word: -, Entity: CITY                               Word: Нью-Йорке, Entity: Город
Word: мая, Entity: I-DATE         

# Отчёт по лабораторной работе

В рамках лабораторной работы была использована обязательная модель `ner_ontonotes_bert_mult`, а также найденная на Hugging Face модель `bert-base-NER-Russian`. Все шесть документов были дополнительно размечены вручную для верификации результатов.

## Сравнительный анализ моделей

### Поддерживаемые сущности
* **`ner_ontonotes_bert_mult`** распознаёт имена людей (без разделения на составные части), организации, страны, города, даты и географические объекты
* **`bert-base-NER-Russian`** работает с именами, странами и городами, но при этом различает составные части имён

## Анализ ошибок

### Модель `bert-base-NER-Russian`
* **Географические ошибки**: `Каир` помечен как `COUNTRY` вместо `CITY`
* **Некорректный разбор имён**: `Петра Великого` разделён на `FIRST_NAME` и `LAST_NAME`, хотя "Великий" является прозвищем
* **Путаница с организациями**: "Рыбкин" распознан как фамилия, а не как название компании
* **Пропуск сущностей**: не распознал фамилию "Токарь" у доктора

### Модель `ner_ontonotes_bert_mult`
* **Ошибочная классификация**: `Российская Федерация` помечена как организация
* **Разрыв сущностей**: `мыс Горн` разбит на две отдельные локации
* **Проблемы с пунктуацией**: забывает открывающую кавычку в `"Токарь"`
* **Прилипание точек**: часто присоединяет точку к последнему слову предложения

## Выводы

Найденная модель `bert-base-NER-Russian` демонстрирует лучшие результаты в извлечении имён людей благодаря детальному анализу составных частей. В то же время модель `ner_ontonotes_bert_mult` показывает более стабильную работу в общем случае, успешно справляясь со сложными синтаксическими конструкциями, как в последнем документе.