In [136]:
from natasha import (
    NamesExtractor,
    DatesExtractor,
    AddrExtractor,
    MorphVocab,
    Segmenter,
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    Doc
)


file_path = 'article.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    article_text = file.read()

#////////////////////////////////////////////////////////////////////////

# Initialize Natasha NER components
# Инициализировать компоненты Natasha NER

morph_vocab = MorphVocab()
# handling morphological information in the text and breaking words down into the smallest grammatical units and analyzing their grammatical properties
# обработка морфологической информации в тексте, разбиение слов на мельчайшие грамматические единицы и анализ их грамматических свойств
segmenter = Segmenter()
# segmenting text into tokens or words
# сегментирование текста на лексемы или слова
emb = NewsEmbedding()
# pre-trained word embedding model specifically trained on news articles. Word embeddings are dense vector representations of words in a high-dimensional space, where similar words are represented by similar vectors
# предварительно обученная модель встраивания слов, специально обученная на новостных статьях. Встраивания слов - это плотные векторные представления слов в многомерном пространстве, где похожие слова представлены похожими векторами
morph_tagger = NewsMorphTagger(emb)
# assigns morphological tags to each word token, indicating its grammatical properties such as part of speech, tense, case, gender, and number
# присваивает морфологические теги каждой лексеме слова, указывая на ее грамматические свойства, такие как часть речи, время, падеж, род и число.
syntax_parser = NewsSyntaxParser(emb)
# analyzes the relationships between words in a sentence
# анализирует отношения между словами в предложении
ner_tagger = NewsNERTagger(emb)
# identifies and classifies named entities such as persons, organizations, locations, dates, etc., based on their context and surrounding words
# идентифицирует и классифицирует именованные объекты, такие как лица, организации, местоположения, даты и т.д., на основе их контекста и окружающих слов

#////////////////////////////////////////////////////////////////////////

# Initialize extractors for different types of named entities
# Инициализировать экстракторы для различных типов именованных объектов

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)



#//////////////////////////////////////////////////////////////////////

# Apply it to the article text
# Применить к тексту статьи

doc = Doc(article_text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
doc.tag_ner(ner_tagger)


# Extract named entities from the Text
# Извлеките именованные объекты из текста
named_entities = doc.spans
for span in named_entities:
    print(span.text, span.start, span.stop, span.type)



Нико́ла Те́сла 0 14 PER
Никола Те́сла 22 35 PER
Nikola Tesla 43 55 ORG
Смилян 70 76 PER
Госпич 78 84 LOC
Австрийская империя 86 105 LOC
Нью-Йорк 123 131 LOC
США 133 136 LOC
Австрийской империи 535 554 LOC
Австро-Венгрии 564 578 LOC
Франции 621 628 LOC
США 631 634 LOC
США 668 671 LOC
Широко 853 859 PER
Tesla 1482 1487 ORG
Эллиота Крессона 1518 1534 PER
Джона Скотта 1536 1548 PER
Томаса Эдисона 1550 1564 PER
Теслы 1581 1586 PER
США 1691 1694 LOC
Тесла 1710 1715 PER
Теслу 1851 1856 PER
Википедии 1965 1974 ORG
Тесла 2009 2014 ORG
Никола Тесла 2051 2063 PER
Никола Тесла

Имя 2070 2087 PER
Никола Тесла 2107 2119 PER
Смилян 2174 2180 PER
Адская кухня 2259 2271 LOC
Нью-Йорк 2273 2281 LOC
США 2283 2286 LOC
Страна	 Австрийская империя→
 Австро-Венгрия→
 Королевство Венгрия→ 2287 2354 LOC
США 2356 2359 LOC
Европа 2442 2448 LOC
США 2450 2453 LOC
Tesla Company 2455 2468 ORG
Альма-матер	
Высшее реальное училище 2469 2505 ORG
Грацский технический университет 2519 2551 ORG
Карлов университет 2570 2588

In [137]:
# Print only the names
filtered_entities = []

for span in named_entities:
    if span.type == 'PER':
        text = span.text
        filtered_text = ' '.join(word for word in text.split() if not word.isdigit())
        filtered_span = doc.text[span.start:span.stop].replace(text, filtered_text)
        filtered_entities.append(filtered_span)

print("Отфильтрованные объекты:\n")
print("-----------------------\n")
for span in filtered_entities:
    print(span)



Отфильтрованные объекты:

-----------------------

Нико́ла Те́сла
Никола Те́сла
Смилян
Широко
Эллиота Крессона
Джона Скотта
Томаса Эдисона
Теслы
Тесла
Теслу
Никола Тесла
Никола Тесла Имя
Никола Тесла
Смилян
Ученики Бернард Дж
Дж. Скотта
Т. Эдисона
Викискладе Нико́ла Те́сла
Никола Те́сла
Смилян
Широко
Эллиота Крессона
Джона Скотта
Томаса Эдисона
Теслы
Тесла
Теслу
Теслы
Милутин Тесла
Георгина (Джука) Тесла
Мандич
Никола
Милка
Ангелина
Марица
Никола
Дане
Николе
Тесла
Никола
Дане
Теслы
Никола
Никола
Станки Баранович
Никола
Тесла
Никола Тесла
Тесла
Тесла
Тесле
Эдисона (Continental Edison Company)
Николу
Тесла
Б. Н. Ржонсницкий
Тесла
Чарльз Бечлор
Теслу
Бечлор
Томасу Эдисону
Эдисон


In [138]:
named_entities = doc.spans

# Rule 1 - Print persons with associated locations
# Правило 1 - Печать лиц с указанием местоположения
print("Персоны, занимающие соответствующие должности:\n")
print("----------------------------------------\n")
for span in named_entities:
    if span.type == 'LOC':
        location_span = span
        person_span = None
        for neighbor_span in named_entities:
            if neighbor_span.start < location_span.start and neighbor_span.type == 'PER':
                person_span = neighbor_span
                break
        if person_span:
            print("Личность:", person_span.text, "| Расположение:", location_span.text)


Персоны, занимающие соответствующие должности:

----------------------------------------

Личность: Нико́ла Те́сла | Расположение: Госпич
Личность: Нико́ла Те́сла | Расположение: Австрийская империя
Личность: Нико́ла Те́сла | Расположение: Нью-Йорк
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: Австрийской империи
Личность: Нико́ла Те́сла | Расположение: Австро-Венгрии
Личность: Нико́ла Те́сла | Расположение: Франции
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: Адская кухня
Личность: Нико́ла Те́сла | Расположение: Нью-Йорк
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: Страна	 Австрийская империя→
 Австро-Венгрия→
 Королевство Венгрия→
Личность: Нико́ла Те́сла | Расположение: США
Личность: Нико́ла Те́сла | Расположение: Европа
Личность: Нико́ла Те́сла | Расположение: США
Личность:

In [139]:
# Rule 2: Print all named entities with their types
# Правило 2: Выведите все именованные сущности с их типами
print("Все именованные сущности и типы:\n")
print("--------------------------------\n")
for span in named_entities:
    print(span.text, span.type)




Все именованные сущности и типы:

--------------------------------

Нико́ла Те́сла PER
Никола Те́сла PER
Nikola Tesla ORG
Смилян PER
Госпич LOC
Австрийская империя LOC
Нью-Йорк LOC
США LOC
Австрийской империи LOC
Австро-Венгрии LOC
Франции LOC
США LOC
США LOC
Широко PER
Tesla ORG
Эллиота Крессона PER
Джона Скотта PER
Томаса Эдисона PER
Теслы PER
США LOC
Тесла PER
Теслу PER
Википедии ORG
Тесла ORG
Никола Тесла PER
Никола Тесла

Имя PER
Никола Тесла PER
Смилян PER
Адская кухня LOC
Нью-Йорк LOC
США LOC
Страна	 Австрийская империя→
 Австро-Венгрия→
 Королевство Венгрия→ LOC
США LOC
Европа LOC
США LOC
Tesla Company ORG
Альма-матер	
Высшее реальное училище ORG
Грацский технический университет ORG
Карлов университет ORG
Ученики	Бернард Дж PER
Сербия LOC
Дж. Скотта PER
Т. Эдисона PER
Викискладе
Нико́ла Те́сла PER
Никола Те́сла PER
Nikola Tesla ORG
Смилян PER
Госпич LOC
Австрийская империя LOC
Нью-Йорк LOC
США LOC
Австрийской империи LOC
Австро-Венгрии LOC
Франции LOC
США LOC
США LOC
Широко PER

In [140]:
# Rule 3 - Print All named entities and dates 
# Правило 3 - Вывести все названные сущности и даты 
named_entities = doc.spans
dates = [match.fact.year for match in dates_extractor(article_text)]

filtered_entities_with_years = []
for span in named_entities:
    text = span.text.split()[0]
    for date in dates:
        if text in article_text and str(date) in article_text:
            filtered_entities_with_years.append((text, date))

print("Все названные сущности с годами:\n")
print("--------------------------------\n")
for entity, year in filtered_entities_with_years:
    print(f"{entity}: {year}")


Все названные сущности с годами:

--------------------------------

Нико́ла: 1856
Нико́ла: 1943
Нико́ла: 1891
Нико́ла: 2021
Нико́ла: 1856
Нико́ла: 1943
Нико́ла: 1878
Нико́ла: 1856
Нико́ла: 1943
Нико́ла: 1891
Нико́ла: 2021
Нико́ла: 1856
Нико́ла: 1862
Нико́ла: 1870
Нико́ла: 1873
Нико́ла: 1879
Нико́ла: 1882
Нико́ла: 1882
Нико́ла: 1882
Нико́ла: 1883
Нико́ла: 1883
Нико́ла: 1884
Никола: 1856
Никола: 1943
Никола: 1891
Никола: 2021
Никола: 1856
Никола: 1943
Никола: 1878
Никола: 1856
Никола: 1943
Никола: 1891
Никола: 2021
Никола: 1856
Никола: 1862
Никола: 1870
Никола: 1873
Никола: 1879
Никола: 1882
Никола: 1882
Никола: 1882
Никола: 1883
Никола: 1883
Никола: 1884
Nikola: 1856
Nikola: 1943
Nikola: 1891
Nikola: 2021
Nikola: 1856
Nikola: 1943
Nikola: 1878
Nikola: 1856
Nikola: 1943
Nikola: 1891
Nikola: 2021
Nikola: 1856
Nikola: 1862
Nikola: 1870
Nikola: 1873
Nikola: 1879
Nikola: 1882
Nikola: 1882
Nikola: 1882
Nikola: 1883
Nikola: 1883
Nikola: 1884
Смилян: 1856
Смилян: 1943
Смилян: 1891
Смилян: 2021


Заметки:

Наташа эффективно идентифицировала и извлекала из текста именованные сущности, такие как люди, места и даты.