In [79]:
import nltk
import spacy
from natasha import (
    Segmenter, NewsEmbedding, NewsNERTagger, Doc
)
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk
from transformers import pipeline


In [80]:
text_ru = """
Искусственный интеллект (ИИ) — это область компьютерных наук, занимающаяся созданием программ и систем, способных выполнять задачи, требующие интеллектуальных усилий, аналогичных человеческим. История ИИ уходит корнями в середину XX века, когда ученые начали разрабатывать первые алгоритмы для имитации человеческого мышления.

В 1950 году британский математик Алан Тьюринг предложил тест Тьюринга, который стал важным критерием оценки разумности машин. В 1956 году состоялась конференция в Дартмуте, на которой был впервые введен термин "искусственный интеллект". В последующие десятилетия исследователи разрабатывали экспертные системы, алгоритмы машинного обучения и нейронные сети.

В 1997 году программа IBM Deep Blue обыграла чемпиона мира по шахматам Гарри Каспарова, что стало знаковым событием в развитии ИИ. В 2011 году система IBM Watson победила людей в телевизионной игре Jeopardy!, а в 2016 году AlphaGo от Google DeepMind одолела лучшего игрока в го.

Сегодня ИИ используется в медицине, финансах, автомобильной промышленности и других областях. Глубокое обучение и нейросетевые технологии позволили добиться значительных успехов в обработке естественного языка, компьютерном зрении и автономных системах. Однако вместе с достижениями ИИ вызывает этические и социальные вопросы, связанные с приватностью, автоматизацией рабочих мест и ответственностью за решения, принимаемые машинами.

Будущее ИИ обещает еще более глубокую интеграцию в повседневную жизнь, развитие генеративных моделей, усовершенствование автономных систем и повышение точности медицинской диагностики. Тем не менее, важно сохранять баланс между технологическим прогрессом и безопасностью общества.
"""

In [81]:
text_en = """
Artificial intelligence (AI) is a field of computer science dedicated to creating software and systems capable of performing tasks that require intellectual effort similar to that of humans. The history of AI dates back to the mid-20th century when scientists began developing the first algorithms to simulate human thought.

In 1950, British mathematician Alan Turing proposed the Turing Test, which became a crucial criterion for assessing machine intelligence. In 1956, the Dartmouth Conference introduced the term "artificial intelligence" for the first time. In the following decades, researchers developed expert systems, machine learning algorithms, and neural networks.

In 1997, IBM's Deep Blue defeated world chess champion Garry Kasparov, marking a milestone in AI development. In 2011, IBM Watson outperformed human contestants in the television game Jeopardy!, and in 2016, Google's DeepMind AlphaGo defeated the world’s best Go player.

Today, AI is widely used in medicine, finance, the automotive industry, and many other fields. Deep learning and neural network technologies have led to significant advancements in natural language processing, computer vision, and autonomous systems. However, alongside these achievements, AI raises ethical and social concerns regarding privacy, job automation, and accountability for machine-made decisions.

The future of AI promises even deeper integration into daily life, the development of generative models, improvements in autonomous systems, and increased accuracy in medical diagnostics. Nevertheless, it is essential to maintain a balance between technological progress and societal safety.

"""

<h1>1. SpaCy (модель для английского языка)</h1>


In [82]:
nlp_en = spacy.load("en_core_web_sm")
doc_en = nlp_en(text_en)
print("\nSpaCy (EN):")
for ent in doc_en.ents:
    print(f"{ent.text} - {ent.label_}")


SpaCy (EN):
AI - GPE
the mid-20th century - DATE
first - ORDINAL
1950 - DATE
British - NORP
Alan Turing - PERSON
the Turing Test - LAW
1956 - DATE
the Dartmouth Conference - ORG
first - ORDINAL
the following decades - DATE
1997 - DATE
IBM - ORG
Deep Blue - ORG
Garry Kasparov - PERSON
AI - GPE
2011 - DATE
IBM Watson - ORG
Jeopardy - GPE
2016 - DATE
Google - ORG
DeepMind AlphaGo - PRODUCT
Today - DATE
AI - GPE
AI - ORG
AI - ORG


<h1>2. SpaCy (модель для русского языка)</h1>

In [83]:
nlp_ru = spacy.load("ru_core_news_sm")
doc_ru = nlp_ru(text_ru)
print("\nSpaCy (RU):")
for ent in doc_ru.ents:
    print(f"{ent.text} - {ent.label_}")


SpaCy (RU):
Алан Тьюринг - PER
Тьюринга - PER
Дартмуте - LOC
IBM Deep Blue - ORG
Гарри Каспарова - PER
ИИ - ORG
IBM Watson - ORG
AlphaGo - ORG
Google DeepMind - ORG


<h1>3. SpaCy (мультиязычная модель)</h1>

In [84]:
nlp_multi = spacy.load("xx_ent_wiki_sm")
doc_multi = nlp_multi(text_ru)
print("\nSpaCy (Multilingual):")
for ent in doc_multi.ents:
    print(f"{ent.text} - {ent.label_}")


SpaCy (Multilingual):
ИИ - ORG
Алан Тьюринг - PER
Тьюринга - PER
Дартмуте - LOC
IBM Deep Blue - MISC
Гарри Каспарова - PER
ИИ - MISC
IBM Watson - MISC
Jeopardy! - MISC
AlphaGo - ORG
Google DeepMind - MISC
Глубокое обучение - LOC
ИИ - MISC
Будущее ИИ - PER


In [85]:
nlp_multi = spacy.load("xx_ent_wiki_sm")
doc_multi = nlp_multi(text_en)
print("\nSpaCy (Multilingual):")
for ent in doc_multi.ents:
    print(f"{ent.text} - {ent.label_}")


SpaCy (Multilingual):
AI - ORG
British - MISC
Alan Turing - PER
Turing Test - MISC
Dartmouth Conference - ORG
IBM - ORG
Deep Blue - MISC
Garry Kasparov - PER
IBM - ORG
Watson - PER
Jeopardy! - MISC
Google - ORG
DeepMind - MISC
AlphaGo - ORG
Go player - MISC


<h1>4. Hugging Face Transformers (модель RoBERTa для NER)</h1>

In [86]:
ner_pipeline = pipeline("ner", model="dslim/bert-base-NER")
print("\nHugging Face (RoBERTa):")
for entity in ner_pipeline(text_ru):
    print(f"{entity['word']} - {entity['entity']}")

Some weights of the model checkpoint at dslim/bert-base-NER were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0



Hugging Face (RoBERTa):
И - B-ORG
##с - I-ORG
##к - I-ORG
##у - I-ORG
##с - I-ORG


In [87]:
ner_pipeline = pipeline("ner", model="dslim/bert-base-NER")
print("\nHugging Face (RoBERTa):")
for entity in ner_pipeline(text_en):
    print(f"{entity['word']} - {entity['entity']}")

Some weights of the model checkpoint at dslim/bert-base-NER were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0



Hugging Face (RoBERTa):
AI - B-MISC
AI - B-MISC
British - B-MISC
Alan - B-PER
Turin - I-PER
Turin - B-MISC
##g - I-MISC
Test - I-MISC
Dartmouth - B-MISC
Conference - I-MISC
IBM - B-ORG
Deep - B-ORG
Blue - I-ORG
Garry - B-PER
Ka - I-PER
##sp - I-PER
##aro - I-PER
AI - B-MISC
IBM - B-ORG
Watson - I-ORG
Je - B-MISC
##ard - I-MISC
##y - I-MISC
! - I-MISC
Google - B-ORG
Deep - B-MISC
##M - I-MISC
##ind - I-MISC
Alpha - I-MISC
##G - I-MISC
##o - I-ORG
AI - B-MISC
AI - B-MISC
AI - B-MISC


<h1>5. Natasha (модель для русского языка)</h1>

In [88]:
segmenter = Segmenter()
emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)
doc = Doc(text_ru)
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
print("\nNatasha:")
for span in doc.spans:
    print(f"{span.text} - {span.type}")


Natasha:
Алан Тьюринг - PER
Тьюринга - PER
Дартмуте - LOC
IBM Deep Blue - ORG
Гарри Каспарова - PER
IBM Watson - ORG
Google DeepMind - ORG
ИИ - ORG


<h1>6. NLTK</h1>

In [89]:
nltk.download("punkt")
nltk.download("averaged_perceptron_tagger_eng")
nltk.download("maxent_ne_chunker_tab")
nltk.download("words")

# Токенизация и POS-теггинг
tokens = word_tokenize(text_en)
pos_tags = pos_tag(tokens)

# Разбор именованных сущностей
named_entities_tree = ne_chunk(pos_tags)

# Извлечение только именованных сущностей
named_entities = []
for subtree in named_entities_tree:
    if hasattr(subtree, 'label'):
        entity_name = " ".join([token for token, pos in subtree.leaves()])
        entity_type = subtree.label()
        named_entities.append((entity_name, entity_type))

# Вывод результатов
print("\nNLTK (именованные сущности):")
for entity in named_entities:
    print(f"{entity[0]} - {entity[1]}")

[nltk_data] Downloading package punkt to /home/makarov/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /home/makarov/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /home/makarov/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /home/makarov/nltk_data...
[nltk_data]   Package words is already up-to-date!



NLTK (именованные сущности):
Artificial - GPE
AI - ORGANIZATION
British - GPE
Alan Turing - PERSON
Turing Test - ORGANIZATION
Dartmouth Conference - ORGANIZATION
IBM - ORGANIZATION
Deep Blue - PERSON
Garry Kasparov - PERSON
AI - GPE
IBM Watson - ORGANIZATION
Jeopardy - PERSON
Google - PERSON
DeepMind - ORGANIZATION
AI - ORGANIZATION
Deep - PERSON
AI - ORGANIZATION
AI - ORGANIZATION
