In [25]:
# Імпортуємо необхідні модулі з бібліотеки transformers
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline

In [26]:
# Завантажуємо попередньо натренований токенізатор BERT та модель для розпізнавання іменованих сутностей (NER)
local_dir = "./models/bert_ner"  # Вкажіть директорію, де збережена модель BERT
tokenizer = BertTokenizer.from_pretrained(local_dir)  # Завантажуємо токенізатор
model = BertForTokenClassification.from_pretrained(local_dir)  # Завантажуємо попередньо натреновану модель для класифікації токенів

# Ініціалізуємо пайплайн для розпізнавання іменованих сутностей (NER) за допомогою попередньо натренованої моделі та токенізатора
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)

In [27]:
# Визначаємо текст для розпізнавання іменованих сутностей
text = "Ukraine is a country in Eastern Europe. The capital city is Kyiv, which is known for its rich history and beautiful architecture. Lviv, another prominent city in the western part of the country, is famous for its cultural heritage. Odesa, on the Black Sea coast, is known for its picturesque beaches and vibrant nightlife. One of Ukraine's most famous personalities is Volodymyr Zelenskyy, the current President of Ukraine. He is known for his leadership during the ongoing conflict in Ukraine. Another notable figure is Andriy Shevchenko, a legendary football player who is widely regarded as one of the greatest footballers in the history of the sport. Taras Shevchenko, a renowned poet and artist, is considered the national poet of Ukraine, and his works are revered in the country."

# Запускаємо пайплайн NER на вхідному тексті для виділення сутностей
ner_results = ner_pipeline(text)

# Виводимо виявлені сутності разом з їх міткою та оцінкою впевненості
for entity in ner_results:
    print(f"Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.2f}")

Entity: Ukraine, Label: B-LOC, Score: 1.00
Entity: Eastern, Label: B-LOC, Score: 0.92
Entity: Europe, Label: I-LOC, Score: 0.94
Entity: K, Label: B-LOC, Score: 1.00
Entity: ##yi, Label: I-LOC, Score: 0.84
Entity: ##v, Label: B-LOC, Score: 0.97
Entity: Lviv, Label: B-LOC, Score: 1.00
Entity: O, Label: B-LOC, Score: 1.00
Entity: ##des, Label: I-LOC, Score: 0.92
Entity: ##a, Label: I-LOC, Score: 0.99
Entity: Black, Label: B-LOC, Score: 1.00
Entity: Sea, Label: I-LOC, Score: 1.00
Entity: Ukraine, Label: B-LOC, Score: 1.00
Entity: Vol, Label: B-PER, Score: 1.00
Entity: ##ody, Label: B-PER, Score: 0.96
Entity: ##my, Label: I-PER, Score: 0.97
Entity: ##r, Label: B-PER, Score: 0.83
Entity: Z, Label: I-PER, Score: 1.00
Entity: ##ele, Label: I-PER, Score: 1.00
Entity: ##nsky, Label: I-PER, Score: 1.00
Entity: ##y, Label: I-PER, Score: 0.98
Entity: Ukraine, Label: B-LOC, Score: 1.00
Entity: Ukraine, Label: B-LOC, Score: 1.00
Entity: And, Label: B-PER, Score: 1.00
Entity: ##ri, Label: B-PER, Score

In [28]:
# Створюємо порожній список для зберігання слів без префіксів підслів
words = []

# Проходимо по результатах NER для відновлення повних слів (у разі підслів, що позначаються як '##')
for entity in ner_results:
    if entity['word'].startswith("##"):  # Перевіряємо, чи є слово підсловом (позначеним як '##')
        words[-1] += entity['word'][2:]  # Додаємо підслово до попереднього слова
    else:
        words.append(entity['word'])  # Додаємо нове слово, якщо це не підслово

# Виводимо унікальні сутності, виявлені в тексті
print("Entities found:")
print(", ".join(set(words)))  # Виводимо унікальні слова, видаляючи дублікати

Entities found:
Taras, Kyiv, Sea, Zelenskyy, Black, Ukraine, Europe, Eastern, Odesa, Lviv, Shevchenko, Volodymyr, Andriy
