# Робота з текстом українською мовою за допомогою spaCy
Цей ноутбук демонструє, як використовувати бібліотеку spaCy для аналізу тексту українською мовою, включаючи визначення сутностей (NER).

In [14]:

# Встановіть необхідні пакети перед запуском цього коду
# !pip install spacy spacy-uk
    

In [42]:
import spacy
from spacy.pipeline import EntityRuler

In [43]:
# Завантажуємо українську модель для NER (визначення сутностей)
nlp = spacy.load("uk_core_news_lg")

# Текст для аналізу
text = "15 грудня 2023 року в Парижі, Франція, Ілон Маск зустрівся з представниками Tesla та SpaceX, щоб обговорити нові інвестиції. Під час конференції було оголошено про фінансування в розмірі 1,5 мільярда доларів для розробки електромобілів наступного покоління."

# Аналіз тексту
doc = nlp(text)

# Виводимо розпізнані сутності
for ent in doc.ents:
    print(f"Текст: {ent.text}, Категорія: {ent.label_}")

    

Текст: Парижі, Категорія: LOC
Текст: Франція, Категорія: LOC
Текст: Ілон Маск, Категорія: PER
Текст: Tesla, Категорія: ORG
Текст: SpaceX, Категорія: ORG


In [44]:
ruler = nlp.add_pipe("entity_ruler", name="custom_entity_ruler", before="ner")
patterns = [
    {"label": "DATE", "pattern": [{"TEXT": {"REGEX": r"\d{1,2} (січня|лютого|грудня) \d{4}"}}]},
    {"label": "MONEY", "pattern": [{"TEXT": {"REGEX": r"\d+(\.\d+)? (мільярда|мільйона|тисяч) доларів"}}]}
]
ruler.add_patterns(patterns)

In [45]:
# Перевірка з новими правилами
text = "15 грудня 2023 року в Парижі, Франція, Ілон Маск зустрівся з представниками Tesla та SpaceX. Було оголошено про фінансування в розмірі 1,5 мільярда доларів."
doc = nlp(text)
for ent in doc.ents:
    print(f"Текст: {ent.text}, Категорія: {ent.label_}")


Текст: Парижі, Категорія: LOC
Текст: Франція, Категорія: LOC
Текст: Ілон Маск, Категорія: PER
Текст: Tesla, Категорія: ORG
Текст: SpaceX., Категорія: ORG


In [None]:

import matplotlib.pyplot as plt
from collections import Counter

# Analyze text
text = "15 грудня 2023 року в Парижі, Франція, Ілон Маск зустрівся з представниками Tesla та SpaceX. Було оголошено про фінансування в розмірі 1,5 мільярда доларів."
doc = nlp2(text)

# Count entity types
entity_counts = Counter(ent.label_ for ent in doc.ents)

# Prepare data for plotting
entities = list(entity_counts.keys())
counts = list(entity_counts.values())

# Create a bar chart
plt.figure(figsize=(8, 5))
plt.bar(entities, counts, color='skyblue')
plt.title('Frequency of Named Entities')
plt.xlabel('Entity Type')
plt.ylabel('Count')
plt.show()
