# Практическое задание 6: Использование spaCy для Named Entity Recognition (NER)

**Цель:**
Освоить извлечение именованных сущностей (NER) из текста с помощью библиотеки spaCy, визуализировать сущности и добавить пользовательские сущности.


## Шаг 1: Установка spaCy и модели для английского языка

Запуск следующих команд в терминале для установки spaCy и модели для английского языка:
```bash
pip install spacy
python -m spacy download en_core_web_sm
```


In [22]:
import spacy

# Загрузка модели
nlp = spacy.load("en_core_web_sm")


## Шаг 2: Извлечение именованных сущностей из текста

Используйте spaCy для анализа текста и извлечения именованных сущностей.


In [23]:
text = """
Kazakhstan hosted Expo 2017 in Astana, now known as Nur-Sultan.
The event attracted over 4 million visitors from around the world.
"""

doc = nlp(text)

print("Extracted Named Entities:")
for ent in doc.ents:
    print(f"{ent.text} ({ent.label_})")


Extracted Named Entities:
Kazakhstan (GPE)
Astana (GPE)
Nur-Sultan (PERSON)
over 4 million (CARDINAL)


## Шаг 3: Группировка сущностей по категориям (типам)

Используем словарь для группировки сущностей по их типам (меткам).


In [24]:
from collections import defaultdict

entities_by_label = defaultdict(list)

for ent in doc.ents:
    entities_by_label[ent.label_].append(ent.text)

print("Сущности, сгруппированные по категориям:")
for label, entities in entities_by_label.items():
    print(f"{label}: {', '.join(entities)}")


Сущности, сгруппированные по категориям:
GPE: Kazakhstan, Astana
PERSON: Nur-Sultan
CARDINAL: over 4 million


## Шаг 4: Визуализация именованных сущностей с помощью displaCy

Создаем визуализацию извлечённых сущностей и сохраняем её в HTML-файл.


In [25]:
from spacy import displacy

# Визуализация сущностей в Jupyter
displacy.render(doc, style="ent", jupyter=True)


In [26]:
# Сохранение визуализации в HTML-файл (Исправленный код)
html = displacy.render(doc, style="ent", jupyter=False)  # Убираем page=True

if html:  # Проверяем, что html не None
    with open("ner_visualization.html", "w", encoding="utf-8") as f:
        f.write(html)
    print("HTML файл успешно сохранен!")
else:
    print("Ошибка: displacy.render() вернул None.")


HTML файл успешно сохранен!


## Шаг 4: Добавление пользовательских сущностей вручную

В случае, если модель не распознала нужные сущности, их можно добавить вручную.


In [27]:
from spacy.tokens import Span

custom_text = "Satbayev University is one of the leading universities in Almaty."
doc_custom = nlp(custom_text)  # Process text with spaCy

# Создаем новую сущность (Satbayev University как ORG)
new_entity = Span(doc_custom, 0, 2, label="ORG")

# Перезаписываем сущности с учетом новой
doc_custom.set_ents([new_entity], default="unmodified")

# Печать обновленных сущностей
print("Обновленные сущности:")
for ent in doc_custom.ents:
    print(f"{ent.text} ({ent.label_})")

# Визуализация в Jupyter Notebook
displacy.render(doc_custom, style="ent", jupyter=True)


Обновленные сущности:
Satbayev University (ORG)
Almaty (GPE)
