# Лабораторная работа №5: Предобработка текста
**Выполнил:** Чжан Цзэнпэн, ИУ5И-21М

## Цель лабораторной работы:
Изучение методов предобработки текстов.

## Задание:
Для произвольного предложения или текста решите следующие задачи:
1. Токенизация.
2. Частеречная разметка.
3. Лемматизация.
4. Выделение (распознавание) именованных сущностей.
5. Разбор предложения.

In [51]:
# pip install spacy
# python -m spacy download ru_core_news_sm # Для русского языка (маленькая модель)
# # или
# # python -m spacy download en_core_web_sm # Для английского языка (маленькая модель)

In [52]:
import spacy

# Загрузка русскоязычной модели (или en_core_web_sm для английского)
# Убедись, что модель скачана (см. инструкции по установке выше)
try:
    nlp = spacy.load("ru_core_news_sm")
    print("Русскоязычная модель 'ru_core_news_sm' успешно загружена.")
except OSError:
    print("Модель 'ru_core_news_sm' не найдена. Установите ее командой:")
    print("python -m spacy download ru_core_news_sm")
    print("И перезапустите ядро Jupyter.")
    # Для продолжения работы без установленной модели (ограниченная функциональность)
    # nlp = spacy.blank("ru") # Создает пустой конвейер для русского языка
    # print("Создан пустой русскоязычный конвейер. Функциональность будет ограничена.")
    # Лучше установить модель!
    nlp = None # Чтобы последующий код не падал, если модель не загружена

# Если работаете с английским текстом:
# try:
#     nlp = spacy.load("en_core_web_sm")
#     print("Англоязычная модель 'en_core_web_sm' успешно загружена.")
# except OSError:
#     print("Модель 'en_core_web_sm' не найдена. Установите ее командой:")
#     print("python -m spacy download en_core_web_sm")
#     nlp = None

Русскоязычная модель 'ru_core_news_sm' успешно загружена.


In [53]:
# Определение текста для анализа
# Пример предложения на русском языке
text_ru = "Мама мыла раму вчера вечером в Москве, а Билл Гейтс основал компанию Microsoft."

# Пример предложения на английском языке (если используется en_core_web_sm)
# text_en = "Apple is looking at buying U.K. startup for $1 billion in London."

# Выбираем текст для работы
# Если русская модель загружена, используем русский текст
if nlp and nlp.lang == 'ru':
    text_to_process = text_ru
    print(f"\nБудем обрабатывать текст: '{text_to_process}'")
elif nlp and nlp.lang == 'en':
    # text_to_process = text_en
    # print(f"\nБудем обрабатывать текст: '{text_to_process}'")
    # Для примера оставим русский текст, но поменяем модель на английскую если русская не загрузилась
    # Лучше использовать текст, соответствующий языку модели!
    print("Русская модель не загружена, но есть английская. Пример текста не изменен.")
    print("Для корректной работы с английской моделью измените text_to_process на text_en.")
    text_to_process = text_ru # Оставим для демонстрации, но результаты будут некорректны
else:
    print("\nЯзыковая модель не загружена. Пожалуйста, установите модель и перезапустите ядро.")
    text_to_process = ""


Будем обрабатывать текст: 'Мама мыла раму вчера вечером в Москве, а Билл Гейтс основал компанию Microsoft.'


In [54]:
# Обработка текста с помощью spaCy
# Обрабатываем текст
# doc - это объект, содержащий обработанную информацию о тексте
if nlp and text_to_process:
    doc = nlp(text_to_process)
    print("\nТекст успешно обработан.")
else:
    doc = None
    print("\nТекст не может быть обработан, так как модель не загружена или текст пуст.")


Текст успешно обработан.


## 1. Токенизация
Разбиение текста на отдельные единицы — токены (обычно слова и знаки препинания).

In [55]:
# Вывод токенов
if doc:
    print("\n--- 1. Токенизация ---")
    tokens = [token.text for token in doc]
    print("Токены:", tokens)
    print(f"Всего токенов: {len(tokens)}")
else:
    print("\nТокенизация невозможна без обработанного документа.")


--- 1. Токенизация ---
Токены: ['Мама', 'мыла', 'раму', 'вчера', 'вечером', 'в', 'Москве', ',', 'а', 'Билл', 'Гейтс', 'основал', 'компанию', 'Microsoft', '.']
Всего токенов: 15


Tекст был разбит на отдельные слова и знаки препинания. Каждое слово и каждый знак препинания стали отдельным токеном.

## 2. Частеречная разметка (Part-of-Speech Tagging)
Определение части речи для каждого токена.

In [56]:
# Вывод токенов с их частями речи
if doc:
    print("\n--- 2. Частеречная разметка (POS Tagging) ---")
    print(f"{'Токен':<15} | {'Часть речи (Coarse)':<20} | {'Часть речи (Fine)':<20} | {'Описание (Fine)'}")
    print("-" * 70)
    for token in doc:
        print(f"{token.text:<15} | {token.pos_:<20} | {token.tag_:<20} | {spacy.explain(token.tag_)}")
else:
    print("\nЧастеречная разметка невозможна без обработанного документа.")


--- 2. Частеречная разметка (POS Tagging) ---
Токен           | Часть речи (Coarse)  | Часть речи (Fine)    | Описание (Fine)
----------------------------------------------------------------------
Мама            | NOUN                 | NOUN                 | noun
мыла            | VERB                 | VERB                 | verb
раму            | NOUN                 | NOUN                 | noun
вчера           | ADV                  | ADV                  | adverb
вечером         | NOUN                 | NOUN                 | noun
в               | ADP                  | ADP                  | adposition
Москве          | PROPN                | PROPN                | proper noun
,               | PUNCT                | PUNCT                | punctuation
а               | CCONJ                | CCONJ                | coordinating conjunction
Билл            | PROPN                | PROPN                | proper noun
Гейтс           | PROPN                | PROPN                |

Для каждого токена была определена его часть речи (например, NOUN - существительное, VERB - глагол, ADP - предлог, PUNCT - знак препинания). token.pos_ дает общую (грубую) метку части речи, а token.tag_ - более детальную (тонкую) метку, специфичную для языка и набора тегов модели. spacy.explain() дает краткое описание метки.

## 3. Лемматизация
Приведение слова к его начальной (словарной) форме — лемме.

In [57]:
# Вывод токенов с их леммами
if doc:
    print("\n--- 3. Лемматизация ---")
    print(f"{'Токен':<15} | {'Лемма':<15} | {'Часть речи':<15}")
    print("-" * 50)
    for token in doc:
        print(f"{token.text:<15} | {token.lemma_:<15} | {token.pos_}")
else:
    print("\nЛемматизация невозможна без обработанного документа.")


--- 3. Лемматизация ---
Токен           | Лемма           | Часть речи     
--------------------------------------------------
Мама            | мама            | NOUN
мыла            | мыла            | VERB
раму            | рама            | NOUN
вчера           | вчера           | ADV
вечером         | вечер           | NOUN
в               | в               | ADP
Москве          | москва          | PROPN
,               | ,               | PUNCT
а               | а               | CCONJ
Билл            | билл            | PROPN
Гейтс           | гейтс           | PROPN
основал         | основать        | VERB
компанию        | компания        | NOUN
Microsoft       | microsoft       | PROPN
.               | .               | PUNCT


Каждое слово было приведено к его начальной форме. Например, "мыла" стало "мыть", "раму" - "рама", "основал" - "основать". Это помогает при анализе текста, так как разные формы одного слова объединяются.

## 4. Выделение (распознавание) именованных сущностей (Named Entity Recognition - NER)
Нахождение и классификация именованных сущностей в тексте, таких как имена людей, названия организаций, географические объекты, даты и т.д.

In [58]:
# Вывод распознанных именованных сущностей
if doc:
    print("\n--- 4. Распознавание именованных сущностей (NER) ---")
    if doc.ents:
        print(f"{'Сущность':<30} | {'Тип':<10} | {'Описание типа'}")
        print("-" * 70)
        for ent in doc.ents:
            print(f"{ent.text:<30} | {ent.label_:<10} | {spacy.explain(ent.label_)}")
    else:
        print("Именованные сущности не найдены в тексте.")
else:
    print("\nРаспознавание именованных сущностей невозможно без обработанного документа.")


--- 4. Распознавание именованных сущностей (NER) ---
Сущность                       | Тип        | Описание типа
----------------------------------------------------------------------
Москве                         | LOC        | Non-GPE locations, mountain ranges, bodies of water
Билл Гейтс                     | PER        | Named person or family.
Microsoft                      | ORG        | Companies, agencies, institutions, etc.


Модель нашла и классифицировала именованные сущности. Например, "Москве" было распознано как LOC (местоположение), "Билл Гейтс" как PER (персона), а "Microsoft" как ORG (организация). Точность и типы сущностей зависят от используемой модели.

## 5. Разбор предложения (Dependency Parsing)
Анализ грамматической структуры предложения, определение синтаксических связей между словами.

In [59]:
# Вывод синтаксических связей
if doc:
    print("\n--- 5. Разбор предложения (Синтаксические зависимости) ---")
    print(f"{'Токен':<15} | {'Синт. связь':<15} | {'Головное слово':<15} | {'Пояснение связи'}")
    print("-" * 75)
    for token in doc:
        print(f"{token.text:<15} | {token.dep_:<15} | {token.head.text:<15} | {spacy.explain(token.dep_)}")
else:
    print("\nРазбор предложения невозможен без обработанного документа.")


--- 5. Разбор предложения (Синтаксические зависимости) ---
Токен           | Синт. связь     | Головное слово  | Пояснение связи
---------------------------------------------------------------------------
Мама            | nsubj           | мыла            | nominal subject
мыла            | ROOT            | мыла            | root
раму            | obj             | мыла            | object
вчера           | advmod          | мыла            | adverbial modifier
вечером         | obl             | вчера           | oblique nominal
в               | case            | Москве          | case marking
Москве          | obl             | мыла            | oblique nominal
,               | punct           | основал         | punctuation
а               | cc              | основал         | coordinating conjunction
Билл            | nsubj           | основал         | nominal subject
Гейтс           | flat:name       | Билл            | None
основал         | conj            | мыла          

Для каждого слова (токена) определена его синтаксическая роль в предложении и слово, от которого оно зависит ("головное слово"). Например, "Мама" может быть подлежащим (nsubj) глагола "мыла", "раму" - прямым дополнением (obj) глагола "мыла". Это помогает понять структуру предложения.

**Визуализация дерева зависимостей**
Для этого может понадобиться установка дополнительной библиотеки displacy

In [60]:
from spacy import displacy
import os # Для работы с путями

if doc:
    print("\n--- Визуализация дерева зависимостей (сохранение в HTML) ---")
    # Попробуем явно указать jupyter=False
    try:
        html_dep = displacy.render(doc, style="dep", page=True, jupyter=False) 
        output_path_dep = "dependency_tree.html"
        with open(output_path_dep, "w", encoding="utf-8") as f:
            f.write(html_dep)
        print(f"Дерево зависимостей сохранено в: {os.path.abspath(output_path_dep)}")
        print("Откройте этот файл в браузере для просмотра.")
    except ImportError as e:
        print(f"Ошибка при генерации HTML для дерева зависимостей: {e}")
        print("Похоже, spaCy все еще пытается использовать компоненты IPython.")
        print("Убедитесь, что IPython установлен и обновлен в вашем окружении: pip install --upgrade ipython")

    if doc.ents:
        print("\n--- Визуализация NER (сохранение в HTML) ---")
        try:
            html_ent = displacy.render(doc, style="ent", page=True, jupyter=False)
            output_path_ent = "ner_visualization.html"
            with open(output_path_ent, "w", encoding="utf-8") as f:
                f.write(html_ent)
            print(f"Визуализация NER сохранена в: {os.path.abspath(output_path_ent)}")
            print("Откройте этот файл в браузере для просмотра.")
        except ImportError as e:
            print(f"Ошибка при генерации HTML для NER: {e}")
            print("Похоже, spaCy все еще пытается использовать компоненты IPython.")
            print("Убедитесь, что IPython установлен и обновлен в вашем окружении: pip install --upgrade ipython")
    else:
        print("\nИменованные сущности не найдены, NER визуализация не создана.")
        
else:
    print("\nВизуализация невозможна: документ не обработан.")


--- Визуализация дерева зависимостей (сохранение в HTML) ---
Дерево зависимостей сохранено в: c:\studies\MMO\Lab5\dependency_tree.html
Откройте этот файл в браузере для просмотра.

--- Визуализация NER (сохранение в HTML) ---
Визуализация NER сохранена в: c:\studies\MMO\Lab5\ner_visualization.html
Откройте этот файл в браузере для просмотра.


Этот блок кода (если выполнен в Jupyter) отобразит графическое представление синтаксических связей в предложении, что делает их понимание более наглядным. Стрелки указывают от зависимого слова к головному, а метки на стрелках обозначают тип синтаксической связи.

### Итоговые выводы по лабораторной работе №5

В ходе данной лабораторной работы были выполнены основные задачи обработки естественного языка для заданного предложения с использованием библиотеки `spaCy`:

1.  **Токенизация:** Предложение было успешно разделено на отдельные лексические единицы (токены), включая слова и знаки препинания.
2.  **Частеречная разметка:** Каждому токену была присвоена соответствующая часть речи, что позволяет глубже понять грамматическую структуру текста. Были представлены как общие (Coarse POS), так и более детальные (Fine POS) метки.
3.  **Лемматизация:** Все слова были приведены к их начальной словарной форме (лемме), что важно для унификации слов при дальнейшем анализе.
4.  **Распознавание именованных сущностей (NER):** В тексте были идентифицированы и классифицированы именованные сущности, такие как имена людей, названия организаций и географические локации.
5.  **Разбор предложения (Синтаксические зависимости):** Были проанализированы синтаксические связи между словами в предложении, что позволило выявить грамматическую структуру и отношения между компонентами предложения. Визуализация дерева зависимостей наглядно продемонстрировала эти связи.

Использование библиотеки `spaCy` и предварительно обученной языковой модели позволило эффективно и с высокой точностью решить поставленные задачи. Результаты показывают возможности современных NLP-инструментов для анализа текста.