**Лабораторная работа 5**

**Хаммуд Хала. ИУ5И-21М**

**Предобработка текста для задачи распознавания усталости**


**Цель лабораторной работы:**
Изучение базовых методов предобработки текстов и их применение для распознавания признаков усталости на основе текстового описания состояний человека.



**Описание задания:**
В рамках данной лабораторной работы предлагается использовать предобработку текста для анализа коротких описаний, характеризующих уровень усталости человека (например, "глаза полуоткрыты, нет улыбки, голова наклонена").

Для заданного текста требуется выполнить следующие этапы:

**Токенизация** — разбить текст на отдельные слова (токены).

**Частеречная разметка** — определить часть речи для каждого слова.

**Лемматизация** — привести слова к их начальной (словарной) форме.

**Распознавание именованных сущностей**— выявить важные ключевые объекты (например, части лица, состояния).

**Синтаксический разбор предложения** — построить грамматическую структуру текста.



**Пример входного текста:**

Глаза полуоткрыты, нет улыбки, голова опущена вперёд.


**Текст программы**

In [4]:
# Установка и подключение библиотеки
!pip install spacy
!python -m spacy download ru_core_news_sm

import spacy

# Загрузка русской модели
nlp = spacy.load('ru_core_news_sm')

# Текст, описывающий признаки усталости
text = "Глаза полуоткрыты, нет улыбки, голова опущена вперёд. Пациент Иван Иванов испытывает сильную усталость."

# Анализ текста
doc = nlp(text)

# == Токены ==
print("== Токены ==")
print(" | ".join([token.text for token in doc]))

# == Часть речи (POS) ==
print("\n== Части речи (POS) ==")
for token in doc:
    print(f"{token.text:<15} — {token.pos_}")

# == Леммы ==
print("\n== Леммы ==")
for token in doc:
    print(f"{token.text:<15} → {token.lemma_}")

# == Именованные сущности (NER) ==
print("\n== Именованные сущности ==")
for ent in doc.ents:
    print(ent.text, "-", ent.label_)

# == Синтаксический разбор ==
print("\n== Синтаксические зависимости ==")
for token in doc:
    print(f"{token.text:<15} → {token.dep_} (голова = {token.head.text})")


Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m55.2 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
== Токены ==
Глаза | полуоткрыты | , | нет | улыбки | , | голова | опущена | вперёд | . | Пациент | Иван | Иванов | испытывает | сильную | усталость | .

== Части речи (POS) ==
Глаза           — NOUN
полуоткрыты     — VERB
,               — PUNCT
нет             — VERB
улыбки          — NOUN
,               — PUNCT
голова          — NO

** Вывод:**

В ходе выполнения лабораторной работы был реализован этап предобработки текстов, описывающих признаки усталости. Использование инструментов обработки естественного языка (spaCy) позволило разбить текст на токены, определить часть речи, леммы, а также выявить синтаксические зависимости. Эти данные в будущем можно использовать в качестве признаков для моделей машинного обучения в задаче автоматического определения уровня усталости по описанию состояния человека.

