---
#marp: true
#theme: gaia
#paginate: true
---

# Введение в классическое NLP  
## Основные задачи обработки естественного языка

---

## Морфологический анализ

Работа с морфологическими характеристиками отдельных слов.  

- **Стемминг**  
  Отбрасывание суффиксов/окончаний для получения основы слова.  
  > *running → run, played → play*  

- **Лемматизация**  
  Приведение слова к нормальной форме.  
  > *мыши → мышь, children → child*  

- **Частеречная разметка (POS-tagging)**  
  Определение части речи и грамматических признаков.  
  > *book (сущ.) vs. book (глаг.)*  

- **Морфологическая сегментация**  
  Разделение слова на морфемы (*prefix-root-suffix*).  
  > *unhappiness → un + happy + ness*  

---

## Синтаксический анализ

- **Определение границ предложений**  
  Где заканчивается предложение.  
  > *Я люблю NLP. Оно интересно.*  

- **Парсинг предложений**  
  - **Дерево зависимостей** (связь между словами)  
    ![Дерево зависимостей](./img/dependency_tree.png)  
  - **Синтаксическое дерево** (структура вложенности)  
    ![Синтаксическое дерево](./img/constituency_tree.png)  

- **Синтаксические роли**  
  > *Кошка (подлежащее) ест (сказуемое) рыбу (дополнение).*  

---

## Свойства предложений

- **Извлечение именованных сущностей (NER)**  
  > *Барак Обама был президентом США.*  
  → *Барак Обама = PERSON, США = LOCATION*  

- **Разрешение лексической многозначности (WSD)**  
  > *Я потерял ключ.* (металлический предмет)  
  > *Ключ к задаче найден.* (решение)  

- **Entity Linking (связывание сущностей)**  
  > *Ливерпуль выиграл чемпионат.*  
  → Связь с футбольным клубом, а не с городом.  

- **Выявление событий**  
  > *Землетрясение произошло в Японии в 2011 году.*  

---

## Семантический анализ

- **Семантическое представление предложений**  
  Преобразование в логическую форму:  
  > *Каждый студент любит математику*  
  → ∀x (Student(x) → Likes(x, Math))  

- **Извлечение отношений между сущностями**  
  > *Илон Маск основал SpaceX.*  
  → (Илон Маск, founder_of, SpaceX)  

- **Semantic Role Labeling (SRL)**  
  Определение «кто сделал что с кем».  
  > *Маша (агент) подарила (действие) книгу (тема) Петру (бенефициар).*  

- **Онтологии и базы знаний**  
  Связь текста с Wikidata, DBpedia, WordNet.  

---

## Анализ на уровне текста

- **Классификация текстов**  
  > новость → *спорт / политика / экономика*  

- **Кластеризация текстов**  
  > grouping: «футбол», «баскетбол» → *спорт*  

- **Coreference resolution**  
  > *Маша купила книгу. Она ей понравилась.*  
  → *Она* = Книга  

- **Тематическая сегментация**  
  > Википедия: *география / климат / население*  

- **Анализ тональности (Sentiment Analysis)**  
  > *Фильм был потрясающим!* → позитив  
  > *Мне не нравится этот напиток.* → негатив  

- **Дискурс-анализ**  
  Определение логической связи между предложениями  
  (причина, следствие, контраст).  

---


# Морфологическая классификация языков

---

## Аналитические языки  

Грамматические отношения передаются в основном через **синтаксис** и служебные слова.  

Характеристика:  
- мало морфем в слове  
- порядок слов играет ключевую роль  

Примеры:  
- **Английский**: *I will go to the park*  
- **Китайский**: 他去公园 (*он идти парк*)  

---

## Синтетические языки  

Грамматические отношения выражаются при помощи **морфем**.  
Высокое соотношение *морфем к слову*.  

Подтипы:  
1. Флективные  
2. Агглютинативные  
3. Полисинтетические  

---

## Флективные языки  

- Используются **флексии** (окончания, изменения слова)  
- Одна морфема может выражать несколько грамматических категорий одновременно  

Примеры:  
- **Русский**: *дом → дома → домов*  
- **Латинский**: *amicus → amici → amico*  

---

## Агглютинативные языки  

- Слова образуются путем добавления морфем-«кирпичиков»  
- Каждая морфема выражает одну грамматическую категорию  

Примеры:  
- **Турецкий**: *ev* (дом) → *evler* (дома) → *evlerimizde* (в наших домах)  
- **Финский**: *talo* (дом) → *talossa* (в доме)  

---

## Полисинтетические языки  

- Очень высокое соотношение морфем к слову  
- Целое предложение может быть выражено одним словом  

Примеры:  
- **Чукотский**: *təmeyŋəlevtpəγtərkən* = «у меня сильно болит голова»  
- **Инуитские языки**

---

# Выводы  

- Аналитические языки → больше опоры на синтаксис  
- Синтетические языки → больше морфем внутри слова  
- Внутри синтетических:  
  - флективные → окончания (русский, латинский)  
  - агглютинативные → «цепочка морфем» (турецкий, финский)  
  - полисинтетические → «слово-предложение» (инуитские, чукотский)  

---

## Прикладные задачи NLP

- **Машинный перевод**  
  > Google Translate, DeepL  

- **Распознавание речи**  
  > Siri, Alexa, Яндекс.Алиса  

- **Суммаризация текста**  
  > Сжатие длинной статьи до краткого содержания  

- **Корректировка ошибок**  
  > *hte → the, recieve → receive*  

- **Автодополнение текста**  
  > Gmail Smart Compose  

- **Диалоговые системы**  
  > ChatGPT, чат-боты поддержки  

- **Вопрос-ответные системы**  
  > *Когда родился Пушкин? → 1799 г.*  

- **Информационный поиск (IR)**  
  > Google Search, Яндекс  

- **Генерация по тексту**  
  > MidJourney, DALL·E, MusicLM  

---


# Языковые модели

*Языковая модель* — вероятностная модель, которая присваивает вероятность последовательности слов  


$$\boldsymbol{w} = w_1, w_2, \ldots, w_n$$


---

## Задачи языковой модели  

Оценить вероятность текста:  

$$P(w_1, w_2, \ldots, w_n)$$

Примеры:  
- *Я иду домой* → высокая вероятность  
- *Домой иду я* → допустимо, но реже  
- *Иду домой я слон красивый* → низкая вероятность  

---

## Юниграммная модель

Вероятность следующего слова зависит не зависит предыдущих.  

$$P(w_1, \ldots, w_n) = \prod_{i=1}^n P(w_i)$$


пример: вероятность слов *the, cat, sleeps* считается независимо  

---

## Биграммная модель  

$$P(w_1, \ldots, w_n) = P(w_1|s) \cdot P(w_2|w_1) \cdot \ldots \cdot P(e|w_n)$$

где специальные символы $s$ — начало предложения, $e$ — конец  

Пример:  
- $P($*I am*$)$ = $P(I|s) \cdot P(am|I) \cdot P(e|am)$

---

## Общий случай: N-граммная модель  

$$
P(w_1, \ldots, w_n) = \prod_{i=1}^{n} P(w_i \mid w_{i-N+1} \ldots w_{i-1})
$$

Оценка через частоты:  

$$
\hat{P}(w_i \mid w_{i-N+1} \ldots w_{i-1}) = \frac{C(w_{i-N+1} \ldots w_{i})}{C(w_{i-N+1} \ldots w_{i-1})}
$$  

---

## Пример: биграммы (русский)

Корпус: *кошка ест рыбу*  

- $P(кошка|s) = \dfrac{C(s,кошка)}{C(s)} = 1$  
- $P(ест|кошка) = \dfrac{C(кошка,ест)}{C(кошка)} = 1$  
- $P(рыбу|ест) = \dfrac{C(ест,рыбу)}{C(ест)} = 1$  

---

## Проблема нулевых вероятностей  

- Если биграмма **никогда не встречалась**, вероятность = 0  
- Тогда всё предложение получает вероятность 0  

  Нужны методы **сглаживания**  

---

## Сглаживание (Additive smoothing)

$$
\hat{P}(w_i \mid h) = 
\dfrac{C(h,w_i) + d}{C(h) + d \cdot V}
$$  

где:  
- $h$ — контекст (n-1 слов)  
- $V$ — размер словаря  
- $d > 0$ — параметр сглаживания  

Пример: **Laplace smoothing** ($d=1$)  

---

## Katz Backoff  

Если частота наблюдения высокая → используем оценку по корпусу.  
Если редкая → «откатываемся» к меньшему контексту.  

$$
\hat{P}(w_i \mid w_{i-N+1}^{i-1}) =
\begin{cases}
\dfrac{C(w_{i-N+1}^i)}{C(w_{i-N+1}^{i-1})} & C(w_{i-N+1}^i) > k \\[6pt]
\alpha_{w_{i-N+1}^{i-1}} \hat{P}(w_i \mid w_{i-N+2}^{i-1}) & \text{иначе}
\end{cases}
$$  

---

## Perplexity (недоумение модели)  

Мера, насколько хорошо модель предсказывает тестовый текст.  
Чем меньше — тем лучше.  

$$
PP(\boldsymbol{w}) = P(\boldsymbol{w})^{-\tfrac{1}{n}}
$$  


---

# Выводы  

- N-граммные модели — классический способ построения языковых моделей  
- Ограничение: учитывают только фиксированное количество слов  
- Сглаживание необходимо для борьбы с нулевыми вероятностями  
- Perplexity — стандартная метрика качества языковых моделей  

---



# Актуальные проблемы в области обработки естественных языков

- уменьшение и контроль "аномалий" ("галлюцинаций", hallutinations) при использовании больших языковых моделей (LLM)
- увеличение производительности и оптимизация размера LLM
    - квантизация
    - дистилляция 
    - LoRA (low rank adaptation)
- персонализация LLM
- создание агентов на основе LLM