# Введение

NLP - Natural Language Processing.

## Основные задачи в области обработки естественного языка

Некоторые задачи имеют явное применение в прикладных задачах, другие используются как вспомогательные при решении более сложных задач.

### Морфологический анализ

Работа с морфологическими характеристиками отдельных слов.

#### Стемминг и лемматизация
Выделение основы  слова или приведение словоформы к нормальной форме.

#### Частеречная разметка (POS) 
Определение частей речи и грамматических характеристик слов в тексте.

---

### Синтаксический анализ

#### Определение границ предложений
Набор слов, которые связаны между собой грамматически. 

#### Разбор предложений, парсинг 
Построение дерева разбора или дерева зависимостей

Дерево зависимостей
![Дерево зависимостей](./img/dependency_tree.png)

Синтаксическое дерево
![Синтаксическое дерево](./img/constituency_tree.png)


---

### Свойства предложений

#### Извлечение именованных сущностей (NER)

Базовые классы - *person*, *place*, *time*, *organization*. 

#### Разрешение лексической многозначности (WSD)

*Я взял этот* **ключ**

#### Связывание именованных сущностей (Entity Linking)

**Ливерпуль**  *забил решающий гол выиграл чемпионат*.

---

### Семантический анализ

#### Семантический анализ
Преобразование предложения в какую-то формализованную форму.

#### Извлечение отношений между сущностями в тексте

*Manchester United* $\rightarrow^{location}$ *Manchester (city)*

---

### Анализ на уровне текстов

#### Классификация

Ex. новость о спорте, политике, погоде, ..

#### Кластеризация

Группировка текстов по какому-то признаку.

#### Coreference resolution

*Я построил дом.* **Он** *получился очень крепким.*

#### Тематическая сегментация

Разбить части на части. Например, статья в Википедии о городе - география, климат,  население.

#### Анализ тональности (Sentiment Analysis)

*Мне не нравится  этот напиток*

---

### Прикладные задачи

#### Машинный перевод

#### Распознавание речи

#### Суммаризация текста

#### Корректировка ошибок

#### Автодополнение текста

#### Диалоговые системы

#### Вопрос-ответные системы

#### Генерация изображений/видео/музыки по текстовому описанию

## Морфологическая классификация естественных языков

- **Аналитические языки** - грамматические отношения передаются в основном через синтаксис

- **Синтетические языки** - грамматические отношения передаются через флексии или агглютинации, высокое соотношение морфем к слову
    - **Флективные языки** - доминирует словоизменение при помощи флексий 
    - **Агглютинативные языки** - доминирует словообразование при помощи агглютинаций  
    - **Полисинтетические языки** - языки с очень высоким соотношением морфем к слову





## Языковая модель

*Языковая модель* - вероятностная модель, которая используется для моделирования естественного языка и которая присваивает вероятность некоторой последовательности слов: $\boldsymbol{w} = w_1, w_2, \ldots, w_n$.

### N-граммные модели

*N-граммная языковая модель* - вероятность следующего слова в тексте зависит от фиксированного количества предыдущих слов.


Юниграммная модель: $$P(w_1, \ldots, w_n) = P(w_1) \ldots P(w_n)$$

Биграмная модель: $$P(w_1, \ldots, w_n) = P(w_1|s) P(w_2|w_1) \cdots P(w_n|w_{n-1}) P(e|w_n)$$

N-граммная модель: $$P(w_1, \ldots, w_n) = \prod_{i=1}^{n+1}P(w_i|w_{i-N-1} \ldots w_{i-1})$$

Можно смоделировать так:  $$\hat{P}(w_i|w_{i-N-1} \ldots w_{i-1}) = \frac{C(w_{i-N-1} \ldots w_{i})}{C(w_{i-N-1} \ldots w_{i-1})}$$
![image.png](attachment:image.png)

### Сглаживание

$$\hat{P}(w_i|w_{i-N-1} \ldots w_{i-1}) = \frac{C(w_{i-N-1} \ldots w_{i}) + d}{C(w_{i-N-1} \ldots w_{i-1}) + d V}$$

**Katz backoff** 

$$\begin{align}
& \hat{P} (w_i \mid w_{i-N+1} \cdots w_{i-1}) =  & \begin{cases}
    d_{w_{i-N+1} \ldots w_{i}} \dfrac{C(w_{i-N+1} \ldots w_{i-1}w_{i})}{C(w_{i-N+1} \ldots w_{i-1})} & \text{если } C(w_{i-N+1} \ldots w_i) > k \\[10pt]
    \alpha_{w_{i-N+1} \ldots w_{i-1}} \hat{P}(w_i \mid w_{i-N+2} \ldots w_{i-1}) & \text{иначе}
\end{cases}
\end{align}$$

### Perplexity

Мера, насколько хорошо языковая модель предсказывает текст. Чем меньше - тем лучше.
Обратная вероятность тестового набора

$$PP(\boldsymbol{w}) = P(\boldsymbol{w})^{-\frac{1}{n}}$$

# Актуальные проблемы в области обработки естественных языков

- уменьшение и контроль "аномалий" ("галлюцинаций", hallutinations) при использовании больших языковых моделей (LLM)
- увеличение производительности и оптимизация размера LLM
    - квантизация
    - дистилляция 
    - LoRA (low rank adaptation)
- персонализация LLM
- создание агентов на основе LLM