# Word Sense Disambiguation (WSD)

## Разрешение лексической неоднозначности
## Е.В. Еникеева
## 2021

# Постановка задачи

**Разрешение лексической / семантической неоднозначности**

Вопросы:
- Sense vs. Meaning (смысл/значение)
- Разграничение лексических значений

-> обычно имеем определенный *sense inventory*:
- набор значений из словаря
- синсеты тезауруса
- варианты перевода
- ...

# Постановка задачи

(Примеры)

| | |
| :-: | :-: |
| Мелко порубить белки, **лук**, каперсы, анчоусы и травы. | Бойницы для стрельбы из **лука** в ингушских храмах. |
| После угощения **собачки** лают с каким-то новым, особым остервенением. | При английской раскладке не могу набрать **собачку** |
| Дурноты как не бывало, я **запалил** спиртовку, выпил кофе, разжевал гущу и выполз наружу. | Ненавижу, когда учитель **запалил** плеер и требует положить его на учительский стол. |

## Мотивация

1. омонимия / многозначность в АОТ
2. группировка лексики, автоматическое создание лексикографических ресурсов (словарей, тезаурусов)

## Семантическая неоднозначность
* омонимия
* полисемия  
  - Bank vs. bank
  - естественный язык vs. Говяжий язык
  - Он нашел возможность vs. Он нашел квартиру
  - мусоровоз

# Применение в IR

<img src="5_WSD/1.png" width=800/>

## Применение в IR

<img src="5_WSD/2.png" width=600/>

## Применение в MT

<img src="5_WSD/translate_1.png" width=900/>
<img src="5_WSD/translate_2.png" width=900/>

## Классификация текстов

    ... и другие задачи обработки целого текста, связанные со значением

<img src="5_WSD/class.png" width=1000/>

## Кореферентные цепочки

<img src="5_WSD/coref_1.png"/>

<br/>
<img src="5_WSD/coref_2.png"/>

# Варианты постановки задачи

## Классическая WSD
* N значений (знаем **число N**, есть словарь)
* обучаемся автоматически относить словоформу в тексте к одному из значений

## Word Sense Induction 
* изначально **не знаем ничего** о многозначности
* пытаемся выделить разные смыслы слов 
* группируем похожие употребления слов:
  * unsupervised
  * расстояния между контекстами
  * кластеризация

# Подходы

1. Knowledge-Based: словари, тезаурусы и т.п.
2. Supervised Learning: размеченный по значениям корпус 
3. Semi-supervised: небольшой размеченный корпус, bootstrapping и т.п.
4. Unsupervised Learning – WSI 

# Итоговая постановка задачи

__Объекты__: слово $w_i$ в контексте $c_k$
<br/>( признаковое описание объекта )

__Ответы__: 
* значение $s_j$ слова $w_i$ в контексте $c_k$
* значения из лексикографического источника
* таксономические классы в онтологии
* значения, выделенные экспертом для конкретной задачи, извлекаются из размеченного вручную корпуса
* заранее неизвестны

# Корпуса для WSD

### Lexical sample task:
(размеченные контексты для ограниченной выборки многозначных лексем)
* Line-hard-serve корпус – каждый по 4000
* Interest корпус - 2369 размеченных примеров

### All words:
(Каждое слово + тег-значение по словарю - *semantic concordance*)
* SemCor: 234,000 слов из Brown Corpus по WordNet
* SENSEVAL-3 – 2081 размеченных слов
* Датасет для русского: RUSSE – слово в контексте
* Значения в НКРЯ: http://sensefreq.ruslang.ru/ 

Интересная новая статья про датасет для оценки семантической близости:
https://aclanthology.org/2021.acl-long.550.pdf

## All-words WSD task

<img src="5_WSD/allw.png"/>

(Иллюстрация из Jurafsky,Martin)

# Оценка

- F1-score по сравнению с ручной разметкой

### Baseline

- самое частое значение из размеченного корпуса - довольно точный

# Knowledge-based WSD

1. Метод контекстного пересечения <br/>
Используем словарные определения
2. Алгоритм Леска <br/>
Используем словарные определения
3. Графовые методы <br/>
Расстояния в тезаурусах


# Метод контекстного пересечения

Сравниваем слова контекста со словами из определений для каждого значения

Контекст: *Благодаря **спорту** **стрельба** из лука получила новое название и развитие лука: потребовала изменить его форму, конструкцию и технологию изготовления.*

> I ЛУК, (в знач. сорта) луки, - Огородное или дикорастущее растение сем. лилейных с острым вкусом луковицы и съедобными трубчатыми листьями. 
Репчатый л. Зелёный л. (листья). Головка лука. Дикие луки.

> II. ЛУК, - Ручное оружие для метания стрел в виде пружинящей дуги, стянутой тетивой. Тугой л. Стрельба из лука (вид спорта).


$F(s_1) = {огородное, растение, вкус, луковица, съедобный, лист, репчатый, зелёный, головка ...}$

$F(s_2) = {оружие, метание, стрела, дуга, тетива, тугой, стрельба, спорт ...}$

$|F(s_1)\cap F(context)| = 0$

$|F(s_2)\cap F(context)| = 2$

# Алгоритм Леска

(Упрощенный алгоритм Леска - метод контекстного пересечения)


	E.g. “On burning coal we get ash.”

|Ash|Coal|
|:-|:-|
|Trees of the olive family with pinnate leaves, thin furrowed bark and gray branches.|A piece of glowing carbon or **burnt** wood.|
|The **solid** residue left when **combustible** material is thoroughly **burned** or oxidized.|Charcoal.|
|To convert into ash.|A black **solid combustible** substance formed by the partial decomposition of vegetable matter without free access to air and under the influence of moisture and often increased pressure and temperature that is widely used as a fuel for **burning**.|

Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation (pp. 24-26).

## Как улучшить оценку пересечения

- Удалить стоп-слова
- Учитывать синонимию (WordNet)
- Взвешивание по IDF
- Сравнивать tf*idf векторы контекста и определения
- Сравнивать эмбеддинги слов контекста и определения

# Графовые методы
## Алгоритм Вокера (Walker's)

1. Для каждого значения ключевого слова найти соответствующий тезаурусный класс
2. Вычислить вес каждого из значений на основе контекстных слов. К значению прибавляется 1, если контекстное слово принадлежит тому же тезаурусному классу

E.g. The money in this **bank** fetches an interest of 8% per annum

Target word: **bank**

Clue words from the context: money, interest, annum, fetch

## Другие
- Использование мер relatedness
- PageRank для обхода подграфа с ключевым словом и контекстными словами
- Концептуальная плотность (conceptual density)


# Supervised методы

Главная задача – построить признаковое представление значений / контекстов
* Мешок слов
* Коллокационные фичи
\- токены в определённой позиции (например, Nobj для глаголов)
* POS-теги
* ... 

# Embeddings

# AdaGram

* Идея: будем учить несколько эмбеддингов для каждого слова
* Adaptive Skip-gram: дополнительная переменная – множество всех значений всех слов корпуса
* Можем оценить вероятность каждого значения $z_i$ слова $x$ в контексте $y$


Demo: http://adagram.ll-cl.org/about 


## ELMo

<font size="4">[ELMo](https://arxiv.org/pdf/1802.05365.pdf) — модель, которая позволяет получить не просто вектор слова W,
а _вектор слова W в контексте C_ - **контекстуальный эмбеддинг**.<br/>
Обучаем двунаправленную (bidirectional) языковую модель примерно так*:</font>

<img src="https://jalammar.github.io/images/Bert-language-modeling.png" alt="elmo" width=300/>

<font size="4">Но затем мы не просто берем какие-то представления отдельных слов, а сохраняем все веса и пропускаем каждое 
предложение для новой задачи через такую сетку с этими весами. Получаем вектора для всех слов в предложении из нескольких слоев!</font>


\* картинка из [блога](https://jalammar.github.io/) Jay Allamar - кстати, очень доступные объяснения всяких NLP-штук с картинками

Вспомнить, что такое языковая модель:
[слайды прошлого года](https://drive.google.com/file/d/1qpyqYzVM9xtgkC1rbHAaBPTGfnwDo4Rm/view?usp=sharing)

Эта же идея лежит в основе других больших предобученных моделей - BERT, GPT.

## Контекстуальные эмбеддинги в задаче WSD

### Supervised классификатор
\- для каждого значения можно посчитать средний вектор (центроид) этого значения

<img src="5_WSD/nn.png"/>

### Для слов, которых не было в обучающем корпусе
\- можно «распространить» центроиды по WordNet
* для каждого значения $\hat{s} \in W$:
  * вектора других слов синсета $S_{\hat{s}}$,
  * вектора гиперонимов $H_{\hat{s}}$, 
  * вектор(а) категории $L_{\hat{s}}$
  
тогда вектор значения вычисляется так:

$$if |S_{\hat{s}}|>0, v_{\hat{s}}=\frac{1}{|S_{\hat{s}}|}\sum{v_{syn}}, \forall v_{syn} \in S_{\hat{s}}$$
$$else if |H_{\hat{s}}|>0, v_{\hat{s}}=\frac{1}{|H_{\hat{s}}|}\sum{v_{syn}}, \forall v_{syn} \in H_{\hat{s}}$$
$$else if |L_{\hat{s}}|>0, v_{\hat{s}}=\frac{1}{|L_{\hat{s}}|}\sum{v_{syn}}, \forall v_{syn} \in L_{\hat{s}}$$


### WSI + contextualized embeddings

- Для каждого слова $𝑤$
  - Для каждого вхождения $𝑤_𝑖$ в контексте $c$
    - можем вычислить контекстный вектор
  - Кластеризуем контексты
    - Agglomerative clustering
    - k-means
    - DBSCAN
    - …
  - Вычисляем центроид каждого кластера 
    > вектор значения


Глава в учебнике Jurasky+Martin: [Word Senses and WordNet](https://web.stanford.edu/~jurafsky/slp3/18.pdf)