# word2vec

Автор: Торилов Дмитрий, БПИ173

# 1. Дистрибутивная семантика

## 1.1 Семантика и Компьютерная лингвистика
- Семантика - раздел лингвистики, изучающий смысловое значение единиц языка.
- Компьютерная лингвистика – это наука о том, как работать с языком (не всегда естественным), с помощью компьютерных методов.

## 1.2 Уровни анализа языка
Компьютерная лингвистика легко моделирует низлежащие уровни анализа:
- Фонетика (какие слова имеют схожее звучание?)
- Морфология (какие составные части слова?)
- Синтаксис (какие слова выполняют одну и ту же функцию в предложении?)

Следующий шаг: **семантика**. Необходимо найти такие **репрезентации** слов, чтобы синонимичные слова имели близкие репрезентации

# **лампа, светильник, кипятильник**

Семантику слов нельзя проанализировать ни фонетически, ни морфологически, ни синтаксически

## 1.3 Где брать данные?
Существуют два фундаментальных подхода к определению семантики:
- Построение **онтологий** (knowledge-based approach)
- Извлечение значений из **употребления слов** (distributional approach)

## 1.4 Дистрибутивная гипотеза
Лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения

## 1.5 Обучение компьютера семантике
- Корпус
- Модель, описывающая совместную встречаемость слов в корпусе

# 2. Семантические вектора
В традиционной дистрибутивной семантике слова описываются векторами, где в качестве измерений (компонентов) выступают соседи этих слов в текстовом корпусе. Количество измерений вектора в **счётной модели** равно количеству слов в корпусе. 

### 2.1 Алгоритм
1. Создаём лексикон корпуса N.
2. Для каждого слова определяем, какие слова стояли рядом.
3. Характеризуем слово вектором, измерения которого определяют, с какими словами и как часто это слово соседствовало.

| |<big>вектор|<big>значение|<big>хомяк|<big>семантика|<big>суслик|
|:----------------:|:---------------:|:------------------:|:-----------------:|:-----------------:|:------------------:|
|<big>вектор</big>|0|10|0|8|0|
|<big>значение</big>|10|0|1|15|0|
|<big>хомяк</big>|0|1|0|0|20|
|<big>семантика</big>|8|15|0|0|0|
|<big>суслик</big>|0|0|20|0|0|

### 2.2 Многомерное векторное пространство
 Получено **многомерное векторное пространство**
1. Слова являются **координатными осями**
2. Слова являются **векторами** в этом многомерном пространстве
3. Количество измерений равно количеству слов в корпусе
4. Векторы **разреженные**

### 2.3 В качестве развития
Можно использовать не абсолютную частоту совместной встречаемости слов, а как-либо её взвешивать. Коэффициент Дайса:
$$ Dice(w,w') = \frac{2c(w,w')}{c(w)+c(w')}, $$
где

$c(w)$ - абсолютная частота встречаемости слова $w$,

$c(w')$ - абсолютная частота встречаемости слова $w'$,

$c(w,w')$ - частота совместной встречаемости слов $w,w'$.

### 2.4 Матрица совместной встречаемости
При создании **матрицы совместной встречаемости** можно смотреть не только на непосредственных соседей, но и на слова, находящиеся в **контекстном окне**.

... животных (в том числе и у **[человека) различают головной _мозг_, размещённый в полости черепа]**, и спинной ...




# 3. Семантическая близость

## 3.1 Косинусная близость
Классический способ определения семантической близости слов в векторном пространстве.
- Схожесть слов выше по мере уменьшения угла между векторами слов
- Схожесть слов выше по мере увеличения косинуса угла между векторами слов


$$ cos(w, w') = \frac{(\overrightarrow{V}(w), \overrightarrow{V}(w'))}{|\overrightarrow{V}(w)| \cdot |\overrightarrow{V}(w')|}, $$

где

$w$ и $w'$ - некоторые слова,

$\overrightarrow{V}(a)$ - операция взятия вектора от слова $a$

## 3.2 Пример с хомяками

| |<big>вектор|<big>значение|<big>хомяк|<big>семантика|<big>суслик|
|:----------------:|:---------------:|:------------------:|:-----------------:|:-----------------:|:------------------:|
|<big>вектор</big>|0|0.78|0|0.625|0|
|<big>значение</big>|0.55|0|0.055|0.83|0|
|<big>хомяк</big>|0|0.05|0|0|0.99|
|<big>семантика</big>|0.47|0.88|0|0|0|
|<big>суслик</big>|0|0|1|0|0|

In [1]:
import numpy as np

vector = np.array([0, 0.78, 0, 0.625, 0])
value = np.array([0.55, 0, 0.055, 0.83, 0])
hamster = np.array([0, 0.05, 0, 0, 0.99])
semantics = np.array([0.47, 0.88, 0, 0, 0])
gopher = np.array([0, 0, 1, 0, 0])

In [2]:
def dist(a, b) -> float:
    return (a @ b) / (np.linalg.norm(a) + np.linalg.norm(b))

In [3]:
print(dist(vector, value))
print(dist(vector, hamster))

0.259800945577
0.0195903683786


# 4. Недостатки счётных моделей

1. Большой размер векторов
2. Медленные операции над векторами
3. Классические методы снижения размерности (PCA, SVD и т.п.) снижают качество модели

# 5. Предсказательные модели

- Мы пытаемся от каждого слова найти такой вектор (embedding), чтобы он был максимально схож с векторами слов-соседей
и максимально отличался от остальных слов.
- Обычно такой вектор небольшой размерности (порядка сотен компонентов) 

В **счётных моделях** $\overrightarrow{word} = [w_1, w_2, \dots w_n], $ где $n$ - число слов в корпусе (например, около $10^6$)

В **предсказательных моделях** $\overrightarrow{word} = [w_1, w_2, \dots w_m], $ где $m$ - заданный при обучении размер (например, около $500$)

Репрезентация слов с помощью предсказательных моделей намного эффективнее на практике.

Вероятность встретить два слова вместе: $$\frac{e^{score(a,b)}}{\sum_w e^{score(a,w)}}$$
Обучение: оптимизация функции потерь.

Функция потерь выбирается произвольно (например, перекрёстная энтропия).

# 6. word2vec
В 2013 году Tomas Mikolov из Google с соавторами опубликовал статью Efficient Estimation of Word Representations in Vector Space. Чуть позже был выложен код утилиты word2vec, которая позволяет тренировать нейронные языковые модели на больших корпусах.

Миколов модифицировал сущестующие алгоритмы: удалил из сети скрытый слой, использовал при обучении иерархический софтмакс. Важно, что word2vec **обучается на порядки быстрее** своих предшественников.

![alt text](pic2.png "Title")

![alt text](pic.png "Title")

# Примеры

In [4]:
import gensim
w2v_model = gensim.models.KeyedVectors.load_word2vec_format(r'''c:\Users\Dim\Downloads\araneum_upos_skipgram_300_2_2018.vec''')



Обученные модели можно взять http://rusvectores.org/ru/models/

In [5]:
print(w2v_model['сталь_NOUN'])

[-0.027465    0.100439   -0.103324   -0.082207   -0.030868   -0.015183
  0.000598   -0.079377   -0.002283    0.063085    0.034348    0.077064
  0.11245     0.094937   -0.019655   -0.034419    0.090761    0.092722
 -0.026385   -0.076239   -0.031656   -0.033933   -0.04341     0.059522
 -0.028613   -0.017589   -0.063313    0.004186    0.041362   -0.014075
  0.027321    0.001999   -0.038185   -0.051985    0.01361     0.032793
 -0.047974    0.003728   -0.045664   -0.10107     0.022689    0.065924
  0.004075    0.02786    -0.061815    0.003811    0.052616   -0.04216
 -0.028876    0.074481    0.12782501  0.099874    0.056212    0.076138
 -0.010256    0.102529    0.082981    0.07683     0.118031   -0.0882
  0.026836   -0.037248    0.053663   -0.04625    -0.177984   -0.094721
 -0.069048   -0.042868    0.072968   -0.04379    -0.001721    0.011135
  0.004856    0.003208    0.053068   -0.101371    0.016349   -0.036513
 -0.0768     -0.102599   -0.014578   -0.070232    0.023118    0.009445
 -0.07049

In [6]:
print(w2v_model['сталь_NOUN'].shape[0])

300


In [7]:
print(w2v_model.similarity('станок_NOUN', 'цех_NOUN'))

0.39700094968


In [8]:
print(w2v_model.similarity('цех_NOUN', 'кошка_NOUN'))

0.0168052968293


In [9]:
print(w2v_model.similarity('собака_NOUN', 'кошка_NOUN'))

0.841764280309


In [10]:
print(w2v_model.doesnt_match(['пламя_NOUN', 'ракета_NOUN', 'полёт_NOUN', 'банка_NOUN']))

банка_NOUN


In [11]:
print(w2v_model.doesnt_match(['кошка_NOUN', 'собака_NOUN', 'творог_NOUN', 'крокодил_NOUN']))

творог_NOUN


In [12]:
pairs = w2v_model.most_similar(positive=['буря_NOUN'], topn=15)
for word, score in pairs:
    print(word, score)

шторм_NOUN 0.7346199154853821
ураган_NOUN 0.6847695112228394
шквал_NOUN 0.6608145833015442
гроза_NOUN 0.6256261467933655
бушевать_VERB 0.6216868162155151
вихорь_NOUN 0.604590654373169
смерч_NOUN 0.5785956382751465
ливень_NOUN 0.5740789175033569
вьюга_NOUN 0.5724593997001648
ненастье_NOUN 0.5642626285552979
гром_NOUN 0.5467022061347961
метель_NOUN 0.5462476015090942
ветер_NOUN 0.541536271572113
цунами_NOUN 0.5354753732681274
волнение_NOUN 0.5273317694664001


In [13]:
vec = w2v_model['королева_NOUN'] - w2v_model['король_NOUN'] + w2v_model['женщина_NOUN']
pairs = w2v_model.similar_by_vector(vec, topn=2, restrict_vocab=None)
for word, score in pairs:
    if word not in ['королева_NOUN', 'король_NOUN', 'женщина_NOUN']:
        print(word, score)

мужчина_NOUN 0.6810499429702759


In [14]:
pairs = w2v_model.most_similar(positive=['королева_NOUN', 'женщина_NOUN'], negative=['король_NOUN'], topn=1)
for word, score in pairs:
    print(word, score)

мужчина_NOUN 0.6810498237609863


In [17]:
pairs = w2v_model.most_similar(positive=['большой_ADJ', 'уменьшение_NOUN'], negative=['малый_ADJ'], topn=1)
for word, score in pairs:
    print(word, score)

увеличение_NOUN 0.6744431853294373


In [34]:
vec = w2v_model['москва_PROPN'] - w2v_model['россия_PROPN'] + w2v_model['англия_PROPN']
pairs = w2v_model.similar_by_vector(vec, topn=1, restrict_vocab=None)
for word, score in pairs:
        print(word, score)

лондон_PROPN 0.7275360822677612


![alt text](pic3.png "Title")

# Применение
- Машинный перевод
- Расширение поисковых запросов 
- Классификация текстов
- Определение тональности высказываний

# Интересные ссылки

https://code.google.com/archive/p/word2vec/

https://arxiv.org/pdf/1301.3781.pdf

http://rusvectores.org/ru/

https://youtu.be/U0LOSHY7U5Q

https://youtu.be/2_mVrQ8fQro

https://youtu.be/7k_MOBYbw_w

https://habrahabr.ru/post/249215/

https://habrahabr.ru/company/mlclass/blog/270591/

https://habrahabr.ru/post/275913/

# Спасибо за внимание!

In [16]:
pairs = w2v_model.most_similar(positive=['спасибо_NOUN'], topn=5)
for word, score in pairs:
    print(word, score)

спаибо_NOUN 0.8570160865783691
спасибище_NOUN 0.8269262313842773
спасиб_NOUN 0.8243280649185181
спасибок_NOUN 0.8180297017097473
спосибо_NOUN 0.8178544044494629
