# 1 Теория

### 1.1 Что такое эмбединги?

Термины "векторизация" или "вложение" (**embedding**) означают представление объекта в виде вектора в неком пространстве. Применяются они, как правило, к сложным нечисловым данным (таким как тексты, графы, последовательности), поскольку числовые данные и так без проблем представляются в виде вектора.

Если мы хотим использовать нечисловые объекты как признаки в ML-моделях, такое представление необходимо.

Самое простое векторное представление объекта это **one-hot encoding** (оно же **dummy encoding**). Работает так - мы перечисляем все возможные типы объектов и ставим 1 напротив нашего типа. Например, если мы последовательно кодируем три символа a,b и c, то one-hot encoding для каждого выглядит так:
a=>[1,0,0], b=>[0,1,0], c=>[0,0,1]

One-hot encoding иногда используют в задачах ML, но для текстов или других данных большой размерности оно крайне неээфективно => нужен другой способ кодирования.

------------

### 1.2 Word2Vec

Word2Vec - алгоритм векторизации слова, при котором часто встречающиеся в одном контексте слова кодируются близкими векторами. Под контекстом слова понимаются слова, стоящие рядом слева или справа от него в предложении.

Разработан в 2013 году Томасом Миколовым. Оригинал статьи: https://arxiv.org/abs/1301.3781

Предполагается, что размерность эмбединга можно выбрать любой. Например, если получится закодировать слова двумерными векторами (embedding_dim = 2), то мы сможем делать красивые визуализации слов, в которых близкие по смыслу слова будут находиться близко на карте:

<img src="img/wordmap.png" width=500>

Эмбединги не обязательно получать самому, можно загрузить готовые, полученные на текстах общего назначения (например, из википедии). Однако для лучшего качества моделей, рекомендуется все же обучать / дообучать эмбединги под каждую конкретную задачу.

--------------

###  1.2 Математическая постановка Word2Vec

Мы понимаем, что вероятностное распределение каждого слова зависит от того, в каком контексте данное слово употребляется. И наоброт, веротяность контекста зависит от того какое слово, находится посередине.

Например, для последовательности ('самый', \_\_\_\_\_, 'корабль') распределение слова посередине может быть таким 

|WORD|P(WORD\|CONTEXT)|
|---|---|
|быстрый|0.583|
|красивый|0.127|
|прочный|0.056|
|...|...|
|экзальтизм|0.0001|
|крепеж|0.0001|

Мы хотим найти модель веротяности каждого слова, которая лучше всего описывает наблюдаемые данные. То есть решаем задачу максимизации правдоподобия.

При этом по условию задачи каждое слово у нас кодируется вектором, а вероятность рассчитывается как softmax от скалярного произведения эмбедингов word . Таким образом, мы хотим найти такое кодирование каждого слова, что все вместе они лучше всего описывают данные.

Отметим, что существует две равнозначные постановки задачи:

- **Continuous Bag-Of-Words (CBOW):** 

    $P(w_t|w_{con}) \rightarrow max$
    
    Моделируем эмбединги слов так, чтобы каждое слово максимально точно угадывалось из контекста


- **Skip-Gram:**  

    $P(w_{con}|w_t) \rightarrow max$
    
    Моделируем эмбдинги слов так, чтобы контекст максимально точно угадывался по центральному слову



### 1.3 Техническая реализация Word2Vec

Классическая реализация Word2Vec - простая нейронная сеть с одним скрытым слоем (hidden layer).

Предположим, в нашем корпусе текстов мы насчитали 10000 различных слов и мы хотим смапить их в пространтсво размерности 300.

Для начала мы нарезаем наш текст на скип-грамы скользящим окном. При обучении эмбедингов эти скип-грамы будут последовательно подаваться на вход сети. 

На картинке ниже показана сеть для модели SkipGram (когда на вход подается центральное слово, а выход сверяется с контекстом). Чуть позже увидим, чем отлиается вход/выход модели CBOW.

<img src="img/word2vec.png" width=500>

Каждое входное слово кодируется с помощью one-hot encoding. То есть предварительно мы присваиваем каждому слову свой номер, а затем представляем его бинарным вектором размерности 10000, где единственная единица установлена напротив номера этого слова. То есть вход имеет примерно такой вид: (0, 0, 1, 0, ... 0, 0).

<img src="img/nn.png" width=300>

Число нейронов в скрытом слое соотвествует размерности пространства эмбедингов (в нашем примере 300 штук).

Матрица коэффиицентов W сожержит все веса для передачи сигнала от каждого входного слова до каждого нейрона скрытого слоя. То есть в нашем примере это матрица размером 10000 x 300 (всего 3000000 коэффиицентов).

Обратим внимание, что на входе мы имеем 1 напротив только одного выбранного слова => выход скрытого слоя - это и есть эмбединг. То есть по сути, подавая на вход какое-то слово, мы просто делаем Lookup соотвествующей строки из матрицы W.

Затем выход скрытого слоя нужно вернуть в исходное прострнатсво, чтобы увидеть, насколько хорошо мы предсказываем контекст. В выходном слое (softmax layer) мы имеем вектор веротятностей для каждого слова, что оно находится в том же контексте, что и входящее слово.

Такой выход позволяет нам понять, насколько мы ошиблись и как сети нужно корректировать свои коэффициенты.

Процесс получения эмбедингов очень прост:
1. обучаем нейронную сеть на выборке текстов
2. берем коэффициенты матрицы W, (то есть веса, с помощью которых входной сигнал мапится в скрытый слой) => это и есть эмбединги слов
---------

Стоит отметить, что с технической точки зрения тут есть два подхода к реализации: 
- классический, описанный выше, с двумя матрицами W и W'
- с одной матрицей весов W, когда мы делаем сиамскую сеть с двумя входами, которые затем просто перемножаются

Второй подход с одной матрицей практичнее, поэтому когда будем делать реализацию (см. второй параграф) будем использовать именно его.

Как было отмечено выше, есть две формулировки задачи Word2Vec:

- **Skip-Gram**

  на вход подается центральное слово и на выходе сверяется с его текущим контекстом


- **CBOW** (continuous Bag-Of-Words)

  на вход поадется контекст и на выходе мы сверяем его с центральным словом
  
Схематично оба подхода изображены на картинках из оригинальной статьи:
<img src="img/sg_vs_cbow.png" width=500>

С точки зрения результатов, два подхода не сильно отличаются друг от друга и могут заменять друг друга.


Обратите внимание, что в рамках модели Word2Vec вложение слова не зависит от соседних слов в кодируемом предложении - оно всегда одинаково. Это минус, когда мы имеем дело с омонимами (одно написание, но разные смыслы).

Методика Word2Vec стала так поплярна в NLP, что породила большое количество аналогичных эмбедингов. Вот только некоторые:
- Doc2Vec
- Item2Vec
- Graph2Vec

# 2 Практика
### 2.1 Реализация в Keras

Попробуем сделать нейронную сеть для построения эмбедингов алгоритмом Word2Vec. Будем использовать API Keras.

In [None]:
from keras.models import Model
from keras.layers import Input, Dense, Reshape, merge, Dot
from keras.layers.embeddings import Embedding
from keras.preprocessing.sequence import skipgrams
from keras.preprocessing import sequence

import collections
import os

import numpy as np
import tensorflow as tf

Нам нужен большой корпус текстов.

У чувака есть предобработанный датасет с текстами из википедии (без знаков препинания). Весит около 30MB, можно скачать по прямой ссылке:

In [None]:
!wget 'http://mattmahoney.net/dc/text8.zip'
!unzip -o text8.zip

Обучаться будем на 17 млн слов. 

Небольшой минус данного датасета - текст не делится на предложения и в конец статьи может попасть в начало другой при определении контекстов.

In [4]:
file=open("text8","r")
words = file.read().split()
file.close()
len(words)

17005207

Посчитаем частоту слов. В питоне для этого есть специальный класс collections.Counter.

In [None]:
import collections
word_freq = collections.Counter(words)

Ожидаемо наиболее частотные слова - артикли и числительные

In [None]:
word_freq.most_common(10)

Дополним список специальным словом 'UNK' для обозначения более редких слов, чем с частотой n_words

In [None]:
n_words = 10000
word_freq_list = [['UNK', -1]]
word_freq_list.extend(word_freq.most_common(n_words - 1))

Поставим в соотвествие каждому слову свой порядковый номер

In [None]:
dictionary = dict()
for word, _ in word_freq_list:
        dictionary[word] = len(dictionary)

Закодируем текст в последовательность индексов слов. Заодно посчитаем частоту группы 'UKN'.

In [None]:
data = list()
unk_count = 0
for word in words:
        if word in dictionary:
            index = dictionary[word]
        else:
            index = 0  # dictionary['UNK']
            unk_count += 1
        data.append(index)
count[0][1] = unk_count

Теперь наш текст выглядит так:

In [None]:
data[0:10]

Потом когда будем анализировать результаты, нам наверняка понадобится обратный словарь (из кода слова в символьное представление).

In [None]:
reversed_dictionary = dict(zip(dictionary.values(), dictionary.keys()))
reversed_dictionary[1234]

Зададим основные параметры обучения.
- число слов в словаре (vocab_size), мы ранее сами задали ограничение в 10000 слов, поэтому пишем 10000
- размер контекста слова (window_size), сколько сосдених слов будем брать с каждой стороны в качестве контекста слова
- какую хотим получить размерность эмбединга (vector_dim)
- число эпох для обучения нейросети (epochs)

In [None]:
vocab_size = 10000
window_size = 3
vector_dim = 300
epochs = 200000

In [None]:
valid_size = 16     # Random set of words to evaluate similarity on.
valid_window = 100  # Only pick dev samples in the head of the distribution.
valid_examples = np.random.choice(valid_window, valid_size, replace=False)

Построим частотное распределние слов для Negative Sampling. Для этого в Keras есть специальный метод sequence.make_sampling_table:

In [None]:
sampling_table = sequence.make_sampling_table(vocab_size)
sampling_table

Также в Keras есть метод для negative-sampling. Он генерирует положительные примеры (слово и слово из контекста) и отрицательные примеры (слово и произвольное слово). Слова выбираются исходя из частот полученных выше.

In [None]:
couples, labels = skipgrams(data, vocab_size, window_size=window_size, sampling_table=sampling_table)

Выглядят сэмплы примерно так:

In [None]:
list(zip(couples[0:10], labels[0:10]))

Разделим наши пары слов на 2 отдельных списка. В питоне для этого есть функция zip(*).

Мы нагенерировали 30 млн пар слов, поэтому обработка займет какое-то время (может 5-10 минут).

In [None]:
word_target, word_context = zip(*couples)

In [None]:
word_target = np.array(word_target, dtype="int32")
word_context = np.array(word_context, dtype="int32")

Теперь будем собирать нейронную сеть. Схема ниже:

<img src="img/word2vec_keras.jpg">

У нас 2 входа сети - один для анализируемого слова (target) и один для слова из его контекста (context). Оба - скаляры (код слова).

In [None]:
input_target = Input((1,))
input_context = Input((1,))

Далее каждый вход подключаем к эмбедингу (он один и тот же для обоих входов). 

В Keras слой Embedding - это просто словарик с набором описаний, элементы которого сеть считает весами. По мере обучения сети веса выстраиваются так, чтобы достигался минимальный loss.

In [None]:
embedding = Embedding(vocab_size, vector_dim, input_length=1, name='embedding')

target = embedding(input_target)
target = Reshape((vector_dim, 1))(target)

context = embedding(input_context)
context = Reshape((vector_dim, 1))(context)

Перемножаем эмбединги обоих входов. Для скалярного произведения тензоров в Keras сущесвтует слой Dot.

При создании слоя Dot ставим normalize = True. Это означает, что скалряное произведение становится косинусным антирасстоянием (cosine similarity).

In [None]:
similarity = Dot(axes=0, normalize=True)([target, context])
dot_product = Reshape((1,))(similarity)

У нас softmax бинарная классификация (мы оцениваем вероятность события "слово 1 входит в контекст слова 2").

Поэтому выход определяем как Dense слой со скалярным выходом и сигмоидной активацией.

In [None]:
output = Dense(1, activation='sigmoid')(dot_product)

Собираем и компилируем модель

In [None]:
model = Model(input=[input_target, input_context], output=output)
model.compile(loss='binary_crossentropy', optimizer='rmsprop')

Сделаем вариант модели с другой функцией билзости

In [None]:
validation_model = Model(input=[input_target, input_context], output=similarity)

Пара функций для визуального тестирования результатов

In [104]:
class SimilarityCallback:
    def run_sim(self):
        for i in range(valid_size):
            valid_word = reversed_dictionary[valid_examples[i]]
            top_k = 8  # number of nearest neighbors
            sim = self._get_sim(valid_examples[i])
            nearest = (-sim).argsort()[1:top_k + 1]
            log_str = 'Nearest to %s:' % valid_word
            for k in range(top_k):
                close_word = reversed_dictionary[nearest[k]]
                log_str = '%s %s,' % (log_str, close_word)
            print(log_str)

    @staticmethod
    def _get_sim(valid_word_idx):
        sim = np.zeros((vocab_size,))
        in_arr1 = np.zeros((1,))
        in_arr2 = np.zeros((1,))
        in_arr1[0,] = valid_word_idx
        for i in range(vocab_size):
            in_arr2[0,] = i
            out = model.predict_on_batch([in_arr1, in_arr2])
            sim[i] = out
        return sim
    
sim_cb = SimilarityCallback()

В каждую эпоху дообучаем сеть на одном примере. Через каждые 10000 примеров для 16 случайно выбранных слов выводим его ближайшие слова.

**Note1:** на ноутбуке сеть может обучаться очень долго. Для целей презентации подхода этого достаточно. Для достижения реального результата очень желательно запускать обучение на мощных серверах либо GPU.

**Note2:** Чтобы сеть обучалась эффективнее, надо все же объединять сэмплы в батчи большего размера.

In [None]:
arr_1 = np.zeros((1,))
arr_2 = np.zeros((1,))
arr_3 = np.zeros((1,))

for cnt in range(epochs):
    idx = np.random.randint(0, len(labels)-1)
    arr_1[0,] = word_target[idx]
    arr_2[0,] = word_context[idx]
    arr_3[0,] = labels[idx]
    loss = model.train_on_batch([arr_1, arr_2], arr_3)
    if cnt % 100 == 0:
        print("Iteration {}, loss={}".format(cnt, loss))
    if cnt % 10000 == 0:
        sim_cb.run_sim()

После обучения модели можем выгрузить эмбединги слов:

In [123]:
embeddings = embedding.get_weights()[0]

Сделаем мапинг из слова в эмбединг:

In [132]:
word2embedding = {w:embeddings[idx] for w,idx in dictionary.items()}
word2embedding['love']

**Note:** эти эмбединги получены на текстах википедии. Разумеется, на других текстах они могут другими.

### 2.1 Word2Vec в бибилотеке Gensim

Всё что мы делали выше, можно записать одной строчкой, если воспользуемся NLP-библиоткеой gensim.

In [1]:
from gensim.models import Word2Vec
from gensim.test.utils import common_texts



В gensim класс Word2Vec работает с итераторами строк, а каждая строка - это список слов (но если массив небольшой, то это может быть и просто список списков слов).

То есть в gensim токенизация и нормализация форм слов остается за пользователем.

*В программировании итератор - обобщение понятия список. Если данные не влезают в память, гораздо эффективнее работать с указателями на данные (итераторами), чем с самими данными.

In [8]:
model = Word2Vec(common_texts)

RuntimeError: you must first build vocabulary before training the model

Основные параметры Word2Vec:
- texts - то, на чем будем обучаться (список предложений)
- size - размерность эмбединга
- window - размер окна (в одну сторону)

In [None]:
model = Word2Vec(common_texts, size=100, window=5)

Также можем задать: 
- min_count
- worker число параллельных процессов, если нам доступно много CPU

In [None]:
model = Word2Vec(common_texts, min_count=1, workers=4)

Кроме того, установив параметр "sg", мы можем выбрать модель обучения Word2Vec:
- CBOW

        Word2Vec(common_texts, sg=0)


- Skip-gram

        Word2Vec(common_texts, sg=1)

После обучения можем посмотреть embedding любого слова через индексатор:

In [None]:
model.vw['love']

In [None]:
model.vw

Обученные веса можно сохранить на диск

Мы также можем посчитать близость между предложениями (наборами слов)

In [1]:
model.vw.n_similarity(['sushi','shop'],['japanses','restaurant'])

NameError: name 'model' is not defined