# Погружения слов (word embeddings)

Погружение, или веторное представление слов (word embeddings) определяется как общее название различных методов языкового моделирования и обучения признаков, применяемых в обработке естетвенного языка, когда слова или фразы отображаются а векторы вещественных чисел.

Погружения слов - это способ преобразования текстового представления слов в численные векторы, допускащие анализ стандартными алгоритмами машинного обучения, принимающими на вход числа.

Простейший вид погружения слов - унитарное кодирование (one hot encoding).

Основная проблема унитарного кодирования в том, что нет никаких способов представить сходство слов. В любом заданном корпусе текстов мы ожидаем, что между словами "кошка" и "собака" есть какое-то сходство. Сходство векторов вычисляется с помощью скалярного произведения, т.е. суммы произведений соответствующих элементов. В случае унитарного кодирования скалярное произведение будет равно нулю.

Для преодоления ограничений унитарного кодирования в NLP долгое время использовалась идея векторизации текста с использованием документа в качестве контекста. Это подходы:
* TF-IDF;
* латентно-семантический анализ (LSA);
* тематическое моделирование (Topic model);

Все эти представления улавливают несколько иную, документно-центрическую идею семантического сходства. Погружения слов отличаются от предшествующих методов применяемых в информационном поиске тем, что слова используются скорее как собственный контекст, что приводит к более естественной форме семантического сходства с точки зрения понимания человеком. В настоящее время погружение слов - общепринятая техника векторизации текста во всех задачах NLP (классификация текстов, кластеризация документов, частеречная разметка, распознавание именованных сущностей, анализ эмоциональной окраски и т.п.).

Рассмотрим 2 формы погружения слов:
* GloVe
* word2vec
известные под общим названием *распределенное представление слов*. Эти представления оказались более эффективными, и поэтому широко распространены в среде специалистов по глубокому обучению и NLP.



## Распределенные представления

Распределенное представление - попытка уловить смысл слова путем рассмотрения его связей с другими словами в контексте. 

Эта идея сформулирована в сл. высказывании лингвиста Дж. Р. Фирта (J.R. Firth):

**Мы узнаем слово по компании, с которой оно дружит.**

Рассмотрим такие два предложения:
* Париж - столица Франции
* Берлин - столица Германии

Даже если вы совсем не щнаете географию (или русский язык), то все равно нетрудно понять, что пары слов (Парид, Берлин) и (Франция, Германия) как-то связаны и что между соответственными словами связи одинаковы, т.е.

*Париж : Франция :: Берлин : Гемания*

Следовательно, задача распределенного представления - найти общую функцию $\phi$ преобразования слова в соответствующий ему вектор, чтобы были справедливы соотношения сл. вида:

$\phi$(Париж) - $\phi$(Франция) ~ $\phi$(Берлин) - $\phi$(Германия)

Иными словами, ** цель распределенного представления - преобразовать слова в векторы так, чтобы сходство векторов коррелировало с семантическим сходством слов.**


### word2vec

Группа моделей word2vec была разработана в 2013 году группой исследователей Google под руководством Т. Миколова (Tomas Mikolov). Модели обучаются без учителя на большом корпусе текстов и порождают векторное пространство слов. Размерность пространства погружения word2vec обычно меньше размерности погружения для унитарного кодирования. Кроме того, это пространство погружения плотнее разрежененного погружения при унитарном кодировании.

Существуют 2 архитектуры word2vec:
* Непрерывный мешок слов (Continuous Bag of Words, CBOW);
* skip-граммы.

В архитектуре CBOW модель предсказывает текущее слово, если известно окно окружающих его слов. Кроме того, порядок контекстных слов не влияет на предсказание (это допущение мешка слов). В архитектуре skip-грамм модель предсказывает окружающие слова по известному центральному слову. Соглано заявлению авторов, CBOW быстрее, но skip-граммы лучше предсказывают редкие слова.

Интересно отметить, что хотя word2vec создает погружения, используемые в моделях глубокого обучения NLP, оба варианта word2vec являются мелкими нейронными сетями.

### Модель skip-грамм

Модель skip-грамм обучается предсказывать окружение по известному центральному слову.

Рассмотрим предложение:

* I love green eggs and ham. *

В предположении, что размер окна 3, предложение можно разложить на пары (контекст, слово):

* ([I, green], love)
* ([love, eggs], green)
* ([green, and], eggs)
...

Поскольку модель skip-грамм предсказывает контекстные слова по центральному, мы можем преобразовать этот набор данных в набор пар *(вход; выход)*. То есть, зная входное слово, мы ожидаем, что модель skip-грамм предскажет соответствующее выходное:

*(love, I), (love, green), (green, love), (green, eggs), (eggs, green), (eggs, and), ...*

Также, можно сгенерировать дополнительные **отрицательные** примеры, объединяя в пару каждое входое слово со случайным словом из словаря, например:

*(love, Sam), (love, zebra), (green, thing), ...*

Наконец, мы генерируем положительные и отрицательные примеры для классификатора:

*((love, I),1), ((love, green),1), ..., ((love, zebra),0), ((green, thing),0) ...*

Теперь можно обучить классификатор, принимающий вектор слов и контекстный вектор и предсказывает 0, или 1 в зависимости от того, какой пример видит: положительный или отрицательный. Результатом обучения сети являются веса слоя погружения слов (серый блок): 

![](img/word2vec-pic1.png)


Опишем построение skip-грамм модели в Keras.

Пусть размер словаря равен 5000, размер выходного пространста погружения 300, размер окна 1 (последующее и предыдущее слова). Импортируем нужные модули:

In [1]:
from keras.layers import Merge
from keras.layers.core import Dense, Reshape
from keras.layers.embeddings import Embedding
from keras.models import Sequential
import keras.backend as K

vocab_size = 5000
embed_size = 300


Using TensorFlow backend.


Создаем последовательную модель *слова*. Входом модели являются идентификаторы слов в словаре. Весам погружений первоначально присваиваются небольшие случайно выбранные значения. В процессе обучения модель будет обновлять веса, применяя алгоритм обратного распространения ошибки. Следующий слой адаптирует форму входа под размер погружения:


In [2]:
word_model = Sequential()
word_model.add(Embedding(vocab_size, embed_size,
                         embeddings_initializer="glorot_uniform",
                         input_length=1))
word_model.add(Reshape((embed_size,)))

Также нужна еще одна модель для контекстных слов. Для каждой пары skip-грамм мы имеем одно контекстное слово, соответствующее целевому слову, так что эта модель идентична модели слов:

In [3]:
context_model = Sequential()
context_model.add(Embedding(vocab_size, embed_size,
                            embeddings_initializer="glorot_uniform",
                            input_length=1))
context_model.add(Reshape((embed_size,)))

На выходе обеих моделей получаются векторы размера 
    embed_size.
Их скалярное произведение подается на вход плотному слою с сигмоидной функцией активации, который порождает один выход. Сигмоида преобразует аргумент в число из диапазона [0;1].

In [4]:
model = Sequential()
model.add(Merge([word_model, context_model], mode="dot", dot_axes=0))
model.add(Dense(1, kernel_initializer="glorot_uniform", activation="sigmoid"))

model.compile(loss="mean_squared_error", optimizer="adam")

  


In [6]:
merge_layer = model.layers[0]
word_model = merge_layer.layers[0]
word_embed_layer = word_model.layers[0]
weights = word_embed_layer.get_weights()[0]

В качестве функции потерь используется mean_squared_error; идея в том, чтобы минимизировать скалярное произведение для положительных примеров и максимизировать для отрицательных.

Keras предоставляет функцию для извлечения skip-грамм из текста, преобразованного в список индексов слов. Ниже приведен пример использования для ивлечения первых 10 из 56 сгенерированных skip-грамм (положительных и отрицательных). Импортируем модули и инициализируем подлежащий анализу текст:

In [7]:
from keras.preprocessing.text import *
from keras.preprocessing.sequence import skipgrams

text = "I love green eggs and ham ."

Объявляем объект для выделения лексем и пропускаем через него текст. Получается список лексем: 

In [8]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])

Объект tokenizer создает словарь, сопоставляющий каждому уникальному слову целочисленный идентификатор, и делает его доступным через атрибут word_index. Мы читаем этот атрибут и создаем 2 таблицы соответствия:

In [9]:
word2id = tokenizer.word_index
id2word = {v:k for k, v in word2id.items()}

Наконец, входной список слов преобразуется в список идентификаторов и передается функци  skipgrams. Затем мы печатаем первые 10 из 56 сгенерированных skip-грамм (пара, метка):

In [10]:
wids = [word2id[w] for w in text_to_word_sequence(text)]
pairs, labels = skipgrams(wids, len(word2id))
print(len(pairs), len(labels))
for i in range(10):
    print("({:s} ({:d}), {:s} ({:d})) -> {:d}".format(
        id2word[pairs[i][0]], pairs[i][0], 
        id2word[pairs[i][1]], pairs[i][1],
        labels[i]))

56 56
(love (2), ham (6)) -> 1
(ham (6), and (5)) -> 1
(i (1), and (5)) -> 1
(ham (6), and (5)) -> 0
(ham (6), green (3)) -> 0
(i (1), love (2)) -> 1
(i (1), eggs (4)) -> 1
(eggs (4), green (3)) -> 1
(ham (6), and (5)) -> 0
(green (3), love (2)) -> 1


Функция skip-grams производит случайную выборку из множества всевозможых положительных примеров, поэтому результаты могут отличаться при новом запуске. С увеличением размера входного текста вероятность выбрать пары не связанных между собой слов возрастает. В нашем примере текст очень короткий, поэтому высоки шансы, что будут сгенерированы положительные примеры.

## Модель CBOW

Теперь рассмотрим модель CBOW из семейства word2vec. Она предсказывает слово по известным контекстным словам. Таким образом, для первого кортежа из примера ниже CBOW должна предсказать слово *love*, зная контекстные слова *I* и *green*:

* ([I, green], love)
* ([love, eggs], green)
* ([green, and], eggs)
* ...

Как и модель skip-грамм, модель CBOW представляет собой классификатор, получающий на входе контекстные слова и предказывающий целевое слово. Но архитектура его проще чем в модели skip-грамм. Входными данными модели являются идентификаторы контекстных слов. Они поступают на вход слоя погружения, веса которого инициализируются небольшими случайными значениями. Этот слой преобразует каждый идентификатор в вектор размера embed_size. Следовательно, каждая строка входного контекста преобразуется в матрицу размера (2\*windows_size, embed_size). Затем матрица подается на вход слоя lambda, который вычисляет среднее по всем погружениям. Полученная величина передается плотном слою, который создает плотный вектор размера vocab_size для каждой строки. В качестве функции активации используется softmax, которая возвращает вероятность, равную максимальному элементу выходного вектора. Идентификатор с максимальой вероятностью соответствует целевому слову.

![](img/word2vec-pic2.png)


Рассмотрим код модели на Keras. 

Размер словаря 5000, размер выходного пространства погружения 300, размер контекстного окна 1.


In [11]:
from keras.models import Sequential
from keras.layers.core import Dense, Lambda
from keras.layers.embeddings import Embedding
import keras.backend as K

vocab_size = 5000
embed_size = 300
window_size = 1

Строим последовательную модель, в которую включаем слой погружения с весами, инициализированными малыми случайными значениями. Отметим, что длина входа input_length этого слоя равна числу контекстных слов. Каждое контекстное слово подается на вход слоя, и веса обновляются в процессе обратного распространения. На выходе слоя получается матрица погружений контекстных слов, которая усредняется в один вектор (на каждую строку входа) слоем lambda. Наконец, плотный слой преобразует строки в плотный вектор размера vocab_size. Целевым словом будет то, для которого вероятность идентификатора в плотном выходном векторе максимальна.



In [12]:
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embed_size, 
                    embeddings_initializer='glorot_uniform',
                    input_length=window_size*2))
model.add(Lambda(lambda x: K.mean(x, axis=1), output_shape=(embed_size,)))
model.add(Dense(vocab_size, kernel_initializer='glorot_uniform', 
                activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer="adadelta")

В качестве функции потерь используется категориальна кроссэнтропия - типичный выбор для случая, когда категорий две или больше (в нашем случае vocab_size).


### Извлечение погружений word2vec из модели

Обе модели семейства word2vec можно свести к задаче классификации, хотя сама эта задача нас не интересует. А интересен нам побочный эффект классификации - матрица весов, преобразующая слово из словаря в плотнгое распределенное представление низкой размерности.

Есть немало примеров того как распределенное представление выявляет удивительную синтаксичскую и семантическую информацию. 
Векторы, соединяющие слова, имеющие примерно одинаковый смысл, но относящиеся к разным полам, прблизительно параллельны в редуцированном пространстве и можно получить согласующиеся с интуицией результаты проводя арифметические действия над векторами слов.

![](http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/img/Mikolov-GenderVecs.png)

Интуитивно кажется, что процесс обучение привносит достаточно информации во внутреннюю кодировку чтобы предсказать выходное слово, встречающееся в контексте входного. Поэтому точки, представляющие слова в этом пространстве располагаются ближе к точкам слов, с которыми они встречабися совестно. В результате походие слова образуют кластеры. И слова, встречающиеся вместе с похожими словами, тоже образуют кластеры. Следовательно, векторы, соединяющие точки, представляющие семантически связанные слова в распределенном представлении, демонстрируют регулярное поведение.

Keras предоставляет средства для извлечения весов из обученных моделей. Например, для skip-грамм веса слоя погружения можно получить сл. образом:

In [None]:
merge_layer = model.layers[0]
word_model = merge_layer.layers[0]
word_embed_layer = word_model.layers[0]
weights = word_embed_layer.get_weights()[0]

В случае CBOW для получения весов достаточно одной строчки:

In [None]:
weights = model.layers[0].get_weights()[0]

В обоих случах матрица весов имеет размер vocab_size x embed_size. Для вычисления распределенного представления слова из словаря нужно построить унитарный вектор, записав 1 в элемент вектора размера vocab_size с индексом, равным идентификатору слова и умножить его на матрицу весов, получив в результате вектор погружения размера embed_size.

Визуализация погружений слов, выполненая Christopher Olah:
![](http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/img/Socher-ImageClass-tSNE.png)

Для этого было произведено понижение размерности до 2 измерений и использовался метод t-SNE. Точки, соответствующие похожим типа сущностей образуют кластер.

### Сторонние реализации word2vec

На данном этапе вы понимаете работу моделей skip-грамм и CBOW (и как построить их реализацию с помощью Keras). Однако, существуют готовые реализации word2vec и в предположении что ваша задача не слишком сложна и не слишком отличается от типичной, имеет смысл воспользоваться одной из них и не изобретать велосипед.

Одна из таких реализаций word2vec - библоитека gensim (https://radimrehurek.com/gensim/). Интеграция gensim и Keras достаточно распространенная практика.

Рассмотрим пример, как построить модель word2vec с помощью gensim и обучить её на тексте из корпуса text8 (link: mattmahoney.net/dc/text8.zip ).
Файл содержит 17 миллионов слов, взятых из статей википедии. Текст был подвергнут очистке - удалению разметки, знаков препинания и символов отличающихся от ASCII. Первые 100 миллионов знаков очищенного текста и составили корпус text8/ Он часто используется для примера модели word2vec, потому что обучение на нем проходит быстро и дает хорошие результаты.



In [13]:
from gensim.models import word2vec
import os
import logging




Читаем поток слов из корпуса text8, разбивая его на предложения по 50 слов в каждом. Библиотека gensim имеет встроенный обработчик text8, который делает нечто подобное. Но мы хотим построить модель для любого корпуса (предпочтительно большого), который может и не помещаться в памяти, поэтому продемонстрируем порождение этих предложений с помозью генератора Python.

Класс Text8Sentences порождает предложения по maxlen слов в каждом из файла text8. В данном случае мы читакм весь файл в память, но при обходе файлов, находящихся в нескольких каталога, генератор позволяет загрузить в память часть данных обработать её и отдать вызывающей стороне.

In [22]:
class Text8Sentences(object):
    def __init__(self, fname, maxlen):
        self.fname = fname
        self.maxlen = maxlen
        
    def __iter__(self):
        with open(os.path.join(DATA_DIR, "text8"), "rb") as ftext:
            tmp = str(ftext.read())
            text = tmp.split(" ")
            words = []
            for word in text:
                if len(words) >= self.maxlen:
                    yield words
                    words = []
                words.append(word)
            yield words

Теперь напишем функции вызова. Активируем механизм протокодирования для уведомления о ходе обработки. 

Затем создадим экземпляр класса Text8Sentences и обучим модель из этого набора данных. Мы задали размер векторов погружения 300 и рассматриваем слова, встречающиеся в корпусе не менее 30 раз. Размер окна по умолчанию равен 5, поэтому контекстом для слова $w_i$ будут слова: $w_{i-5}, w_{i-4}, w_{i-3}, w_{i-2}, w_{i-1}, w_{i+1}, w_{i+2}, w_{i+3}, w_{i+4}, w_{i+5}$. По умолчанию создается модель CBOW, но это можно изменить, задав параметр sg=1:

In [23]:
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

DATA_DIR = "./data/"
sentences = Text8Sentences(os.path.join(DATA_DIR, "text8"), 50)
model = word2vec.Word2Vec(sentences, size=300, min_count=30)

2017-11-11 19:22:14,871 : INFO : collecting all words and their counts
2017-11-11 19:22:21,403 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2017-11-11 19:22:21,936 : INFO : PROGRESS: at sentence #10000, processed 500000 words, keeping 33464 word types
2017-11-11 19:22:22,490 : INFO : PROGRESS: at sentence #20000, processed 1000000 words, keeping 52755 word types
2017-11-11 19:22:23,005 : INFO : PROGRESS: at sentence #30000, processed 1500000 words, keeping 65589 word types
2017-11-11 19:22:23,488 : INFO : PROGRESS: at sentence #40000, processed 2000000 words, keeping 78383 word types
2017-11-11 19:22:24,083 : INFO : PROGRESS: at sentence #50000, processed 2500000 words, keeping 88008 word types
2017-11-11 19:22:24,775 : INFO : PROGRESS: at sentence #60000, processed 3000000 words, keeping 96645 word types
2017-11-11 19:22:25,322 : INFO : PROGRESS: at sentence #70000, processed 3500000 words, keeping 104309 word types
2017-11-11 19:22:25,821 : INFO : PROGRE

Реализация word2vec производит 2 прохода по данным, сначала строится словарь, затем фактическая модель. За ходом построения модели можно смотреть по логам на консоли.
После создания модели нужно нормировать получившиеся векторы. В документации сказано, что это сэкономи много памяти. Обученную модель также можно сохранить на диске:

In [25]:
model.init_sims(replace=True)
model.save("word2vec_gensim.bin")

2017-11-11 19:26:35,675 : INFO : precomputing L2-norms of word weight vectors
2017-11-11 19:26:36,128 : INFO : saving Word2Vec object under word2vec_gensim.bin, separately None
2017-11-11 19:26:36,144 : INFO : not storing attribute syn0norm
2017-11-11 19:26:36,147 : INFO : not storing attribute cum_table
2017-11-11 19:26:38,139 : INFO : saved word2vec_gensim.bin


Для загрузки сохраненной модели в память используется сл. метод:

In [28]:
model = word2vec.Word2Vec.load('word2vec_gensim.bin')

2017-11-11 19:27:09,278 : INFO : loading Word2Vec object from word2vec_gensim.bin
2017-11-11 19:27:10,096 : INFO : loading wv recursively from word2vec_gensim.bin.wv.* with mmap=None
2017-11-11 19:27:10,098 : INFO : setting ignored attribute syn0norm to None
2017-11-11 19:27:10,100 : INFO : setting ignored attribute cum_table to None
2017-11-11 19:27:10,103 : INFO : loaded word2vec_gensim.bin


Можно получить вкторное представление заданного слова:

In [31]:
model['woman']

array([ -1.24130631e-02,   2.12733038e-02,   5.32539226e-02,
         7.90794790e-02,   6.95266586e-04,  -3.13665979e-02,
        -1.94576439e-02,  -2.86075789e-02,  -3.25210169e-02,
         6.19053021e-02,   3.46451588e-02,  -3.54732387e-02,
        -5.18917553e-02,   5.02903573e-02,  -1.21724293e-01,
        -2.84386370e-02,  -6.59237728e-02,  -5.62250018e-02,
         4.84467149e-02,  -3.55367010e-05,   7.30938613e-02,
         6.97688460e-02,  -8.76506940e-02,  -2.57450044e-02,
        -2.36480124e-02,   3.08887241e-03,   9.95956585e-02,
         1.96102560e-02,   1.99851189e-02,  -4.70198953e-04,
        -7.95919169e-03,   5.65129099e-03,  -2.36462522e-02,
         2.26825066e-02,   7.93054849e-02,   3.35591957e-02,
         6.78249449e-02,  -1.61220450e-02,  -6.39008135e-02,
        -3.52712534e-02,   4.89605553e-02,   7.39221508e-03,
        -1.05902469e-02,   5.16011640e-02,  -5.63778505e-02,
         2.11923793e-02,   1.21231802e-01,   4.24933098e-02,
         1.59606084e-01,

Можно найти слова, похожие на заданное:

In [32]:
model.most_similar("woman")

2017-11-11 19:30:26,492 : INFO : precomputing L2-norms of word weight vectors


[('child', 0.7217637300491333),
 ('girl', 0.7101114392280579),
 ('man', 0.6607055068016052),
 ('lady', 0.6375045776367188),
 ('lover', 0.6348167061805725),
 ('baby', 0.6139859557151794),
 ('herself', 0.6138506531715393),
 ('mother', 0.6019600033760071),
 ('person', 0.5906017422676086),
 ('husband', 0.589015007019043)]

Можно также давать указания о том, какие слова считать похожими. Следующая команда возвращает первые 10 слов, похожие на woman и king, но не похожие на man:

In [33]:
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=10)

[('queen', 0.6211974620819092),
 ('empress', 0.5663551092147827),
 ('daughter', 0.5630096793174744),
 ('isabella', 0.554334819316864),
 ('husband', 0.553817093372345),
 ('princess', 0.5524237751960754),
 ('mary', 0.5424255728721619),
 ('elizabeth', 0.5415064692497253),
 ('throne', 0.5391876697540283),
 ('prince', 0.5263879895210266)]

Можно также запросить меру сходства между заданными словами. Чтобы получить представление о том, как положение слов в пространстве погружения коррелирует с их семантикой, рассмотрим сл. пары слов:

In [34]:
model.similarity("girl", "woman")

0.71011161453468119

In [35]:
model.similarity("girl", "man")

0.58055631255012186

In [36]:
model.similarity("girl", "car")

0.29798874943153936

In [37]:
model.similarity("bus", "car")

0.47761547574044227

Как видим, слова girl и woman больше похожи, чем girl и man, а car и bus больше похожи чем girl и car. Это хорошо согласуется с тем, как ранжировал бы схожесть человек.


## Введение в GloVe

Погружение слов GloBr (Global Vector) было предложено в работе "GloVe: Global Vectors for Word Representation" (C. Manning, J. Pennington, R. Socher). Авторы описывают GloVe как алгоритм обучения без учителя, цель которого - получение векторных представлений слов. Обучение производится на агрегированной глобальной статистике совместной встречаемости слов из корпуса, а получающиеся представления вскрывают интересные линейные структуры в векторном пространстве слов.

GloVe отличаеися от word2vec тем, что word2vec прогностическая модель, тогда как GloVe основана на счетчиках. На первом шаге строится большая матрица совместной встречаемости пар (слово; контекст) в обучающем корпусе. Каждый элемент матрицы описывает, как часто слово, представленное данной строкой, встречается в контексте (обычно это последовательность слов), представленым данным столбцом.

![](img/word2vec-pic3-glove.png)

Алгоритм GloVe преобразует матрицу совместной встречаемости в пару матриц: (слово; признак) и (признак; контекст). Этот процесс называется **факторизацией матрицы** и выполняется итеративно посредством SGD.

В форме уравнения записывается сл. образом: $R = P*Q \approx R'$

Здесь $R$ - исходная матрица совместной встречаемости. Сначала инициализируем $P$ и $Q$ случайными значениями и пытаемся воссоздать $R'$ путем их перемножения. Разница между реконструированной матрицей $R'$ и исходной $R$ покалывает, как надо изменить значения $P$ и $Q$, чтобы $R'$ стала ближе к $R$, т.е. ошибка реконструкции уменьшилась. Эта операция повторяется несколько раз, пока SGD не сойдется и ошибка реконструкции не станет ниже определенного порогового значени. Получившаяся в этот момент матрица (слово; признак) и является погружением в смысле GloVe. 

Прогностические модели на основе нейронных сетей типа word2vec и основанные на счетчиках модели GloVe преследуют одну и ту же цель. И те и другие строят векторное пространство так, что положение слова в нем зависит от соседних слов. Нейронная сеть начинает работу с отдельных примеров совместной встречаемости слов, а основанные на счетчиках модели - со статистики совместной встречаемости всех слов в корпусе. Недавно было опубликовано несколько работ, в которых демонстрируется корреляция между моделями обоих типов.

В общем случае, GloVe отличается большей верностью, чем word2vec и быстрее обучается при использовании распараллеливания, поддержка её на Python пока не столь развита как word2vec. Пока единственным доступным инструментом является проект GloVe-Python (https://github.com/maciejkula/glove-python), предлагающий модельную реализацию GloVe на Python.


##  Использование предобученных погружений 

Вообще говоря, обучать модель word2vec или GloVe с нуля следует только тогда, когда имеется очень большой объем узкоспециализированных текстов. Чаще всего тем или иным способом используются предобученные погружения. Есть 3 основных способа включения погружений в собственную сеть:

* обучение погружений с нуля;
* настройка погружений на основе предобученных моделей GloVe\word2vec;
* поиск погружений в предобученных моделях GloVe/word2vec;

В первом случае веса погружений инициализируются небольшими случайными значениями и обучаются методом обратного распространения ошибки. Этот способ уже рассмотрен на примере моделей skip-грамм и CBOW в Keras. Это режим по умолчанию при использовании слоя Embedding в собственной сети.

Во втором случае из предобученной модели берется матрица весов и используется для инициализации весов слоя погружения. Сеть также обновляет веса методом обратного распространения ошибки , но модель сходится быстрее за счет хорошего выбора начальных весов.

В третьем случае погружения слов ищутся в предобученной модели и входные данные преобразуются в векторные погружения. На преобразованных данных можно затем обучить любую модель (необязательно сеть глубокого обучения). Если предобученная модель обучалась на текстах из той же предметной области, что и целевая, то этот способ обычно дает прекрасные результаты и является самым дешевым.

Для англоязычных текстов общего характера можно использовать модель word2vec от Google, обученную на 10 миллиардах слов из набора данных Google news. Размер словаря составляет примерно 3 миллиона слов, а размерность пространства погружения равна 300. Модель Google News (~1.5 Gb) можно скачать.

С сайта GloVe можно скачать модель, обученную на 6 миллиардах лексем из англоязычной википедии и корпусе текстов, содержащем порядка миллиарда слов. Размер словаря составляет примерно 400 000 слов, для скачивания доступны модели с размерностью пространства 50,100,200 и 300. Размер модели составляет примерно 822 Mb. 

### Обучение погружений с нуля

Обучим одномерную **сверточную нейронную сеть** классифицировать предложения по тональности. Прежде рассматривалось обучение двумерной сверточной сети для классификации изображений. В сверточных нейронных сетях используется пространственная структура изображения путем обеспечения локальной связности между нейронами соседних слоев.

Для слов предложения характерна линейная структура, аналогичная пространстенной структуре в изображении. Традиционные (не на базе глубокого обучения) подходы к языковому моделированию подразумевают создание словесных n-грамм, улавливающих эту линейную структуру. ОДномерные сверточные нейронные сети делают нечто похожее, обучая сверточные фильтры, затрагивающие сразу несколько слов предложения и применяя к результатам max-пулинг, для создания вектора, представляющего важнейшие смысловые аспекты предложения.

Существует еще один класс нейронных сетей, **рекуррентные нейронные сети**, специально предназначенные для обработки последовательных данных, в т.ч. текста, которые есть не что иное, как последовательность слов. Порядок обработки в РНС не такой как в сверточных. 

В нашей сети  входной текст преобразуется в последовательность индексов слов. Для грамматического разбора текста используется библиотека NLTK. Можно было бы применить регулярные выражения, но статистические модели предлагаемые NLTK, более пригодны для разбора текста.

Последовательность индексов слов загружается в слой погружений заданного размера (в нашем случае число слов в самом длинном предложении). По умолчанию слой погружения инициализируется случайными значениями. Выход слоя погружения соединяется с одномерным светочным слоем, который сворачивает (в нашем примере0) словесные 3-граммы 256 различными способами (по сути дела применяет различные обученные линейные комбинации весов к погружениям слов). Эти признаки затем сводятся к единственному слову слоем глобального max-пулинга. Вектор длины 256 подается на вход плотного слоя, который выводит вектор длины 2. Функция активации sofrmax возвращает две вероятности: положительной и отрицательной эмоциональной тональности.

![](img/word2vec-pic4.png)

Рассмотрим реализацию в Keras. Фиксируем значение генератора случайных чисел для воспроизводимости результатов.


In [38]:
from keras.layers.core import Dense, Dropout, SpatialDropout1D
from keras.layers.convolutional import Conv1D
from keras.layers.embeddings import Embedding
from keras.layers.pooling import GlobalMaxPooling1D
from keras.models import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.utils import np_utils
from sklearn.model_selection import train_test_split
import collections
import matplotlib.pyplot as plt
import nltk
import numpy as np

np.random.seed(42)


Далее инициализируются константы. Мы будем классифицировать предложения из конкурса UMICH SI650 (https://www.kaggle.com/c/si650winter11#description), проводившийся на Kaggle.

В этом наборе данных ~7000 редложений, положительно окрашенные снабжены меткой 1, отрицательно - меткой 0.

Константа INPUT_FILE определяет путь к файлу размеченных предложений. 

Константа VOCAB_SIZE говорит, что мы будем рассматривать первые 5000 лексем текста. EMBED_SIZE - размер погружения, генерируемого слоем погружения нашей сети. NUM_FILTERS - число сверточных фильтров, обучаемых в сверточном слое, а NUM_WORDS - размер каждого фильтра, т.е. количество сворачиваемых за один раз слов.

Константы BATCH_SIZE и NUM_EPOCH -- число загружаемых в одном пакете записей и количество проходов по всему набору данных в процессе обучения.

In [40]:
INPUT_FILE = "./data/umich-sentiment-train.txt"
VOCAB_SIZE = 5000
EMBED_SIZE = 100
NUM_FILTERS = 256
NUM_WORDS = 3
BATCH_SIZE = 64
NUM_EPOCHS = 20

Считываем входные предложения и строим словарь из наиболее часто встречающихся слов. Этот словарь используется для преобразования входных предложений в список индексов слов.

In [45]:
counter = collections.Counter()
fin = open(INPUT_FILE, "r", encoding='utf-8')
maxlen = 0
for line in fin:
    _, sent = line.strip().split("\t")
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    if len(words) > maxlen:
        maxlen = len(words)
    for word in words:
        counter[word] += 1
fin.close()

word2index = collections.defaultdict(int)
for wid, word in enumerate(counter.most_common(VOCAB_SIZE)):
    word2index[word[0]] = wid + 1
vocab_sz = len(word2index) + 1
index2word = {v:k for k, v in word2index.items()}

In [43]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Каждое предложение дополняется до длины maxlen (число слов в самом длинном предложении тренировочной выборки). Метки преобразуются в категориальный формат посредством служебной функции Keras. Последние два шага - стандартные операции обработки текста.

In [47]:
xs, ys = [], []
fin = open(INPUT_FILE, "r", encoding='utf-8')
for line in fin:
    label, sent = line.strip().split("\t")
    ys.append(int(label))
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    wids = [word2index[word] for word in words]
    xs.append(wids)
fin.close()
X = pad_sequences(xs, maxlen=maxlen)
Y = np_utils.to_categorical(ys)

Данные разбиваем на тренировочный и тестовый набор в соотношении 70:30. Теперь данные приведены к формату, пригодному для загрузки в сеть:

In [48]:
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size=0.3, 
                                                random_state=42)
print(Xtrain.shape, Xtest.shape, Ytrain.shape, Ytest.shape)

(4960, 42) (2126, 42) (4960, 2) (2126, 2)


Определим нейросеть:

In [52]:
model = Sequential()
model.add(Embedding(vocab_sz, EMBED_SIZE, input_length=maxlen))
#model.add(SpatialDropout1D(Dropout(0.2)))
model.add(Conv1D(filters=NUM_FILTERS, kernel_size=NUM_WORDS, activation="relu"))
model.add(GlobalMaxPooling1D())
model.add(Dense(2, activation="softmax"))


Откомпилируем модель. Поскольку строится бинарный классификатор, то в качестве функции потерь выбирается categorial_crossentropy. В качестве оптимизатоа adam. Обучим модель на обучающем наборе, указав размер пакета 64 и число периодов 20:

In [53]:
model.compile(optimizer="adam", loss="categorical_crossentropy",
              metrics=["accuracy"])
history = model.fit(Xtrain, Ytrain, batch_size=BATCH_SIZE,
                    epochs=NUM_EPOCHS,
                    validation_data=(Xtest, Ytest))       

Train on 4960 samples, validate on 2126 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


Видим, что на тестововм наборе верность составила 96.8%.

### Настройка погружений на баще предобученной модели word2vec

Теперь мы будем использовать ту же сеть, что и прежде. Единственное существенное отличие - дополнтельный код для загрузки модели word2vec и построения матрицы весов для слоя погружения.

Как всегда, начнем с импортирования и инициализации переменных. Также загрузис модель word2vec из gensim.

In [None]:
from gensim.models import KeyedVectors
from keras.layers.core import Dense, Dropout, SpatialDropout1D
from keras.layers.convolutional import Conv1D
from keras.layers.embeddings import Embedding
from keras.layers.pooling import GlobalMaxPooling1D
from keras.models import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.utils import np_utils
from sklearn.model_selection import train_test_split
import collections
import matplotlib.pyplot as plt
import nltk
import numpy as np

np.random.seed(42)

NUM_EPOCH уменьшим с 20 на 10.

Напомню, что инициализация весов значениями, взятыми из предобученной модели обычно ускоряет сходимость.

Модель word2vec можно скачать здесь: https://github.com/mmihaltz/word2vec-GoogleNews-vectors

In [None]:
INPUT_FILE = "../data/umich-sentiment-train.txt"
WORD2VEC_MODEL = "../data/GoogleNews-vectors-negative300.bin.gz"
VOCAB_SIZE = 5000
EMBED_SIZE = 300
NUM_FILTERS = 256
NUM_WORDS = 3
BATCH_SIZE = 64
NUM_EPOCHS = 10

Так же как и ранее, из набора данных извлекаются слова и создается словарь частых термов, после чего набор данных разбирается для создания списков дополгненных слов. Метки преобразуются в категориальный формат. Данные разбиваются на тренировочную и тестовую выборки:

In [None]:
counter = collections.Counter()
fin = open(INPUT_FILE, "rb")
maxlen = 0
for line in fin:
    _, sent = line.strip().split("\t")
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    if len(words) > maxlen:
        maxlen = len(words)
    for word in words:
        counter[word] += 1
fin.close()

word2index = collections.defaultdict(int)
for wid, word in enumerate(counter.most_common(VOCAB_SIZE)):
    word2index[word[0]] = wid + 1
vocab_sz = len(word2index) + 1
index2word = {v:k for k, v in word2index.items()}
    
xs, ys = [], []
fin = open(INPUT_FILE, "r", encoding='utf-8')
for line in fin:
    label, sent = line.strip().split("\t")
    ys.append(int(label))
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    wids = [word2index[word] for word in words]
    xs.append(wids)
fin.close()
X = pad_sequences(xs, maxlen=maxlen)
Y = np_utils.to_categorical(ys)

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size=0.3, 
                                                random_state=42)
print(Xtrain.shape, Xtest.shape, Ytrain.shape, Ytest.shape)

Загрузим модель word2vec, предобученную на 10 миллиардах слов из новостей Google News со словарем на 3 миллиона слов. После загрузки ищем в модели векторы погружений для слов из словаря и записываем вектор погружений в нашу матрицу весов embedding_weights.

Строки этой матрицы соответствуют словам из словаря, а столбцы - вектору погружений слова.

Матрица embedding_weights имеет размер vocab_sz x EMBED_SIZE. Величина vocab_sz на единицу больше числа уникальных термов в словаре, дополнительная фиктивная лексема \_UNK\_ представляет собой отсутствующие в словаре слова.

Вполне возможно, что в нашем словаре есть слова, отсутствующие в модели word2vec на базе GoogleNews. Для таких слов вектор погружений принимает значение по умолчанию - все нули.


In [None]:
# load word2vec model
word2vec = KeyedVectors.load_word2vec_format(WORD2VEC_MODEL, binary=True)
embedding_weights = np.zeros((vocab_sz, EMBED_SIZE))
for word, index in word2index.items():
    try:
        embedding_weights[index, :] = word2vec[word]
    except KeyError:
        pass

Отличие от предыдущего примера при определении сети заключается в том, что веса слоя погружения хранящиеся в матрице embedding_weights, инициализированы в предшествующей части программы:

In [None]:
model = Sequential()
model.add(Embedding(vocab_sz, EMBED_SIZE, input_length=maxlen,
                    weights=[embedding_weights],
                    trainable=True))
model.add(SpatialDropout1D(Dropout(0.2)))
model.add(Conv1D(filters=NUM_FILTERS, kernel_size=NUM_WORDS,
                 activation="relu"))
model.add(GlobalMaxPooling1D())
model.add(Dense(2, activation="softmax"))

Компилируем модель, применяя категориальную перекрестную энтропию в качестве функции потерь и оптимизатор Adam, и обучим сеть при размере пакета 64 на протяжении 10 эпох.


In [None]:
model.compile(optimizer="adam", loss="categorical_crossentropy",
              metrics=["accuracy"])
history = model.fit(Xtrain, Ytrain, batch_size=BATCH_SIZE,
                    epochs=NUM_EPOCHS,
                    validation_data=(Xtest, Ytest))  

Оценим модель:

In [None]:
# plot loss function
plt.subplot(211)
plt.title("accuracy")
plt.plot(history.history["acc"], color="r", label="train")
plt.plot(history.history["val_acc"], color="b", label="validation")
plt.legend(loc="best")

plt.subplot(212)
plt.title("loss")
plt.plot(history.history["loss"], color="r", label="train")
plt.plot(history.history["val_loss"], color="b", label="validation")
plt.legend(loc="best")

plt.tight_layout()
plt.show()

# evaluate model
score = model.evaluate(Xtest, Ytest, verbose=1)
print("Test score: {:.3f}, accuracy: {:.3f}".format(score[0], score[1]))

После 10 периодов обучения модель показывает верность на тестовом наборе. Это лучше чем предыдущий пример, где достигнута верность 98.6 после 20 периодов.

### Настройка погружений на базе предобученной модели GloVe

Погружения на базе GloVe настраиваются примерно так же, как в случае модели word2vec. Отличается только код построения матрицы весов для слоя погружения. ЕГо мы и рассмотрим.

Есть несколько видов предобученных моделей GloVe. Мы будем работать с той, что обучена на 6 миллиардах лексем и на корпусе текстов объемом порядка миллиарда слов из англоязычной википедии. Размер словаря модели составляет примерно 400 000 слов, имеются загружаемые файлы для размерности погружения 50, 100, 200 и 300. Возьмем файл размерности 300.

Единственное, что нужно изменить в коде предыдущего примера - часть, где создается модель word2vec и инициализируется её матрица весов. А если бы мы взяли модель с размерностью отличной от 300, то нужно было бы еще изменить константу EMBED_SIZE.

Векторы записаны в файле в текстовом формате через пробел, поэтому наша первая задача - прочитать их в словарь word2emb. Это делается аналогично разбору строки файла данных для модели word2vec

In [None]:
GLOVE_MODEL = "../data/glove.6B.300d.txt"
# load GloVe vectors
word2emb = {}
fglove = open(GLOVE_MODEL, "rb")
for line in fglove:
    cols = line.strip().split()
    word = cols[0]
    embedding = np.array(cols[1:], dtype="float32")
    word2emb[word] = embedding
fglove.close()    


После чего создается матрица весов погружения размера vocab_sz x EMBED_SIZE и заполняем её векторами из словаря word2emb. Векторы, которые соответствуют словам, имеющимся в словаре, но отсутствующим в модели GloVe, остаются нулевыми:

In [None]:
embedding_weights = np.zeros((vocab_sz, EMBED_SIZE))
for word, index in word2index.items():
    try:
        embedding_weights[index, :] = word2emb[word]
    except KeyError:
        pass

Полный код примера: https://github.com/PacktPublishing/Deep-Learning-with-Keras/blob/master/Chapter05/finetune_glove_embeddings.py

Результат должен быть около 99.1%, что почти не уступает результатам, полученным после настройки весов модели word2vec.

### Поиск погружений

Последняя стратегия - поиск погружений в предобученной сети. Для этого проще всего задать в наших примерах параметр trainable слоя погружения равным False.

Тогда при обратном распространении ошибки не будут обновляться веса этого слоя:

In [None]:
model.add(Embedding(vocab_sz, EMBED_SIZE, input_length = maxlen,
                   weights = [embedding_weight], trainable=False))
model.add(SpatialDropout1D(Dropout(0.2)))


Поступив так в примерах для моделей word2vec и GloVe мы получим соответственно верность 98.7% и 98.9% после 10 периодов обучения.

Однако, в общем случае предобученные погружения используются не так. Обычно производится предварительная обработка набора данных, цель которой - построить векторные представления слов путем поиска в какой-то предобученной модели, а затем воспользоваться этими данными для обучения другой модели. Вторая модель не будет содержать слоя погружения и вообще может не быть сетью глубокого обучения.

В примере ниже описана плотная сеть, принимающая на входе вектор размера 100, представляющий предложение, и выводит 1, если предложение имеет положительную эмоциональную окраску, и 0 - если отрицательную.

Мы по-прежнему используем набор данных UMICH S1650, содержащий примерно 7000 предложений.

Как и прежде, большие куски кода повторяется, поэтому заострим внимание только на новых частях. 

Для создания 100-мерных векторов для каждого предложения потребуется модель GloVe размерности 100, которая хранится в файле glove.6B.100d.txt:


In [None]:
from keras.layers.core import Dense, Dropout
from keras.models import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.utils import np_utils
from sklearn.model_selection import train_test_split
import collections
import matplotlib.pyplot as plt
import nltk
import numpy as np

np.random.seed(42)

INPUT_FILE = "../data/umich-sentiment-train.txt"
GLOVE_MODEL = "../data/glove.6B.100d.txt"
VOCAB_SIZE = 5000
EMBED_SIZE = 100
BATCH_SIZE = 64
NUM_EPOCHS = 10


Далее считываются предложения и создается таблица частот слов. Из этой таблицы отбирается 5000 самых частых лексем и строятся таблицы соответствия (отображающие слова на индексы и наоборот). Для лексем, отсутствующих в словаре, в таблице создается фиктивная лексема \_UNK\_. Пользуясь этими таблицами, мы преобразуем каждое предложение в последовательность идентификаторов слов, дополняя все предложения до одинаковой длины (равной числу слов в самом длинном предложении). Кроме того, метки преобразуются в категориальный формат:

In [None]:
print("reading data...")
counter = collections.Counter()
fin = open(INPUT_FILE, "rb")
maxlen = 0
for line in fin:
    _, sent = line.strip().split("\t")
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    if len(words) > maxlen:
        maxlen = len(words)
    for word in words:
        counter[word] += 1
fin.close()

print("creating vocabulary...")
word2index = collections.defaultdict(int)
for wid, word in enumerate(counter.most_common(VOCAB_SIZE)):
    word2index[word[0]] = wid + 1
vocab_sz = len(word2index) + 1
index2word = {v:k for k, v in word2index.items()}
index2word[0] = "_UNK_"

print("creating word sequences...")
ws, ys = [], []
fin = open(INPUT_FILE, "rb")
for line in fin:
    label, sent = line.strip().split("\t")
    ys.append(int(label))
    words = [x.lower() for x in nltk.word_tokenize(sent)]
    wids = [word2index[word] for word in words]
    ws.append(wids)
fin.close()
W = pad_sequences(ws, maxlen=maxlen)
Y = np_utils.to_categorical(ys)

Векторы GloVe загружаются в словарь. Если бы мы хотели использовать модель word2vec, но нужно было бы лишь заменить этот блок вызовом функции Word2Vec.load_word2vec_format() из библиотеки gensim, а следующий - поиском в модели word2vec, а не в словаре word2emb:

In [None]:
# load GloVe vectors
print("loading GloVe vectors...")
word2emb = collections.defaultdict(int)
fglove = open(GLOVE_MODEL, "rb")
for line in fglove:
    cols = line.strip().split()
    word = cols[0]
    embedding = np.array(cols[1:], dtype="float32")
    word2emb[word] = embedding
fglove.close()    

В следующем фрагменте мы ищем слова каждого предложения в матрице идентификаторов слов W и записываем в матрицу E соответствующий вектор погружения. Сумма этих векторов образует вектор предложения, который записывается в матрицу X. На выходе получается матрица X размера num_records x EMBED_SIZE:

In [None]:
print("transferring embeddings...")
X = np.zeros((W.shape[0], EMBED_SIZE))
for i in range(W.shape[0]):
    E = np.zeros((EMBED_SIZE, maxlen))
    words = [index2word[wid] for wid in W[i].tolist()]
    for j in range(maxlen):
        E[:, j] = word2emb[words[j]]
    X[i, :] = np.sum(E, axis=1)

Итак, мы завершили предварительную обработку данных с использованием предобработанной модели и готовы применить их для обучения и оценки окончательной модели. Как обычно, разобьем данные на обучающий и тестовый набор в пропорции 70:30:

In [None]:
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size=0.3, 
                                                random_state=42)
print(Xtrain.shape, Xtest.shape, Ytrain.shape, Ytest.shape)

Для анализа эмоциональной окраски мы обучим простую плотную сеть. При компиляции задаем категориальную перекрестную энтропию в качестве функции потерь и оптимизатор Adam и обучаем сеть на векторах предложений, построенных на основе предобученных погружений. И наконец, оцениваем модели на тестовом наборе:

In [None]:
model = Sequential()
model.add(Dense(32, input_dim=EMBED_SIZE, activation="relu"))
model.add(Dropout(0.2))
model.add(Dense(2, activation="softmax"))

model.compile(optimizer="adam", loss="categorical_crossentropy",
              metrics=["accuracy"])
history = model.fit(Xtrain, Ytrain, batch_size=BATCH_SIZE,
                    epochs=NUM_EPOCHS,
                    validation_data=(Xtest, Ytest))
# evaluate model
score = model.evaluate(Xtest, Ytest, verbose=1)
print("Test score: {:.3f}, accuracy: {:.3f}".format(score[0], score[1]))

Плотная сеть с предварительной обработкой на 100-мерной модели GloVe дает верность 96.5% на тестовом наборе после обучения на протяжении 10 периодов. Сеть с предварительно обработкой на 300-мерной модели word2vec дает верность 98.5%.

Код примера:
GloVe: https://github.com/PacktPublishing/Deep-Learning-with-Keras/blob/master/Chapter05/transfer_glove_embeddings.py
word2vec: https://github.com/PacktPublishing/Deep-Learning-with-Keras/blob/master/Chapter05/transfer_word2vec_embeddings.py



## Дистрибутивные семантические модели для русского языка

Основная сылка: http://rusvectores.org/ru/


Распространенная проблема с word2vec - учет контекста и синонимы.

Пример: москвич
Заранее нельзя сказать о чем идет речь: 
* о человеке
* о машине

Есть последние достижения: параметрические модели word2vec, в которых удается передать скрытую контекстную переменную.

Часто семантические взаимоотношения превращаются в геометрические представления в пространстве. 
Впрочем, это уже ставший классикой пример.

king - man + woman = queen

Для русского языка работает несколько хуже.

Вкратце рассмотрим Word2Vec в gensim. С загрузкой вы уже знакомы:

In [55]:
from gensim.models import KeyedVectors, Word2Vec

word2vecRussian = KeyedVectors.load_word2vec_format('C:\\Users\\oleg-\\NLP\\word2vec\\ruwikiruscorpora_0_300_20.bin', binary=True)


2017-11-12 21:19:08,127 : INFO : loading projection weights from C:\Users\oleg-\Downloads\ruwikiruscorpora_0_300_20.bin
2017-11-12 21:19:33,897 : INFO : loaded (392339, 300) matrix from C:\Users\oleg-\Downloads\ruwikiruscorpora_0_300_20.bin


Поищем какое-нибудь слово:

In [58]:
word2vecRussian['компьютер']

KeyError: "word 'компьютер' not in vocabulary"

Что произошло?

Если внимательно посмотреть документацию, то можно увидеть, что модель требует после целевого слова указать искомую часть речи. Нас интересует существительное, вместо "компьютер" укажем "компьютер_NOUN":

In [57]:
word2vecRussian['компьютер_NOUN']

array([ -8.76659453e-02,  -3.63004208e-02,  -3.83421779e-02,
        -4.05625552e-02,  -3.38673368e-02,   8.93075205e-03,
        -1.31633142e-02,  -2.36338042e-02,   1.23950057e-02,
         7.67279277e-03,  -2.74398439e-02,  -5.22567779e-02,
        -1.26082405e-01,   2.46131569e-02,  -1.04117412e-02,
         1.79650411e-02,  -7.55211152e-03,   7.14355260e-02,
         7.54484981e-02,   6.07234165e-02,   3.95526998e-02,
         7.51635358e-02,  -2.23440770e-02,   1.23516209e-01,
         1.86109394e-02,  -1.40802832e-02,   3.46467569e-02,
        -7.39386901e-02,  -1.37802223e-02,  -5.08520827e-02,
        -1.38779858e-03,  -8.76183659e-02,   1.40914572e-02,
         5.05875126e-02,   5.94712533e-02,  -3.09250336e-02,
        -1.06489755e-01,  -3.17733325e-02,  -6.39012530e-02,
        -3.81429940e-02,  -7.66539797e-02,  -9.77800786e-02,
         6.00974597e-02,  -8.29136930e-03,  -3.61858197e-02,
        -3.57093923e-02,  -1.06944581e-02,   7.26544559e-02,
         4.11435738e-02,

Можем также поиграть с арифметическими операциями в Word2Vec:

In [61]:
word2vecRussian.most_similar(positive=['женщина_NOUN', 'король_NOUN'], negative=['мужчина_NOUN'])

[('королева_NOUN', 0.6030852198600769),
 ('монарх_NOUN', 0.5828707218170166),
 ('герцог_NOUN', 0.5751590132713318),
 ('принц_NOUN', 0.5383496284484863),
 ('правитель_NOUN', 0.5379163026809692),
 ('император_NOUN', 0.5316616892814636),
 ('карла_NOUN', 0.49433764815330505),
 ('царь_NOUN', 0.4933621883392334),
 ('принцесса_NOUN', 0.4891030788421631),
 ('франциск_NOUN', 0.4857705235481262)]

И поискать похожие слова:

In [63]:
word2vecRussian.most_similar('комендантский_ADJ')

[('караульная_NOUN', 0.534368634223938),
 ('дежурный_NOUN', 0.4848320186138153),
 ('комендатура_NOUN', 0.4704165458679199),
 ('внос_NOUN', 0.46642398834228516),
 ('караульный_ADJ', 0.45555976033210754),
 ('комендант_NOUN', 0.45342618227005005),
 ('патрульный::постовой_ADJ', 0.4422055780887604),
 ('гарнизонный_ADJ', 0.4412631094455719),
 ('оцепление_NOUN', 0.4387802481651306),
 ('оцеплять_VERB', 0.43705591559410095)]

In [64]:
word2vecRussian.most_similar('час_NOUN')

[('полчаса_NOUN', 0.7180338501930237),
 ('сутки_NOUN', 0.7151405811309814),
 ('полдень_NOUN', 0.7013369202613831),
 ('полночь_NOUN', 0.6989853978157043),
 ('минута_NOUN', 0.6938785314559937),
 ('утро_NOUN', 0.6843180060386658),
 ('день_NOUN', 0.6639924645423889),
 ('часы_NOUN', 0.6618623733520508),
 ('неделя_NOUN', 0.6467037796974182),
 ('вечер_NOUN', 0.6267627477645874)]

In [66]:
word2vecRussian.most_similar('москвич_NOUN')

[('петербуржец_NOUN', 0.6915465593338013),
 ('ленинградец_NOUN', 0.5795994997024536),
 ('жигули_NOUN', 0.5448557734489441),
 ('питерец_NOUN', 0.5435524582862854),
 ('иномарка_NOUN', 0.5432823896408081),
 ('подмосковье_NOUN', 0.5405049324035645),
 ('москвичка_NOUN', 0.5247716307640076),
 ('азлк_NOUN', 0.5222724676132202),
 ('ростовчанин_NOUN', 0.5106713175773621),
 ('питерский_ADJ', 0.5061334371566772)]

In [78]:
word2vecRussian.most_similar('волга_NOUN')

[('волжский_ADJ', 0.7309808135032654),
 ('ахтуба_NOUN', 0.6338326930999756),
 ('астрахань_NOUN', 0.601054847240448),
 ('кама_NOUN', 0.5870123505592346),
 ('воложка_NOUN', 0.5867355465888977),
 ('заволжье_NOUN', 0.5773836374282837),
 ('переволока_NOUN', 0.5755721926689148),
 ('селижаровка_NOUN', 0.5703670382499695),
 ('свияга_NOUN', 0.5689444541931152),
 ('москва-река_NOUN', 0.5621594786643982)]

Список методов: https://radimrehurek.com/gensim/models/word2vec.html

## FastText

Последнее достижение в погружениях слов - это библиотека FastText: https://fasttext.cc/

К ней доступны предобученные модели для **294 языков!** (Модели обучены на корпусе википедии).

Использование моделей FastText:
https://blog.manash.me/how-to-use-pre-trained-word-vectors-from-facebooks-fasttext-a71e6d55f27

Предобученные модели: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md

## Ключевое различие между FastText и Word2Vec состоит в использовании n-грамм

Word2Vec обучает векторы только на базе целых слов, найденных в тренировочном корпусе. 

FastText, с одной стороны, изучают векторы для n-грамм, которые он находит внутри каждого слова, а также для каждого целого слова. На каждом шаге обучения в FastText испоьзуется среднее целевого вектора слова и векторов его компонент (n-грамм). Затем проводится коррекция ошибки для обновления каждого вектора, который комбинировался с целеым вектором. Это привносит много дополнительных вычислений на фазе обучения. В каждой точке, необходимо суммировать и усреднять слова с их n-граммной компонентой.

Компромиссом может выступать множество word-vectors, которые хранят встроенную информацию о подсловах (contain embedded sub-word information). Показано, что эти векторы имеют большую точность (с точки зрения различных метрик), чем векторы Word2Vec.



Итак, word2vec обрабатывает каждое слово в корпусе как атомическую сущность и генерирует вектор для каждого слова. В этом смысле Word2Vec очень похож на GloVe - оба этих векторных представления обрабатывают слова как наименьшую единицу, на которой они обучаются.

**FastText** (который прежде всего является расширением модели word2vec) обрабатывает каждое слово как композицию его символьных n-грамм. Поэтому вектор для слова порождается как сумма его символьных n-грамм. 

Например, вектор слова *apple* - сумма векторов n-грамм:
\_app, app, appl, apple, apple\_, ppl, pple, ple, ple\_, le\_


(Предполагаем, что гиперпараметр для наименьшей n-граммы равен трем, и максимальный равен 6). 
Это различие проявляется следующим образом:
1. Лучшее порождение погружений  для редких слов (даже если слова достаточно редкие, их символьные n-граммы остаются общими с остальными словами - поэтому погружения слов остаются в пределах нормы).
    * Это происходит потому, что в word2vec редкое слово (встречающееся, например, 10 раз) имеет меньшее число соседей, по сравнению со словом, которое встречается 100 раз - последний имеет больше соседей - контекстных слов, и поэтому используется чаще, что приводит к лучшим векторам слов. 
* Слова не из словаря - для них может быть сконструировано погружение слова на базе его символьных n-грамм, даже если слово вообще не появлялось в тренировочном корпусе! Ни Word2Vec, ни GloVe не могут обрабатывать слова, не появлявшиеся в тренировочном корпусе.
* С точки зрения практики, выбор гиперпараметров, для генерации погружений слов FastText становится ключевым
    * поскольку обучение производится на уровне символьных n-грамм, что занимает больше времени для генерации погружений, по сравнению с word2vec. Поэтому выбор гиперпараметров, контролирующих  минимальный и максимальный размер n-грамм имеет прямое отношение к этому времени.
    * По мере роста объема корпуса, требования к оперативной памяти значительно возрастают -  число хэшируемых n-грамм будет постоянно расти. Поэтому, выбор гиперпараметра, контролирующего общее число hash buckets включая минимальный и максимальный размеры n-грамм будет напрямую влиять на это. Например, даже 256 Гб RAM будет недостаточно(!) для создания векторов лов для корпуса с ~50 миллионами уникальных слов с минимальным размером n-грамм 3, максимальным размером n-грамм 3 и минимальной встречаемостью слова 7. Минимальная встречаемость слова должна быть поднята до 15 для генерации векторов слов.
* Использование символьных погружений (независимых символов, а не n-грамм) для различных задач показало рост производительности для этих задач по сравнению с использованием погружений слов, таких как word2vec или Glove.
    * Хотя документы, сообщающие об этих улучшениях, как правило, используют символьные LSTM для генерации вложений, они не ссылаются на использование вложений FastText.
    * Возможно, стоит рассмотреть погружения FastText для этих задач, поскольку генерация погружений FastText (несмотря на то, что она медленнее, чем word2vec), скорее всего, будет быстрее, по сравнению с LSTM (это просто догадка, нуждающаяся в проверке). 

Difference between word2vec and FastText:
https://www.quora.com/What-is-the-main-difference-between-word2vec-and-fastText

How does word2vec works?
https://www.quora.com/How-does-word2vec-work-Can-someone-walk-through-a-specific-example/answer/Ajit-Rajasekharan

Использование FastText как отдельного приложения:
https://www.analyticsvidhya.com/blog/2017/07/word-representations-text-classification-using-fasttext-nlp-facebook/