## Введение в глубокое обучение
### Занятие 6. Автоэнкодеры и векторные представления слов.

##### Автор: [Радослав Нейчев](https://www.linkedin.com/in/radoslav-neychev/), @neychev
##### Credits: embeddings visualization is based on the notebook by [YSDA NLP course](https://github.com/yandexdataschool/nlp_course)

#### План занятия:
0. Повторение основных моментов при работе с текстами
1. Автоэнкодеры, снижение размерности и построение информативных представлений данных
2. Построение информативных представлений слов. Обзор word2vec
3. Работа с предобученными векторными представлениями слов

### 0. Повторение основных моментов при работе с текстами
Вспомним основные отличия текста от табличных данных:
1. Текст представляет собой последовательность токенов из конечного алфавита, т.е. все элементы последовательности принимают дискретные значения.
2. Текст может быть _переменной длины_

__Токен__ – минимальный и неделимый элемент текстовой последовательности. В зависимости от выбора эксперта, в качестве токенов могут выступать как символы, так и морфемы, слова или даже группы слов.

### 1. Автоэнкодеры, снижение размерности и построение информативных представлений данных
__Go to slides__

### 2. Построение информативных векторных представлений слов. Обзор word2vec.
Человек воспринимает слова знакомого языка как отдельные смысловые единицы. Затем из них складывается смысл всего предложения или текста. Машина, в отличие от человека, не имеет представления о смысле слов, она не владеет языком. Для машины слова являются лишь последовательностю некоторых символов. Чтобы использовать всю доступную информацию при работе с текстом необходимы информативные представления слов. Уже рассмотренное one-hot кодирование имеет несколько минусов.

##### __One-hot кодирование__.
Каждому токену в словаре был сопоставлен уникальный индекс. Тогда токену можно поставить в соответствие вектор размера словаря, где единственное ненулевое значение стоит на соответствующей токену позиции. Например, слово "самолет" сопоставлено индексу 0, а размерность словаря 5. Данному токену соответствует вектор `[1, 0, 0, 0, 0]`.
Слово "обед" сопоставлено индексу 4, поэтому ему соответствует вектор `[0, 0, 0, 0, 1]`.

Получается, что векторные представления всех слов ортогональны друг-другу, и слово "кот" удалено от слова "самолет" так же, как и от слова "кошка". Для владеющего языком человека разница между словами очевидна, как и то, что "кошка" и "кот" гораздо ближе друг к другу по смыслу, чем "кошка" и "самолет". При построении информативного векторного представления также хотелось бы установить смысловую близость слов. Учесть связи между словами и их смысл нам поможет word2vec.

#### __Построение эмбеддингов с помощью word2vec__.

__Go to slides__


С этим может помочь простая мысль (озвученная в различных формах множество раз): __слово в значительной мере определяется контекстом, в котором оно встречается__. На основании чего можно сделать простой вывод: для некоторых слов более характерен один контекст, а для других – другой. Именно на этой идее и построен word2vec (как и многие другие эмбеддинги).

По слову можно научиться предсказывать контекст, в котором оно встречается. Конечно, результат не будет идеально точным. Но если модель делает предсказания лучше, чем случайным образом, значит, она улавливает какую-то связь. И тогда внутреннее представление модели для каждого слова и может использоваться в качестве искомого векторного представления, причем и в других задачах.


Формулировка гипотезы выше (слово значительно связано с контекстом) позволяет использовать в качестве обучающей выборки все множество текстов для выбранного языка. Собрание сочинений классиков, статьи в энциклопедии, новостные заметки – все это становится обучающей выборкой. И векторные представления, полученные на основе данных текстов позволяют улавливать связь между этими словами.

In [None]:
! pip install --upgrade nltk gensim bokeh umap-learn

Collecting umap-learn
  Downloading umap-learn-0.5.5.tar.gz (90 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m90.9/90.9 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pynndescent>=0.5 (from umap-learn)
  Downloading pynndescent-0.5.11-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.8/55.8 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: umap-learn
  Building wheel for umap-learn (setup.py) ... [?25l[?25hdone
  Created wheel for umap-learn: filename=umap_learn-0.5.5-py3-none-any.whl size=86832 sha256=4fdc60718df0ba213343b73486eace202f227c38c8a09158a63e790b14df029d
  Stored in directory: /root/.cache/pip/wheels/3a/70/07/428d2b58660a1a3b431db59b806a10da736612ebbc66c1bcc5
Successfully built umap-learn
Installing collected packages: pynndescent, umap-learn
Successfully installed pynndescent-0.5.11 umap-learn-0.5.5


In [None]:
import itertools
import string

import numpy as np
import umap
from nltk.tokenize import WordPunctTokenizer

from matplotlib import pyplot as plt

from IPython.display import clear_output

In [None]:
# download the data:
!wget https://www.dropbox.com/s/obaitrix9jyu84r/quora.txt?dl=1 -O ./quora.txt -nc
# alternative download link: https://yadi.sk/i/BPQrUu1NaTduEw

--2024-03-02 08:18:02--  https://www.dropbox.com/s/obaitrix9jyu84r/quora.txt?dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.3.18, 2620:100:6018:18::a27d:312
Connecting to www.dropbox.com (www.dropbox.com)|162.125.3.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /s/dl/obaitrix9jyu84r/quora.txt [following]
--2024-03-02 08:18:02--  https://www.dropbox.com/s/dl/obaitrix9jyu84r/quora.txt
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uc69e45f8a3a14b4ed85688cae39.dl.dropboxusercontent.com/cd/0/get/COTMkUbJlyVi2v9vIYyyCZIbofD2X-ALv1d7McElx67B5MBws31sUYkuOIciIxp2tr4LQSbVq_qfXWIfC8i9ZA9okD2TSAQgCukwJQShPP5iuipmkxpmgmeMeg-FdSzgFvQ/file?dl=1# [following]
--2024-03-02 08:18:03--  https://uc69e45f8a3a14b4ed85688cae39.dl.dropboxusercontent.com/cd/0/get/COTMkUbJlyVi2v9vIYyyCZIbofD2X-ALv1d7McElx67B5MBws31sUYkuOIciIxp2tr4LQSbVq_qfXWIfC8i9ZA9okD2TSAQgCukwJQShPP5iuipmkxpmgmeMeg-FdSzgFv

In [None]:
data = list(open("./quora.txt", encoding="utf-8"))
data[55]

'What are all the pros and cons of having dual citizenship?\n'

Произведем токенизацию и базовую предобработку:

In [None]:
tokenizer = WordPunctTokenizer()
print(tokenizer.tokenize(data[50]))
data_tok = [tokenizer.tokenize(x.lower()) for x in data]

['What', 'TV', 'shows', 'or', 'books', 'help', 'you', 'read', 'people', "'", 's', 'body', 'language', '?']


In [None]:
len(data)

537272

Для начала, обучим word2vec на доступном наборе данных. Строить для этого модель вручную не понадобится, она уже доступна в `gensim`.

In [None]:
from gensim.models import Word2Vec
model = Word2Vec(data_tok,
                 vector_size=32,      # embedding vector size
                 min_count=5,  # consider words that occured at least 5 times
                 window=5).wv  # define context as a 5-word window around the target word

Теперь нам доступны векторы для любого слова из словаря:

In [None]:
# now you can get word vectors !
model.get_vector('cat')

array([-0.6384595 , -1.1616225 ,  1.2313672 , -0.01923125, -0.548444  ,
        2.2387707 , -0.5915064 , -2.0477881 , -2.6730356 ,  3.4873173 ,
        0.22406341, -2.6360426 ,  0.46007216,  0.47573218,  2.0991707 ,
        0.9517342 , -4.611137  , -1.643255  , -2.3651469 , -1.6369542 ,
        1.6541451 ,  0.46089178, -2.4871314 ,  0.2193542 , -0.9044281 ,
       -0.7792455 , -1.2857971 , -1.6025662 , -2.5668876 , -0.08089266,
        1.8924326 , -1.3663305 ], dtype=float32)

Так как слова представлены векторами, теперь можно вычислить расстояние (или некоторую меру схожести) между ними. Например, можно оценить, какие слова наиболее близки к заданному.

In [None]:
# or query similar words directly. Go play with it!
model.most_similar('pet')

[('parent', 0.7496032118797302),
 ('dog', 0.7442731857299805),
 ('tie', 0.7392775416374207),
 ('cake', 0.7307716012001038),
 ('tattoo', 0.7202884554862976),
 ('prostitute', 0.7180352807044983),
 ('teenager', 0.7137786746025085),
 ('pants', 0.712575376033783),
 ('mate', 0.7051557302474976),
 ('underwear', 0.700265645980835)]

#### Использование предобученных векторных представлений
Для получения качественных эмбеддингов стоит использовать большие наборы данных. Также бывает полезным использовать данные из определенной предметной области. Конечно, обучение занимает значительное время, поэтому зачастую используются предобученные эмбеддинги для слов.

Загрузим предобученные эмбеддинги небольшой размерности (25). Они были обученны на данных из Twitter.

In [None]:
import gensim.downloader as api
model = api.load('glove-twitter-25')



In [None]:
model.most_similar(positive=["pet"])#, negative=["code"])

[('cat', 0.9108031988143921),
 ('dog', 0.8971226811408997),
 ('monkey', 0.8842805027961731),
 ('fish', 0.8788566589355469),
 ('virgin', 0.8759288191795349),
 ('bubble', 0.8674476146697998),
 ('soap', 0.8672845363616943),
 ('pig', 0.858788788318634),
 ('food', 0.8562485575675964),
 ('tea', 0.8543825149536133)]

#### Визуализация векторных представлений слов

В данный момент каждое слово представлено вектором размерности 25. Для визуализации слов нам понадобится техника снижения размерности. Для простоты можно воспользоваться методом главных компонент, PCA, который также может рассматриваться как линейный автоэнкодер:

$$\|(X W) \hat{W} - X\|^2_2 \to_{W, \hat{W}} \min,$$
где $W$ и $\hat{W}$ – обучаемые параметры.

In [None]:
model.sort_by_descending_frequency()



In [None]:
words = list(model.key_to_index.keys())[:1000]

print(words[::100])

word_vectors = np.asarray([model[x] for x in words])

['<user>', '_', 'please', 'apa', 'justin', 'text', 'hari', 'playing', 'once', 'sei']


In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
pca = PCA(2)
scaler = StandardScaler()

word_vectors_pca = pca.fit_transform(word_vectors)
word_vectors_pca = scaler.fit_transform(word_vectors_pca)

Для визуализации обратимся к замечательной библиотеке `bokeh`. Графики являются интерактивными.

In [None]:
import bokeh.models as bm, bokeh.plotting as pl
from bokeh.io import output_notebook
output_notebook()

def draw_vectors(x, y, radius=10, alpha=0.25, color='blue',
                 width=600, height=400, show=True, **kwargs):
    """ draws an interactive plot for data points with auxilirary info on hover """
    if isinstance(color, str): color = [color] * len(x)
    data_source = bm.ColumnDataSource({ 'x' : x, 'y' : y, 'color': color, **kwargs })

    fig = pl.figure(active_scroll='wheel_zoom', width=width, height=height)
    fig.scatter('x', 'y', size=radius, color='color', alpha=alpha, source=data_source)

    fig.add_tools(bm.HoverTool(tooltips=[(key, "@" + key) for key in kwargs.keys()]))
    if show: pl.show(fig)
    return fig

In [None]:
draw_vectors(word_vectors_pca[:, 0], word_vectors_pca[:, 1], token=words)

#### Снижение размерности с помощью UMAP
Метод главных компонент – замечательная техника, но он позволяет улавливать лишь линейные зависимости в данных. Обратимся к технике [UMAP](https://habr.com/ru/company/newprolab/blog/350584/), которая учитывает соседей заданных точек. По ссылке выше можно прочитать развернутое описание данной техники.

In [None]:
embedding = umap.UMAP(n_neighbors=5).fit_transform(word_vectors)

In [None]:
draw_vectors(embedding[:, 0], embedding[:, 1], token=words)

Как можно видеть, слова образуют группы, различимые невооруженным глазом. График интерактивный, при наведении курсора на точку указывается, какому слову она соответствует.

#### Визуализация фраз

В завершение построим векторные представления не только слов, но и целых фраз. Для простоты воспользуемся подходом, аналогичным мешку слов (BoW): мешком эмбеддингов. Каждую фразу представим в виде усредненного эмбеддинга всех входящих в нее слов.

In [None]:
def get_phrase_embedding(phrase):
    """
    Convert phrase to a vector by aggregating it's word embeddings.
    """
    vector = np.zeros([model.vector_size], dtype='float32')
    phrase_tokenized = tokenizer.tokenize(phrase.lower())
    phrase_vectors = [model[x] for x in phrase_tokenized if model.has_index_for(x)]

    if len(phrase_vectors) != 0:
        vector = np.mean(phrase_vectors, axis=0)
    return vector

In [None]:
data[402687]

'What gift should I give to my girlfriend on her birthday?\n'

In [None]:
get_phrase_embedding(data[402687])

array([-0.18204999,  0.30953574,  0.20861094,  0.07982156, -0.22565515,
       -0.33001748,  1.2495784 ,  0.13134292, -0.33788875,  0.06196944,
       -0.231793  ,  0.09389219, -4.9685497 , -0.23611419, -0.32609668,
       -0.092073  ,  0.4407505 , -0.75413746, -0.5389092 , -0.184752  ,
        0.07867809,  0.20018655, -0.16202375,  0.30375698, -0.41255665],
      dtype=float32)

In [None]:
vector = get_phrase_embedding("Another phrase")

In [None]:
vector

array([ 0.37383002,  0.06360999, -0.5646726 ,  0.519285  ,  0.2510745 ,
       -0.221878  ,  1.4463999 , -0.43755502, -0.1671382 , -0.47166997,
       -0.27363   ,  0.31478047, -3.6957998 ,  0.173948  ,  0.28094   ,
        0.775245  ,  0.7375    ,  0.16127   , -0.857635  ,  0.05650002,
        0.114665  ,  0.041415  ,  0.15964499, -0.50083   , -0.475675  ],
      dtype=float32)

Визуализируем лишь небольшое подмножество фраз:

In [None]:
chosen_phrases = data[::len(data) // 1000]

# compute vectors for chosen phrases and turn them to numpy array
phrase_vectors = np.asarray([get_phrase_embedding(x) for x in chosen_phrases])
phrase_vectors_2d = umap.UMAP(n_neighbors=3).fit_transform(phrase_vectors)

In [None]:
draw_vectors(phrase_vectors_2d[:, 0], phrase_vectors_2d[:, 1],
             phrase=[phrase[:50] for phrase in chosen_phrases],
             radius=20,)

Дополнительно, вы можете попробовать сделать следующее:
* Воспользоваться t-SNE вместо UMAP (требует гораздо больше времени на больших выборках)
* Визуализировать весь набор данных, а не только его часть
* Воспользоваться другими эмбеддингами из `gensim` "model zoo": `gensim.downloader.info()`
* Рассмотреть принципы работы [FastText](https://github.com/facebookresearch/fastText), которые несколько отличаются от word2vec

#### Выводы:
* Использование векторных представлений слов, обученных на значительных объемах текстовых данных, позволяет переносить эти знания в другие задачи.
* При построении некоторого решения для работы с текстами полезно использовать предобученные эмбеддинги. Конечно, их можно и дообучить под задачу.
* Построение эмбеддингов возможно не только для слов, но и для других объектов (текстов, изображений, графов и др.).