<a href="https://colab.research.google.com/github/Pistolll/praktika4_TOVII/blob/main/1_%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B5_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%81%D0%BB%D0%BE%D0%B2_Word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Векторные представления слов

## Введение

Обработка последовательностей это одна из самых востребованных задач. Многие данные представляются последовательностями, звуки, тексты, видео и др. Обработка текстов, как последовательностей, дала мощный импульс в развитии методов обработки последовательностей. Многие архитектуры из обработки текстов применяются и для обработки звуков.

Вспомним тему о векторных представлениях изображений. Мы увидели, что изображение можно описать массивом чисел - выходом какого-то из слоев нейронной сети - настолько точно, что по этому массиву можно провести классификацию изображения, отличить одно от другого.

Раз можно так делать для изображений, то можно и для других типов данных, для звуков, сигналов и, конечно, для текстов.

Раньше мы использовали векторные представления внутри нейронной сети, чтобы проводить классификацию, но оказывается, векторные представления интересны и сами по себе.

Давайте введем простые векторные представления для текстов и посмотрим, какие у них получаются интересные свойства.


# О посимвольном представлении текста
Несомненно, текст записывается как последовательность символов. Но человек обычно не обрабатывает каждый символ отдельно, а воспринимает "слова" целиком.

Сможете ли вы прочитать этот [текст](https://habr.com/ru/articles/148896/) ?

 **По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.**

В английском варианте это звучало так:

**Arocdnicg to rsceearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer are in the rghit pcale. The rset can be a toatl mses and you can sitll raed it wouthit pobelrm. Tihs is buseace the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.**

Прочитали? А теперь всмотритесь в буквы.

А такая [последовательность](https://www.inpearls.ru/)?

**Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.**

Вы понимаете смысл этого текста, можете провести его анализ.

Таким образом, текст выгодней представлять не как последовательность символов, а как последовательность слов.


# Унитарное кодирование
Пожалуй самым простым векторным представлением является *унитарное кодирование* (по-английски one-hot encoding).

Возьмем какой-либо текст, разобьем его на слова-элементы и составим словарь таких слов, в котором каждому слову будет приписан его номер в словаре.

Этот номер слова можно представить в бинарном виде, сопоставим каждому слову в словаре *бинарный вектор*, состоящий из нулей и только одной единицы. Положение единицы в векторе показывает номер слова.

![img](https://drive.google.com/uc?id=1hDY2EKB7ND-Uxq9FnKVtxC-U-0bnuiTe)

В векторе будет столько элементов, сколько слов в словаре мы записали.

Обратите внимание, что единичка, по сути, является признаком слова: стоит единичка в пятом элементе, значит слово номер пять.

Вообще, в словарь мы можем добавлять какие угодно "слова", это могут быть обычные привычные нам слова, части слов и даже отдельные буквы, словосочетания и целые предложения, знаки препинания, смайлики, и прочее. Главное, что у всех этих "слов" есть номер, представленный унитарным вектором.

Текст является последовательностью слов, а в унитарном представлении - последовательностью унитарных векторов.

![img](https://drive.google.com/uc?id=1uEodrFkeG433O_zCWf3EpR8JVPYEFysx)

Унитарное кодирование используется и для других типов информации, для изображений, сигналов и пр. Хорошим свойством является то, что унитарное представление не зависит от длины слова, ведь в словарь мы можем добавлять слова разной длины, хоть из одной буквы, хоть целое словосочетание.

Однако такое представление не дает нам никаких новых интересных свойств, ведь унитарные вектора никак не связаны между собой и зависят от нашего произвола - в каком порядке слова в словарь добавляем, такой вектор и получим.

Поэтому создают другие, более интересные, векторные представления.

# Word2vec
Хочется как-то связать между собой слова и их векторные представления, ведь в реальных текстах слова, конечно же, связаны между собой **смыслом**. Вряд ли кто-то захочет читать тексты из случайных слов.

Если есть взаимосвязь между словами текста, то ее можно уловить, вычислить.

А давайте попробуем сделать так:
- возьмем из текста три слова подряд.
- закроем одно слово и попробуем его угадать по двум оставшимся.

Во многих случаях, но конечно не всегда, это нам удастся. Попробуйте угадать какое слово скрыто под звездочками во фразе "Мама мыла ....".
Если вы сказали "раму", то угадали, но могли сказать "пол" и не угадали.

Давайте возьмем больше слов "Мама мыла оконную ...": тут легче угадать слово "раму", но все равно есть и другие варианты (придумайте).

И все же, для многих последовательностей слов можно угадать какое слово закрыто, так пусть этим займется компьютер.

Текст это последовательность слов, слова можно представить унитарными векторами. Нам надо лишь по нескольким унитарным векторам вычислять следующий. Это абсолютно то же самое, как если бы мы хотели обучить нейронную сеть. Известны входы - несколько унитарных векторов, знаем выход - один унитарный вектор, давайте обучим.

Можно посмотреть и с другой стороны, если по нескольким словам мы угадываем следующее, то давайте наоборот, по слову угадаем какие слова ему предшествовали. Технически задача такая же. Знаем вход - один унитарный вектор, знаем выход - несколько унитарных векторов - так давайте обучим нейронную сеть.

Эти подходы можно совместить, по нескольким векторам угадываем один пропущенный, а затем по нему угадываем обратно какие вектора были изначально, или, другими словами, угадываем слово по словам его окружающим, а затем по этому слову угадываем окружающие слова. Обычно угадывают среднее слово из трех, но это вовсе не обязательно.

Такая технология получила название **word2vec** (произносится "ворд ту век"). На картинке показана для пяти слов, обозначенных буквой V с индексом в скобках.  Первую половинку - угадывание слова по окружению - назвали CBOW, вторую - угадывания окружения по слову - SkipGram.

![img](https://drive.google.com/uc?id=18pa20uv6xi8tGC6pdOS3Vc11KUUcpW2e)

Посмотрим на CBOW (это сокращение от Continuous Bag of Word, непрерывный мешок слов).

Мы можем использовать простую нейронную сеть только с одним скрытым слоем для него.

Унитарные вектора слов-окружения переводятся в скрытом слое в некоторые выходы, а затем по выходам этого скрытого слоя считается унитарный вектор исходного слова.

Перевод унитарного представления слов-окружения в скрытом слое производится, как мы понимаем из работы нейронной сети, умножением на матрицу весов W. Ее размер (число нейронов в скрытом слое) * (число слов в словаре). Нет необходимости делать эту матрицу разной для разных слов-окружений, пусть будет одна.

Аналогично, переход из скрытого слоя на выход также делается с помощью умножения на матрицу W'. Ее размер (число слов в словаре) * (число нейронов в скрытом слое).

Матрица W' нам не важна, но посмотрим более внимательно на матрицу W.

Она умножается на унитарный вектор, т.е. вектор, в котором все элементы нули кроме одного. Что произойдет при таком умножении?

Правильно, выберется только один столбец из матрицы, с таким номером, на какой позиции стоит единичка во входом векторе. Но положение этой единички означает номер слова в словаре! Значит, каждому слову из словаря соответствует свой вектор-столбец в матрице W. Его размерность определяется числом нейронов в скрытом слое, которое мы задаем сами при обучении. **Эти вектора-столбцы и являются новым векторным представлением слов**.   

Итак, вкратце, еще раз.
- Берем тексты
- разбиваем их на последовательность слов
- переводим слова в унитарные вектора
- на парах (соседние слова)-(среднее слово) обучаем простую нейронную сеть CBOW с ее матрицей W.
- используем столбцы матрицы W как новое векторное представление слов. Длина этих векторов задается произвольно при обучении.

![img](https://drive.google.com/uc?id=1bTpfqH0niwJKwMRHKdNbuOFiR9jucCZe)







# Геометрия слов
Создав векторные представления для слов, можно их использовать в различных *геометрических* операциях: сложить вектора, вычесть, найти угол меду ними.

И, что наиболее удивительно в таких векторных представлениях, эти геометрические операции с векторами имеют **смысл** с точки зрения самих слов.

Например:
* Король - мужчина + женщина = Королева
* Великобритания - Лондон + Москва = Россия
 и др.

 Прежде чем смотреть на примеры, несколько слов о сравнении векторов.

## Косинусное расстояние.

Вектора можно сравнивать между собой, логично, что близкие вектора означают близкие по смыслу слова. Но как именно сравнивать вектора?

Оказалось, что простое Евклидово расстояние между векторами не так интересно, более интересно сравнивать угол между векторами или, правильнее, косинус угла.

Ну-ка, вспоминайте геометрию, как посчитать косинус угла между векторами?

А вот так: скалярное произведение векторов поделить на длины этих векторов.

![img](https://drive.google.com/uc?id=1vxVWdSAjY5oK6U7CtGadB0-2T5YLFmSh)

Часто векторные представления *нормализуют*, т.е. приводят к единичной длине, тогда ее и считать не надо.

Итак, мера схожести векторов - косинус угла между ними. Близкие по смыслу слова скорей всего дадут близкие по углу вектора.

# Библиотека gensim

А теперь примеры. Поиграть с векторами онлайн вы можете [здесь](https://rare-technologies.com/word2vec-tutorial/#app), но давайте и сами реализуем.  

Нам поможет библиотека [gensim](https://radimrehurek.com/gensim/index.html). Установим ее.


In [1]:
# Установка пакетов (после сброса среды!)
!pip install gensim numpy

# Импорты
import logging
import numpy as np
import gensim.downloader as api

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# Загружаем готовую векторную модель (маленькую)
wv = api.load('glove-wiki-gigaword-50')

# Пример: аналогия
print("king - man + woman =", wv.most_similar(positive=['king', 'woman'], negative=['man'], topn=1))


king - man + woman = [('queen', 0.8523604273796082)]


In [None]:
# уже есть в Colab
!pip install gensim

Подключим вспомогательную библиотеку для записи действий.

In [3]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

Скачаем уже обученную модель [word2vec](https://radimrehurek.com/gensim/models/word2vec.html), она была обучена на огромном наборе текстов на английском языке из 3 млн. слов и занимает около 2 Гигабайт, придется подождать. Это надо сделать только один раз. Модель загружается в виде специального объекта, в котором прописаны многие методы для работы с векторами.

*Для учителя: иногда сайт обрывает связь и закачку, рекомендуется заранее скачать массивы используя методы load(), save(), или используйте меньшие вектора, или скачайте заранее и поместите в директорию /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz*.

In [None]:
#import gensim.downloader as api #
#wv = api.load('word2vec-google-news-300') # большая модель


Воспользуемся корпусом поменьше и обучим на нем модель word2vec.

In [2]:
# Корпус поменьше
import numpy as np
import gensim.downloader as api
from gensim.models.word2vec import Word2Vec
corpus = api.load('text8') # загружаем корпус текстов
model = Word2Vec(corpus) # обучаем модель ~ 5 минут
wv=model.wv



Выведем на экран первые 100 слов из словаря, которые хранятся в поле .index_to_key


In [4]:
for index, word in enumerate(wv.index_to_key):
    if index == 100:
        break
    print(f"word #{index}/{len(wv.index_to_key)} is {word}")

word #0/71290 is the
word #1/71290 is of
word #2/71290 is and
word #3/71290 is one
word #4/71290 is in
word #5/71290 is a
word #6/71290 is to
word #7/71290 is zero
word #8/71290 is nine
word #9/71290 is two
word #10/71290 is is
word #11/71290 is as
word #12/71290 is eight
word #13/71290 is for
word #14/71290 is s
word #15/71290 is five
word #16/71290 is three
word #17/71290 is was
word #18/71290 is by
word #19/71290 is that
word #20/71290 is four
word #21/71290 is six
word #22/71290 is seven
word #23/71290 is with
word #24/71290 is on
word #25/71290 is are
word #26/71290 is it
word #27/71290 is from
word #28/71290 is or
word #29/71290 is his
word #30/71290 is an
word #31/71290 is be
word #32/71290 is this
word #33/71290 is which
word #34/71290 is at
word #35/71290 is he
word #36/71290 is also
word #37/71290 is not
word #38/71290 is have
word #39/71290 is were
word #40/71290 is has
word #41/71290 is but
word #42/71290 is other
word #43/71290 is their
word #44/71290 is its
word #45/71290

Получить вектор слова можно используя это слово как индекс. Получим для слова 'king'. Это вектор из 100 элементов. Конечно, это слово должно быть в словаре и именно в таком виде, иначе возникнет ошибка. Важен и регистр букв, попробуйте слово 'kinG'.

In [5]:
vec_king = wv['king'] # такое слово есть в словаре
vec_king.shape


(100,)

In [6]:
vec_king = wv['kinG'] # такого слова нет в словаре

KeyError: "Key 'kinG' not present"

Посчитать "похожесть" слов, т.е. их векторов, можно с помощью метода `.similarity()`. Чем больше число, тем более похожи слова.

In [7]:
pairs = [                 # пары слов
    ('car', 'minivan'),   # минивэн это тип автомобиля
    ('car', 'bicycle'),   # мотоцикл имеет колеса как и автомобиль
    ('car', 'airplane'),  # ладно, самолет не колесное средство, но все же средство передвижения
    ('car', 'cereal'),    # зерно и автомобиль, хм..
    ('car', 'communism'), # какая связь между автомобилем и коммунизмом???
]
for w1, w2 in pairs:
    print('%r\t%r\t%.2f' % (w1, w2, wv.similarity(w1, w2)))

'car'	'minivan'	0.25
'car'	'bicycle'	0.57
'car'	'airplane'	0.55
'car'	'cereal'	0.15
'car'	'communism'	-0.17


Перебирать вручную все пары слов, чтобы найти самые похожие будет трудно, пусть компьютер сравнит все-все вектора и выведет самые похожие на заданный.

Метод `.most_similar()` принимает набор слов для которых искать похожие (аргумент positive) и число похожих слов (аргумент topn)

(Первый запуск может быть долгим, так как надо посчитать длины всех векторов, потом будет гораздо быстрее)

In [8]:
print(wv.most_similar(positive=['man', 'woman'], topn=5))
print(wv.most_similar(positive=['cat','dog'],negative=['duck'], topn=5))

[('girl', 0.7645989656448364), ('child', 0.7028816938400269), ('person', 0.6606707572937012), ('gentleman', 0.6596999764442444), ('bride', 0.6582705974578857)]
[('hamster', 0.7471149563789368), ('bird', 0.6797839999198914), ('breed', 0.6619564890861511), ('goat', 0.6360880732536316), ('ass', 0.6316744089126587)]


Найти слово, которое непохоже на остальные? Легко, метод .doesnt_match(). Все слова (их вектора) будут сравнены между собой и выведется то, которое похоже меньше всех.

In [9]:
print(wv.doesnt_match(('fire', 'water', 'land', 'sea', 'air', 'car')))

car


Геометрические операции.

Вектор 'France' минус вектор 'Paris' плюс вектор 'Moscow'. Получится какой-то вектор. Его может не быть в словаре, найдем ближайшие из словаря к нему, метод `.similar_by_vector()`

In [10]:
Russia=wv['france']-wv['paris']+wv['moscow']
wv.similar_by_vector(Russia)

[('finland', 0.7049514055252075),
 ('kuwait', 0.6967581510543823),
 ('libya', 0.6960716843605042),
 ('lithuania', 0.6892430186271667),
 ('russia', 0.6874240636825562),
 ('moldova', 0.6825775504112244),
 ('afghanistan', 0.6737417578697205),
 ('cyprus', 0.671637237071991),
 ('albania', 0.6589299440383911),
 ('indonesia', 0.6581672430038452)]

In [11]:
q=wv['drunk']-wv['was']+wv['is']
wv.similar_by_vector(q)

[('deficient', 0.565294623374939),
 ('confusing', 0.5636296272277832),
 ('transitive', 0.5618667602539062),
 ('conversely', 0.5601799488067627),
 ('reflexive', 0.553476095199585),
 ('chiral', 0.5425931215286255),
 ('cooked', 0.5369694828987122),
 ('dim', 0.533639669418335),
 ('reactive', 0.5320882201194763),
 ('gut', 0.5319165587425232)]

А на русском языке??

Такие модели тоже есть, но они гораздо слабее, мало слов, мало текстов.
Загрузим модель word2vec-ruscorpora-300 . Всего-то 200 тысяч слов.

In [12]:
wv_rus = api.load('word2vec-ruscorpora-300')



Здесь слова имеют приставки, показывающие их часть речи.

что получится для король - мужчина + женщина ?
По идее королева. Но получится король. Но и "правильный" ответ тоже недалеко, второй по счету.   

In [13]:
queen= wv_rus['король_NOUN'] - wv_rus['мужчина_NOUN'] + wv_rus['женщина_NOUN']

wv_rus.similar_by_vector(queen)

[('король_NOUN', 0.8805387616157532),
 ('королева_NOUN', 0.7313904762268066),
 ('герцог_NOUN', 0.6502388715744019),
 ('принцесса_NOUN', 0.6266285181045532),
 ('герцогиня_NOUN', 0.6240381598472595),
 ('королевство_NOUN', 0.6094207167625427),
 ('зюдерманландский_ADJ', 0.6084389686584473),
 ('дурлахский_ADJ', 0.6081665754318237),
 ('ульрик::элеонора_NOUN', 0.6073107719421387),
 ('максимилианов_NOUN', 0.6057003736495972)]

# Задания
Успешность геометрических операций с векторами слов сильно зависит и от вида модели и от текстов, на которых она обучалась. Не все понятные человеку аналогии слов, получаются и в компьютере. В качестве упражнения попробуйте найти примеры логичных и нелогичных аналогий.

In [18]:
def safe_most_similar(positive, negative):
    # Проверяем, есть ли все слова в словаре
    for word in positive + negative:
        if word not in model.wv:
            print(f"Слово '{word}' отсутствует в словаре модели")
            return None
    return model.wv.most_similar(positive=positive, negative=negative)

print("Логичные аналогии:")
print(safe_most_similar(positive=['король', 'женщина'], negative=['мужчина']))
print(safe_most_similar(positive=['париж', 'италия'], negative=['франция']))
print(safe_most_similar(positive=['москва', 'германия'], negative=['россия']))

print("\nНелогичные аналогии:")
print(safe_most_similar(positive=['стол', 'радость'], negative=['солнце']))
print(safe_most_similar(positive=['река', 'библиотека'], negative=['машина']))


Логичные аналогии:
Слово 'король' отсутствует в словаре модели
None
Слово 'париж' отсутствует в словаре модели
None
Слово 'москва' отсутствует в словаре модели
None

Нелогичные аналогии:
Слово 'стол' отсутствует в словаре модели
None
Слово 'река' отсутствует в словаре модели
None


In [17]:
print("Логичные аналогии:")
print(wv_rus.most_similar(positive=['король_NOUN', 'женщина_NOUN'], negative=['мужчина_NOUN']))
print(wv_rus.most_similar(positive=['париж_NOUN', 'италия_NOUN'], negative=['франция_NOUN']))
print(wv_rus.most_similar(positive=['москва_NOUN', 'германия_NOUN'], negative=['россия_NOUN']))

print("\nНелогичные аналогии:")
print(wv_rus.most_similar(positive=['стол_NOUN', 'радость_NOUN'], negative=['солнце_NOUN']))
print(wv_rus.most_similar(positive=['река_NOUN', 'библиотека_NOUN'], negative=['машина_NOUN']))


Логичные аналогии:
[('королева_NOUN', 0.7313904762268066), ('герцог_NOUN', 0.6502388715744019), ('принцесса_NOUN', 0.6266285181045532), ('герцогиня_NOUN', 0.6240381598472595), ('королевство_NOUN', 0.6094207167625427), ('зюдерманландский_ADJ', 0.6084389686584473), ('дурлахский_ADJ', 0.608166515827179), ('ульрик::элеонора_NOUN', 0.6073107123374939), ('максимилианов_NOUN', 0.6057004332542419), ('принц_NOUN', 0.5984029173851013)]
[('ницца_NOUN', 0.6837807297706604), ('флоренция_NOUN', 0.6755390167236328), ('венеция_NOUN', 0.6641937494277954), ('неаполь_NOUN', 0.6582341194152832), ('милан_NOUN', 0.6489267349243164), ('рим_NOUN', 0.6479753851890564), ('лондон_NOUN', 0.6468997001647949), ('берлин_NOUN', 0.6394644975662231), ('генуя_NOUN', 0.6336957812309265), ('мюнхен_NOUN', 0.61598140001297)]
[('берлин_NOUN', 0.7166863679885864), ('мюнхен_NOUN', 0.6141614317893982), ('гамбург_NOUN', 0.5910831689834595), ('дрезден_NOUN', 0.5751315951347351), ('бабельсберг_NOUN', 0.5680848360061646), ('париж_N

most_similar возвращает список слов из словаря модели, которые максимально близки по смыслу к вычисленному вектору (аналогии).



Логичные аналогии

most_similar(positive=['король_NOUN', 'женщина_NOUN'], negative=['мужчина_NOUN'])
выдал похожие слова:
королева_NOUN (женский аналог короля)
герцог_NOUN, принцесса_NOUN — родственные понятия из той же сферы
и т.д.

Это значит, что модель правильно "понимает" аналогию: король - мужчина + женщина ≈ королева.

То же с городами:

Париж - Франция + Италия ≈ столица Италии (Рим и другие итальянские города)

Москва - Россия + Германия ≈ крупные немецкие города (Берлин, Мюнхен)

Нелогичные аналогии
most_similar(positive=['стол_NOUN', 'радость_NOUN'], negative=['солнце_NOUN'])
модель выдала список слов, которые не имеют логической связи между собой и с запросом:

столик_NOUN, огорчение_NOUN, стул_NOUN, поднос_NOUN и т.д.

То есть модель пытается найти что-то похожее по векторному признаку, но в реальном языке это не имеет смысла.



# Заключение
Сегодня существует множество моделей для векторных представлений слов на разных языках. По похожему принципу строятся и векторные представления предложений и даже текстов целиком. Мы еще познакомимся с некоторыми примерами в этой области.

## Ссылки

Использованы и адаптированы материалы:
* https://radimrehurek.com/gensim/index.html
* https://medium.com/sciforce/word-vectors-in-natural-language-processing-global-vectors-glove-51339db89639
* https://colab.research.google.com/github/mdda/deep-learning-workshop/blob/master/notebooks/5-RNN/3-Text-Corpus-and-Embeddings.ipynb#scrollTo=h-CQETk6HPmx
* https://radimrehurek.com/gensim/models/fasttext.html
* https://amitness.com/2020/06/fasttext-embeddings/
* http://vectors.nlpl.eu/explore/embeddings

Рекомендую посмотреть курсы:
* First Step in NLP https://stepik.org/course/129443/syllabus
* Second Step in NLP https://stepik.org/course/133963/syllabus