<a href="https://colab.research.google.com/github/Whereamiactually/lyceumcompling10/blob/main/WordsAsVectors_part2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Векторное представление слов

Что такое русское слово "мутовка" из примеров ниже (примеры взяты из НКРЯ)?

1. *Без **мутовки**, само собою сбивается оно над огнем, набухает, словно на опаре, осыпая в огонь желтью отруби.* [Виктор Астафьев. Царь-рыба (1974)]
2. *...и все такое, что перешло еще от отцов и дедов, что позарез нужно было каждую минуту здесь и что там сразу оказывалось без надобности. Ухваты, сковородник, квашня, **мутовки**, чугуны, туеса, кринки, ушаты, кадки, лагуны, щипцы, кросна...* [Валентин Распутин. Прощание с Матёрой (1976)]
3. *Бабушка объявила, что овес кишит, взяла **мутовку** и начала взбалтывать ею содержимое дежи.* [Н. С. Арапова. Овсяный кисель // «Химия и жизнь», 1985]
4. *Отец, услышав, как Антон, шкуря **мутовку**, это мурлычет, заставил пропеть до конца...* [Александр Чудаков. Ложится мгла на старые ступени (1987-2000) // «Знамя», 2000]
5. *А Ермилка, тряхнув чубом и облизнув **мутовку** широким, как у коня, языком, подумал: «Ну до чего приятственно царем быть!»* [В. Я. Шишков. Емельян Пугачев. Книга вторая. Ч. 1-2 (1939-1945)]
6. *Зайдет на погреб — там девчонки под навесом сидят, горшки со сметаной между коленами держат, чухонское масло **мутовками** бьют.* [М. Е. Салтыков-Щедрин. Пошехонская старина. Житие Никанора Затрапезного, пошехонского дворянина (1887-1889)]

В качестве продолжения предлагаю посмотреть на [материалы](https://habr.com/ru/articles/446530/) за авторством m1rko.

# Word2Vec

Для того, чтобы рассмотреть на практике, как работают программы с векторными представлениями слов (или эмбеддингами от англ. *embeddings*), мы воспользуемся библиотекой **Gensim** ([здесь](https://pythonru.com/biblioteki/gensim) есть полное руководство по этой библиотеке, сейчас мы будем смотреть только на модель **Word2Vec**, а на остальное - в следующем полугодии), которая работает с самой известной дистрибутивной моделью **Word2Vec**, основанной на нейрнной сети, которая предсказывает вероятность появления заданного слова в заданном контексте.

**Word2Vec** состоит из двух двух алгоритмов: **Skip-Gram** и **Continuous Bag-of-Words** (CBOW). **Skip-Gram** предсказывает близлежащие слова на основании одного слова. **CBOW** (или мешок слов) предсказывает слово на основании контекста.

In [1]:
pip install gensim



### Модель

Модель вначале нужно натренировать на каком-то корпусе текстов. На тренировку модели мы посмотрим довольно кратко (более полное погружение в машинное обучение и нейронные сети нас ждет позже). Наша задача - посмотреть, как работает обученная модель.

Для того, чтобы натренировать модель, тренировочные данные должны быть представлены в определенном формате, иначе модель просто не сможет их распознать.

Для того, чтобы натренировать модель **Word2Vec**, ей нужно дать на вход текстовый файл, в котором каждое предложение начинается с новой строки. В тексте должны **отсутствовать знаки препинания**, он должен быть приведен **к нижнему регистру** и **лемматизирован**. Также он должен быть **размечен по частям речи** (хотя это скорее опционально).

Но мы пока что пойдем по пути наименьшего сопротивления и будем использовать уже предобученную модель.

На [этом сайте](http://vectors.nlpl.eu/repository/) можно найти некоторое количество моделей, предобученных на русском, английском и других языках. Для других языков можно использовать [fastText или GloVe](https://proglib.io/p/obzor-chetyreh-populyarnyh-nlp-modeley-2020-04-21).

In [None]:
#pip install wget

In [16]:
import zipfile # для разархивирования файла из неработающего кода
import wget # для загрузки файла из кусочка неработающего кода
import gensim
from gensim.models import word2vec
import gensim.downloader

Мы бы посмотрели на модель, обученную на данных из Национального корпуса русского языка и Википедии (по 2021 год). Размер словаря довольно большой - почти 250 тыс. эмбеддингов. Но мы не посмотрим, потому что с новым обновлением Gensim появилось очень много багов и следующий код не работает! :( ~3 часа жизни коту под хвост.~

In [None]:
#model_url = 'http://vectors.nlpl.eu/repository/20/220.zip'
#m = wget.download(model_url)
#model_file = model_url.split('/')[-1]
#with zipfile.ZipFile(model_file, 'r') as archive:
  #stream = archive.open('model.bin')
  #model = gensim.models.KeyedVectors.load_word2vec_format(stream, binary = True)

Но мы можем попробовать скачать встроенные словари... И молиться.

In [49]:
print(list(gensim.downloader.info()['models'].keys()))

['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']


Ого, здесь есть даже встроенный Национальный корпус русского языка! [Тут](https://github.com/piskvorky/gensim-data) можно посмотреть поподробнее про другие модели.

In [None]:
rus_vectors = gensim.downloader.load('word2vec-ruscorpora-300')

Мы должны прописывать часть речи через подчеркивание, потому что эта модель была натренирована на текстах, размеченных по частям речи. [Здесь](https://universaldependencies.org/u/pos/) можно посмотреть, какие сокращения за что отвечают. К сожалению, на английском. :(

Если модель не найдет в словаре запрашиваемого слова, то она выдаст ошибку.

In [None]:
rus_vectors.most_similar('зависть_NOUN') # находит самые близкие слова для заданного слова

In [None]:
rus_vectors.most_similar('день_NOUN') # находит самые близкие слова для заданного слова

In [None]:
rus_vectors.most_similar('лингвистика_NOUN') # находит самые близкие слова для заданного слова

In [None]:
rus_vectors.most_similar('самобытный_ADJ') # находит самые близкие слова для заданного слова

Находит косинусную близость двух слов.

In [None]:
rus_vectors.similarity('зависть_NOUN', 'любовь_NOUN')

In [None]:
rus_vectors.similarity('обезьяна_NOUN', 'человек_NOUN')

In [None]:
rus_vectors.similarity('лингвистика_NOUN', 'компьютерный_ADJ')

In [None]:
rus_vectors.similarity('малина_NOUN', 'ежевика_NOUN')

Мы можем просить модель решить пропорции. *Positive* - векторы, которые мы добавляем. *Negative* - векторы, которые мы вычитаем.

In [None]:
rus_vectors.most_similar(positive = ['король_NOUN', 'женщина_NOUN'], negative = ['мужчина_NOUN'])

In [None]:
rus_vectors.most_similar(positive = ['лежать_VERB', 'бегать_VERB'], negative = ['спать_VERB'])

In [None]:
rus_vectors.most_similar(positive = ['водка_NOUN', 'китай_NOUN'], negative = ['россия_NOUN'])

Также можно попросить модель найти лишнее слово из списка слов. Таким словом будет то слово, вектор которого наиболее удален от всех остальных.

In [None]:
rus_vectors.doesnt_match('лингвистика_NOUN физика_NOUN философия_NOUN биология_NOUN химия_NOUN'.split())

In [None]:
rus_vectors.doesnt_match('синий_ADJ желтый_ADJ красный_ADJ зеленый_ADJ серый_ADJ'.split())

In [None]:
rus_vectors.doesnt_match('россия_NOUN англия_NOUN лондон_NOUN америка_NOUN германия_NOUN китай_NOUN'.split())

In [None]:
rus_vectors.doesnt_match('россия_NOUN англия_NOUN лондон_NOUN америка_NOUN германия_NOUN'.split())

Также мы можем просто попросить модель дать нам вектор определенного слова. Здесь также можно проводить операции сложения и вычетания.

In [None]:
rus_vectors.word_vec('сова_NOUN')

### Можем ради интереса глянуть на Twitter

In [None]:
twit_vectors = gensim.downloader.load('glove-twitter-50') # число в конце отвечает за длину эмбеддинга

Этот словарь не размечен по частям речи. И данные были собраны не только с англоязычного Твиттера, но и, например, с русского, испанского, немецкого. Хотя, конечно, их объемы могут быть не сопоставимы.

In [None]:
twit_vectors.most_similar('sein') # на немецком

In [None]:
twit_vectors.most_similar('тролль')

In [None]:
twit_vectors.most_similar('casa') # на испанском

In [None]:
twit_vectors.most_similar(positive = ['холод', 'туман'], negative = ['жара'])