# Знакомство с word2vec

В этом задании рассматривается работа с двумя моделями векторных представлений слов (google news vectors и модель на основе британского национального корпуса) при помощи библиотеки gensim.

Ваша задача -- дополнить блокнот фрагментами кода в соответствии с заданием внутри блокнота. Ответы, которые должны получаться, приведены в блоках вывода.

## Загрузка модели
Скачаем модель <code>google-news-vectors</code>. Откроем ее с помощью библиотеки <code>gensim</code>.

In [None]:
! pip install -q -U gensim
! gdown --id 0B7XkCwpI5KDYNlNUTTlSS21pQmM
! pip install -q SciPy==1.5.4

Downloading...
From: https://drive.google.com/uc?id=0B7XkCwpI5KDYNlNUTTlSS21pQmM
To: /content/GoogleNews-vectors-negative300.bin.gz
100% 1.65G/1.65G [00:23<00:00, 70.2MB/s]
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m25.2/25.2 MB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25h  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpip subprocess to install build dependencies[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Installing build dependencies ... [?25l[?25herror
[1;31merror[0m: [1msubprocess-exited-with-error[0m

[31m×[0m [32mpip subprocess to install build dependencies[0m did not run successfully.
[31m│[0m exit code: [1;36m1[0m
[31m╰─>[0m See above for output.

[1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.


In [None]:
! gunzip GoogleNews-vectors-negative300.bin.gz

In [None]:
import warnings
warnings.filterwarnings('ignore')

import gensim
from gensim.models import KeyedVectors

w = KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin", 
                                      binary=True)

Структура называется <code>KeyedVectors</code> и по сути представляет собой отображение между ключами и векторами. Каждый вектор идентифицируется своим ключом поиска, чаще всего коротким строковым токеном, поэтому обычно это соответствие между

<center><code>{str => 1D numpy array}</code></center><br/>



Например, выведем первые 10 координат вектора, соответствующего слову <code>sunrise</code>

In [None]:
print("Размерность вектора: ", w["sunrise"].shape)
print("Первые 10 координат вектора: \n", w["sunrise"][:10])

Размерность вектора:  (300,)
Первые 10 координат вектора: 
 [-0.22558594 -0.03540039 -0.21679688  0.03613281 -0.2265625  -0.09814453
  0.109375   -0.34570312  0.18652344  0.01806641]


## Задание 1. Сходство. 

Извлеките векторы слов <code>London</code>, <code>England</code>, <code>Moscow</code>. Посчитайте косинусное расстояние между словами <code>London</code> и <code>England</code> и между словами <code>Moscow</code> и <code>England</code>. Какая пара слов ближе? Подсказка: для вычисления косинусного расстояния использвется метод <code>distance()</code>. Правильный ответ представлен в блоке вывода.

In [None]:
print(w.distance('London', 'England'), w.distance('Moscow', 'England'))

0.5600714385509491 0.8476868271827698


## Задание 2. Аналогии.
С помощью метода most_similar решите аналогию
```London : England = Moscow : X```

Правильный ответ представлен в блоке вывода.

(Подсказка: нужно использовать аргументы positive и negative)

In [None]:
w.most_similar(positive=['Moscow', 'England'], negative=['London'])

[('Russia', 0.6502718329429626),
 ('Ukraine', 0.5879061818122864),
 ('Belarus', 0.5666376352310181),
 ('Azerbaijan', 0.5418694615364075),
 ('Armenia', 0.5300518870353699),
 ('Poland', 0.5253247618675232),
 ('coach_Georgy_Yartsev', 0.5220180749893188),
 ('Russian', 0.5214669108390808),
 ('Croatia', 0.5166040658950806),
 ('Moldova', 0.5125792026519775)]

## Задание 3. Сходство: найти лишнее. 
С помощью метода <code>doesnt_match</code> найдите лишнее слово в ряду <code>breakfast cereal dinner lunch</code>.

Правильный ответ представлен в блоке вывода.

In [None]:
w.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

## Задание 4. Представление предложений в виде векторов


Дано предложение: <code>the quick brown fox jumps over the lazy dog</code>. Вам нужно представить это предложение в виде вектора. Для этого найдите вектор каждого слова в модели, а затем усредните векторы покомпонентно.


In [None]:
import numpy as np

sentence_vector = np.matrix(([w[word] for word in 'the quick brown fox jumps over the lazy dog'.split()]))
mean_sentence_vector = sentence_vector.mean(0)
mean_sentence_vector[0, :5]

matrix([[ 0.09055582,  0.05434163, -0.06713867,  0.10968696, -0.01060655]],
       dtype=float32)

# Сравнение двух моделей

## Загрузка ещё одной модели


Откроем модель google-news-vectors и модель, обученную на британском национальном корпусе http://vectors.nlpl.eu/repository/20/0.zip, с помощью gensim. 


In [None]:
! wget -c http://vectors.nlpl.eu/repository/20/0.zip
! unzip 0.zip
! head -3 model.txt

--2023-05-23 14:45:07--  http://vectors.nlpl.eu/repository/20/0.zip
Resolving vectors.nlpl.eu (vectors.nlpl.eu)... 129.240.189.181
Connecting to vectors.nlpl.eu (vectors.nlpl.eu)|129.240.189.181|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 344050746 (328M) [application/zip]
Saving to: ‘0.zip’


2023-05-23 14:45:13 (56.9 MB/s) - ‘0.zip’ saved [344050746/344050746]

Archive:  0.zip
  inflating: meta.json               
  inflating: model.bin               
  inflating: model.txt               
  inflating: README                  
163473 300
say_VERB -0.008861 0.097097 0.100236 0.070044 -0.079279 0.000923 -0.012829 0.064301 -0.029405 -0.009858 -0.017753 0.063115 0.033623 0.019805 0.052704 -0.100458 0.089387 -0.040792 -0.088936 0.110212 -0.044749 0.077675 -0.017062 -0.063745 -0.009502 -0.079371 0.066952 -0.070209 0.063761 -0.038194 -0.046252 0.049983 -0.094985 -0.086341 0.024665 -0.112857 -0.038358 -0.007008 -0.010063 -0.000183 0.068841 0.024942 -0.042561 -0.04

Загрузим модель, обученную на британском национальном корпусе

In [None]:
w_british = KeyedVectors.load_word2vec_format("model.bin", binary=True)

Заметим, что размерность векторов в этом случае также равна 300. При этом через нижнее подчеркивание нужно указывать часть речи используемого слова. Слова следует приводить к нижнему регистру.

In [None]:
try:
    print(w_british["London_NOUN"].shape)
    print('upper is ok')
except:
    print(w_british["london_NOUN"].shape)
    print('lower is ok')

(300,)
lower is ok


## Задание 6.1

Определите косинусное расстояние между векторами слов: `cucumber` и `doctor`.

In [None]:
def word_for_w_br(word):
  return word.lower() + '_NOUN'

In [None]:
print(f"GN: {round(w.distance('cucumber', 'doctor'), 3)}\nBR: {round(w_british.distance(word_for_w_br('cucumber'), word_for_w_br('doctor')), 3)}")

GN: 0.846
BR: 0.767


## Задание 6.2
Дан набор слов: `cucumber doctor professor student`, определите лишнее слово.

In [None]:
string = 'cucumber doctor professor student'
print(f"GN: {w.doesnt_match(string.split())}\nBR: {w_british.doesnt_match([word_for_w_br(word) for word in string.split()])}")

GN: cucumber
BR: cucumber_NOUN


## Задание 6.3

Определите косинусное расстояние между векторами предложений:
* `drowning man will clutch at straw`
* `Adversity loss make man wise`

Для нахождения вектора предложения требуется найти вектор каждого слова в предложении, а затем усреднить эти векторы покомпонентно (рекомендуем использовать `numpy.mean()` с правильным параметром `axis`).

In [None]:
import numpy as np
from scipy.spatial.distance import cosine

string_1 = 'drowning man will clutch at straw'
string_2 = 'Adversity loss make man wise'

sentence_vector_1 = np.array(([w[word] for word in string_1.split()]))
mean_sentence_vector_1 = np.mean(sentence_vector_1, axis=0).flatten()

sentence_vector_2 = np.array(([w[word] for word in string_2.split()]))
mean_sentence_vector_2 = np.mean(sentence_vector_2, axis=0).flatten()

print(f"GN: {round(cosine(mean_sentence_vector_1, mean_sentence_vector_2), 3)}")

GN: 0.535


## Задание 6.4

Из набора данных [word_sim](https://courses.openedu.ru/assets/courseware/v1/e5d93a68121655b8f04aea15b89c130a/asset-v1:ITMOUniversity+ADVMLAUTXT+spring_2023_ITMO_mag+type@asset+block/wordsim_similarity_goldstandard.txt) извлеките подвыборку пар слов с индексами `16:116` (нумерация начинается с нуля, правая граница не включается).

Вычислите корреляцию Спирмена между оценками схожести выбранных пар слов, полученных в результате работы моделей, и оценками аннотаторов в датасете `word_sim`.

In [None]:
import pandas as pd

df = pd.read_csv("https://courses.openedu.ru/assets/courseware/v1/e5d93a68121655b8f04aea15b89c130a/asset-v1:ITMOUniversity+ADVMLAUTXT+spring_2023_ITMO_mag+type@asset+block/wordsim_similarity_goldstandard.txt", 
                 sep="\t", header=None)[16:116]
df.columns = ["first", "second", "score"]
df.head(3)

Unnamed: 0,first,second,score
16,bishop,rabbi,6.69
17,fuck,sex,9.44
18,football,soccer,9.03


Из уже выбранных пар используйте только те, для слов которых находятся векторы на британском корпусе, помеченные как существительные! Иначе удаляйте такую пару из подвыборки.

### Вычисление оценок similarity моделей
Используем только те слова из wordsim, для которых находятся векторы на британском корпусе, помеченные как существительные, сформируйте 3 массива с оценкам схожести: 

1. Оценки (косинус между векторами), полученные в результате модели google-news-vectors

2. Оценки (косинус между векторами) полученные в результате модели на основе британского национального корпуса

3. Эталонные оценки из word_sim, для слов из которых находятся векторы на британском корпусе

Пропущенные слова из word_sim представлены в блоке вывода.

In [None]:
gn_dist, br_dist, scores = [], [], []

for row in df.iterrows():
    
  w1, w2 = row[1]["first"], row[1]["second"]

  try:
    #enter your code here
    br_dist.append(w_british.distance(word_for_w_br(w1), word_for_w_br(w2)))
    gn_dist.append(w.distance(w1, w2))
    scores.append(df[(df['first'] == w1) & (df['second'] == w2)].score)

  except KeyError as e:
    print(e, "Skipping this word.")

"Key 'arafat_NOUN' not present" Skipping this word.
"Key 'harvard_NOUN' not present" Skipping this word.
"Key 'mexico_NOUN' not present" Skipping this word.


### Выбор модели: корреляция с экспертами

Вычислите корреляцию Спирмена для каждой модели по сравнению с эталонными оценками из `word_sim`.

Результаты представлены в блоке вывода.

In [None]:
from scipy.stats import spearmanr

coef, p = spearmanr(gn_dist, scores)
print("GN Spearmanr corr: %.3f" % coef)

coef, p = spearmanr(br_dist, scores)
print("British Spearmanr corr: %.3f" % coef)

GN Spearmanr corr: -0.689
British Spearmanr corr: -0.647


Можно заметить, что модель google-news-vectors несколько выигрывает в данном случае.