# Знакомство с word2vec


## Загрузка модели
Скачаем модель <code>google-news-vectors</code>. Откроем ее с помощью библиотеки <code>gensim</code>.

In [1]:
! pip install -q -U gensim
! pip install -q SciPy



In [2]:
import warnings
warnings.filterwarnings('ignore')

import gensim
from gensim.models import KeyedVectors
 
w = KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin", 
                                      binary=True)

Структура называется <code>KeyedVectors</code> и по сути представляет собой отображение между ключами и векторами. Каждый вектор идентифицируется своим ключом поиска, чаще всего коротким строковым токеном, поэтому обычно это соответствие между

<center><code>{str => 1D numpy array}</code></center><br/>



Например, выведем первые 10 координат вектора, соответствующего слову <code>sunrise</code>

In [3]:
print("Размерность вектора: ", w["sunrise"].shape)
print("Первые 10 координат вектора: \n", w["sunrise"][:10])

Размерность вектора:  (300,)
Первые 10 координат вектора: 
 [-0.22558594 -0.03540039 -0.21679688  0.03613281 -0.2265625  -0.09814453
  0.109375   -0.34570312  0.18652344  0.01806641]


## Задание 1. Сходство. 

Извлеките векторы слов <code>London</code>, <code>England</code>, <code>Moscow</code>. Посчитайте косинусное расстояние между словами <code>London</code> и <code>England</code> и между словами <code>Moscow</code> и <code>England</code>. Какая пара слов ближе? Подсказка: для вычисления косинусного расстояния использвется метод <code>distance()</code>. Правильный ответ представлен в блоке вывода.

In [8]:
print(w.distance("London", "England"))
print(w.distance("Moscow", "England"))

0.5600714385509491
0.8476868271827698


## Задание 2. Аналогии.
С помощью метода most_similar решите аналогию
```London : England = Moscow : X```

Правильный ответ представлен в блоке вывода.

(Подсказка: нужно использовать аргументы positive и negative)

In [16]:
analogy_result = w.most_similar(positive=['Moscow', 'England'], negative=['London'])
analogy_result[:10]

[('Russia', 0.6502718329429626),
 ('Ukraine', 0.5879061818122864),
 ('Belarus', 0.5666376352310181),
 ('Azerbaijan', 0.5418694615364075),
 ('Armenia', 0.5300518870353699),
 ('Poland', 0.5253247618675232),
 ('coach_Georgy_Yartsev', 0.5220180749893188),
 ('Russian', 0.5214669108390808),
 ('Croatia', 0.5166040658950806),
 ('Moldova', 0.5125792026519775)]

## Задание 3. Сходство: найти лишнее. 
С помощью метода <code>doesnt_match</code> найдите лишнее слово в ряду <code>breakfast cereal dinner lunch</code>.

Правильный ответ представлен в блоке вывода.

In [18]:
w.doesnt_match(['breakfast', 'cereal', 'dinner', 'lunch'])

'cereal'

## Задание 4. Представление предложений в виде векторов


Дано предложение: <code>the quick brown fox jumps over the lazy dog</code>. Вам нужно представить это предложение в виде вектора. Для этого найдите вектор каждого слова в модели, а затем усредните векторы покомпонентно.


In [22]:
sentence = "the quick brown fox jumps over the lazy dog"
words = sentence.split()

sum_vector = [0] * 300 

for word in words:
    if word in w.key_to_index: 
        word_vector = w[word]
        sum_vector = [sum(x) for x in zip(sum_vector, word_vector)]

average_vector = [x / len(words) for x in sum_vector]

print("Вектор предложения:", average_vector[:5])

Вектор предложения: [0.09055582682291667, 0.054341634114583336, -0.067138671875, 0.10968695746527778, -0.010606553819444444]


# Сравнение двух моделей

## Загрузка ещё одной модели


Откроем модель google-news-vectors и модель, обученную на британском национальном корпусе http://vectors.nlpl.eu/repository/20/0.zip, с помощью gensim. 


Загрузим модель, обученную на британском национальном корпусе

In [26]:
w_british = KeyedVectors.load_word2vec_format("model.bin", binary=True)

Заметим, что размерность векторов в этом случае также равна 300. При этом через нижнее подчеркивание нужно указывать часть речи используемого слова. Слова следует приводить к нижнему регистру.

In [45]:
try:
    print(w_british["London_NOUN"].shape)
    print('upper is ok')
except:
    print(w_british["london_NOUN"].shape)
    print('lower is ok')

(300,)
lower is ok


## Набор данных для оценки качества
Скачаем датасет wordsim353. 

 

In [28]:
! wget -c http://alfonseca.org/pubs/ws353simrel.tar.gz 
! tar -xvf ws353simrel.tar.gz
! head -5 wordsim353_sim_rel/wordsim_similarity_goldstandard.txt

"wget" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.
x wordsim353_sim_rel/wordsim353_agreed.txt
x wordsim353_sim_rel/wordsim353_annotator1.txt
x wordsim353_sim_rel/wordsim353_annotator2.txt
x wordsim353_sim_rel/wordsim_relatedness_goldstandard.txt
x wordsim353_sim_rel/wordsim_similarity_goldstandard.txt
"head" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


## Подготовка эталонной выборки


Из файла `wordsim_similarity_goldstandard.txt` извлечем пары слов и посчитаем косинусное сходство их векторов в обеих моделях. Посчитаем корреляцию оценок сходства в модели google-news-vectors с оценками аннотаторов в датасете, а затем - корреляцию сходства в модели на основе британского национального корпуса с оценками аннотаторов в датасете. Какая модель ближе к суждениям экспертов-разметчиков?

(используем только те слова из wordsim, для которых находятся векторы на британском корпусе, помеченные как существительные!)

In [30]:
import pandas as pd

df = pd.read_csv("wordsim_similarity_goldstandard.txt", 
                 sep="\t", header=None)
df.columns = ["first", "second", "score"]
df.head(3)

Unnamed: 0,first,second,score
0,tiger,cat,7.35
1,tiger,tiger,10.0
2,plane,car,5.77


## Вычисление оценок similarity моделей
Используем только те слова из wordsim, для которых находятся векторы на британском корпусе, помеченные как существительные, сформируйте 3 массива с оценкам схожести: 

1. Оценки (косинус между векторами), полученные в результате модели google-news-vectors

2. Оценки (косинус между векторами) полученные в результате модели на основе британского национального корпуса

3. Эталонные оценки из word_sim, для слов из которых находятся векторы на британском корпусе

Пропущенные слова из word_sim представлены в блоке вывода.

In [113]:
gn_dist, br_dist, scores = [], [], []
def add_stuff(word):
    return word + '_NOUN'

for row in df.iterrows():
    
  w1, w2 = row[1]["first"].lower(), row[1]["second"].lower()
    
  try:
        if add_stuff(w1) in w_british.key_to_index and add_stuff(w2) in w_british.key_to_index:
            gn_dist.append(w.similarity(w1, w2))
            br_dist.append(w_british.similarity(add_stuff(w1), add_stuff(w2)))
            scores.append(row[1]["score"])
            
        elif add_stuff(w1) not in w_british.key_to_index:
            print(w1)
        elif add_stuff(w2) not in w_british.key_to_index:
            print(w2)
    
  except KeyError as e:
    print(e, "Skipping this word.")

stupid
arafat
harvard
mexico
live
seven
five
mars


## Выбор модели: корреляция с экспертами

Вычислите корреляцию Спирмена для каждой модели по сравнению с эталонными оценками из word_sim.

Результаты представлены в блоке вывода.

In [106]:
from scipy.stats import spearmanr

spearman_corr_google = spearmanr(gn_dist, scores)
spearman_corr_british = spearmanr(br_dist, scores)
print("Корреляция Спирмена для модели 'google-news-vectors':", spearman_corr_google.correlation)
print("Корреляция Спирмена для модели 'британский корпус':", spearman_corr_british.correlation)

Корреляция Спирмена для модели 'google-news-vectors': 0.7842376265134542
Корреляция Спирмена для модели 'британский корпус': 0.7644278401221205


In [None]:
from scipy.stats import spearmanr

#enter your code here

GN spearmanr corr: 0.7817164245392593
British spearmanr corr: 0.7627551934489611


Можно заметить, что модель google-news-vectors несколько выигрывает в данном случае.

# Индивидуальное задание

In [65]:
distance_google = w.distance('media', 'bread')
distance_british = w_british.distance('media_NOUN', 'bread_NOUN')

print(f"Google Model Distance: {distance_google:.3f}")
print(f"British Model Distance: {distance_british:.3f}")

Google Model Distance: 0.839
British Model Distance: 0.886


In [68]:
doesnt_match_g = w.doesnt_match(['media', 'bread', 'cucumber', 'doctor'])
doesnt_match_b = w_british.doesnt_match(['media_NOUN', 'bread_NOUN', 'cucumber_NOUN', 'doctor_NOUN'])

print("Google Model Distance:", doesnt_match_g)
print("British Model Distance:", doesnt_match_b)

Google Model Distance: media
British Model Distance: media_NOUN


In [69]:
s1 = 'chain is only as strong as its weakest link'
s2 = 'Actions speak louder than words'
def vectorize(sentence):
    words = sentence.split()
    sum_vector = [0] * 300 
    for word in words:
        if word in w.key_to_index: 
            word_vector = w[word]
            sum_vector = [sum(x) for x in zip(sum_vector, word_vector)]
    average_vector = [x / len(words) for x in sum_vector]
    return average_vector
vec1 = vectorize(s1)
vec2 = vectorize(s2)

In [71]:
import numpy as np
from scipy.spatial.distance import cosine

s1 = 'chain is only as strong as its weakest link'
s2 = 'Actions speak louder than words'

def vectorize(sentence, model):
    words = sentence.split()
    sum_vector = np.zeros(300)  # Создайте нулевой вектор с размерностью 300
    for word in words:
        if word in model.key_to_index:
            word_vector = model[word]
            sum_vector = np.add(sum_vector, word_vector)
    if len(words) > 0:
        average_vector = np.divide(sum_vector, len(words))
    else:
        average_vector = sum_vector
    return average_vector

# Ваши векторы предложений
vec1 = vectorize(s1, w)
vec2 = vectorize(s2, w)

# Вычислите косинусное расстояние между векторами
cosine_distance = cosine(vec1, vec2)

print(f"Косинусное расстояние между предложениями: {cosine_distance:.3f}")

Косинусное расстояние между предложениями: 0.784


In [114]:
subsample = df.iloc[14:114]

gn_dist, br_dist, scores = [], [], []
def add_stuff(word):
    return word + '_NOUN'

for row in subsample.iterrows():
    
  w1, w2 = row[1]["first"].lower(), row[1]["second"].lower()
    
  try:
        if add_stuff(w1) in w_british.key_to_index and add_stuff(w2) in w_british.key_to_index:
            gn_dist.append(w.similarity(w1, w2))
            br_dist.append(w_british.similarity(add_stuff(w1), add_stuff(w2)))
            scores.append(row[1]["score"])
            
        elif add_stuff(w1) not in w_british.key_to_index:
            print(w1)
        elif add_stuff(w2) not in w_british.key_to_index:
            print(w2)
    
  except KeyError as e:
    print(e, "Skipping this word.")

arafat
harvard
mexico


In [115]:
from scipy.stats import spearmanr

spearman_corr_google = spearmanr(gn_dist, scores)
spearman_corr_british = spearmanr(br_dist, scores)
print("Корреляция Спирмена для модели 'google-news-vectors':", spearman_corr_google.correlation)
print("Корреляция Спирмена для модели 'британский корпус':", spearman_corr_british.correlation)

Корреляция Спирмена для модели 'google-news-vectors': 0.6859410413174328
Корреляция Спирмена для модели 'британский корпус': 0.6460421691947137
