# MVD 3. cvičení

## 1. část - Stažení a načtení předtrénovaných GloVe slovních reprezentací


### Stažení dat

Pro toto cvičení můžete používat předtrénované Word2Vec nebo GloVe vektory. Následující text se vztahuje ke GloVe vektorům, které byly vybrány z důvodu menší velikosti. 

Základní verzi vektorů lze stáhnout [zde (GloVe link)](https://huggingface.co/stanfordnlp/glove/resolve/main/glove.6B.zip).

Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncased, 300d vectors, 822 MB download)

Po rozbalení staženého archivu budete mít několik verzí o různé dimenzi vektorů - 50d, 100d, 200d, 300d. Je doporučeno začít pracovat s nejmenšími vektory a na větších spouštět až závěrečné řešení.

### Načtení dat

Data jsou uložena v textovém souboru, kde je na každém řádku slovo a jeho příslušný vektor.

Načtení je vhodné provést do dvou proměnných -> words, vectors. Words bude list o délce *n* a vectors bude matice o velikosti *(n, d)*. 

Zároveň vytvořte slovník word2idx, pomocí kterého lze získat index libovolného slova (pomocí *word2idx['queen']*).

In [37]:
words = []
vectors = []
word2idx = {}
file = ['glove/glove.6B.50d.txt','glove.6B.100d.txt','glove.6B.200d.txt','glove.6B.300d.txt']
with open(file[0]) as f:
    for idx, line in enumerate(f):
        row = line.split(" ")
        words.append(row[0])
        vectors.append([float(num) for num in row[1:len(row)-1]])
        vectors[-1].extend([float(row[len(row)-1].replace('\n',''))])     
        word2idx[row[0]]=idx

In [None]:
from numpy import dot
import numpy as np
from numpy.linalg import norm

## 2. část - Kosinová podobnost

Vytvořte funkci cossim, která bude vracet kosinovu podobnost dvou vstupních vektorů.

<br>
<center>
$
similarity(a,b) = cos(\theta) = \frac{a \cdot b}{\lVert a \lVert \lVert b \lVert}
$
</center>

In [3]:
def cossim(a,b):
    return dot(a, b)/(norm(a)*norm(b))

## 3. část - Slovní analogie

Nejznámější slovní analogií je z Word2Vec $f("king") - f("man") = f("queen") - f("woman")$

1. Vytvořte skript pro hledání analogií $f("king") - f("man") = f("??") - f("woman")$ a vyzkoušejte i nějaké další.
2. Vypište 5 nejpodobnějších slov

In [19]:
def find_analogy(analogy, words, vectors, n):
    
    vec = [None] * 4
    for idx, word in enumerate(analogy):
        if word == None:
            idx_search_word = idx
            continue
        vec[idx] = np.array(vectors[word2idx[word]])
        
    cos_sim = [float('-inf')] * len(words)
    for idx, w in enumerate(words):
        if w in analogy:
            continue
        vec[idx_search_word] = np.array(vectors[word2idx[w]])
        cos_sim[idx] = cossim(vec[0] - vec[1], vec[2] - vec[3])
    
    idx_top = np.argsort(np.array(cos_sim))[::-1][:n]
    return words[idx_top]

In [23]:
an1 = find_analogy(["king","man", None, "woman"], np.array(words), vectors, 5)
an2 = find_analogy(["day", "night", "saturday", None], np.array(words), vectors, 5)
an3 = find_analogy(["air","plain", None, "boat"], np.array(words), vectors, 5)
an4 = find_analogy(["paris","france", "berlin", None], np.array(words), vectors, 5)
print(an1)
print(an2)
print(an3)
print(an4)

['queen' 'throne' 'sigismund' 'kingdom']
['fate/stay' 'platformed' 'discal' 'subterminal']
['aircraft' 'flight' 'refueling' 'aboard']
['germany' 'denmark' 'slovakia' 'poland']


### Bonus - Vytvořte vizualizaci slovních analogií

Pro získání bonusového bodu je potřeba vytvořit vizualizaci slovních analogií (redukce dimenze + vizualizace).

In [26]:
def find_analogy2(word, words, vectors, n):      
    cos_sim = [float('-inf')] * len(words)
    for idx, w in enumerate(words):
        if w == word:
            continue
        cos_sim[idx] = cossim(np.array(vectors[word2idx[word]]), np.array(vectors[word2idx[w]]))    
    idx_top = np.argsort(np.array(cos_sim))[::-1][:n]
    return words[idx_top]

In [75]:
word = ['woman', 'fire', 'school', 'computer','car']
a = []
vec_a = []
ids = []
for idx, w in enumerate(word):
    an_words = find_analogy2(w,np.array(words), vectors, 5)
    for a_word in an_words:
        vec_a.append(vectors[word2idx[a_word]])
    a.extend(an_words)
    ids.extend([str(w)]*5)


In [76]:
import plotly.express as px
from sklearn.manifold import TSNE

In [77]:
tsne = TSNE(n_components=2, perplexity=4)
x = tsne.fit_transform(vec_a) 

fig = px.scatter(x=x[:,0], y=x[:,1], color = ids, text=a)
fig.update_layout(legend={'title_text':''})