In [143]:
import numpy as np
from gensim.models import KeyedVectors
import operator
from sklearn.manifold import TSNE
import random
import plotly.graph_objects as go

In [6]:
w2c_100_path = './word2vec100/word2vec_100_3_polish.bin'
w2c_300_path = './word2vec300/word2vec_300_3_polish.bin'

In [8]:
w2v_100 = KeyedVectors.load(w2c_100_path)
w2v_300 = KeyedVectors.load(w2c_300_path)

In [165]:
def find_most_similar(word, model, model_name, top_n):
    most_similar = model.wv.most_similar(word, topn=top_n)
    print_most_similar(word, model_name, top_n, most_similar)

def find_most_similar_bigrams(bigram, model, model_name, top_n):
    w1, w2 = bigram.split(' ')
    w1_vec = model.wv.get_vector(w1)
    w2_vec = model.wv.get_vector(w2)
    vec = (w1_vec + w2_vec)/2
    most_similar = model.wv.similar_by_vector(vec, topn=top_n)
    print_most_similar(bigram, model_name, top_n, most_similar)
    
def find_most_similar_equations(equation, model, model_name, top_n):    
    vec = eq2vec(equation, model)
    most_similar = model.wv.similar_by_vector(vec, topn=top_n) 
    print_most_similar(equation, model_name, top_n, most_similar)

def eq2vec(equation, model):
    eq_components = equation.split(' ')
    operands = [eq_components[i] for i in range(1, len(eq_components), 2)]
    factors = [eq_components[i] for i in range(0, len(eq_components), 2)]
    vecs = [model.wv.get_vector(word) for word in factors]
    vec = ops[operands[1]](ops[operands[0]](vecs[0],  vecs[1]), vecs[2])
    return vec

def print_most_similar(word, model_name, top_n, similar_words):
    print(f'\n{top_n} most similar words for {word} using {model_name}')
    for i in range(top_n):
        print(f'\t{i+1}. {similar_words[i]}')
        
        
def make_TSNE_plot(vecs_embedded, highlighted, random_words, title):
    h_len = len(highlighted)
    fig = go.Figure()
    fig.add_trace(
        go.Scatter(
            x=vecs_embedded[h_len:,0],
            y=vecs_embedded[h_len:,1],
            mode='markers',
            name='random',
            text=random_words
        )
    )
    fig.add_trace(
        go.Scatter(
            x=vecs_embedded[:h_len,0],
            y=vecs_embedded[:h_len,1],
            mode='markers',
            name='highlighted',
            text=highlighted
        )
    )
    fig.update_layout(title=title)
    fig.show()

## Using the downloaded models find the most similar words for the following expressions:
* kpk
* szkoda
* wypadek
* kolizja
* nieszczęście
* rozwód

In [79]:
words = ['kpk', 'szkoda', 'wypadek', 'kolizja', 'nieszczęście', 'rozwód']
top_n = 5
for word in words:
    find_most_similar(word, w2v_100, 'w2v_100', top_n)
    find_most_similar(word, w2v_300, 'w2v_300', top_n)
    print('----------------------------------------------------------------')

  most_similar = model.wv.most_similar(word, topn=top_n)



5 most similar words for kpk using w2v_100
	1. ('kilopond', 0.6665806770324707)
	2. ('kpzs', 0.6363496780395508)
	3. ('kpu', 0.6300562024116516)
	4. ('sownarkomu', 0.6254925727844238)
	5. ('wcik', 0.6224358677864075)

5 most similar words for kpk using w2v_300
	1. ('ksh', 0.5774794220924377)
	2. ('cywilnego', 0.5498510599136353)
	3. ('postępowania', 0.5285828113555908)
	4. ('kilopond', 0.5151568055152893)
	5. ('kkkw', 0.48344212770462036)
----------------------------------------------------------------

5 most similar words for szkoda using w2v_100
	1. ('krzywda', 0.6817898750305176)
	2. ('pożytek', 0.6121943593025208)
	3. ('strata', 0.5968126654624939)
	4. ('ryzyko', 0.5745570659637451)
	5. ('uszczerbek', 0.5639551877975464)

5 most similar words for szkoda using w2v_300
	1. ('uszczerbek', 0.6027276515960693)
	2. ('krzywda', 0.5920778512954712)
	3. ('strata', 0.550269365310669)
	4. ('despekt', 0.5382484197616577)
	5. ('pożytek', 0.531347393989563)
------------------------------------

Możemy zobaczyć, że w większości przypadków model stu i trzystu wymiarowy dały bardzo podobne wyniki. W przypadku KPK jednak mniejszy model nie znalazł żadnych sensownych podobnych słów, natomiast większy znalazł chociażby 'cywilnego' i 'postępowania'.

## Find the most similar words for the following expressions (average the representations for each word):
* sąd najwyższy
* trybunał konstytucyjny
* szkoda majątkowy
* kodeks cywilny
* sąd rejonowy

In [74]:
bigrams = ['sąd najwyższy', 'trybunał konstytucyjny', 'szkoda majątkowy', 'kodeks cywilny', 'sąd rejonowy']
top_n = 7

In [80]:
for bigram in bigrams:
    find_most_similar_bigrams(bigram, w2v_100, 'w2v_100', top_n)
    find_most_similar_bigrams(bigram, w2v_300, 'w2v_300', top_n)
    print('----------------------------------------------------------------')

  w1_vec = model.wv.get_vector(w1)
  w2_vec = model.wv.get_vector(w2)
  most_similar = model.wv.similar_by_vector(vec, topn=top_n)



5 most similar words for sąd najwyższy using w2v_100
	1. ('sąd', 0.8644266128540039)
	2. ('trybunał', 0.7672435641288757)
	3. ('najwyższy', 0.7527138590812683)
	4. ('trybunat', 0.6843459010124207)
	5. ('sędzia', 0.6718415021896362)

5 most similar words for sąd najwyższy using w2v_300
	1. ('sąd', 0.8261206150054932)
	2. ('trybunał', 0.711520791053772)
	3. ('najwyższy', 0.7068409323692322)
	4. ('sędzia', 0.6023203730583191)
	5. ('sądowy', 0.5670486688613892)
----------------------------------------------------------------

5 most similar words for trybunał konstytucyjny using w2v_100
	1. ('trybunał', 0.9073251485824585)
	2. ('konstytucyjny', 0.7998723387718201)
	3. ('sąd', 0.7972990274429321)
	4. ('bunał', 0.7729247808456421)
	5. ('senat', 0.7585273385047913)

5 most similar words for trybunał konstytucyjny using w2v_300
	1. ('trybunał', 0.8845913410186768)
	2. ('konstytucyjny', 0.7739969491958618)
	3. ('sąd', 0.7300779819488525)
	4. ('trybunat', 0.6758428812026978)
	5. ('senat', 0.663

W tym przypadku ponownie oba modele dały zadowalające rezultaty, często różniąc się jedynie kolejnością w liście najbardziej podobnych.

## Find the result of the following equations (5 top results, both models):
* sąd + konstytucja - kpk
* pasażer + kobieta - mężczyzna
* pilot + kobieta - mężczyzna
* lekarz + kobieta - mężczyzna
* nauczycielka + mężczyzna - kobieta
* przedszkolanka + mężczyzna - 'kobieta
* samochód + rzeka - droga

In [84]:
equations = ['sąd + konstytucja - kpk', 'pasażer + kobieta - mężczyzna', 'pilot + kobieta - mężczyzna',
             'lekarz + kobieta - mężczyzna' ,'nauczycielka + mężczyzna - kobieta', 
             'przedszkolanka + mężczyzna - kobieta', 'samochód + rzeka - droga']
ops = { "+": operator.add, "-": operator.sub }
top_n = 5

In [108]:
for equation in equations:
    find_most_similar_equations(equation, w2v_100, 'w2v_100', top_n)
    find_most_similar_equations(equation, w2v_300, 'w2v_300', top_n)
    print('----------------------------------------------------------------')

  vecs = [model.wv.get_vector(word) for word in factors]
  most_similar = model.wv.similar_by_vector(vec, topn=top_n)



5 most similar words for sąd + konstytucja - kpk using w2v_100
	1. ('sąd', 0.8484209775924683)
	2. ('konstytucja', 0.8322000503540039)
	3. ('trybunał', 0.7756364345550537)
	4. ('ustawa', 0.768037736415863)
	5. ('dekret', 0.7208969593048096)

5 most similar words for sąd + konstytucja - kpk using w2v_300
	1. ('sąd', 0.8255324363708496)
	2. ('konstytucja', 0.798995852470398)
	3. ('trybunał', 0.7041962146759033)
	4. ('ustawa', 0.6793721914291382)
	5. ('dekret', 0.6163084506988525)
----------------------------------------------------------------

5 most similar words for pasażer + kobieta - mężczyzna using w2v_100
	1. ('pasażer', 0.8446224927902222)
	2. ('pasażerka', 0.722925066947937)
	3. ('stewardessa', 0.629162073135376)
	4. ('stewardesa', 0.6267591714859009)
	5. ('taksówka', 0.6172000765800476)

5 most similar words for pasażer + kobieta - mężczyzna using w2v_300
	1. ('pasażer', 0.794208288192749)
	2. ('pasażerka', 0.6724309325218201)
	3. ('stewardesa', 0.5788161158561707)
	4. ('stewa

W tym bardziej skomplikowanym zadaniu możemy dostrzec większą przewagę modelu o wyższej wymiarowości. Dla przykładu 'pasażer + kobieta - mężczyzna' mniejszy model zamiast 'podróżny' znalazł słowo taksówka gdyż jest ono również rodzaju żeńskiego. Ostatni przypadek ('samochód + rzeka - droga') również na korzyść większego modelu, który znalazł wszystkie słowa powiązane z samochodem, gdy mniejszy znalazł np. 'ponton'

## Using the t-SNE algorithm compute the projection of the random 1000 words with the following words highlighted (both models):
* szkoda
* strata
* uszczerbek
* krzywda
* niesprawiedliwość
* nieszczęście
* kobieta
* mężczyzna
* pasażer
* pasażerka
* student
* studentka
* lekarz
* lekarka

In [209]:
random_vecs_100 = []
random_words_100 = []
random_vecs_300 = []
random_words_300 = []
for i in range(1000):
    w = random.choice(w2v_100.wv.index2entity)
    random_words_100.append(w)
    random_words_300.append(w)
    random_vecs_100.append(w2v_100.wv[w])
    random_vecs_300.append(w2v_300.wv[w])

random_vecs_100 = np.array(random_vecs_100)
random_vecs_300 = np.array(random_vecs_300)
highlighted_words = ['szkoda', 'strata', 'uszczerbek', 'krzywda', 'niesprawiedliwość', 'nieszczęście', 'kobieta', 
         'mężczyzna', 'pasażer', 'pasażerka', 'student', 'studentka', 'lekarz', 'lekarka']


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



In [210]:
highlighted_vecs_100 = [w2v_100.wv.get_vector(word) for word in highlighted_words]
highlighted_vecs_300 = [w2v_300.wv.get_vector(word) for word in highlighted_words]


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



In [211]:
vecs_100 = np.concatenate((highlighted_vecs_100, random_vecs_100))
vecs_300 = np.concatenate((highlighted_vecs_300, random_vecs_300))

In [212]:
vecs_100_embedded = TSNE(n_components=2).fit_transform(vecs_100)
vecs_300_embedded = TSNE(n_components=2).fit_transform(vecs_300)

In [213]:
make_TSNE_plot(vecs_100_embedded, highlighted_words, random_words_100, 'TSNE plot for w2v_100')

In [215]:
make_TSNE_plot(vecs_300_embedded, highlighted_words, random_words_300, 'TSNE plot for w2v_300')

Po zastosowaniu TSNE dla obu modeli mniejszy jest bardziej skupiony w jedną chmurą i nie ma żadncy outlierów, podczas gdy większy również w kształcie chmury posiada jednak mocno oddalone punkty takie jak np.: 'przegrupowanie', 'oblacyjny'. Oba modele uznały, że blisko 'lekarz' i 'lekarka' jest katechetka, natomiast większy model odnalazł jeszcze 'zuzankę', 'katechetkę' i 'faustynki'

## Answer the following questions:
* Compare results for all experiments with respect to the employed models (100 and 300-d)?
Odpowiedzi udzieliłem pod zadaniami.
* Compare results for single words and MWEs.
Dla pojedynczych słów modele znalazły powiązane słowa, synonimy, które w większości miały sens. Dla bigramów natomiast zdarzały się 'dziwne' słowa.
* How the results for MWEs could be improved?
Słabe wyniki dla MWE wynikają z tego, że to narzędzie nie było wyuczone do pracy z tego typu danymi. Możnaby w procesie uczenie dodać do słownika najczęściej występujące w języku kolokację. 
* Are the results for albegraic operations biased?
Tak proste operacje algebraiczne na wektorach o wielu wymiarach, o których nie wiemy czy reprezentują przestrzeń w sposób liniowy mogą mieć nieznany dla nas wpływ na powstały w ten sposób wektor, chociaż uzyskane wyniki sugerują iż takie proste uperacje dają w wybranych przypadkach oczekiwane efekty, ale potrafią też dla 'przedszkolanka + mężczyzna - kobieta' ocenić najbardziej podobne do słowa 'dryblas'.
* According to t-SNE: do representations of similar word cluster together?
Zdecydowanie tak, słowa o podobnym znaczeniu łączą się w grupy, chociażby podane przez nas słowa 'szkoda', 'krzywda' znajdują się bardzo blisko siebie.