# Word embeddings

In [10]:
from gensim.models import KeyedVectors
from sklearn.manifold import TSNE
import numpy as np
import plotly.graph_objects as go
import random

In [11]:
word2vec_100 = KeyedVectors.load("../../word2vec/word2vec_100_3_polish.bin")
word2vec_300 = KeyedVectors.load("../../word2vec_300_3_polish/word2vec_300_3_polish.bin")

### Using the downloaded models find the most similar words for the following expressions:
1. kpk
2. szkoda
3. wypadek
4. kolizja
5. nieszczęście
6. rozwód

In [12]:
words1 = ['kpk', 'szkoda', 'wypadek', 'kolizja', 'nieszczęście', 'rozwód']

In [13]:
for word in words1:
    print(word + '   word2vec_100_dim:')
    print(word2vec_100.wv.similar_by_word(word)[:5])
    
    print(word + '   word2vec_300_dim:')
    print(word2vec_300.wv.similar_by_word(word)[:5])
    print('\n')

kpk   word2vec_100_dim:



Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).


invalid value encountered in true_divide



[('kilopond', 0.6665806770324707), ('kpzs', 0.6363496780395508), ('kpu', 0.6300562024116516), ('sownarkomu', 0.6254925727844238), ('wcik', 0.6224358677864075)]
kpk   word2vec_300_dim:
[('ksh', 0.5774794220924377), ('cywilnego', 0.5498510599136353), ('postępowania', 0.5285828113555908), ('kilopond', 0.5151568055152893), ('kkkw', 0.48344212770462036)]


szkoda   word2vec_100_dim:
[('krzywda', 0.6817898750305176), ('pożytek', 0.6121943593025208), ('strata', 0.5968126654624939), ('ryzyko', 0.5745570659637451), ('uszczerbek', 0.5639551877975464)]
szkoda   word2vec_300_dim:
[('uszczerbek', 0.6027276515960693), ('krzywda', 0.5920778512954712), ('strata', 0.550269365310669), ('despekt', 0.5382484197616577), ('pożytek', 0.531347393989563)]


wypadek   word2vec_100_dim:
[('przypadek', 0.7544811964035034), ('okoliczności', 0.7268072366714478), ('padku', 0.6788284182548523), ('incydent', 0.6418948173522949), ('zdarzenie', 0.6114422082901001)]
wypadek   word2vec_300_dim:
[('przypadek', 0.7066895961

### Find the most similar words for the following expressions (average the representations for each word):
1. sąd najwyższy
2. trybunał konstytucyjny
3. szkoda majątkowy
4. kodeks cywilny
5. sąd rejonowy

In [14]:
words2 = ['sąd najwyższy', 'trybunał konstytucyjny', 'szkoda majątkowy', 'kodeks cywilny', 'sąd rejonowy']

In [15]:
for word in words2:
    words = word.split(' ')
    
    vectors100 = [word2vec_100.wv.get_vector(w) for w in words]
    mean_vec100 = sum(vectors100)/2
    
    print(word + '     word2vec_100_dim:')
    print(word2vec_100.wv.similar_by_vector(mean_vec100)[:7])
    
    vectors300 = [word2vec_300.wv.get_vector(w) for w in words]
    mean_vec300 = sum(vectors300)/2
    
    print(word + '     word2vec_300_dim:')
    print(word2vec_300.wv.similar_by_vector(mean_vec300)[:7])
    print('\n')

sąd najwyższy     word2vec_100_dim:
[('sąd', 0.8644266128540039), ('trybunał', 0.7672435641288757), ('najwyższy', 0.7527138590812683), ('trybunat', 0.6843459010124207), ('sędzia', 0.6718415021896362), ('areopag', 0.6571060419082642), ('sprawiedliwość', 0.6562486886978149)]



Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



sąd najwyższy     word2vec_300_dim:
[('sąd', 0.8261206150054932), ('trybunał', 0.711520791053772), ('najwyższy', 0.7068409323692322), ('sędzia', 0.6023203730583191), ('sądowy', 0.5670486688613892), ('trybunat', 0.5525928735733032), ('sprawiedliwość', 0.5319530367851257)]


trybunał konstytucyjny     word2vec_100_dim:
[('trybunał', 0.9073251485824585), ('konstytucyjny', 0.7998723387718201), ('sąd', 0.7972990274429321), ('bunał', 0.7729247808456421), ('senat', 0.7585273385047913), ('bunału', 0.7441976070404053), ('trybunat', 0.7347140908241272)]
trybunał konstytucyjny     word2vec_300_dim:
[('trybunał', 0.8845913410186768), ('konstytucyjny', 0.7739969491958618), ('sąd', 0.7300779819488525), ('trybunat', 0.6758428812026978), ('senat', 0.6632090210914612), ('parlament', 0.6614581346511841), ('bunału', 0.6404117941856384)]


szkoda majątkowy     word2vec_100_dim:
[('szkoda', 0.8172438144683838), ('majątkowy', 0.7424530386924744), ('krzywda', 0.6498408317565918), ('świadczenie', 0.6419471502

### Find the result of the following equations (5 top results, both models):
1. sąd + konstytucja - kpk
2. pasażer + kobieta - mężczyzna
3. pilot + kobieta - mężczyzna
4. lekarz + kobieta - mężczyzna
5. nauczycielka + mężczyzna - kobieta
6. przedszkolanka + mężczyzna - 'kobieta
7. samochód + rzeka - droga

In [16]:
equations = ['sąd + konstytucja - kpk', 'pasażer + kobieta - mężczyzna', 
             'pilot + kobieta - mężczyzna', 'lekarz + kobieta - mężczyzna',
            'nauczycielka + mężczyzna - kobieta', 'przedszkolanka + mężczyzna - kobieta',
            'samochód + rzeka - droga']

In [24]:
def solve(vec1, op, vec2):
    if op == '+':
        result = vec1 + vec2
    elif op == '-':
        result = vec1 - vec2
    return result

In [26]:
for equation in equations:
    words_ops = equation.split(' ')
    words = [val for val in words_ops if len(val) != 1]
        
    vectors100 = []
    vectors300 = []
    operators = []
    
    for val in words_ops:
        if val in words:
            vec100 = word2vec_100.wv.get_vector(val)
            vec300 = word2vec_300.wv.get_vector(val)
            vectors100.append(vec100)
            vectors300.append(vec300)
        else:
            operators.append(val)
            
    eq_vec100 = solve(solve(vectors100[0], operators[0], vectors100[1]), operators[1], vectors100[2])
    eq_vec300 = solve(solve(vectors300[0], operators[0], vectors300[1]), operators[1], vectors300[2])
    
    print(equation + '     word2vec_100_dim:')
    print(word2vec_100.wv.similar_by_vector(eq_vec100)[:5])
    
    print(equation + '     word2vec_300_dim:')
    print(word2vec_300.wv.similar_by_vector(eq_vec300)[:5])
    
    print('\n')


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



sąd + konstytucja - kpk     word2vec_100_dim:
[('sąd', 0.8484209775924683), ('konstytucja', 0.8322000503540039), ('trybunał', 0.7756364345550537), ('ustawa', 0.768037736415863), ('dekret', 0.7208969593048096)]
sąd + konstytucja - kpk     word2vec_300_dim:
[('sąd', 0.8255324363708496), ('konstytucja', 0.798995852470398), ('trybunał', 0.7041962146759033), ('ustawa', 0.6793721914291382), ('dekret', 0.6163084506988525)]


pasażer + kobieta - mężczyzna     word2vec_100_dim:
[('pasażer', 0.8446224927902222), ('pasażerka', 0.722925066947937), ('stewardessa', 0.629162073135376), ('stewardesa', 0.6267591714859009), ('taksówka', 0.6172000765800476)]
pasażer + kobieta - mężczyzna     word2vec_300_dim:
[('pasażer', 0.794208288192749), ('pasażerka', 0.6724309325218201), ('stewardesa', 0.5788161158561707), ('stewardessa', 0.563020646572113), ('podróżny', 0.4986627697944641)]


pilot + kobieta - mężczyzna     word2vec_100_dim:
[('pilot', 0.7940387725830078), ('nawigator', 0.6515690088272095), ('pilot

### Using the t-SNE algorithm compute the projection of the random 1000 words with the following words highlighted (both models):
1. szkoda
2. strata
3. uszczerbek
4. krzywda
5. niesprawiedliwość
6. nieszczęście
7. kobieta
8. mężczyzna
9. pasażer
10. pasażerka
11. student
12. studentka
13. lekarz
14. lekarka

In [27]:
highlited = ['szkoda', 'strata', 'uszczerbek', 'krzywda', 'niesprawiedliwość', 'nieszczęście', 'kobieta',
            'mężczyzna', 'pasażer', 'pasażerka', 'student', 'studentka', 'lekarz', 'lekarka']

In [28]:
vec100_highlited = [word2vec_100.wv.get_vector(word) for word in highlited]
vec300_highlited = [word2vec_300.wv.get_vector(word) for word in highlited]


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



In [36]:
words_random = random.sample(word2vec_100.wv.index2word,1000)

vec100_random = [word2vec_100.wv.get_vector(word) for word in words_random]
vec300_random = [word2vec_300.wv.get_vector(word) for word in words_random]


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).


Call to deprecated `wv` (Attribute will be removed in 4.0.0, use self instead).



In [37]:
X100 = np.concatenate((vec100_highlited, vec100_random), axis=0)
X300 = np.concatenate((vec300_highlited, vec300_random), axis=0)

In [38]:
X100_embedded = TSNE(n_components=2).fit_transform(X100) # przykład ze strony biblioteki 
print(X100_embedded.shape)

X300_embedded = TSNE(n_components=2).fit_transform(X300)
print(X300_embedded.shape)

(1014, 2)
(1014, 2)


In [51]:
def project_TSNE(X, texts_highlited, texts_random):
    x = [x for x, y in X]
    y = [y for x, y in X]

    fig = go.Figure()
    fig.add_trace(go.Scatter(mode='markers',x=x[:len(texts_highlited)], y=y[:len(texts_highlited)], 
                             text=texts_highlited, 
                             marker=dict(
                                 color='blue',
                                 size=10,
                                 line=dict(
                                     color='white',
                                     width=2
                                 )
                             ))
                 )
    fig.add_trace(go.Scatter(mode='markers',x=x[len(texts_highlited):], y=y[len(texts_highlited):], 
                             text=texts_random))
    fig.show()

Wykresy są narysowane w plotly i mogą się nie wyświetlać poprawnie. Można je zobaczyć tutaj: 
https://nbviewer.jupyter.org/github/JuliaZur/Natural-Language-Processing-Course/blob/master/lab7/lab7.ipynb

In [52]:
project_TSNE(X100_embedded,highlited, words_random)

In [53]:
project_TSNE(X300_embedded, highlited, words_random)

## Answer the following questions:

### Compare results for all experiments with respect to the employed models (100 and 300-d)?

W zad.1 przy porównaniu synonimów do zadanych słów można zauważyć, że wartość podobieństwa w modelu 100d jest zawsze większa niż w 300d. Ponadto znalezione słowa w 100d są zwykle związane z oryginałem w dowolny sposób np. rozwód - ślub w przypadku 100d ma największe podobieństwo, a w 300d rozwód - separacja. W 300d częściej najpierw pojawiał się synonim, a w 100d albo synonim albo antonim.

W zad.2 przy szukaniu synonimów do wyrażeń zwykle w wszystkich przypadkach oba modele znajdowały słowa składowe tego wyrażenia, ale np. w przypadku 'kodeks cywilny' znalazły się też dziwne, nieistniejące słowa. Oba modele zwracały podobne słowa, ale znów 100d z większą wartością podobieństwa.

W zad.3 przy szukaniu synonimów do równań wyniki nie były takie jak oczekiwano, ale zwykle w obu modelach pojawiało się w końcu oczekiwane słowo np. pilot + kobieta - mężczyzna powinno pojawić się pilotka. W 100d pojawiło się na miejscu 3, a w 300d na miejscu 2. W wynikach równań znajdują się też słowa, które były sumowane, ale nie ma słów, które były odejmowane. 

W zad.4 na wykresie słów wybranych i randomowych można zauważyć, że w obu modelach słowa wybrane zostały zgrupowane tak jak można było przypuszczać, czyli mężczyzna-kobieta, student-studentka itd., ale te same słowa są w różnych miejscach wykresów, przyjmują one różne wartości względem modelu. W obu modelach słowa randomowe są takie same, były losowane tylko raz, a więcej słów zostało odsuniętę od głównej chmury w przypadku modelu 300d. W modelu 100d jedyne wyraźnie odsunięte słowo to 'dekapitacja', które nie zostało tak wyraźnie odsunięte w modelu 300d. Słowa losowe często nie są zwykłymi wyrazami, ale to wada słownika.

### Compare results for single words and MWEs.

Bardziej sensowne słowa w przypadku obu modelów wychodziły w pojedynczych słowach. Można przypuszczać, że wektor tworzący wyrażenie to nie jest taka prosta suma wektorów słów go tworzących. W wynikach wyrażeń nie znajdowały się synonimy tylko słowa tworzące to wyrażenie.

### How the results for MWEs could be improved?

Można zastosować np. metodę obliczania podobieństwa wektorów opartą o cosinus pomiędzy wektorami. Wówczas wyniki powinny być bardziej sensowne.

### Are the results for algebraic operations biased?

W znalezionych synonimach zwykle znajdują się oczekiwane wyniki np. nauczycielka + mężczyzna - kobieta zwróciło nauczyciel, ale też wiele innych słów między innymi tworzących to równanie albo zupełnie niezwiązanych np. przedszkolanka + mężczyzna - kobieta zwróciło dryblas.

### According to t-SNE: do representations of similar word cluster together?

Tak. W przypadku słów wyróżnionych np. mężczyzna-kobieta, lekarz-lekarka są blisko na wykresie.

Wykresy są narysowane w plotly i mogą się nie wyświetlać poprawnie. Można je zobaczyć tutaj: 
https://nbviewer.jupyter.org/github/JuliaZur/Natural-Language-Processing-Course/blob/master/lab7/lab7.ipynb