# NLP
# Lab 7 - Word embeddings

In [38]:
from gensim.models import KeyedVectors
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt

In [39]:
import warnings
warnings.simplefilter('ignore')

#### Zadanie 2.

In [40]:
embeddings_100d = KeyedVectors.load('word2vec_100_3_polish.bin')
embeddings_300d = KeyedVectors.load('word2vec_300_3_polish.bin')

In [41]:
def print_results(results):
    for word, score in results:
        print('\t\t{} ({})'.format(word, score))

#### Zadania 3. i 4.

In [42]:
def show_most_similar_words(model, expression, title):
    print('\t{}'.format(title))
    print_results(model.most_similar(positive=[expression])[:5])

print('Most similar words\n')
for word in ['kpk', 'szkoda', 'wypadek', 'kolizja', 'nieszczęście', 'rozwód']:
    print(word)
    show_most_similar_words(embeddings_100d, word, '100 dimensions')
    show_most_similar_words(embeddings_300d, word, '300 dimensions')
    print()

Most similar words

kpk
	100 dimensions
		kilopond (0.6665806770324707)
		kpzs (0.6363496780395508)
		kpu (0.6300562024116516)
		sownarkomu (0.6254925727844238)
		wcik (0.6224358677864075)
	300 dimensions
		ksh (0.5774794220924377)
		cywilnego (0.5498510599136353)
		postępowania (0.5285828113555908)
		kilopond (0.5151568055152893)
		kkkw (0.48344212770462036)

szkoda
	100 dimensions
		krzywda (0.6817898750305176)
		pożytek (0.6121943593025208)
		strata (0.5968126654624939)
		ryzyko (0.5745570659637451)
		uszczerbek (0.5639551877975464)
	300 dimensions
		uszczerbek (0.6027276515960693)
		krzywda (0.5920778512954712)
		strata (0.550269365310669)
		despekt (0.5382484197616577)
		pożytek (0.531347393989563)

wypadek
	100 dimensions
		przypadek (0.7544811964035034)
		okoliczności (0.7268072366714478)
		padku (0.6788284182548523)
		incydent (0.6418948173522949)
		zdarzenie (0.6114422082901001)
	300 dimensions
		przypadek (0.7066895961761475)
		okoliczności (0.6121077537536621)
		padku (0.605

#### Zadania 5. i 6.

In [43]:
def show_most_similar_words_for_two_word_expr(model, expression, title):
    print('\t{}'.format(title))
    first_word, second_word = expression.split()
    result = np.array([np.mean(k) for k in zip(np.array(model[first_word]), np.array(model[second_word]))])
    print_results(model.similar_by_vector(result)[:7])

print('Most similar words for two-word expressions\n')
for expression in ['sąd najwyższy', 'trybunał konstytucyjny', 'szkoda majątkowy', 'kodeks cywilny', 'sąd rejonowy']:
    print(expression)
    show_most_similar_words_for_two_word_expr(embeddings_100d, expression, '100 dimensions')
    show_most_similar_words_for_two_word_expr(embeddings_300d, expression, '300 dimensions')
    print()

Most similar words for two-word expressions

sąd najwyższy
	100 dimensions
		sąd (0.8644266128540039)
		trybunał (0.7672435641288757)
		najwyższy (0.7527138590812683)
		trybunat (0.6843459010124207)
		sędzia (0.6718415021896362)
		areopag (0.6571060419082642)
		sprawiedliwość (0.6562486886978149)
	300 dimensions
		sąd (0.8261206150054932)
		trybunał (0.711520791053772)
		najwyższy (0.7068409323692322)
		sędzia (0.6023203730583191)
		sądowy (0.5670486688613892)
		trybunat (0.5525928735733032)
		sprawiedliwość (0.5319530367851257)

trybunał konstytucyjny
	100 dimensions
		trybunał (0.9073251485824585)
		konstytucyjny (0.7998723387718201)
		sąd (0.7972990274429321)
		bunał (0.7729247808456421)
		senat (0.7585273385047913)
		bunału (0.7441976070404053)
		trybunat (0.7347140908241272)
	300 dimensions
		trybunał (0.8845913410186768)
		konstytucyjny (0.7739969491958618)
		sąd (0.7300779819488525)
		trybunat (0.6758428812026978)
		senat (0.6632090210914612)
		parlament (0.6614581346511841)
		b

#### Zadanie 7.

In [44]:
def show_equation_results(model, positive, negative, title):
    print('\t{}'.format(title))
    result = model.most_similar(positive=positive, negative=negative)
    print_results(result[:5])

for positive, negative in [(['sąd', 'konstytucja'], ['kpk']),
             (['pasażer', 'kobieta'], ['mężczyzna']),
             (['pilot', 'kobieta'], ['mężczyzna']),
             (['lekarz', 'kobieta'], ['mężczyzna']),
             (['nauczycielka', 'mężczyzna'], ['kobieta']),
             (['przedszkolanka', 'mężczyzna'], ['kobieta']),
             (['samochód', 'rzeka'], ['droga'])]:
    print('{} + {} - {}'.format(positive[0], positive[1], negative[0]))
    show_equation_results(embeddings_100d, positive, negative, '100 dimensions')
    show_equation_results(embeddings_300d, positive, negative, '300 dimensions')
    print()

sąd + konstytucja - kpk
	100 dimensions
		trybunał (0.6436409950256348)
		ustawa (0.6028786897659302)
		elekcja (0.5823959112167358)
		deklaracja (0.5771891474723816)
		dekret (0.5759621262550354)
	300 dimensions
		trybunał (0.5860734581947327)
		senat (0.5112544298171997)
		ustawa (0.5023636817932129)
		dekret (0.48704710602760315)
		władza (0.4868926703929901)

pasażer + kobieta - mężczyzna
	100 dimensions
		pasażerka (0.7234811186790466)
		stewardessa (0.6305270195007324)
		stewardesa (0.6282645463943481)
		taksówka (0.619726300239563)
		podróżny (0.614517092704773)
	300 dimensions
		pasażerka (0.6741673946380615)
		stewardesa (0.5810248255729675)
		stewardessa (0.5653151273727417)
		podróżny (0.5060371160507202)
		pasażerski (0.4896503686904907)

pilot + kobieta - mężczyzna
	100 dimensions
		nawigator (0.6925703287124634)
		oblatywacz (0.6686224937438965)
		lotnik (0.6569937467575073)
		pilotka (0.6518791913986206)
		awionetka (0.6428645849227905)
	300 dimensions
		pilotka (0.61082

#### Zadanie 8.
Obrazy z wynikami wizualizacji, ze względu na swoje rozmiary, znajdują się w załączonych plikach png.

In [48]:
def visualize(model, words, im_title):
    random_words = np.random.choice(list(model.wv.vocab), 1000)
    words = np.concatenate((words, random_words))
    tsne = TSNE(perplexity=15, n_components=2, init='pca', n_iter=3500, random_state=32)
    results = np.transpose(tsne.fit_transform([model[word] for word in words]))

    plt.figure(figsize=(28, 28))
    x, y = results[0], results[1]
    for ind, word in enumerate(words):
        plt.scatter(x[ind], y[ind], c='red' if ind < 14 else 'blue', s=30, alpha=0.3)
        plt.annotate(word, (x[ind], y[ind]), ha='center', size=10)        
    plt.savefig(im_title)
    plt.clf()

words = np.array(['szkoda', 'strata', 'uszczerbek', 'krzywda', 'niesprawiedliwość', 'nieszczęście', 'kobieta',
                  'mężczyzna', 'pasażer', 'pasażerka', 'student', 'studentka', 'lekarz', 'lekarka'])
visualize(embeddings_100d, words, 'tsne_100d.png')
visualize(embeddings_300d, words, 'tsne_300d.png')

<Figure size 2016x2016 with 0 Axes>

<Figure size 2016x2016 with 0 Axes>

#### Zadanie 9.
W większości przypadków wyniki zastosowania modelu 100-wymiarowego i 300-wymiarowego były podobne, chociaż dla niektórych wyrażeń nieco lepiej poradził sobie model o większej ilości wymiarów. Dla słowa *nieszczęście* model 100-wymiarowy jako najlepsze dopasowanie zwrócił słowo *niebezpieczeństwo* pomimo, że kolejne wyniki w rzeczywistości są bardziej zbliżone do *nieszczęście*. Model 300-wymiarowy nie popełnił tego błędu. Także w przypadku niektórych równań większa ilość wymiarów przełożyła się na lepsze wyniki. Przykładami są *nauczycielka + mężczyzna - kobieta* oraz *pilot + kobieta - mężczyzna*, gdzie najwięcej punktów przy zastosowaniu 300 wymiarów uzyskały odpowiednio słowa *nauczyciel* i *pilotka*, natomiast dla 100 wymiarów słowa te, będące najbardziej oczywistymi wynikami, znalazły się na dalszych pozycjach.  
W przypadku multiword expressions pierwszymi wynikami były słowa, z których te wyrażenia się składały. Patrząc na dalsze miejsca, podobnie jak w przypadku pojedynczych słów, nieco lepsze dopasowania uzyskiwane były dla modelu o 300 wymiarach, jednak tutaj różnice te były bardzo niewielkie. Oba modele popełniły błędy, np. w przypadku wyrażenia *szkoda majątkowy* w wynikach pojawiły się *dochód* (100d) i *korzyść* (300d). Uwagę zwraca tutaj wynik dla wyrażenia *kodeks cywilny* z użyciem 300-wymiarowego modelu. W zbiorze słów podobnych pojawiły się *isps* oraz *jōei*, co może wskazywać na zbyt dużą czułość modelu.