# Comparing various models

In [11]:
import floret
import numpy as np
from scipy.spatial.distance import cosine

## Wikipedia model

In [2]:
model_fl = floret.load_model("../models/floret/huwiki/huwiki_vectors.bin")

## Cosine similarity

In [19]:
wd1 = model_fl.get_word_vector("Inkommenzurábilitás")
wd2 = model_fl.get_word_vector("Hermeneutika")
wd3 = model_fl.get_word_vector("Filozófia")
sim1 = cosine(wd1, wd2)
sim2 = cosine(wd1, wd3)
sim3 = cosine(wd2, wd3)
print(sim1, sim2, sim3)

0.507045179605484 0.5562061369419098 0.45666956901550293


## Most similar items
floret -> get_nearest_neighbors

In [4]:
model_fl.get_nearest_neighbors("Magyarorszag")

[(0.7813050150871277, 'Magyarországé'),
 (0.7762925624847412, 'Magyarországön'),
 (0.7649583220481873, 'Magyarországa'),
 (0.7624815702438354, 'Magyarországig'),
 (0.7506111264228821, 'Magyarországi'),
 (0.75035160779953, 'Magyarországnyi'),
 (0.7415648698806763, 'Magyarországának'),
 (0.736070990562439, 'Délmagyarországi'),
 (0.7340536713600159, 'Délmagyarország'),
 (0.7330708503723145, 'Magyarországnál')]

## Analogies

In [4]:
model_fl.get_analogies("Magyarország", "Budapest", "Németország")

[(0.7659695744514465, 'Poroszország'),
 (0.7605623006820679, 'Tótország'),
 (0.7517486214637756, 'Cukorország'),
 (0.748487651348114, 'Sohaország'),
 (0.733657956123352, 'Hátország'),
 (0.7332642674446106, 'Németországnak'),
 (0.7276715636253357, 'Bolgárország'),
 (0.7275689244270325, 'anyaország'),
 (0.7255746722221375, 'Írország'),
 (0.7250489592552185, 'Szászország')]

## Odd one out

In [8]:
wd1 = model_fl.get_word_vector("Magyarország")
wd2 = model_fl.get_word_vector("Románia")
wd3 = model_fl.get_word_vector("Írország")
wd4 = model_fl.get_word_vector("Kolumbia")

In [17]:
mean_v = np.mean(np.asarray([wd1, wd2, wd3, wd4]), axis=0)
dists = [abs(cosine(e, mean_v)) for e in [wd1, wd2, wd3, wd4]]
mdist = max(dists)
midx = dists.index(mdist)
print(midx) # -> 3, Kolumbia

3
