In [1]:
import numpy as np
import tensorflow as tf
from IPython import display
from scipy.spatial.distance import cosine
import json

In [2]:
endings = ['ություն', 'ության', 'ությամբ', 'ներ', 'ով', 'եր', 'իկ', '-' 'ը', 'ի', 'ն']
endings = sorted(endings, key=len)[::-1]

def dissect_word(word):
    ans = []
    repeat_while=True
    flag_one=False
    
    for _ in range(5):
        repeat_loop = False
        
        for e in endings:
            if word[-len(e):] == e:
                repeat_loop=True
                        
                ans.append(e)
                word = word[:-len(e)]
                break
                
        if not repeat_loop:
            break
    
    if word!='':
        if 'չ' == word[0]:
            ans.append(word[1:])
            ans.append('չ')
        elif 'ան' == word[:2]:
            ans.append(word[2:])
            ans.append('ան')
        else:
            ans.append(word)
            
    return  ans[::-1]

In [14]:
# Opening JSON file
f = open('embeddings_e0_w600000.json')
embeddings = json.load(f)
f.close()

In [4]:
def find_related(word, cnt=10):
    """
    prints top 'cnt' similar and opposite vectors
    """
    word = dissect_word(word)   # to disect the word and combine parts together
    vectr = np.array(embeddings[word[0]])
    for sub_word in word[1:]:
        vectr += np.array(embeddings[sub_word])
    cos_dist=dict()
    for k, v in embeddings.items():
        cos_dist[k] = 1-cosine(vectr, v) # cosine similarity from cos_distance
        
    cos_dist = sorted(cos_dist.items(), key = lambda x: -x[1]) # sort in discending order
    print('similar vecotrs:')
    for i in cos_dist[:cnt]:
        print(i)
    
    print('opposite vecotrs:')
    for i in cos_dist[-cnt:]:
        print(i)

## here is the testing space

In [20]:
find_related('խաղաղ')

similar vecotrs:
('խաղաղ', 1)
('զիտո', 0.601878226279911)
('ռսմխ', 0.5870607354938415)
('մասնավորապես', 0.5696120373735581)
('ճարակ', 0.5687900103257683)
('հասիչե', 0.5641523306107072)
('ամէ-ից', 0.5605492299273078)
('eurofighter', 0.5573050345755589)
('հակադրությունը', 0.5554203518327435)
('գահաժառանգ', 0.5541676038622441)
opposite vecotrs:
('հավասարվեց', -0.5477733352719603)
('ազատազրկմանը', -0.5516038747876109)
('աորտա', -0.5536091193810837)
('խօսքը', -0.5556146559144013)
('էքսկուրսիա', -0.5566604260197603)
('ընկերանում', -0.5635630048224676)
('հավասարակշռված', -0.5704496607656977)
('դոմիկներում', -0.5839564331307463)
('vi-', -0.6244664208504687)
('խոջալու', -0.6433016849973463)


#### 'ի' ending should be appearing more frequently with attachable words and less so with non attachable

In [19]:
find_related('ի')

similar vecotrs:
('ի', 1)
('սոկրատ', 0.6167570750261351)
('բեռնափոխադրում', 0.5943570836088017)
('կանչվ', 0.5922826110366967)
('թարանթ', 0.5852966403429031)
('իրականանալու', 0.5767196473331051)
('հրապարա', 0.5629745883992665)
('ցուցաբերված', 0.5496519904629815)
('հայցադիմում', 0.5391857805834193)
('բազրիք', 0.5374481291272326)
opposite vecotrs:
('սրբապիղծները', -0.5354934411586871)
('sep', -0.5384111085555943)
('գողգոթա', -0.5398924505624425)
('ջեբեջյա', -0.5514890662645535)
('սաբուրթալոյ', -0.5539160825412393)
('ենթարկ', -0.5558287453810802)
('ավտոներկրում', -0.5603643781064083)
('գորայքում', -0.5623630201994358)
('քասիմ_ժոմարտ_տոկաևը', -0.6120098665458853)
('ձնագնդ', -0.6150480969457643)
