# Using ESTNLTK WordNet module to find similarities 

In WordNet module there is three different path based similarity measures defined: Leacock & Chodorow (lch), Wu & Palmer (wup) and simple path similarity. All of these are used to calculate the similarity. First all the possible senses are found for the concepts and then the highest similarity is used as a similarity. 

## Imports

In [1]:
from estnltk.wordnet import wn
import pandas as pd

## Loading the SimLex-999 Data Set

In [4]:

file_name = "SimLex-999-eng-est.xlsx"
data = pd.read_excel(file_name)
data.head()

Unnamed: 0,word 1,word 2,sõna 1,sõna 2,POS,SimLex999,conc(w1),conc(w2),concQ,Assoc(USF),SimAssoc333,SD(SimLex),Average
0,old,new,vana,uus,A,1.58,2.72,2.81,2,7.25,1,0.41,0.0
1,smart,intelligent,tark,intelligentne,A,9.2,1.75,2.46,1,7.11,1,0.67,9.0
2,hard,difficult,kõva,raske,A,8.77,3.76,2.21,2,5.94,1,1.19,1.5
3,happy,cheerful,õnnelik,rõõmsameelne,A,9.55,2.56,2.34,1,5.85,1,2.18,9.25
4,hard,easy,kõva,lihtne,A,0.95,3.76,2.07,2,5.82,1,0.93,0.0


## Defining the methods

In [5]:
def findMax(ws1, ws2):
    lch, path,wup = [0], [0], [0]
    for w1 in ws1: 
        for w2 in ws2: 
            lch_s = w1.lch_similarity(w2)
            path_s = w1.path_similarity(w2)
            wup_s = w1.wup_similarity(w2)
            
            if lch_s != None: 
                lch.append(lch_s)
            if path_s != None: 
                path.append(path_s)
            if wup_s != None:
                wup.append(wup_s)
    return {"lch":max(lch), "path":max(path), "wup":max(wup)}

## Finding the similarity and saving these to excel file

In [6]:
df4 = pd.DataFrame(columns=["word1", "word2","Sõna1", "Sõna2", "SimLex999", "path_sim", "lch_similarity", "wup_similarity"])

for index, row in data.iterrows():
    word1 = row["sõna 1"].lower().strip()
    word2 = row["sõna 2"].lower().strip()
    
    eword1 = row["word 1"]
    eword2 = row["word 2"]
    simlex = row["SimLex999"]
    if row["POS"] == "N":
        w1_senses = wn.synsets(word1, pos=wn.NOUN)
        w2_senses = wn.synsets(word2, pos=wn.NOUN)
        sims = findMax(w1_senses, w2_senses)
        path = sims.get("path")
        lch = sims.get("lch")
        wup= sims.get("wup")
        print(sims)
        if path!= None:
            df4 = df4.append({"word1":eword1, "word2": eword2,"Sõna1":word1, "Sõna2":word2,"w1_senses":w1_senses, "w2_senses":w2_senses, "SimLex999":simlex, "path_sim":path, "lch_similarity":lch, "wup_similarity":wup }, ignore_index=True)


    elif row["POS"] == "V":
        w1_senses = wn.synsets(eword1, pos=wn.VERB)
        w2_senses = wn.synsets(eword2, pos=wn.VERB)
        sims = findMax(w1_senses, w2_senses)
        path = sims.get("path")
        lch = sims.get("lch")
        wup= sims.get("wup")

        if path!= None:
            df4 = df4.append({"word1":eword1, "word2": eword2,"Sõna1":word1, "Sõna2":word2,"w1_senses":w1_senses, "w2_senses":w2_senses, "SimLex999":simlex, "path_sim":path, "lch_similarity":lch, "wup_similarity":wup}, ignore_index=True)

{'lch': 3.258096538021482, 'path': 1.0, 'wup': 0.8333333333333334}
{'lch': 0.9555114450274363, 'path': 0.1, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 0.8602012652231115, 'path': 0.09090909090909091, 'wup': 0.2857142857142857}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.8695652173913043}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.6}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.6666666666666666}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.5}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8333333333333334}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.7692307692307693}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.8695652173913043}
{'lc

{'lch': 0.262364264467491, 'path': 0.05, 'wup': 0}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.6666666666666666}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.875}
{'lch': 0.9555114450274363, 'path': 0.1, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8333333333333334}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 1.0608719606852628, 'path': 0.1111111111111111, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.6666666666666666}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.46153846153846156}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8333333333333334}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.36363636363636365}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 1.3121863889661687, 'path': 0.14285714285714285, 'wup': 0.5}
{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 

{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.7272727272727273}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.875}
{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.8}
{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.7692307692307693}
{'lch': 0.6190392084062235, 'path': 0.07142857142857142, 'wup': 0}
{'lch': 2.5649493574615367, 'path': 0.5, 'wup': 0.6666666666666666}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.5}
{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.5714285714285714}
{'lch': 3.258096538021482, 'path': 1.0, 'wup': 0.875}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.7142857142857143}
{'lch': 1.0608719606852628, 'path': 0.1111111111111111, 'wup': 0.3333333333333333}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.5}
{'lch': 0.6931471805599453, 'path': 0.07692307692307693, 'wup': 0}
{'lch': 1.466337068793427, 'path': 0.1666666

{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.7692307692307693}
{'lch': 0.8602012652231115, 'path': 0.09090909090909091, 'wup': 0.375}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.36363636363636365}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 1.0608719606852628, 'path': 0.1111111111111111, 'wup': 0.3333333333333333}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 0.6931471805599453, 'path': 0.07692307692307693, 'wup': 0}
{'lch': 0.6931471805599453, 'path': 0.07692307692307693, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8333333333333334}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.46153846153846156}
{'lch': 1.3121863889661687, 'path': 0.14285714285714285, 'wup': 0.46153846153846156}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.7142857142857143}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.71428571428571

{'lch': 1.8718021769015913, 'path': 0.25, 'wup': 0.4444444444444444}
{'lch': 0.8602012652231115, 'path': 0.09090909090909091, 'wup': 0}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.6}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.6}
{'lch': 1.466337068793427, 'path': 0.16666666666666666, 'wup': 0.6666666666666666}
{'lch': 0.8602012652231115, 'path': 0.09090909090909091, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.75}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.36363636363636365}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8333333333333334}
{'lch': 0.262364264467491, 'path': 0.05, 'wup': 0}
{'lch': 1.0608719606852628, 'path': 0.1111111111111111, 'wup': 0.3333333333333333}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 2.159484249353372, 'path': 0.3333333333333333, 'wup': 0.8}
{'lch': 1.3121863889661687, 'path': 0.14285714285714285, 'wup': 0.4}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.36363636363636365}
{'lch': 1.4663

{'lch': 0.5500463369192721, 'path': 0.06666666666666667, 'wup': 0}
{'lch': 0, 'path': 0.022222222222222223, 'wup': 0}
{'lch': 0.6190392084062235, 'path': 0.07142857142857142, 'wup': 0}
{'lch': 0.7731898882334817, 'path': 0.08333333333333333, 'wup': 0}
{'lch': 0.3677247801253174, 'path': 0.05555555555555555, 'wup': 0}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 0.6190392084062235, 'path': 0.07142857142857142, 'wup': 0.3157894736842105}
{'lch': 0, 'path': 0, 'wup': 0}
{'lch': 0.9555114450274363, 'path': 0.1, 'wup': 0}
{'lch': 1.6486586255873816, 'path': 0.2, 'wup': 0.6}
{'lch': 0.6931471805599453, 'path': 0.07692307692307693, 'wup': 0}
{'lch': 0.5500463369192721, 'path': 0.06666666666666667, 'wup': 0}
{'lch': 0.21357410029805904, 'path': 0.047619047619047616, 'wup': 0}
{'lch': 0.9555114450274363, 'path': 0.1, 'wup': 0}
{'lch': 0, 'path': 0.023809523809523808, 'wup': 0}
{'lch': 0.9555114450274363, 'path': 0.1, 'wup': 0}
{'lch': 1.1786549963416462, 'path': 0.125, 'wup': 0.36363636363636365}
{'

In [7]:
df4.to_excel("wn2_right.xlsx", sheet_name="sheet")