##  Analogies with Nepali Language


In [1]:
import numpy as np

In [2]:
## File Paths
word_2_vec = "nepali_embeddings_word2vec.txt"

In [3]:
def read_word_to_vecs(pretrained_file):
    with open(pretrained_file, 'r') as f:
        words = set()
        word_to_vec_map = {}
        
        for line in f:
            line = line.strip().split()
            curr_word = line[0]
            words.add(curr_word)
            word_to_vec_map[curr_word] = np.array(line[1:], dtype=np.float64)
            
    return words, word_to_vec_map

In [4]:
words, word_to_vec_map = read_word_to_vecs(word_2_vec)

In [5]:
def cosine_similarity(u,v): 
    """
    u : Word vector
    V : Word vector
    
    Returns : 
        Cosine similarity
    
    """
    # dot product of the word vectors
    dot_product = np.dot(u,v)
    # L2 norms ie. Distance
    dist_u = np.sqrt(np.sum(u**2))
    dist_v = np.sqrt(np.sum(v**2))
    cosine_similarity = dot_product/(dist_u*dist_v)
    return cosine_similarity

In [7]:
word_u = word_to_vec_map["ठमेल"]
word_v = word_to_vec_map["न्यूरोड"]
cosine_similarity(word_u,word_v)

True

In [8]:
def analogy_finder(word_a, word_b, word_c, word_2_vec_map, word_list):
    e_a, e_b, e_c = word_2_vec_map[word_a],word_to_vec_map[word_b],word_to_vec_map[word_c]
    words = word_list
    max_cosine_similarity = -100.00 # Big negative number
    final_word = None 
    input_words_set = set([word_a, word_b, word_c])
    for word in words:
        # If same words are found
        if word in input_words_set : 
            continue
            
        # Otherwise, compute the cosine similarity
        sim = cosine_similarity((e_b-e_a), (word_2_vec_map[word]-e_c))
        
        if sim > max_cosine_similarity : 
            max_cosine_sim = sim
            final_word = word
        
    return final_word

In [9]:
words

{'भ्यालुसहित',
 'अमोवी',
 'रुममेटहरूसँग',
 'नाउं',
 'जीवनमरण',
 'माओवादीवीच',
 'त्यसमाने',
 'जीवात्हरू',
 'आउँदाखेरी',
 'उड्यनन',
 'हुनुन्छ',
 'पांखा',
 'घटनाबीच',
 'चिक्र',
 'भोलिपल्ट',
 'दैलेखस्थित',
 'प्रत्याशितपूर्ण',
 'युज्भेन्द्र',
 'रिमेम्बरेन्स',
 'धर्मस',
 'पिकअफ',
 'नफर्कन',
 'लाहुरे',
 'बाँडेर',
 'होल्गर',
 'सिरियापछि',
 'खटाईए',
 'भ्रुण',
 'एनएएमयु',
 'उत्सुकतता',
 'निर्धक्',
 'फाल्दिएछन्',
 'लुमिनार्क',
 'गर्र्\u200dयौं',
 'मेकअपसम्बन्धी',
 'ड्ेरफस',
 'प्रतिस्प्रधी',
 'माघकृष्ण',
 'धादिङवेसीतर्फ',
 'मितव्यीता',
 'खगा',
 'शोषणकारी',
 'चिताउनुपरे',
 'समात्दो',
 'ग्रान्डसँग',
 'बाँझेच्यानडाँडाअल्छेढुंगा',
 'पिठावालासित',
 'इन्टरसेक्स',
 'टलपल',
 'गणेश',
 'फर्काइदिन',
 'नकिना',
 'त्योचित्त',
 'एब्सोल्युट',
 'पारदर्शितासाथ',
 'जहाँछन्',
 'ओलीमात्र',
 'हृदयकेन्द्र',
 'प्रमिता',
 'ओर्लिनेबित्ति',
 'भेगतिर',
 'बाँसगजेरी',
 'भरि',
 'रुविन्दु',
 'अन्त्यमामुलुक',
 'विदेशिनुभन्दा',
 'घोरासैने',
 'जेबीचन्द',
 'अरूजत्ति',
 'जान्नुहोस',
 'सुविधाहरूबारे',
 'अफरजस्ता',
 'ठुलाहरू',
 'ल्यापट