# A. Preprocessing Nepali texts


In [69]:
eg1="परिश्रम नगरी हुन्छ? परिश्रम सफलताको एक-मात्र बाटो हो। अक्सर जो परिश्रम गर्छ, उही सफल हुन्छ। अब त परिश्रम गर्छौ नि? नगरी कहाँ हुन्छ त!"
eg1


'परिश्रम नगरी हुन्छ? परिश्रम सफलताको एक-मात्र बाटो हो। अक्सर जो परिश्रम गर्छ, उही सफल हुन्छ। अब त परिश्रम गर्छौ नि? नगरी कहाँ हुन्छ त!'

In [70]:
eg2="निर्माण सुरु भएको ४१ वर्ष पुग्दा बुद्धजन्मस्थलको एकीकृत विकास गर्न बनाइएको  लुम्बिनी गुरुयोजनाको काम ८२ प्रतिशत सकिएको छ ।"
eg2

'निर्माण सुरु भएको ४१ वर्ष पुग्दा बुद्धजन्मस्थलको एकीकृत विकास गर्न बनाइएको  लुम्बिनी गुरुयोजनाको काम ८२ प्रतिशत सकिएको छ ।'

### 1. Sentence Level Tokenization

In [71]:
# -*- coding: utf-8 -*-
#split at ?, । or !
import re
def tokenize_sentence(text):
    sentences=re.split('(?<=[।?!]) +', text)
    print("Sentences")
    print(sentences)
    return sentences

In [72]:
sentences1=tokenize_sentence(eg1)

Sentences
['परिश्रम नगरी हुन्छ?', 'परिश्रम सफलताको एक-मात्र बाटो हो।', 'अक्सर जो परिश्रम गर्छ, उही सफल हुन्छ।', 'अब त परिश्रम गर्छौ नि?', 'नगरी कहाँ हुन्छ त!']


In [73]:
type(sentences1)

list

In [74]:
sentences2=tokenize_sentence(eg2)


Sentences
['निर्माण सुरु भएको ४१ वर्ष पुग्दा बुद्धजन्मस्थलको एकीकृत विकास गर्न बनाइएको  लुम्बिनी गुरुयोजनाको काम ८२ प्रतिशत सकिएको छ ।']


### 2. Word-level Tokenization

In [75]:
def tokenize_word(sentences):
    words=[]
    for sentence in sentences:
        words.extend(re.split(', |,| ', sentence))
    print("Words after tokenization")
    print (words)
    return words 

In [76]:
words=tokenize_word(sentences1)


Words after tokenization
['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', 'एक-मात्र', 'बाटो', 'हो।', 'अक्सर', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ।', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि?', 'नगरी', 'कहाँ', 'हुन्छ', 'त!']


In [77]:
len(words)

24

###  3. Special symbol and number removal


In [78]:
punctuations=r',|\)|\(|\{|\}|\[|\]|\?|\!|।|\‘|\’|\“|\”|\:-|/|—|-'
# ,)({}[]!‘’“”:-?।/— ।
print(words)

numbers = r'[0-9o१२३४५६७८९]'
words = [re.sub(numbers, '', i) for i in words] 
words = [re.sub(punctuations, '', i) for i in words] 

words

    


['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', 'एक-मात्र', 'बाटो', 'हो।', 'अक्सर', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ।', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि?', 'नगरी', 'कहाँ', 'हुन्छ', 'त!']


['परिश्रम',
 'नगरी',
 'हुन्छ',
 'परिश्रम',
 'सफलताको',
 'एकमात्र',
 'बाटो',
 'हो',
 'अक्सर',
 'जो',
 'परिश्रम',
 'गर्छ',
 'उही',
 'सफल',
 'हुन्छ',
 'अब',
 'त',
 'परिश्रम',
 'गर्छौ',
 'नि',
 'नगरी',
 'कहाँ',
 'हुन्छ',
 'त']

In [79]:
words = [x for x in words if x]
print(words)

['परिश्रम', 'नगरी', 'हुन्छ', 'परिश्रम', 'सफलताको', 'एकमात्र', 'बाटो', 'हो', 'अक्सर', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि', 'नगरी', 'कहाँ', 'हुन्छ', 'त']


### Creating a function 

In [80]:
def clean_text(words):
    punctuations=r',|\)|\(|\{|\}|\[|\]|\?|\!|।|\‘|\’|\“|\”|\:-|/|—|-'
    numbers = r'[0-9o१२३४५६७८९]'
    words = [re.sub(numbers, '', i) for i in words] 
    words = [re.sub(punctuations, '', i) for i in words] 
    #Removing empty strings
    words = [x for x in words if x]
    print("After removing special symbols and numbers")
    print(words)
    return words

    


### 4. Stop words removal 

In [81]:
with open('datasets/stopwords.txt',encoding="utf8") as f:
    lines = f.readlines()
lines = [x.strip() for x in lines] 
 

In [82]:
lines

['\ufeffअक्सर',
 'अगाडि',
 'अगाडी',
 'अघि',
 'अझै',
 'अठार',
 'अथवा',
 'अधिक',
 'अनि',
 'अनुसार',
 'अन्तर्गत',
 'अन्य',
 'अन्यत्र',
 'अन्यथा',
 'अब',
 'अरु',
 'अरुलाई',
 'अरू',
 'अरूलाई',
 'अर्को',
 'अर्थात',
 'अर्थात्',
 'अलग',
 'अलि',
 'अवस्था',
 'अहिले',
 'आउन',
 'आए',
 'आएका',
 'आएको',
 'आज',
 'आजको',
 'आठ',
 'आत्म',
 'आदि',
 'आदिलाई',
 'आफनो',
 'आफु',
 'आफू',
 'आफूलाई',
 'आफै',
 'आफैँ',
 'आफैलाई',
 'आफैले',
 'आफ्नै',
 'आफ्नो',
 'आयो',
 'उ',
 'उक्त',
 'उदाहरण',
 'उन',
 'उनको',
 'उनलाई',
 'उनले',
 'उनि',
 'उनी',
 'उनीहरु',
 'उनीहरुको',
 'उन्नाइस',
 'उप',
 'उसको',
 'उसलाई',
 'उसले',
 'उस्तै',
 'उहाँ',
 'उहाँलाई',
 'उहालाई',
 'ऊ',
 'एउटा',
 'एउटै',
 'एक',
 'एकदम',
 'एघार',
 'ओठ',
 'औ',
 'औं',
 'कता',
 'कति',
 'कतै',
 'कम',
 'कम से कम',
 'कमसेकम',
 'कसरि',
 'कसरी',
 'कसै',
 'कसैको',
 'कसैलाई',
 'कसैले',
 'कसैसँग',
 'कस्तो',
 'कहाँ',
 'कहाँबाट',
 'कहिले',
 'कहिलेकाहीं',
 'कहिल्यै',
 'कहीं',
 'का',
 'काम',
 'कारण',
 'कि',
 'किन',
 'किनभने',
 'कुन',
 'कुनै',
 'कुनैपनि',
 'कुन्नी',
 'कुरा'

In [83]:
words

['परिश्रम',
 'नगरी',
 'हुन्छ',
 'परिश्रम',
 'सफलताको',
 'एकमात्र',
 'बाटो',
 'हो',
 'अक्सर',
 'जो',
 'परिश्रम',
 'गर्छ',
 'उही',
 'सफल',
 'हुन्छ',
 'अब',
 'त',
 'परिश्रम',
 'गर्छौ',
 'नि',
 'नगरी',
 'कहाँ',
 'हुन्छ',
 'त']

In [84]:
words = [w for w in words if not w in lines] 

In [85]:
words

['परिश्रम',
 'नगरी',
 'परिश्रम',
 'सफलताको',
 'एकमात्र',
 'अक्सर',
 'परिश्रम',
 'उही',
 'सफल',
 'परिश्रम',
 'गर्छौ',
 'नगरी']

### Creating a function

In [86]:
def remove_stopwords(words):
    with open('datasets/stopwords.txt',encoding="utf8") as f:
        lines = f.readlines()
    lines = [x.strip() for x in lines] 
#     print("Stopwords dataset")
#     print(lines)
    words = [w for w in words if not w in lines] 
    print("Words after removing stopwords")
    print(words)
    return words
    

## Combining preprocessing

In [87]:
def preprocess(text):
    sentences=tokenize_sentence(text)
    words=tokenize_word(sentences)
    words=clean_text(words)
    words=remove_stopwords(words)
    return words

    

In [88]:
eg1="परिश्रम नगरी हुन्छ? परिश्रम सफलताको ९९ एक-मात्र बाटो हो। जो ९ ९९९ ९९ परिश्रम गर्छ, उही सफल हुन्छ। अब त परिश्रम गर्छौ नि? नगरी कहाँ हुन्छ त!"
eg1

'परिश्रम नगरी हुन्छ? परिश्रम सफलताको ९९ एक-मात्र बाटो हो। जो ९ ९९९ ९९ परिश्रम गर्छ, उही सफल हुन्छ। अब त परिश्रम गर्छौ नि? नगरी कहाँ हुन्छ त!'

In [89]:
tokens1=preprocess(eg1)

Sentences
['परिश्रम नगरी हुन्छ?', 'परिश्रम सफलताको ९९ एक-मात्र बाटो हो।', 'जो ९ ९९९ ९९ परिश्रम गर्छ, उही सफल हुन्छ।', 'अब त परिश्रम गर्छौ नि?', 'नगरी कहाँ हुन्छ त!']
Words after tokenization
['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', '९९', 'एक-मात्र', 'बाटो', 'हो।', 'जो', '९', '९९९', '९९', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ।', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि?', 'नगरी', 'कहाँ', 'हुन्छ', 'त!']
After removing special symbols and numbers
['परिश्रम', 'नगरी', 'हुन्छ', 'परिश्रम', 'सफलताको', 'एकमात्र', 'बाटो', 'हो', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि', 'नगरी', 'कहाँ', 'हुन्छ', 'त']
Words after removing stopwords
['परिश्रम', 'नगरी', 'परिश्रम', 'सफलताको', 'एकमात्र', 'परिश्रम', 'उही', 'सफल', 'परिश्रम', 'गर्छौ', 'नगरी']


In [90]:
eg2="परिश्रम नगरी हुन्छ? परिश्रम सफलताको बाटो हो। जो परिश्रम गर्छ, उही सफल हुन्छ। अब परिश्रम गर्छौ नि? नगरी हुन्छ त!"
eg2

'परिश्रम नगरी हुन्छ? परिश्रम सफलताको बाटो हो। जो परिश्रम गर्छ, उही सफल हुन्छ। अब परिश्रम गर्छौ नि? नगरी हुन्छ त!'

In [91]:
tokens2=preprocess(eg2)

Sentences
['परिश्रम नगरी हुन्छ?', 'परिश्रम सफलताको बाटो हो।', 'जो परिश्रम गर्छ, उही सफल हुन्छ।', 'अब परिश्रम गर्छौ नि?', 'नगरी हुन्छ त!']
Words after tokenization
['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', 'बाटो', 'हो।', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ।', 'अब', 'परिश्रम', 'गर्छौ', 'नि?', 'नगरी', 'हुन्छ', 'त!']
After removing special symbols and numbers
['परिश्रम', 'नगरी', 'हुन्छ', 'परिश्रम', 'सफलताको', 'बाटो', 'हो', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ', 'अब', 'परिश्रम', 'गर्छौ', 'नि', 'नगरी', 'हुन्छ', 'त']
Words after removing stopwords
['परिश्रम', 'नगरी', 'परिश्रम', 'सफलताको', 'परिश्रम', 'उही', 'सफल', 'परिश्रम', 'गर्छौ', 'नगरी']


In [92]:
print(tokens1)

['परिश्रम', 'नगरी', 'परिश्रम', 'सफलताको', 'एकमात्र', 'परिश्रम', 'उही', 'सफल', 'परिश्रम', 'गर्छौ', 'नगरी']


In [93]:
print(tokens2)

['परिश्रम', 'नगरी', 'परिश्रम', 'सफलताको', 'परिश्रम', 'उही', 'सफल', 'परिश्रम', 'गर्छौ', 'नगरी']


## 5. Lemmatization

In [94]:
# with open('datasets/dictionary.txt',encoding="utf8") as f:
#     roots = f.readlines()
# roots = [x.strip() for x in roots] 

In [None]:
# roots

In [None]:
# def stem_text(text):
#     return re.sub('(मा|को|ले|बाट|का|हरु|हरुसँग|सँग|लाई|हरू|हरूसँग|हरू)',' ',text)

# stem_text("बनाइएको")

In [None]:
# for i in range (0,len(words1)):
#     if words1[i].endswith('को'):
#         words1[i]=stem_text(words1[i])

In [None]:
# words1

# B. Feature Vector Construction

### Calculating tf-idf (Term frequency-inverse document frequency)

The tf-idf weight is composed by two terms:
1. Normalized Term Frequency (tf)
2. Inverse Document Frequency (idf)

### Step 1: Computing the Term Frequency(tf)

In [95]:
def calculate_TF_Dict(doc): 
    """ Returns a tf dictionary for each doc whose keys are all 
    the unique words in the review and whose values are their 
    corresponding tf.
    """
    TF_Dict = {}
    
    # Total number of terms in the document 
    len_of_document = float(len(doc)) 
    
    for word in doc:
        
        # Number of times the term occurs in the document 
        term_in_document = doc.count(word) 
        
        #Computes tf for each word           
        TF_Dict[word] = term_in_document / len_of_document 

  
    return TF_Dict


In [96]:
Docs=[tokens1,tokens2]
Docs

[['परिश्रम',
  'नगरी',
  'परिश्रम',
  'सफलताको',
  'एकमात्र',
  'परिश्रम',
  'उही',
  'सफल',
  'परिश्रम',
  'गर्छौ',
  'नगरी'],
 ['परिश्रम',
  'नगरी',
  'परिश्रम',
  'सफलताको',
  'परिश्रम',
  'उही',
  'सफल',
  'परिश्रम',
  'गर्छौ',
  'नगरी']]

In [97]:
TF_Dict = [calculate_TF_Dict(doc) for doc in Docs]
TF_Dict

[{'परिश्रम': 0.36363636363636365,
  'नगरी': 0.18181818181818182,
  'सफलताको': 0.09090909090909091,
  'एकमात्र': 0.09090909090909091,
  'उही': 0.09090909090909091,
  'सफल': 0.09090909090909091,
  'गर्छौ': 0.09090909090909091},
 {'परिश्रम': 0.4,
  'नगरी': 0.2,
  'सफलताको': 0.1,
  'उही': 0.1,
  'सफल': 0.1,
  'गर्छौ': 0.1}]

### Step 2: Compute the Inverse Document Frequency – idf

In [98]:
vocabulary=sorted(set(tokens1+tokens2))
vocabulary

['उही', 'एकमात्र', 'गर्छौ', 'नगरी', 'परिश्रम', 'सफल', 'सफलताको']

In [99]:
import math
def calculate_IDF_Dict():
    """ Returns a dictionary whose keys are all the unique words in the
    dataset and whose values are their corresponding idf.
    """
    countDict = {}
    for word in vocabulary:
        countDict[word]=0
    # Run through each doc's tf dictionary and increment countDict's (word, doc) pair
    for word in vocabulary:
        for doc in range(len(Docs)):
            if word in Docs[doc]:
                countDict[word]+=1
    
        
    #Stores the doc count dictionary
    IDF_Dict = {}
    total_num_docs = len(Docs)  
    for word in countDict:
        IDF_Dict[word] = 1+math.log(float(total_num_docs) /countDict[word])
    return IDF_Dict
  

In [100]:
IDF_Dict=calculate_IDF_Dict()
IDF_Dict

{'उही': 1.0,
 'एकमात्र': 1.6931471805599454,
 'गर्छौ': 1.0,
 'नगरी': 1.0,
 'परिश्रम': 1.0,
 'सफल': 1.0,
 'सफलताको': 1.0}

### Step 3: Computing the TF-IDF

In [101]:
def calculate_TFIDF_Dict(TF_Dict,IDF_Dict):
    """ Returns a dictionary whose keys are all the unique words in the
    review and whose values are their corresponding tfidf.
    """
    TFIDF_Dict = {}
    #For each word in the review, we multiply its tf and its idf.
    for word in TF_Dict:
        TFIDF_Dict[word] = TF_Dict[word] * IDF_Dict[word]
    return TFIDF_Dict

In [102]:
#Stores the TF-IDF dictionaries
TFIDF_Dict = [calculate_TFIDF_Dict(doc,IDF_Dict) for doc in TF_Dict]
TFIDF_Dict

[{'परिश्रम': 0.36363636363636365,
  'नगरी': 0.18181818181818182,
  'सफलताको': 0.09090909090909091,
  'एकमात्र': 0.15392247095999503,
  'उही': 0.09090909090909091,
  'सफल': 0.09090909090909091,
  'गर्छौ': 0.09090909090909091},
 {'परिश्रम': 0.4,
  'नगरी': 0.2,
  'सफलताको': 0.1,
  'उही': 0.1,
  'सफल': 0.1,
  'गर्छौ': 0.1}]

### Step 4 Constructing A Vector

In [103]:
# Create a list of unique words
wordDict = sorted(IDF_Dict.keys())
wordDict

['उही', 'एकमात्र', 'गर्छौ', 'नगरी', 'परिश्रम', 'सफल', 'सफलताको']

In [104]:

def calculate_TFIDF_Vector(doc):
    wordDict = sorted(IDF_Dict.keys())
    TFIDF_Vector = [0.0] * len(vocabulary)
    # For each unique word, if it is in the doc, store its TF-IDF value.
    for i, word in enumerate(wordDict):
          if word in doc:
                TFIDF_Vector[i] = doc[word]
                
    return TFIDF_Vector



In [105]:
TFIDF_Vector = [calculate_TFIDF_Vector(doc) for doc in TFIDF_Dict]

In [106]:
TFIDF_Vector[0]

[0.09090909090909091,
 0.15392247095999503,
 0.09090909090909091,
 0.18181818181818182,
 0.36363636363636365,
 0.09090909090909091,
 0.09090909090909091]

In [107]:
TFIDF_Vector[1]

[0.1, 0.0, 0.1, 0.2, 0.4, 0.1, 0.1]

### Creating a function to combine these steps

In [108]:
def create_vector():
    TF_Dict = [calculate_TF_Dict(doc) for doc in Docs]
    IDF_Dict=calculate_IDF_Dict()
    TFIDF_Dict = [calculate_TFIDF_Dict(doc,IDF_Dict) for doc in TF_Dict]
    TFIDF_Vector = [calculate_TFIDF_Vector(doc) for doc in TFIDF_Dict]
    return TFIDF_Vector




    

In [109]:
vocabulary=sorted(set(tokens1+tokens2))
Docs=[tokens1,tokens2]
TFIDF_Vector=create_vector()
TFIDF_Vector

[[0.09090909090909091,
  0.15392247095999503,
  0.09090909090909091,
  0.18181818181818182,
  0.36363636363636365,
  0.09090909090909091,
  0.09090909090909091],
 [0.1, 0.0, 0.1, 0.2, 0.4, 0.1, 0.1]]

# C. Measuring Similarity

### Jacard Similairty

In [110]:
def get_jaccard_sim(token1, token2): 
    a = set(token1)
    b = set(token2)
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

In [111]:
get_jaccard_sim(tokens1,tokens2)

0.8571428571428571

### Cosine Similairty

In [112]:
import numpy as np
def get_cosine_sim(a,b):
    a = np.array(a)
    b = np.array(b)
    dot = np.dot(a, b)
    norma = np.linalg.norm(a)
    normb = np.linalg.norm(b)
    cos = dot / (norma * normb)
    return cos

In [113]:
get_cosine_sim(TFIDF_Vector[0],TFIDF_Vector[1])

0.9451442030944225