In [1]:
# -*- coding: utf-8 -*-
#split at ?, । or !
import re
import math
import numpy as np


def tokenize_sentence(text):
    sentences=re.split('(?<=[।?!]) +', text)
    print("Sentences")
    print(sentences)
    return sentences

def tokenize_word(sentences):
    words=[]
    for sentence in sentences:
        words.extend(re.split(', |,| ', sentence))
    print("Words after tokenization")
    print (words)
    return words

def clean_text(words):
    punctuations=r',|\)|\(|\{|\}|\[|\]|\?|\!|।|\‘|\’|\“|\”|\:-|/|—|-'
    numbers = r'[0-9o०१२३४५६७८९]'
    words = [re.sub(numbers, '', i) for i in words]
    words = [re.sub(punctuations, '', i) for i in words]
    #Removing empty strings
    words = [x for x in words if x]
    print("After removing special symbols and numbers")
    print(words)
    return words


def remove_stopwords(words):
    with open('datasets/stopwords.txt',encoding="utf8") as f:
        lines = f.readlines()
    lines = [x.strip() for x in lines]
#     print("Stopwords dataset")
#     print(lines)
    words = [w for w in words if not w in lines]
    print("Words after removing stopwords")
    print(words)
    return words

def preprocess(text):
    sentences=tokenize_sentence(text)
    words=tokenize_word(sentences)
    words=clean_text(words)
    words=remove_stopwords(words)
    return words

def calculate_TF_Dict(doc):
    """ Returns a tf dictionary for each doc whose keys are all
    the unique words in the review and whose values are their
    corresponding tf.
    """
    TF_Dict = {}

    # Total number of terms in the document
    len_of_document = float(len(doc))

    for word in doc:

        # Number of times the term occurs in the document
        term_in_document = doc.count(word)

        #Computes tf for each word
        TF_Dict[word] = term_in_document / len_of_document


    return TF_Dict

def calculate_IDF_Dict():
    """ Returns a dictionary whose keys are all the unique words in the
    dataset and whose values are their corresponding idf.
    """
    countDict = {}
    for word in vocabulary:
        countDict[word]=0
    # Run through each doc's tf dictionary and increment countDict's (word, doc) pair
    for word in vocabulary:
        for doc in range(len(Docs)):
            if word in Docs[doc]:
                countDict[word]+=1


    #Stores the doc count dictionary
    IDF_Dict = {}
    total_num_docs = len(Docs)
    for word in countDict:
        IDF_Dict[word] = 1+math.log(float(total_num_docs) /countDict[word])
    return IDF_Dict

def calculate_TFIDF_Dict(TF_Dict,IDF_Dict):
    """ Returns a dictionary whose keys are all the unique words in the
    review and whose values are their corresponding tfidf.
    """
    TFIDF_Dict = {}
    #For each word in the review, we multiply its tf and its idf.
    for word in TF_Dict:
        TFIDF_Dict[word] = TF_Dict[word] * IDF_Dict[word]
    return TFIDF_Dict


def calculate_TFIDF_Vector(doc):
    TFIDF_Vector = [0.0] * len(vocabulary)
    # For each unique word, if it is in the doc, store its TF-IDF value.
    for i, word in enumerate(vocabulary):
          if word in doc:
                TFIDF_Vector[i] = doc[word]

    return TFIDF_Vector

def create_vector():
    TF_Dict = [calculate_TF_Dict(doc) for doc in Docs]
    IDF_Dict=calculate_IDF_Dict()
    TFIDF_Dict = [calculate_TFIDF_Dict(doc,IDF_Dict) for doc in TF_Dict]
    TFIDF_Vector = [calculate_TFIDF_Vector(doc) for doc in TFIDF_Dict]
    return TFIDF_Vector


def get_jaccard_sim(token1, token2):
    a = set(token1)
    b = set(token2)
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

def get_cosine_sim(a,b):
    a = np.array(a)
    b = np.array(b)
    dot = np.dot(a, b)
    norma = np.linalg.norm(a)
    normb = np.linalg.norm(b)
    cos = dot / (norma * normb)
    return cos

eg1="परिश्रम नगरी हुन्छ? परिश्रम सफलताको ९९ एक-मात्र बाटो हो। जो ९ ९९९ ९९ परिश्रम गर्छ, उही सफल हुन्छ। अब त परिश्रम गर्छौ नि? नगरी कहाँ हुन्छ त!"
tokens1=preprocess(eg1)
eg2="परिश्रम नगरी हुन्छ? परिश्रम सफलताको बाटो हो। जो परिश्रम गर्छ, उही सफल हुन्छ। अब परिश्रम गर्छौ नि? नगरी हुन्छ त!"
tokens2=preprocess(eg2)
print(tokens1)
print(tokens2)
vocabulary=sorted(set(tokens1+tokens2))
Docs=[tokens1,tokens2]
TFIDF_Vector=create_vector()
print(TFIDF_Vector)
jsim=get_jaccard_sim(tokens1,tokens2)
csim=get_cosine_sim(TFIDF_Vector[0],TFIDF_Vector[1])
print(jsim)
print(csim)



Sentences
['परिश्रम नगरी हुन्छ?', 'परिश्रम सफलताको ९९ एक-मात्र बाटो हो।', 'जो ९ ९९९ ९९ परिश्रम गर्छ, उही सफल हुन्छ।', 'अब त परिश्रम गर्छौ नि?', 'नगरी कहाँ हुन्छ त!']
Words after tokenization
['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', '९९', 'एक-मात्र', 'बाटो', 'हो।', 'जो', '९', '९९९', '९९', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ।', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि?', 'नगरी', 'कहाँ', 'हुन्छ', 'त!']
After removing special symbols and numbers
['परिश्रम', 'नगरी', 'हुन्छ', 'परिश्रम', 'सफलताको', 'एकमात्र', 'बाटो', 'हो', 'जो', 'परिश्रम', 'गर्छ', 'उही', 'सफल', 'हुन्छ', 'अब', 'त', 'परिश्रम', 'गर्छौ', 'नि', 'नगरी', 'कहाँ', 'हुन्छ', 'त']
Words after removing stopwords
['परिश्रम', 'नगरी', 'परिश्रम', 'सफलताको', 'एकमात्र', 'परिश्रम', 'उही', 'सफल', 'परिश्रम', 'गर्छौ', 'नगरी']
Sentences
['परिश्रम नगरी हुन्छ?', 'परिश्रम सफलताको बाटो हो।', 'जो परिश्रम गर्छ, उही सफल हुन्छ।', 'अब परिश्रम गर्छौ नि?', 'नगरी हुन्छ त!']
Words after tokenization
['परिश्रम', 'नगरी', 'हुन्छ?', 'परिश्रम', 'सफलताको', 'ब

In [2]:
eg3='''३० वर्षपछि मुलुकमा राजाको पञ्चायती व्यवस्थाको अवसान र एक पटक फेरि बहुदलीय व्यवस्थाको उदय भएको छ। यस सुखद घडीको पृष्ठभूमिमा नेपाली आमाका सयौं सपुतहरूले प्रजातन्त्रको निम्ति बलिबेदीमा आफ्नो अमूल्य जीवन न्यौछावर गरेका छन्। तपाईँ हाम्रै बीच निरङ्कुश व्यवस्थाको पोल खोल्ने जीवन्त साक्षीहरूको रूपमा यातना शिविरबाट फर्केका कैयौं अपाङ्गहरू अहिले पनि छँदैछन्। यस प्रजातान्त्रिक लडाइँलाई निरन्तरता दिने क्रममा तपाईँ हाम्रै गाउँघरमा कैयन् घरबारहरू राजनीतिक कारणले बेहाल बनाइएका छन्। जनताको अनवरत सङ्घर्ष र खासगरी अघिल्लो वर्ष राजनीतिक विचारधारा, बर्ग, धर्म, पेसा या जात जातिको कुनै भेदभाव नराखी एक ढिको ढिकको भएर नेपाली जनताको जुझारू र निर्णायक सङ्घर्षले ३० वर्षसम्म एकछत्र रजाइँ गर्दै आएको एक दलीय तानाशाही व्यवस्थालाई लत्‌र्याइयो। अथाह कष्ट, असह्य यातना र निर्मम शोषणमाथि बनेको निरङ्कुशताको महल अब रहेन। ३२ वर्षपछि नेपाली जनता बहुदलीय प्रतिस्पर्धात्मक वातावरणमा आम चुनावमा जान पाइ रहेका छन्। यस सुखद अवसरमा प्रजातान्त्रिक जनमञ्च निरङ्कुशता फाल्न र प्रजातन्त्र ल्याउन सहादत हुनुहुने तमाम शहीदहरूमा कृतज्ञता पूर्वक श्रद्धाञ्जली अर्पण गर्दछ। यस विजयमा नेपाली जनताको अजेय पौरख अभिव्यक्त भएको छ। हामी समस्त नेपाली जनतालाई हार्दिक अभिवादन गर्न चाहन्छौं। यस लामो प्रजातान्त्रिक सङ्घर्षमा सहभागी हुनुहुने तमाम योद्धाहरू धन्यवादका पात्र छन्। हाम्रो यो आन्दोलनमा विदेशी मित्रहरूको न्यानो नैतिक समर्थनले आन्दोलनको सफलताको निम्ति थप उर्जाको काम गर्‍यो। हामी हाम्रा समस्त विदेशी मित्रहरूको यस दिशामा भएको भूमिका र योगदानको उच्च मूल्याङ्कन गर्दछौ र यस पवन घडीमा वहाँहरू प्रति आभार प्रकट गर्दछौँ। प्रजातान्त्रिक जनमञ्च नेपालमा अहिलेसम्म बनेका राजनीतिक सङ्गठनमा सबभन्दा कान्छो सङ्गठन हो। गत २०४७ माघ २ गते मात्र विभिन्न क्षेत्रमा कार्यरत राजनीतिक व्यक्तिहरूको आपसी छलफल र विचार विनिमयको स्वाभाविक निष्कर्ष हो- जनमञ्च। राजनीतिक पार्टीको रूपमा विकास नभइसकेको भए पनि यसले यति छिटो अवधिमा नै जति बढी जन अभिरुचि, समर्थन र सहभागिता पाउन सकेको छ, त्यसले जनमञ्चको नवीन धाराको औचित्यलाई थप पुष्टि गरेको छ। ठूलो मूल्य चुकाएर प्राप्त गरेको प्रजातान्त्रिक उपलब्धिलाई सुदृढ तथा प्रवर्द्धन गर्न हिजोभन्दा बढी सतर्क र जिम्मेवारीका साथ लाग्नु सबै नेपालीहरूको परम दायित्व हो। प्रजातन्त्र-अभिव्यक्ति स्वतन्त्रता र सङ्गठन गर्ने अधिकार मात्र होइन। यसले जनताको गुणस्तरमा सुधार ल्याउन सक्नु पर्दछ। हिजोको शासनले विकास श्रीलङ्कामा हामीलाई पुछारमा मात्र छाडेन आम गरिबी, चरम विषमता र व्यापक बेरोजगारी पनि विरासतमा छाडेको छ। अहिले मुलुकको हालत भनेको बेवारिसे वालकको जस्तो लथालिङ्ग छ। त्यसैले अब आर्थिक सामाजिक क्षेत्रमा प्रजातान्त्रिक पुनर्गठन गर्नु हाम्रो चुनौतीपूर्ण कार्य हो। जनताको आर्थिक सामाजिक जीवनमा व्यापक सुधार ल्याएर मात्रै प्रजातन्त्रलाई सुदृढ र दिगो बनाउन सकिन्छ र मात्रै साँचो अर्थमा प्रजातन्त्रलाई "जनताको, जनताद्वारा, जनताको निम्ति सरकार" मा अनुवाद गर्न सकिन्छ। त्यसै पनि हाम्रो गरिबीले हाम्रो राष्ट्रिय स्वाभीमान र अस्मितालाई निर्बल त बनाएको छँदैछ, त्यसमाथि राष्ट्रियता सम्बन्धी समस्याहरू थाती राख्ने र थुपार्ने काम निरन्तर हुँदै आइरहेका छन्। अझ प्रजातन्त्रको नाममा राष्ट्रिय हितलाई किञ्चित् मात्र पनि आँच आउने काम हुन्छ कि भन्ने विषयमा आज राष्ट्रिय जागरुकता अरू आवश्यक बनेको छ। राष्ट्रिय सङ्कल्प र साहसका साथ हामीले विदेशसँगको सम्बन्धलाई पञ्चशीलका सिद्धान्तका आधारमा सुव्यवस्थित गर्नु पर्दछ। हाम्रो भूराजनीतिक अवस्थाले हामीलाई तर्कसङ्गत र लचिलो विदेशनीति अवलम्वन गर्न प्रेरित गरेको छ। तर यसको अर्थ स्वतन्त्र राष्ट्रिय व्यक्तित्व विकासमा आँच पुर्‍याउने या राष्ट्रिय हितलाई कुनै पनि बहानामा सौदाबाजी गर्ने हुनुहुँदैन। हामीबाट खास गरी चीन तथा भारतसँगको सम्बन्धमा सन्तुलित र सतर्क ढङ्गले घनिष्ट रूपमा समान व्यवहार गरिनु पर्दछ। प्रजातन्त्रको विकास प्रकृयामा हामी नितान्त सुषुप्त अवस्थामा छौँ। हामीले हाम्रा देशवासीलाई मानवजातिको अथक सङ्घर्ष र सभ्यताले सिर्जेका तथा परिष्कृत गरिएका आधुनिकतम मानव मूल्य अनुसरण गर्न सक्षम तुल्याउनु पर्दछ। व्यक्तिगत स्वतन्त्रता र सामाजिक उत्तरदायित्वको आदर्शतम सन्तुलन नै मानव सभ्यता र मानव प्रगतिको अन्तरलुप्‍त रहस्य हो भन्ने कुरा अब विवादको विषय रहेन। व्यक्तिगत स्वतन्त्रताको उपयोग गर्दा सामाजिक उत्तरदायित्वको हेक्का राखिनु पर्दछ। हाम्रो भविष्य र हाम्रो विकल्प भनेको राष्‍ट्रवादी प्रजातान्त्रिक विकल्प नै हो। हाम्रा घोषित लक्ष र सो प्रतिको निष्‍ठा र प्रतिवद्धताको गहनाले यथास्थिति का सीमालाई नाघ्दछ। वर्तमान सामाजिक आर्थिक संरचना र संस्थाबाट द्रुततर सामग्रिक विकासको आकाङ्क्षा फलीभूत हुन सक्दैन। प्रजातान्त्रिक ढङ्गले यस क्षेत्रमा विकासलाई गति दिने गरी परिवर्तन ल्याउनु पर्दछ। त्यसैले प्रजातान्त्रिक जनमञ्चले सामाजिक आर्थिक क्रान्तिको बिगुल फुक्दै आमूल परिवर्तन कारी प्रजातान्त्रिक विकल्पको अवधारणा अघि सारेको हो। स्थापित राजनीतिक शक्तिहरूबाट राष्‍ट्रवादी प्रजातान्त्रिक अभिभारा सम्पन्न हुने आशा राख्ने ठाउँ छैन। राजाको शक्तिले मुलुकलाई निरङ्कुशतामा जकडेको मात्र नभएर आर्थिक सामाजिक रूपमा रसातलमा पुर्‍याइ दियो। राजनीतिक नेतृत्व विशेष शक्ति या कुलको निम्ति सार्वकालिक रूपमा सुरक्षित गर्ने विषय होइन। सत्तामा राजनीतिक एकाधिकारको नाम नै तानाशाही या निरङ्कुश तन्त्र हो। जनताको नाममा पार्टी नोकरशाहहरूले या प्रजातन्त्रको नाममा सम्भ्रान्तहरूले शासन गर्ने परिपाटी अभिशापपूर्ण रहेको तथ्य सबैको सामु छर्लङ्ग छ। सत्तामा राजनीतिक नेतृत्व आवधिक रूपमा जनताको अनुमोदन लिई रहनु पर्दछ र प्रतिस्पर्धालाई स्विकार्नु पर्दछ। अर्कोतिर सत्ता लिप्साको निम्ति राष्ट्रिय स्वार्थलाई गौण र सौदाबाजीको विषय बनाउने र राष्ट्रिय हितको जगेर्ना भन्दा पनि पराई मुलुकको हितमा वकालत गर्ने प्रवृत्ति पनि राजनीतिक शक्तिहरूमा छदैछ। नयाँ राजनीतिक नेतृत्वको खाँचो, यसैले परेको हो। प्रजातान्त्रिक जनमञ्च यस दिशामा प्रारंभिक पाइलो हो। हामी सवल प्रजातान्त्रिक विकल्प विकासको निम्ति कृतसङ्कल्पित छौँ। जातीय तथा भौगोलिक बनोटको हिसाबले हाम्रो देश भिन्नताको मेल हो। बिभिन्न जातजाति भाषाभाषी र उनीहरूको आ- आफ्नै परम्परा र संस्कृतिले नेपाललाई "सयौं फूलहरूको फूलबारी" बनाइ दिएको छ। हामी कहाँ धर्म, भाषा, भेष भूषा, चाडबाड, रीतिरिवाज चलन वा परम्पराको भिन्नताले अलग अलग जातीय अस्तित्व बोकेको मात्र नभएर पारस्परिक समझदारी, सदभाव, सहिष्णुता र एकताको आदर्श भावले साझा राष्ट्रिय संस्कृतिको धरोहर खडा गरेको छ। यति हुँदाहुँदै पनि यस क्षेत्रमा समस्याहरू छन्। शासक वर्गका क्रियाकलापबाट विभिन्न जाती, भाषा तथा संस्कृति बीच विभेद भएको छ। सामाजिक विकासका प्रवाहमा कतिपय जातिहरू खास गरी जनजातिहरू पछि परेका छन्। असमान जातीय विकासले सृजेका समस्याहरू सधैं भरि थाती राखेर वा उपेक्षा गरेर राख्न मिल्दैन। जनतामा जातीय भेदभावको बोध विकास हुन थालेपछि त्यसले कस्तो भयावह रूप लिन्छ भन्ने कुरा हामीले छिमेकी मुलुककै विकासक्रमबाट हेरे पनि प्रष्ट हुन्छ। आगामी दिनमा हामीले प्राथमिकताका साथ समाधान गर्नु पर्ने समस्या यो पनि हो। तर सबैले के कुरा बुझ्नु जरुरी छ भने यो समस्या विद्यमान छ भन्ने नाउँमा यसलाई जातीय मेलमिलाप र राष्ट्रिय अखण्डतामा खलल पुग्ने गरी साम्प्रदायिकता भडकाउने या राष्ट्रिय विघटन कार्यमा सघाउ पुर्‍याउने कार्य गर्न कसैलाई अनुमति हुने छैन। हिजोको निरङ्कुश शासनको तर काढेर बसेकाहरू जातीय हितका इसामसिह बन्न खोजेको हरकतलाई खास गरी सम्बन्धित क्षेत्रबाट नै स्यालको निरर्थक धुर्त्याई हो भनेर बुझ्न र बुझाउन जरुरी छ। यसै गरी हाम्रो भौगोलिक बनोटका अतिरिक्त शासक वर्गहरूको असन्तुलित नीति र सीमान्त क्षेत्रको शोषणबाट केन्द्र सिंगार्ने नीतिले गर्दा क्षेत्रीय विकासमा जवर्जस्त असन्तुलन कायम हुन गएको छ। दुर्गम तथा पहाडी क्षेत्र, सुदूर पश्चिम इलाका विकास प्रवाहमा समाहित हुन सकेका छैनन्। सिमान्त क्षेत्रको तराई त्यस्तै जर्जर र उजाड छ। यस असन्तुलनलाई हामीले कहिले सम्म थेग्न सक्छौँ? अब उप्रान्त विकास सम्बन्धी नीति, कार्यक्रम तथा परियोजना तर्जुमा तथा सञ्चालन गर्दा यस असन्तुलनलाई मध्ये नजर राखेर सञ्चालन गरिनु पर्दछ र पिछडिएका क्षेत्रमा प्राथमिकता दिनु पर्दछ। आदरणीय देशवासीहरू ! आमा निर्वाचनको दिन नजिकिंदै छ। कम्तीमा राष्ट्रलाई आगामी पाँच वर्षका निम्ति दिशा दिने काम यस निर्वाचनबाट गठित संसद र सरकारले गर्ने छ। संसद र सरकारको बनोटलाई विद्यमान पार्टी र उनीहरूको प्रत्यासीहरूले प्रभावित गर्ने भएको हुँदा उनीहरूप्रति मोटामोटी रूपमा विचार बनाउनु जरुरी छ। अहिले मूलतः यस निर्वाचनमा निम्न राजनीतिक शक्तिहरू क्रियाशील रहेका छन्। 
१ राजाको पञ्चायती शक्ति- बहुदलीय व्यवस्था पुनर्स्थापनको लगत्तै पछि एकै दिन एउटै झण्डा बोकि एउटै नाममा खुलेका दुईवटा राष्ट्रिय प्रजातन्त्र पार्टी राजा र राजदरबारकै जुम्ल्याहा बच्चा हुन् भन्नुमा अत्युक्ति नहोला। पञ्चायतको परिवर्तित रूपलाई यिनीहरूले प्रतिनिधित्व गर्दछन्। यिनीहरूले विगत ३० वर्षमा कयौं पटक राजाको सकृय नेतृत्वको कसम खाएका छन्। राजा पनि त्यसैगरी नाचेका छन्। निर्दलीयताको नाममा निर्मन दमनबाट चलेको तानाशाही शासन नै उनीहरूको पुर्ख्यौली राजनीतिक सम्पत्ति हो। शोषण विहिन् समाज निर्माण गर्ने नाममा उनीहरूले राष्ट्रको सर्वस्व लुटेका छन् र अथाह सम्पाति विदेशमा थुपारेका छन्। ३० वर्षको उनीहरूको कुकर्मलाई हेरेर इतिहासले जुन निर्णय दिएको छ त्यसलाई राज्यसत्ता र ब्रह्मलुटको सम्पत्तिले उल्ट्‍याउन उनीहरू भरमग्दुर लागेका छन्। इतिहासको पाङ्ग्रालाई पछि धकेल्ने उनीहरूका दुश्‍चेष्‍टा किमार्थ सफल हुने छैनन्। अन्तरिम मन्त्रिमण्डलले जनादेशको शाहसपूर्वक कार्यान्वयन गर्न नसकेर पनि उनीहरू अहिले छाती खोल्न पाइरहेका छन्। इतिहासको निर्णयलाई बदर गराउन खोज्ने यस शक्तिलाई आगामी निर्वाचनले पनि यसरी ङ्याक्नु पर्दछ जसले गर्दा पुनः अर्को तानाशाही शक्ति शिर उठाउने हिम्मत गर्न नसकोस्। 
२. नेपाली काँग्रेस- राजाको निरङ्कुशताको रूपमा रहेको पञ्चायती व्यवस्थालाई मास्न र बहुदलीय व्यवस्थाको स्थापनाको निम्ति नेपाली काङ्ग्रेसले गरेको योगदान सराहनीय छ। पञ्चायत विरोधी आन्दोलनकारी शक्तिहरूसँगको संयुक्त आन्दोलनको विरोध र खासगरी ३० को दशकमा आएर निरङ्कुश राजतन्त्रसँगको मेलमिलापको नीतिले गर्दा नै पञ्चायतको आयु यतिसम्म लामो हुन गएको हो। गएको जन आन्दोलनमा आन्दोलनको उद्‍घोष मात्र होइन तालमेल कै हदसम्म भए पनि संयुक्त आन्दोलनमा आउने उसको निर्णय प्रजातान्त्रिक आन्दोलनको विकासको निम्ति निर्णायक मोड बन्न पुग्यो। आन्दोलनको सफलता पछि कम्युनिष्ट तथा राजाको शक्तिलाई साथमा लिएर सत्ता सम्हाले पछि चरित्रगत कारणले नै यसले राजाको निरङ्कुशतामा हुर्केका राजनीतिक तथा आर्थिक अपराधीहरूलाई कार्यवाही गर्नमा उदासीनता मात्र देखाएन जघन्य अपराधीहरूलाई समेत छोड्ने हास्यास्पद काम समेत गर्न सङ्कोच मानेन। अहिले पार्टीभित्र राष्ट्रियता तथा प्रजातन्त्र विरोधी शक्तिले प्रश्रय पाइरहेका छन्। यही कारण हिजोका वरिष्ठ पञ्चहरूले समेत यसमा प्रवेश पाएका हुन्। प्रबल पार्टी ब्युरोक्रेसी र आन्तरिक प्रजातन्त्रको अभावको बारेमा पार्टीका स्वयम् कार्यकर्ताहरू आवाज उठाइरहेका छन्। "चीनसँग मित्रता र भारतसँग घनिष्‍टता" को यसको घोषित नीतिको दुष्परिणामहरू प्रकट हुन थालेका छन्।१९५० र १९६५ को सन्धिको अन्यायपूर्ण प्रावधानले राष्ट्रिय स्वार्थ र स्वाभीमानलाई किचिरहेको छ। त्यस माथि अरू बोझहरू थपिँदै छन्। कोशी र गण्डकी सम्झौतामा लागेको राष्ट्रिय कलङ्क र ठगिएको घाउ आलै छ। भारत आफ्नो प्रतिरक्षा अवधारणा मनाउन दवाब दिइरहेको छ। भारतीय एकाधिकार पूँजीको जकडबाट नेपाली अर्थतन्त्र आक्रान्त छ। स्वतन्त्र राष्ट्रिय अर्थतन्त्रको विकासमा खुला सीमाना एउटा तगारो हो। सीमाना नियन्त्रण गर्ने राष्ट्रिय जागरण बढी रहेको छ। यो बेला साझा नदी, साझा मुद्रा र कुनै कुनै कुनाबाट साझा सरकारको समेत कुरा उठ्नुले मुलुकको राष्‍ट्रवादी शक्ति चिन्तित र ससङ्कित हुनु र सजगता देखाउनु स्वाभाविक हो। वर्तमान संविधानमा महत्वपूर्ण सन्धि सम्झौता गरिँदा सदनको दुई तिहाइ बहुमतको अनुमोदन चाहिने प्रावधान छ। यसको ध्येय राष्ट्रिय हितका विषयमा निर्णय लिइँदा राष्ट्रिय सहमति खोज्ने नै हो। राष्ट्रिय हितलाई कुनै पार्टी विशेषको सेन्टिमेन्टले डिक्टेट गरिनु हुँदैन। नेपाली काँग्रेसमा वर्तमान सामाजिक, आर्थिक संरचनालाई विकास र जनताको पक्षमा आमूल परिवर्तन गराउने सङ्कल्प शक्तिको सर्वथा अभाव छ। यथास्थितिलाई कायम राखेर ल्याइने प्रजातान्त्रिक समाजवादको रूप के होला? समाजको विपन्न र असक्त वर्गले नयाँ परिवर्तनलाई कसरी अनुभव गर्ने? नेपाली काँग्रेसले पूर्ववर्ती शासनका आर्थिक सामाजिक नीतिहरूलाई विरासतमा लिने र उनीहरूकै पदचिह्नमा हिँड्ने सङ्केत गरी सकेको छ। 
३. कम्युनिष्ट शक्ति- नेपालको वर्तमान शक्ति समीकरणमा अर्को महत्वपूर्ण शक्ति कम्युनिष्ट शक्ति हो। राष्ट्रियताका सवालमा र प्रजातन्त्र स्थापनाको सङ्घर्षमा यसको योगदान सकारात्मक रहेको तथ्यलाई कसैले इन्कार्न मिल्दैन। यसैकारण नै विश्व कम्युनिष्ट आन्दोलन सङ्कटबाट गुज्रिरहेको भए पनि यहाँ कम्युनिष्ट आन्दोलन प्रबल रूपमा रहेको छ। यति हुँदाहुँदै पनि यो आन्दोलन एकीकृत आन्दोलन होइन। विभिन्न धारा र चिरामा विभक्त यो आन्दोलनको विभाजन जनता र राष्ट्रका प्रश्‍नमा भन्दा पनि नेतृत्व तृष्णा, विदेशी नक्कल र जडसूत्रको अनुसरणमा भएको छ। बेला बखत यो आन्दोलन उग्र बामपन्थ र दक्षिणपन्थको सिकार रहेको कुरा स्वयम् कम्युनिष्टहरू स्विकार्दछन्। यतिमात्र होइन उनीहरू अहिले पनि एक अर्कालाई दक्षिणपन्थी र जडसूत्रवादीको आरोप प्रत्यारोप लगाइ रहेका छन्। सामाजिक अन्याय र शोषणको विरुद्धमा आवाज उठाउने काम त यस आन्दोलनबाट भएको छ तर तर्कसङ्गत सामाजिक न्याय र समुन्नति कसरी स्थापित गर्ने बारेमा नेपाली कम्युनिष्टहरूले कुनै भरपर्दो कार्यक्रम दिन सकेका छैनन्। नेपाली कम्युनिष्ट आन्दोलन बृहत्तर प्रजातान्त्रिक आन्दोलनको एक हिस्सा भएर पनि यसले नेपालको भूराजनीतिक यथार्थको नेतृत्व गर्न सक्दैन। कठोर पार्टी ब्युरोक्रेसी, आन्तरिक जनवादको अभाव र अनवरत पार्टीसत्ता सङ्घर्ष यस आन्दोलनका भित्री विशेषताहरू हुन्। खुल्ला समाज र बहुदलीय प्रतिस्पर्धात्मक राजनीतिलाई ठाडै या घुमाउरो पाराले अस्वीकार गर्ने र सत्तामा कम्युनिष्ट नेतृत्व एकाधिकारको वकालत गर्ने धारा अहिले पनि यस आन्दोलनभित्र छँदैछ। राष्‍ट्र र जनतासँग जिम्मेवार भएर प्रभावकारी र तर्क सङ्गत राष्ट्रिय दिशा निर्क्यौल गर्नमा भन्दा पनि यो आन्दोलन "वाल रोग" को बढी सिकार छ। यस आमनिर्वाचनको सिलसिलामा "एक बाम एक ठाम" को प्रस्तावलाई कम्युनिष्टहरू बाटै धुजा धुजा पारियो। उनीहरूको सत्ता लिप्सा, अपरिपक्वता, अहम्, र गैह्र जिम्मेवारीलाई नाप्ने यो भन्दा अरू कुनै मापदण्ड चाहिन्छ र? नेपाली इतिहासमा पहिलो पटक कम्युनिष्टहरू यसपाली सत्तामा अंशियार बन्न पुगेका हुन्। अन्तरिम मन्त्रि मण्डलका सफलता र असफलता नै उनीहरूको पनि वासलात हो। उनीहरू सत्तामा रहेको जनताले राष्ट्रिय जीवनको कुन पक्षमा अनुभव गर्न पाए त्यसको इतिहासले मूल्याङ्कन गर्ने नै छ। हामी यति भन्न विवश छौँ सत्तामा रहेकाहरूले आफ्नो छविलाई विवादास्पद बनाउनबाट जोगाउन सकेनन्। 
४. जातीय तथा साम्प्रदायिक शक्तिहरू जन आन्दोलन पछि नै प्रकट रूपमा जातीय तथा साम्प्रदायिक आधारमा सङ्गठित हुने प्रक्रिया पनि हामी कहाँ देखिएको छ। जातीय अर्थात् साम्प्रदायिक समस्या विद्यमान छ भन्नु, त्यसको उपयुक्त समाधानको खोजी गर्नु र आफ्नो हित तथा उत्थानको निम्ति सङ्गठित प्रयास गर्नु राम्रो कुरा हो। तर पिछडिएका जातिको उत्थानको नाममा वा जातीय अन्तर विरोध नै प्रधान अन्तर विरोध हो भन्ने नाममा जाती जाती बीचको जातीय तथा साम्प्रदायिक सद्‌भावलाई बिथोल्ने गरी या जातीय साम्प्रदायिक दङ्गा भड्काउने क्रियाकलाप कसैबाट पनि हुनुहुँदैन। जातीय तथा साम्प्रदायिक समस्या समाधानको निम्ति केही क्षेत्रबाट सङ्घीय राज्य, स्वायत्त क्षेत्र, पछि परेका जात तथा जनजातिहरूको निम्ति आरक्षण तथा जातीय समानुपातिक प्रतिनिधित्व जस्ता कुरा पनि अघि सारिएका छन्। जातीय भेदभाव र पछौटेपनको समाधान प्रजातान्त्रिक प्रक्रियाबाट नै गरिनु पर्दछ र यसको निम्ति हाम्रो यथार्थभित्र राष्ट्रिय छलफल गर्नु र राष्ट्रिय सहमति निकाल्नु आवश्यक छ जातीय समस्या प्रतिगामी तथा विदेशी शक्ति घुस्ने सबभन्दा सरल राजमार्ग हो भन्ने कुरा सम्बन्धित सबै क्षेत्रले बुझ्नु अनिवार्य छ र त्यसलाई बेलैमा निराकरण गर्ने तर्फ पाइला चाल्नु पर्दछ। 
'''

tokens3=preprocess(eg3)

Sentences
['३० वर्षपछि मुलुकमा राजाको पञ्चायती व्यवस्थाको अवसान र एक पटक फेरि बहुदलीय व्यवस्थाको उदय भएको छ।', 'यस सुखद घडीको पृष्ठभूमिमा नेपाली आमाका सयौं सपुतहरूले प्रजातन्त्रको निम्ति बलिबेदीमा आफ्नो अमूल्य जीवन न्यौछावर गरेका छन्।', 'तपाईँ हाम्रै बीच निरङ्कुश व्यवस्थाको पोल खोल्ने जीवन्त साक्षीहरूको रूपमा यातना शिविरबाट फर्केका कैयौं अपाङ्गहरू अहिले पनि छँदैछन्।', 'यस प्रजातान्त्रिक लडाइँलाई निरन्तरता दिने क्रममा तपाईँ हाम्रै गाउँघरमा कैयन् घरबारहरू राजनीतिक कारणले बेहाल बनाइएका छन्।', 'जनताको अनवरत सङ्घर्ष र खासगरी अघिल्लो वर्ष राजनीतिक विचारधारा, बर्ग, धर्म, पेसा या जात जातिको कुनै भेदभाव नराखी एक ढिको ढिकको भएर नेपाली जनताको जुझारू र निर्णायक सङ्घर्षले ३० वर्षसम्म एकछत्र रजाइँ गर्दै आएको एक दलीय तानाशाही व्यवस्थालाई लत्\u200cर्याइयो।', 'अथाह कष्ट, असह्य यातना र निर्मम शोषणमाथि बनेको निरङ्कुशताको महल अब रहेन।', '३२ वर्षपछि नेपाली जनता बहुदलीय प्रतिस्पर्धात्मक वातावरणमा आम चुनावमा जान पाइ रहेका छन्।', 'यस सुखद अवसरमा प्रजातान्त्रिक जनमञ्च निरङ्कुशता फाल्न र प्रजातन्त्र ल्याउन सहाद

In [3]:
tokens3

['वर्षपछि',
 'मुलुकमा',
 'राजाको',
 'पञ्चायती',
 'व्यवस्थाको',
 'अवसान',
 'बहुदलीय',
 'व्यवस्थाको',
 'उदय',
 'सुखद',
 'घडीको',
 'पृष्ठभूमिमा',
 'नेपाली',
 'आमाका',
 'सयौं',
 'सपुतहरूले',
 'प्रजातन्त्रको',
 'बलिबेदीमा',
 'अमूल्य',
 'जीवन',
 'न्यौछावर',
 'तपाईँ',
 'हाम्रै',
 'निरङ्कुश',
 'व्यवस्थाको',
 'पोल',
 'खोल्ने',
 'जीवन्त',
 'साक्षीहरूको',
 'रूपमा',
 'यातना',
 'शिविरबाट',
 'फर्केका',
 'कैयौं',
 'अपाङ्गहरू',
 'छँदैछन्',
 'प्रजातान्त्रिक',
 'लडाइँलाई',
 'निरन्तरता',
 'दिने',
 'क्रममा',
 'तपाईँ',
 'हाम्रै',
 'गाउँघरमा',
 'कैयन्',
 'घरबारहरू',
 'राजनीतिक',
 'कारणले',
 'बेहाल',
 'बनाइएका',
 'जनताको',
 'अनवरत',
 'सङ्घर्ष',
 'खासगरी',
 'अघिल्लो',
 'वर्ष',
 'राजनीतिक',
 'विचारधारा',
 'बर्ग',
 'धर्म',
 'पेसा',
 'जात',
 'जातिको',
 'भेदभाव',
 'नराखी',
 'ढिको',
 'ढिकको',
 'नेपाली',
 'जनताको',
 'जुझारू',
 'निर्णायक',
 'सङ्घर्षले',
 'वर्षसम्म',
 'एकछत्र',
 'रजाइँ',
 'दलीय',
 'तानाशाही',
 'व्यवस्थालाई',
 'लत्\u200cर्याइयो',
 'अथाह',
 'कष्ट',
 'असह्य',
 'यातना',
 'निर्मम',
 'शोषणमाथि',
 'बनेको',


In [12]:
# tokens3=['वर्षपछि']
len(tokens3)

1404

In [5]:
from stemmer import Stemmer

In [6]:
m=Stemmer()

In [9]:

rep,i,k,repc=0,0,0,0
tokens=tokens3
new=[]
unrecog=[]
count=1
for token in tokens:
    p="yes"
    i,k = 0,0 #no. of suffix and prefix found
    print("\nUnstemmed input token"+str(count)+":"+token)
    orig_token=token
    end=False
    while (not end):
        print("Checking root word or not")
        if (m.isRoot(token) or( m.isAltRoot(token) and i>0)):
            print("comdition1")
            if( m.isAltRoot(token) and i>0):
                m.setRoot(m.getAltRoot(token))
                
            else:
                m.setRoot(token)
                print("\nRoot word found:"+token)    
            end=True
            
        elif (m.isRoot(token + "\u094d")) :
            print("comdition2")

            i+=1
            m.setSMorph_number(i)
            m.isASuffix(token)
            token = m.getRoot()

            
        elif (token.endswith("\u094d") and m.isRoot(token[:len(token)-1])):
            print("comdition3")
            token=token[:len(token)-1]
            m.setRoot(token)

        elif (m.suffixPresent(token,i)) :
            print("comdition4")
            i+=1
            m.setSMorph_number(i)
            m.stripSuffix(token)
            token = m.getRoot()

        elif (m.prefixPresent(token)) :
            print("comdition5")
            k+=1
            m.setPMorph_number(k)
            m.stripPrefix(token)
            token = m.getRoot()
            
        else:
            print("\nRecombining suffix")
            
#           if prefix and suffix present
            if (k > 0 and i > 0) :
                print("comdition6:bot suffix and prefix found previously")

                a = m.getPMorph()
                print("PMorph:"+str(a))
                for k1 in range(k,0,-1):
                    tmp = token
                    for l in range(i,0,-1):
                        tm = m.generateWord(tmp, l)
                        print("generated word: "+tm)

                        if (m.isRoot(tm) or ( m.isAltRoot(tm) and i>0)):
                            bk = 1
                            m.setSMorph_number(l - 1)
                            m.setPMorph_number(k)
                            if(( m.isAltRoot(tm) and i>0)):
                                m.setRoot(m.getAltRoot(tm))
                            else:
                                m.setRoot(tm)
                            token = m.getRoot()
                            break
                        else:
                            bk = 0
                            tmp = tm
                    
                    if (bk == 1) :
                        break
                    

                    if (k1 > 1):
                        token = a[k1] + token

                
                if (bk != 1) :
                    m.setRoot("unrecognized")

                    k = 0
                

            else: 
                print("comdition7:unrecognized")

                m.setRoot("unrecognized")


            if (m.getRoot()==("unrecognized")):
                rep+=1

                repeat = 0
#               for the second parse
                if (rep == 1) :
#                   check for if the any rulenumber of the suffix contains repeat sign "Y"
                    for l in range(i,0,-1):
                        if (m.isRepeat(str(m.getSMorph_rulenum(l)))):
                            repeat = 1
                            break #//for any suffix that has a repeat sign.
                        else:
                            repeat = 0
                    
                
#               if any rulenumber has the suffix content as repeat sign"Y"
                if (repeat == 1) :
                    token = origtoken
                    m.setPMorph_number(0)
                    m.setSMorph_number(0)
                    i = 0
                    k = 0
                    m.setSecParse(rep)
                else:
                    break
    if(m.getRoot()==("unrecognized")):
        unrecog.append(orig_token)
        new.append(orig_token)
        print("\nfinal token (couldnt stem):"+orig_token)
        
    else:
        new.append(m.getRoot())
        print("\nfinal stemmed token:"+m.getRoot())
    count+=1
        
        



Unstemmed input token1:वर्षपछि
Checking root word or not

Checking suffix present or not

tmp_suffix:र्षपछि
tmp_suffix:्षपछि
tmp_suffix:षपछि
tmp_suffix:पछि
tmp_suffix:छि
tmp_suffix:ि

suffix found
comdition4

Stripping suffix
rule:63

Suffix_del:आइ

Suffix_del:ाइ

Suffix_del:ि
ि ्
not_dot ्

final stiped word: वर्षपछ्
Checking root word or not

Checking suffix present or not

tmp_suffix:र्षपछ्
tmp_suffix:्षपछ्
tmp_suffix:षपछ्
tmp_suffix:पछ्
tmp_suffix:छ्
tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:व
tmp_prefix:वर
tmp_prefix:वर्
tmp_prefix:वर्ष
tmp_prefix:वर्षप
tmp_prefix:वर्षपछ
tmp_prefix:वर्षपछ्

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):वर्षपछि

Unstemmed input token2:मुलुकमा
Checking root word or not

Checking suffix present or not

tmp_suffix:ुलुकमा
tmp_suffix:लुकमा
tmp_suffix:ुकमा
tmp_suffix:कमा
tmp_suffix:मा

suffix found
comdition4

Stripping suffix
rule:57

Suffix_del:मा
मा .

final stiped word: मुलु

final stiped word: खद
Checking root word or not

Checking suffix present or not

tmp_suffix:द

suffix not found

Checking prefix present or not

tmp_prefix:ख
tmp_prefix:खद

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):सुखद

Unstemmed input token100:अवसरमा
Checking root word or not

Checking suffix present or not

tmp_suffix:वसरमा
tmp_suffix:सरमा
tmp_suffix:रमा
tmp_suffix:मा

suffix found
comdition4

Stripping suffix
rule:57

Suffix_del:मा
मा .

final stiped word: अवसर
Checking root word or not
comdition1

Root word found:अवसर

final stemmed token:अवसर

Unstemmed input token101:प्रजातान्त्रिक
Checking root word or not

Checking suffix present or not

tmp_suffix:्रजातान्त्रिक
tmp_suffix:रजातान्त्रिक
tmp_suffix:जातान्त्रिक
tmp_suffix:ातान्त्रिक
tmp_suffix:तान्त्रिक
tmp_suffix:ान्त्रिक
tmp_suffix:न्त्रिक
tmp_suffix:्त्रिक
tmp_suffix:त्रिक
tmp_suffix:्रिक
tmp_suffix:रिक
tmp_suffix:िक

suffix found
comdition4

Stripping suffix
rule:104

Suffix_del:

final stemmed token:सङ्गठन

Unstemmed input token170:गत
Checking root word or not
comdition1

Root word found:गत

final stemmed token:गत

Unstemmed input token171:माघ
Checking root word or not
comdition1

Root word found:माघ

final stemmed token:माघ

Unstemmed input token172:गते
Checking root word or not
comdition1

Root word found:गते

final stemmed token:गते

Unstemmed input token173:विभिन्न
Checking root word or not

Checking suffix present or not

tmp_suffix:िभिन्न
tmp_suffix:भिन्न
tmp_suffix:िन्न
tmp_suffix:न्न
tmp_suffix:्न
tmp_suffix:न

suffix found
comdition4

Stripping suffix
rule:12

Suffix_del:न
न .

final stiped word: विभि्
Checking root word or not

Checking suffix present or not

tmp_suffix:िभि्
tmp_suffix:भि्
tmp_suffix:ि्
tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:व
tmp_prefix:वि
tmp_prefix:विभ
tmp_prefix:विभि
tmp_prefix:विभि्

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):विभिन्न

Unstemmed inpu

tmp_prefix:सामा
tmp_prefix:सामाज

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):सामाजिक

Unstemmed input token257:जीवनमा
Checking root word or not

Checking suffix present or not

tmp_suffix:ीवनमा
tmp_suffix:वनमा
tmp_suffix:नमा
tmp_suffix:मा

suffix found
comdition4

Stripping suffix
rule:57

Suffix_del:मा
मा .

final stiped word: जीवन
Checking root word or not
comdition1

Root word found:जीवन

final stemmed token:जीवन

Unstemmed input token258:व्यापक
Checking root word or not
comdition1

Root word found:व्यापक

final stemmed token:व्यापक

Unstemmed input token259:सुधार
Checking root word or not
comdition1

Root word found:सुधार

final stemmed token:सुधार

Unstemmed input token260:ल्याएर
Checking root word or not

Checking suffix present or not

tmp_suffix:्याएर
tmp_suffix:याएर
tmp_suffix:ाएर
tmp_suffix:एर

suffix found
comdition4

Stripping suffix
rule:62

Suffix_del:एर
एर .

final stiped word: ल्या
Checking root word or not

Checking suffix 

tmp_suffix:ँदैन
tmp_suffix:दैन
tmp_suffix:ैन
tmp_suffix:न

suffix found
comdition4

Stripping suffix
rule:12

Suffix_del:न
न .

final stiped word: हुुहुँदै
Checking root word or not

Checking suffix present or not

tmp_suffix:ुुहुँदै
tmp_suffix:ुहुँदै
tmp_suffix:हुँदै
tmp_suffix:ुँदै
tmp_suffix:ँदै

suffix found
comdition4

Stripping suffix
rule:19

Suffix_del:ँदै
ँदै .

final stiped word: हुुहु
Checking root word or not

Checking suffix present or not

tmp_suffix:ुुहु
tmp_suffix:ुहु
tmp_suffix:हु
tmp_suffix:ु

suffix not found

Checking prefix present or not

tmp_prefix:ह
tmp_prefix:हु
tmp_prefix:हुु
tmp_prefix:हुुह
tmp_prefix:हुुहु

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):हुनुहुँदैन

Unstemmed input token334:हामीबाट
Checking root word or not

Checking suffix present or not

tmp_suffix:ामीबाट
tmp_suffix:मीबाट
tmp_suffix:ीबाट
tmp_suffix:बाट

suffix found
comdition4

Stripping suffix
rule:9

Suffix_del:बाट
बाट .

final stiped word: हामी
C

final token (couldnt stem):प्रजातान्त्रिक

Unstemmed input token426:जनमञ्चले
Checking root word or not

Checking suffix present or not

tmp_suffix:नमञ्चले
tmp_suffix:मञ्चले
tmp_suffix:ञ्चले
tmp_suffix:्चले
tmp_suffix:चले
tmp_suffix:ले

suffix found
comdition4

Stripping suffix
rule:3

Suffix_del:ले
ले .

final stiped word: जनमञ्च
Checking root word or not

Checking suffix present or not

tmp_suffix:नमञ्च
tmp_suffix:मञ्च
tmp_suffix:ञ्च
tmp_suffix:्च
tmp_suffix:च

suffix not found

Checking prefix present or not

tmp_prefix:ज
tmp_prefix:जन
tmp_prefix:जनम
tmp_prefix:जनमञ
tmp_prefix:जनमञ्
tmp_prefix:जनमञ्च

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):जनमञ्चले

Unstemmed input token427:सामाजिक
Checking root word or not

Checking suffix present or not

tmp_suffix:ामाजिक
tmp_suffix:माजिक
tmp_suffix:ाजिक
tmp_suffix:जिक
tmp_suffix:िक

suffix found
comdition4

Stripping suffix
rule:104

Suffix_del:िक
िक .

final stiped word: सामाज
Checking root word o


suffix found
comdition4

Stripping suffix
rule:1

Suffix_del:हरू
हरू .

final stiped word: शक्ति
Checking root word or not
comdition1

Root word found:शक्ति

final stemmed token:शक्ति

Unstemmed input token521:छदैछ
Checking root word or not

Checking suffix present or not

tmp_suffix:दैछ
tmp_suffix:ैछ
tmp_suffix:छ

suffix found
comdition4

Stripping suffix
rule:7

Suffix_del:ँछ

Suffix_del:छ
छ .

final stiped word: दै
Checking root word or not

Checking suffix present or not

tmp_suffix:ै

suffix found
comdition4

Stripping suffix
rule:83

Suffix_del:ै
ै ्
not_dot ्

final stiped word: द्
Checking root word or not

Checking suffix present or not

tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:द
tmp_prefix:द्

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):छदैछ

Unstemmed input token522:राजनीतिक
Checking root word or not

Checking suffix present or not

tmp_suffix:ाजनीतिक
tmp_suffix:जनीतिक
tmp_suffix:नीतिक
tmp_suffix

tmp_suffix:उँमा
tmp_suffix:ँमा
tmp_suffix:मा

suffix found
comdition4

Stripping suffix
rule:57

Suffix_del:मा
मा .

final stiped word: नाउँ
Checking root word or not
comdition1

Root word found:नाउँ

final stemmed token:नाउँ

Unstemmed input token633:यसलाई
Checking root word or not

Checking suffix present or not

tmp_suffix:सलाई
tmp_suffix:लाई

suffix found
comdition4

Stripping suffix
rule:2

Suffix_del:लाई
लाई .

final stiped word: यस
Checking root word or not
comdition1

Root word found:यस

final stemmed token:यस

Unstemmed input token634:जातीय
Checking root word or not
comdition1

Root word found:जातीय

final stemmed token:जातीय

Unstemmed input token635:मेलमिलाप
Checking root word or not
comdition1

Root word found:मेलमिलाप

final stemmed token:मेलमिलाप

Unstemmed input token636:राष्ट्रिय
Checking root word or not

Checking suffix present or not

tmp_suffix:ाष्ट्रिय
tmp_suffix:ष्ट्रिय
tmp_suffix:्ट्रिय
tmp_suffix:ट्रिय
tmp_suffix:्रिय
tmp_suffix:रिय
tmp_suffix:िय
tmp_suffix:य

s


Suffix_del:हरू
हरू .

final stiped word: प्रत्यासी
Checking root word or not

Checking suffix present or not

tmp_suffix:्रत्यासी
tmp_suffix:रत्यासी
tmp_suffix:त्यासी
tmp_suffix:्यासी
tmp_suffix:यासी
tmp_suffix:ासी
tmp_suffix:सी
tmp_suffix:ी

suffix found
comdition4

Stripping suffix
rule:61

Suffix_del:ी
ी ्
not_dot ्

final stiped word: प्रत्यास्
Checking root word or not

Checking suffix present or not

tmp_suffix:्रत्यास्
tmp_suffix:रत्यास्
tmp_suffix:त्यास्
tmp_suffix:्यास्
tmp_suffix:यास्
tmp_suffix:ास्
tmp_suffix:स्
tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:प
tmp_prefix:प्
tmp_prefix:प्र
tmp_prefix:प्रत
tmp_prefix:प्रत्
tmp_prefix:प्रत्य
tmp_prefix:प्रत्या
tmp_prefix:प्रत्यास
tmp_prefix:प्रत्यास्

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):प्रत्यासीहरूले

Unstemmed input token746:प्रभावित
Checking root word or not

Checking suffix present or not

tmp_suffix:्रभावित
tmp_suffix:रभावित
tmp_suffix:भावित


tmp_prefix:शाहसपूर
tmp_prefix:शाहसपूर्
tmp_prefix:शाहसपूर्व
tmp_prefix:शाहसपूर्वक

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):शाहसपूर्वक

Unstemmed input token850:कार्यान्वयन
Checking root word or not
comdition1

Root word found:कार्यान्वयन

final stemmed token:कार्यान्वयन

Unstemmed input token851:नसकेर
Checking root word or not

Checking suffix present or not

tmp_suffix:सकेर
tmp_suffix:केर
tmp_suffix:ेर

suffix found
comdition4

Stripping suffix
rule:62

Suffix_del:एर

Suffix_del:ेर
ेर ्
not_dot ्

final stiped word: नसक्
Checking root word or not

Checking suffix present or not

tmp_suffix:सक्
tmp_suffix:क्
tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:न

prefix found
comdition5

Stripping prefix
rule:1

Prefix_del:न

final stiped word: सक्
Checking root word or not
comdition1

Root word found:सक्

final stemmed token:सक्

Unstemmed input token852:उनीहरू
Checking root word or not

Checking suffix present or 


Suffix_del:न
न .

final stiped word: माे
Checking root word or not

Checking suffix present or not

tmp_suffix:ाे
tmp_suffix:े

suffix found
comdition4

Stripping suffix
rule:23

Suffix_del:एँ

Suffix_del:ए

Suffix_del:ेँ

Suffix_del:े
े ्
not_dot ्

final stiped word: मा्
Checking root word or not

Checking suffix present or not

tmp_suffix:ा्
tmp_suffix:्

suffix not found

Checking prefix present or not

tmp_prefix:म
tmp_prefix:मा
tmp_prefix:मा्

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):मानेन

Unstemmed input token951:पार्टीभित्र
Checking root word or not

Checking suffix present or not

tmp_suffix:ार्टीभित्र
tmp_suffix:र्टीभित्र
tmp_suffix:्टीभित्र
tmp_suffix:टीभित्र
tmp_suffix:ीभित्र
tmp_suffix:भित्र
tmp_suffix:ित्र
tmp_suffix:त्र
tmp_suffix:्र
tmp_suffix:र

suffix not found

Checking prefix present or not

tmp_prefix:प
tmp_prefix:पा
tmp_prefix:पार
tmp_prefix:पार्
tmp_prefix:पार्ट
tmp_prefix:पार्टी
tmp_prefix:पार्टीभ
tmp_prefix:पार्


final stemmed token:देखाउ

Unstemmed input token1040:स्वाभाविक
Checking root word or not

Checking suffix present or not

tmp_suffix:्वाभाविक
tmp_suffix:वाभाविक
tmp_suffix:ाभाविक
tmp_suffix:भाविक
tmp_suffix:ाविक
tmp_suffix:विक
tmp_suffix:िक

suffix found
comdition4

Stripping suffix
rule:104

Suffix_del:िक
िक .

final stiped word: स्वाभाव
Checking root word or not

Checking suffix present or not

tmp_suffix:्वाभाव
tmp_suffix:वाभाव
tmp_suffix:ाभाव
tmp_suffix:भाव
tmp_suffix:ाव
tmp_suffix:व

suffix not found

Checking prefix present or not

tmp_prefix:स
tmp_prefix:स्
tmp_prefix:स्व
tmp_prefix:स्वा
tmp_prefix:स्वाभ
tmp_prefix:स्वाभा
tmp_prefix:स्वाभाव

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):स्वाभाविक

Unstemmed input token1041:वर्तमान
Checking root word or not
comdition1

Root word found:वर्तमान

final stemmed token:वर्तमान

Unstemmed input token1042:संविधानमा
Checking root word or not

Checking suffix present or not

tmp_suffix:ंविधानमा
t

tmp_prefix:सका
tmp_prefix:सकार
tmp_prefix:सकारा
tmp_prefix:सकारात
tmp_prefix:सकारात्
tmp_prefix:सकारात्म
tmp_prefix:सकारात्मक

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):सकारात्मक

Unstemmed input token1129:तथ्यलाई
Checking root word or not

Checking suffix present or not

tmp_suffix:थ्यलाई
tmp_suffix:्यलाई
tmp_suffix:यलाई
tmp_suffix:लाई

suffix found
comdition4

Stripping suffix
rule:2

Suffix_del:लाई
लाई .

final stiped word: तथ्य
Checking root word or not
comdition1

Root word found:तथ्य

final stemmed token:तथ्य

Unstemmed input token1130:इन्कार्न
Checking root word or not

Checking suffix present or not

tmp_suffix:न्कार्न
tmp_suffix:्कार्न
tmp_suffix:कार्न
tmp_suffix:ार्न
tmp_suffix:र्न
tmp_suffix:्न
tmp_suffix:न

suffix found
comdition4

Stripping suffix
rule:12

Suffix_del:न
न .

final stiped word: इ्कार्
Checking root word or not

Checking suffix present or not

tmp_suffix:्कार्
tmp_suffix:कार्
tmp_suffix:ार्
tmp_suffix:र्
tmp_suff

tmp_prefix:कम्युन
tmp_prefix:कम्युनि
tmp_prefix:कम्युनिष
tmp_prefix:कम्युनिष्
tmp_prefix:कम्युनिष्ट

prefix not found

Recombining suffix
comdition7:unrecognized

final token (couldnt stem):कम्युनिष्ट

Unstemmed input token1229:नेतृत्व
Checking root word or not
comdition1

Root word found:नेतृत्व

final stemmed token:नेतृत्व

Unstemmed input token1230:एकाधिकारको
Checking root word or not

Checking suffix present or not

tmp_suffix:काधिकारको
tmp_suffix:ाधिकारको
tmp_suffix:धिकारको
tmp_suffix:िकारको
tmp_suffix:कारको
tmp_suffix:ारको
tmp_suffix:रको
tmp_suffix:को

suffix found
comdition4

Stripping suffix
rule:4

Suffix_del:को
को .

final stiped word: एकाधिकार
Checking root word or not

Checking suffix present or not

tmp_suffix:काधिकार
tmp_suffix:ाधिकार
tmp_suffix:धिकार
tmp_suffix:िकार
tmp_suffix:कार
tmp_suffix:ार
tmp_suffix:र

suffix not found

Checking prefix present or not

tmp_prefix:ए
tmp_prefix:एक
tmp_prefix:एका
tmp_prefix:एकाध
tmp_prefix:एकाधि
tmp_prefix:एकाधिक
tmp_prefix:एकाधिका
tmp

comdition1

Root word found:जातीय

final stemmed token:जातीय

Unstemmed input token1333:अन्तर
Checking root word or not
comdition1

Root word found:अन्तर

final stemmed token:अन्तर

Unstemmed input token1334:विरोध
Checking root word or not
comdition1

Root word found:विरोध

final stemmed token:विरोध

Unstemmed input token1335:प्रधान
Checking root word or not
comdition1

Root word found:प्रधान

final stemmed token:प्रधान

Unstemmed input token1336:अन्तर
Checking root word or not
comdition1

Root word found:अन्तर

final stemmed token:अन्तर

Unstemmed input token1337:विरोध
Checking root word or not
comdition1

Root word found:विरोध

final stemmed token:विरोध

Unstemmed input token1338:नाममा
Checking root word or not

Checking suffix present or not

tmp_suffix:ाममा
tmp_suffix:ममा
tmp_suffix:मा

suffix found
comdition4

Stripping suffix
rule:57

Suffix_del:मा
मा .

final stiped word: नाम
Checking root word or not
comdition1

Root word found:नाम

final stemmed token:नाम

Unstemmed input toke

In [11]:
len(unrecog)

395

In [13]:
len(new)

1404

In [None]:
m.getRoot()


In [None]:
new[0]

In [None]:
a="parot"
if a==("p"):
    print (a)

In [None]:
len(a)

In [None]:
a=a[:len(a)-1]

In [None]:
a

In [None]:
m.isRoot('धु')
m.setRoot('धु')

In [None]:
word="वर्षलाई"
word.replace("लाई","")

In [None]:
word