In [38]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import BernoulliNB
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
import pickle 

In [39]:
# nltk.download('stopwords')

In [40]:
# printing stopwords. Stopwords -> words that do not add much value to the sentence
print(stopwords.words('nepali'))


['छ', 'र', 'पनि', 'छन्', 'लागि', 'भएको', 'गरेको', 'भने', 'गर्न', 'गर्ने', 'हो', 'तथा', 'यो', 'रहेको', 'उनले', 'थियो', 'हुने', 'गरेका', 'थिए', 'गर्दै', 'तर', 'नै', 'को', 'मा', 'हुन्', 'भन्ने', 'हुन', 'गरी', 'त', 'हुन्छ', 'अब', 'के', 'रहेका', 'गरेर', 'छैन', 'दिए', 'भए', 'यस', 'ले', 'गर्नु', 'औं', 'सो', 'त्यो', 'कि', 'जुन', 'यी', 'का', 'गरि', 'ती', 'न', 'छु', 'छौं', 'लाई', 'नि', 'उप', 'अक्सर', 'आदि', 'कसरी', 'क्रमशः', 'चाले', 'अगाडी', 'अझै', 'अनुसार', 'अन्तर्गत', 'अन्य', 'अन्यत्र', 'अन्यथा', 'अरु', 'अरुलाई', 'अर्को', 'अर्थात', 'अर्थात्', 'अलग', 'आए', 'आजको', 'ओठ', 'आत्म', 'आफू', 'आफूलाई', 'आफ्नै', 'आफ्नो', 'आयो', 'उदाहरण', 'उनको', 'उहालाई', 'एउटै', 'एक', 'एकदम', 'कतै', 'कम से कम', 'कसै', 'कसैले', 'कहाँबाट', 'कहिलेकाहीं', 'का', 'किन', 'किनभने', 'कुनै', 'कुरा', 'कृपया', 'केही', 'कोही', 'गए', 'गरौं', 'गर्छ', 'गर्छु', 'गर्नुपर्छ', 'गयौ', 'गैर', 'चार', 'चाहनुहुन्छ', 'चाहन्छु', 'चाहिए', 'छू', 'जताततै', 'जब', 'जबकि', 'जसको', 'जसबाट', 'जसमा', 'जसलाई', 'जसले', 'जस्तै', 'जस्तो', 'जस्तोसुकै', 'जहाँ'

In [41]:
#in variable news_dataset we're reading the csv file using read_csv function from pandas
news_dataset =pd.read_csv('C:/Users/Abhishek/Desktop/major_project/nepali_news.csv', names=['news', 'label'], header=None) 

In [42]:
print(news_dataset)

                                                 news  label
0   त्रिविको नतिजा एक हप्ताभित्र सार्वजनिक गर्न मा...      1
1   धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी ...      1
2   रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्...      1
3   निर्वाचन आचारसंहिता उल्लंघन गरेको भन्दै वाग्मत...      1
4   कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्...      1
5   तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको ...      0
6   अछामको निर्वाचन क्षेत्र नम्बर १ का उम्मेदवार भ...      0
7   ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादन...      0
8   संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्...      0
9   नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविध...      0
10  राष्ट्रपति भण्डारी WPL ट्रेलब्लेजर अवार्ड २०२२...      1
11  संसदमा सबैको सामूहिक आवाजबाट नयाँ राजनीतिक नक्...      1
12  नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा...      0
13  शेरबहादुर देउवा र ऊर्जामन्त्री पम्फा भुसालले प...      0
14  काठमाडौं महानगरपालिकाले सरकारी तथा निजी संस्था...      1
15  नेपाल सरकारले जनकपुर

In [43]:
#checking if anything has null value
news_dataset.isnull()

Unnamed: 0,news,label
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
5,False,False
6,False,False
7,False,False
8,False,False
9,False,False


In [44]:
#number of places where the value is null
news_dataset.isnull().sum()

news     0
label    0
dtype: int64

In [45]:
# in news dataset we now have data where null values are removed.
news_dataset = news_dataset.dropna()

In [46]:
print(news_dataset)


                                                 news  label
0   त्रिविको नतिजा एक हप्ताभित्र सार्वजनिक गर्न मा...      1
1   धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी ...      1
2   रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्...      1
3   निर्वाचन आचारसंहिता उल्लंघन गरेको भन्दै वाग्मत...      1
4   कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्...      1
5   तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको ...      0
6   अछामको निर्वाचन क्षेत्र नम्बर १ का उम्मेदवार भ...      0
7   ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादन...      0
8   संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्...      0
9   नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविध...      0
10  राष्ट्रपति भण्डारी WPL ट्रेलब्लेजर अवार्ड २०२२...      1
11  संसदमा सबैको सामूहिक आवाजबाट नयाँ राजनीतिक नक्...      1
12  नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा...      0
13  शेरबहादुर देउवा र ऊर्जामन्त्री पम्फा भुसालले प...      0
14  काठमाडौं महानगरपालिकाले सरकारी तथा निजी संस्था...      1
15  नेपाल सरकारले जनकपुर

In [47]:
#removing stop words
#stop_words = stopwords.words('nepali')
#for news_item in news_dataset['news']:
#    print(news_item)
    

In [48]:
# creating an instance of porter stemmer class of nltk's stemmer
porter_stem = PorterStemmer() 

#creating a function to stem news dataset
#yo function definition matra ho, so exact parameters nadeko, dataset bhaneko news dataser, column bhaneko news wala
#while calling function, we will pass parameters, in another cell
def stem_data(dataset,column): 
                               
    stop_words = stopwords.words('nepali') #nepali ko stop words lina lai 
   
    dataset[column] = dataset[column].apply(lambda x: re.sub('[।(),०-९<!,—,–,/,’,‘,:,\u200d]', '', x))
    
    dataset[column] = dataset[column].apply(lambda x: " ".join([porter_stem.stem(i) for i in x.split() if i not in (stop_words)]))
    
    return dataset

In [49]:
print(news_dataset)



                                                 news  label
0   त्रिविको नतिजा एक हप्ताभित्र सार्वजनिक गर्न मा...      1
1   धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी ...      1
2   रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्...      1
3   निर्वाचन आचारसंहिता उल्लंघन गरेको भन्दै वाग्मत...      1
4   कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्...      1
5   तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको ...      0
6   अछामको निर्वाचन क्षेत्र नम्बर १ का उम्मेदवार भ...      0
7   ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादन...      0
8   संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्...      0
9   नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविध...      0
10  राष्ट्रपति भण्डारी WPL ट्रेलब्लेजर अवार्ड २०२२...      1
11  संसदमा सबैको सामूहिक आवाजबाट नयाँ राजनीतिक नक्...      1
12  नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा...      0
13  शेरबहादुर देउवा र ऊर्जामन्त्री पम्फा भुसालले प...      0
14  काठमाडौं महानगरपालिकाले सरकारी तथा निजी संस्था...      1
15  नेपाल सरकारले जनकपुर

In [50]:
#calling the stemming function, to stem news column from news dataset
news_dataset = stem_data(news_dataset, 'news')

In [51]:
print(news_dataset['news'])

0     त्रिविको नतिजा हप्ताभित्र सार्वजनिक माग क्रान्...
1     धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी ...
2     रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्...
3     निर्वाचन आचारसंहिता उल्लंघन भन्दै वाग्मती प्रद...
4     कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्...
5     तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको ...
6     अछामको निर्वाचन क्षेत्र नम्बर उम्मेदवार भीम रा...
7     ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादन...
8     संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्...
9     नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविध...
10    राष्ट्रपति भण्डारी wpl ट्रेलब्लेजर अवार्ड बाट ...
11    संसदमा सबैको सामूहिक आवाजबाट राजनीतिक नक्सा पा...
12    नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा...
13    शेरबहादुर देउवा ऊर्जामन्त्री पम्फा भुसालले प्र...
14    काठमाडौं महानगरपालिकाले सरकारी निजी संस्थाहरूल...
15    नेपाल सरकारले जनकपुर-जयनगर रेल सञ्चालन गर्दा म...
16    नेपालगञ्ज बाट हुम्ला उडेको तारा एयरको कार्गो व...
17    महानगरका टुकुचा खोलामाथि नारायणहीटी राजदरब

In [52]:
# separating news and label, because we want to do tfid only on the news column
X = news_dataset['news']
Y = news_dataset['label']

In [53]:
print(X)
print(Y)


0     त्रिविको नतिजा हप्ताभित्र सार्वजनिक माग क्रान्...
1     धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी ...
2     रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्...
3     निर्वाचन आचारसंहिता उल्लंघन भन्दै वाग्मती प्रद...
4     कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्...
5     तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको ...
6     अछामको निर्वाचन क्षेत्र नम्बर उम्मेदवार भीम रा...
7     ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादन...
8     संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्...
9     नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविध...
10    राष्ट्रपति भण्डारी wpl ट्रेलब्लेजर अवार्ड बाट ...
11    संसदमा सबैको सामूहिक आवाजबाट राजनीतिक नक्सा पा...
12    नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा...
13    शेरबहादुर देउवा ऊर्जामन्त्री पम्फा भुसालले प्र...
14    काठमाडौं महानगरपालिकाले सरकारी निजी संस्थाहरूल...
15    नेपाल सरकारले जनकपुर-जयनगर रेल सञ्चालन गर्दा म...
16    नेपालगञ्ज बाट हुम्ला उडेको तारा एयरको कार्गो व...
17    महानगरका टुकुचा खोलामाथि नारायणहीटी राजदरब

In [54]:
X = news_dataset['news'].values
Y = news_dataset['label'].values

In [55]:
print(X)
print(Y)

['त्रिविको नतिजा हप्ताभित्र सार्वजनिक माग क्रान्तिकारीले बुझायो ज्ञापनपत्र'
 'धरानमा बस्न सकेन कार्यपालिका बैठक मेयरले माफी माग्नुपर्ने अडान'
 'रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्यादेवी भण्डारीसँग विभिन्न अधिकारीले भेट'
 'निर्वाचन आचारसंहिता उल्लंघन भन्दै वाग्मती प्रदेशका मुख्यमन्त्रीसँग आयोगले स्पष्टीकरण मागेको'
 'कास्कीमा राजनीतिक दलले निर्वाचन आचारसंहिता उल्लंघन पाइएको'
 'तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको चुनावी प्रचारप्रसार गरिरहेको'
 'अछामको निर्वाचन क्षेत्र नम्बर उम्मेदवार भीम रावललाई भोट गर्नुहोस्'
 'ऊर्जामन्त्री भुसालको नेतृत्वमा विद्युत उत्पादनको कुल स्थापित क्षमता हजार सय मेगावाटबाट बढेर हजार मेगावाट पुगेको'
 'संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्शनकारीले मन्त्री कार्कीविरुद्ध नाराबाजी गरिरहेको भिडियोमा देखिएको'
 'नेपाली कांग्रेसको दृढ अडानका कारण मात्रै संविधान जारी'
 'राष्ट्रपति भण्डारी wpl ट्रेलब्लेजर अवार्ड बाट सम्मानित'
 'संसदमा सबैको सामूहिक आवाजबाट राजनीतिक नक्सा पारित प्रधानमन्त्री देउवा'
 'नेपाली कांग्रेसकी नेतृ सुजाता कोइरालाले कालापा

In [56]:
# #importing for tfidf
# #instance of tfidfmethod
# vectorizer = TfidfVectorizer()
# #converting text to numeric data
# vectorizer.fit(X)

In [57]:
# X = vectorizer.transform(X)
# print(X)


In [58]:
#print(X_test)

In [59]:
# splitting dataset into train and test data
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.2,random_state=1)

In [60]:
pipe_lr = Pipeline([
    ("tfidf", TfidfVectorizer()),
    ("lr",LogisticRegression())
])

In [61]:
pipe_lr.fit(X_train, Y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer()), ('lr', LogisticRegression())])

In [62]:
#accuracy score
X_train_prediction = pipe_lr.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction,Y_train)
print("accuracy of training data :", training_data_accuracy)

accuracy of training data : 0.7777777777777778


In [63]:
#accuracy on test data
X_test_prediction = pipe_lr.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction,Y_test)
print("accuracy of test data :",test_data_accuracy )

accuracy of test data : 0.75


In [64]:
verification_for_lr = pipe_lr.predict(["त्रिविको नतिजा हप्ताभित्र सार्वजनिक माग क्रान्तिकारीले बुझायो ज्ञापनपत्र", "लकडाउन अवधिको घर भाडा नलिन सर्वोच्चको आदेश"])

In [65]:
print(verification_for_lr)

[0 0]


In [66]:
#using SVM
pipe_svm = Pipeline([
    ("tfidf", TfidfVectorizer()),
    ("svm",SVC())
])

pipe_svm.fit(X_train, Y_train)


Pipeline(steps=[('tfidf', TfidfVectorizer()), ('svm', SVC())])

In [67]:
#accuracy score
X_train_prediction = pipe_svm.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction,Y_train)
print("accuracy of training data :", training_data_accuracy)

accuracy of training data : 0.9777777777777777


In [68]:
#accuracy on test data
X_test_prediction = pipe_svm.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction,Y_test)
print("accuracy of test data :",test_data_accuracy )

accuracy of test data : 0.75


In [69]:
#using naive bayes
pipe_nb = Pipeline([
    ("tfidf", TfidfVectorizer()),
    ("nb",BernoulliNB())
])

pipe_nb.fit(X_train, Y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer()), ('nb', BernoulliNB())])

In [70]:
#accuracy score
X_train_prediction = pipe_nb.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction,Y_train)
print("accuracy of training data :", training_data_accuracy)

accuracy of training data : 0.8888888888888888


In [71]:
#accuracy on test data
X_test_prediction = pipe_nb.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction,Y_test)
print("accuracy of test data :",test_data_accuracy )

accuracy of test data : 0.75


In [72]:
#seeing lr model's prediction on test data individually
for x in X_test:
    print(x)
    prediction = pipe_lr.predict([x])
    print(prediction)
    
    if (prediction == 1):
        print("news is real")
        
    else:
        print("news is fake")


निर्वाचन आयोगले बुलेटिनमा स्थानीय निर्वाचनमा नेकपा एमालेले जनमतको बहुमत प्राप्त जनाएको
[0]
news is fake
रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्यादेवी भण्डारीसँग विभिन्न अधिकारीले भेट
[0]
news is fake
नेपालमा देखिएको कम्युनिस्ट पार्टी केपी ओलीको क्रेज अन्तर्राष्ट्रियस्तरकै प्रारम्भिक अनुमान
[0]
news is fake
नेकपा एमालेका उपमहासचिव गुल्मी जिल्लाका उम्मेदवार प्रदीप ज्ञवालीले चुनावमा जनतालाई झुटो आश्वासन दिएको वकालत
[0]
news is fake
ओमिक्रोनले कोभिड महामारी अन्त्य गराउँछः डब्लूएचओ
[0]
news is fake
ठाउँ कब्जा हिसाबले एमाले महाधिबेशनमा लाख बढी मानवसागर उर्लिएको
[0]
news is fake
युक्रेनमा प्रताप बस्नेत नामका नेपाली युक्रेनी सेनामा भर्ती भएर रुस विरुद्ध लडिरहेका
[0]
news is fake
मेवाको पातको अर्क डेंगुको अचुक उपचार संक्रमित हुनुहुन्छ जुस पिएर छिटो निको सक्नुहुन्छ जुसले राम्रोसँग काम भएकाले तपाईंलाई अस्पताल आवश्यक
[0]
news is fake
covid-19 खोपले मानव शरीरलाई चुम्बकीय बनाउँछ
[0]
news is fake
एमसीसीको चौतर्फी विरोधपछि अमेरिकाले नेपाललाई करोड डलर दिने रणनीति सार्वजनिक
[0]
news is fake
प्रदे

In [73]:
#saving lr ml model as pickle file
with open('trained_model_lr.pkl', 'wb') as file:
    pickle.dump(pipe_lr, file)

In [75]:
# to check if its saved 
with open('trained_model_lr.pkl', 'rb') as file:
    trained_model_lr_load = pickle.load(file)


In [76]:
test_news = ['रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्यादेवी भण्डारीसँग विभिन्न अधिकारीले भेट','तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको चुनावी प्रचारप्रसार गरिरहेको','संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्शनकारीले मन्त्री कार्कीविरुद्ध नाराबाजी गरिरहेको भिडियोमा देखिएको']
predicted_lr = trained_model_lr_load.predict(test_news)

In [77]:
print(predicted_lr)

[0 0 0]


In [78]:
#saving svm ml model as pickle file
with open('trained_model_svm.pkl', 'wb') as file:
    pickle.dump(pipe_svm, file)
    
# to check if its saved 
with open('trained_model_svm.pkl', 'rb') as file:
    trained_model_svm_load = pickle.load(file)


In [81]:
test_news = ['रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्यादेवी भण्डारीसँग विभिन्न अधिकारीले भेट','तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको चुनावी प्रचारप्रसार गरिरहेको','संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्शनकारीले मन्त्री कार्कीविरुद्ध नाराबाजी गरिरहेको भिडियोमा देखिएको']
predicted_svm = trained_model_svm_load.predict(test_news)
print(predicted_svm)

[0 0 0]


In [82]:
#saving naive bayes ml model as pickle file
with open('trained_model_nb.pkl', 'wb') as file:
    pickle.dump(pipe_nb, file)
    
# to check if its saved 
with open('trained_model_nb.pkl', 'rb') as file:
    trained_model_nb_load = pickle.load(file)

In [83]:
test_news = ['रेक्जाभिक ग्लोबल फोरमको अवसरमा राष्ट्रपति विद्यादेवी भण्डारीसँग विभिन्न अधिकारीले भेट','तस्बिरमा गगन थापा सर्ट लगाएर माओवादी पार्टीको चुनावी प्रचारप्रसार गरिरहेको','संसदीय निर्वाचनको प्रचारप्रसारका क्रममा प्रदर्शनकारीले मन्त्री कार्कीविरुद्ध नाराबाजी गरिरहेको भिडियोमा देखिएको']
predicted_nb = trained_model_nb_load.predict(test_news)
print(predicted_nb)

[0 0 0]
