In [1]:
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.metrics import accuracy_score,confusion_matrix

In [2]:
df=pd.read_csv('news_hn.csv')
stopwords=pd.read_table('final_stopwords.txt')

In [3]:
df['long_description']

0       उत्तर कोरिय किम जोंग-उन के अंतिम संस्कार के ना...
1       गुजरात दलित युवक कथित ऊंच जात जैस सरनेम रख वजह...
2       अव डांडिय द्वार 2 मार्च पोस्ट फ़ेसबुक लाइव सोशल...
3       किसान संघ नागरिक संशोधन अधिनियम सीएए CAA के ख़ि...
4       करीब 50 सेकंड वीडिय सोशल मीडिय वायरल इसम कांग्...
                              ...                        
1675    वायरल वीडिय क्लिप के दाव किय रह ईरा जनरल कासिम...
1676    किसान आंदोलन महाराष्ट्र चार किसान हड़ताल क़रीब...
1677    किसान के वॉशिंगटन प्रदर्शन गाँध मूर्त नुकसान- ...
1678    दाव नरेंद्र मोद हट के शिवलिंग चप्पल मार पड़ मार...
1679    बंगाल नवनिर्वाचित सांसद महुआ मोइत्र आलोच के घे...
Name: long_description, Length: 1680, dtype: object

In [4]:
df.isnull().sum()

Unnamed: 0.1         0
Unnamed: 0           0
short_description    0
full_title           0
long_description     0
label                0
dtype: int64

In [5]:
labels=df['label']

In [6]:
x_train,x_test,y_train,y_test=train_test_split(df['long_description'],labels,test_size=0.2,random_state=20)

In [7]:
vector_hn=TfidfVectorizer(stop_words=set(stopwords))
tf_train=vector_hn.fit_transform(x_train)
tf_test=vector_hn.transform(x_test)

In [8]:
y_train

669     Fake
705     Fake
1000    True
673     Fake
879     Fake
        ... 
924     Fake
1247    Fake
271     Fake
474     Fake
1379    True
Name: label, Length: 1344, dtype: object

In [9]:
pac_hn=PassiveAggressiveClassifier(max_iter=50)
pac_hn.fit(tf_train,y_train)

In [10]:
y_pred=pac_hn.predict(tf_test)

In [11]:
score = accuracy_score(y_test,y_pred)

In [12]:
print(f"Accuracy is {score*100}")

Accuracy is 98.80952380952381


In [13]:
confusion_matrix(y_test,y_pred,labels=['True','Fake'])

array([[ 93,   2],
       [  2, 239]], dtype=int64)

In [14]:
y_test

1479    Fake
1375    Fake
313     Fake
1356    Fake
594     Fake
        ... 
949     Fake
287     Fake
420     True
1451    True
514     Fake
Name: label, Length: 336, dtype: object

In [15]:
modelfile='model_hn.sav'
vectorfile='vector_hn.sav'

In [16]:
joblib.dump(pac_hn,modelfile)
joblib.dump(vector_hn,vectorfile)

['vector_hn.sav']

In [17]:
frames=[x_test,y_test]
test_hn=pd.concat(frames,axis=1)

In [18]:
test_hn.to_csv('test_hn.csv')