##Importing libraries

In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings('ignore')

##Reading dataset with fake news articles

In [None]:
fakedf = pd.read_csv('fakeNews.csv')

##Labelling the fake news dataset


In [None]:
fakedf.columns = ['news', 'label']
fakedf['label'] = 0
fakedf.dropna()
fakedf.head()

Unnamed: 0,news,label
0,ಇ.ಡಿ. ಸಮನ್ಸ್\u200c ಬೆನ್ನಲ್ಲೇ ಸೋನಿಯಾ ಗಾಂಧಿ ಹಳೆ...,0
1,ಬಿಜೆಪಿ ಕಚೇರಿಯಿಂದಲೇ 'ಸಾಮ್ರಾಟ್ ಪೃಥ್ವಿರಾಜ್' ಪ್ರಮ...,0
2,'ಗೋ ಬ್ಯಾಕ್\u200c ಮೋದಿ' ಎಂದ ತಮಿಳುನಾಡು ಬಿಜೆಪಿ ಶ...,0
3,ಧಾರ್ಮಿಕ ಉಡುಗೆ ತೊಟ್ಟು KSRTC ಬಸ್\u200c ಓಡಿಸಿದ ಚ...,0
4,ಕ್ವಾಡ್ ಶೃಂಗದಲ್ಲಿ ಪ್ರಧಾನಿ ಮೋದಿ ಕಡೆಗಣಿಸಿದ ಜೋ ಬೈ...,0


In [None]:
print("Number of fake news articles: ", len(fakedf))

Number of fake news articles:  972


##Reading the dataset with true news articles

In [None]:
truedf = pd.read_csv('trueNews.csv')

##Labelling the true news dataset


In [None]:
truedf['label'] = 1
truedf.head()

Unnamed: 0,news,label
0,ಬಜಾರ್ ಅಂಗಳದಲ್ಲಿ ಸಿಕ್ಕ ಧನ್ವೀರ್​,1
1,ಬಿಡುಗಡೆಯಾಯಿತು ಕಿಚ್ಚ ಸುದೀಪ್​ ಕಂಠದಾನ ಮಾಡಿರುವ ಸಿನ...,1
2,"ಸ್ಮಿತ್, ವಾರ್ನರ್​, ಬ್ಯಾಂಕ್ರಾಫ್ಟ್​ಗೆ ಶಿಕ್ಷೆ ಕಡಿತ...",1
3,ಬೆಂಗಳೂರು ಅಂತರ ರಾಷ್ಟ್ರೀಯ ಚಲನಚಿತ್ರೋತ್ಸವದಲ್ಲಿ ಏಷ್...,1
4,ಜಿಯೋ ಭರ್ಜರಿ ಗಿಫ್ಟ್​: ಇಂದಿನಿಂದಲೇ 5 ವರ್ಷಗಳ ಕಾಲ ಉ...,1


In [None]:
print("Number of true news articles: ", len(truedf))

Number of true news articles:  1293


##Concatenating true news and fake news datasets

In [None]:
df = pd.concat([truedf, fakedf])
df.head()

Unnamed: 0,news,label
0,ಬಜಾರ್ ಅಂಗಳದಲ್ಲಿ ಸಿಕ್ಕ ಧನ್ವೀರ್​,1
1,ಬಿಡುಗಡೆಯಾಯಿತು ಕಿಚ್ಚ ಸುದೀಪ್​ ಕಂಠದಾನ ಮಾಡಿರುವ ಸಿನ...,1
2,"ಸ್ಮಿತ್, ವಾರ್ನರ್​, ಬ್ಯಾಂಕ್ರಾಫ್ಟ್​ಗೆ ಶಿಕ್ಷೆ ಕಡಿತ...",1
3,ಬೆಂಗಳೂರು ಅಂತರ ರಾಷ್ಟ್ರೀಯ ಚಲನಚಿತ್ರೋತ್ಸವದಲ್ಲಿ ಏಷ್...,1
4,ಜಿಯೋ ಭರ್ಜರಿ ಗಿಫ್ಟ್​: ಇಂದಿನಿಂದಲೇ 5 ವರ್ಷಗಳ ಕಾಲ ಉ...,1


In [None]:
print("Number of instances: ", len(df))

Number of instances:  2265


In [None]:
df['label'].value_counts()

1    1293
0     972
Name: label, dtype: int64

##Randomizing the instances

In [None]:
df = df.sample(frac=1, random_state=1).reset_index()
df.head()

Unnamed: 0,index,news,label
0,669,2019ರ ಐಪಿಎಲ್​​ಗೆ ಆರ್​ಸಿಬಿ ಕ್ಯಾಪ್ಟನ್ ಇವರೆ: ತಂಡದ...,1
1,282,ಟಿ-20 ಕ್ರಿಕೆಟ್ ಇತಿಹಾಸದಲ್ಲಿ ದಾಖಲೆ ನಿರ್ಮಿಸಿದ ಪಾಕ...,1
2,540,ಕೇಂದ್ರ ಸಚಿವ ಹರ್ಷ ವರ್ಧನ್ ಮೇಲೆ ಸಾರ್ವಜನಿಕರು ಹಲ್ಲ...,0
3,1208,ಅಂಡರ್-19 ಏಷ್ಯಾ ಕಪ್: ಬಾಂಗ್ಲಾರನ್ನ ಬಗ್ಗು ಬಡಿದು ಫೈ...,1
4,789,ಆನ್ ಲೈನ್ ನುಸುಳುಕೋರರ ಪತ್ತೆಗೆ ವಿಶೇಷ ಸಾಧನ,0


In [None]:
#Removing the index column
df = df.iloc[:, 1:]
df.head()

Unnamed: 0,news,label
0,2019ರ ಐಪಿಎಲ್​​ಗೆ ಆರ್​ಸಿಬಿ ಕ್ಯಾಪ್ಟನ್ ಇವರೆ: ತಂಡದ...,1
1,ಟಿ-20 ಕ್ರಿಕೆಟ್ ಇತಿಹಾಸದಲ್ಲಿ ದಾಖಲೆ ನಿರ್ಮಿಸಿದ ಪಾಕ...,1
2,ಕೇಂದ್ರ ಸಚಿವ ಹರ್ಷ ವರ್ಧನ್ ಮೇಲೆ ಸಾರ್ವಜನಿಕರು ಹಲ್ಲ...,0
3,ಅಂಡರ್-19 ಏಷ್ಯಾ ಕಪ್: ಬಾಂಗ್ಲಾರನ್ನ ಬಗ್ಗು ಬಡಿದು ಫೈ...,1
4,ಆನ್ ಲೈನ್ ನುಸುಳುಕೋರರ ಪತ್ತೆಗೆ ವಿಶೇಷ ಸಾಧನ,0


In [None]:
df.to_csv('FND_Dataset.csv', index = False)

##Reading the combined dataset

In [None]:
df = pd.read_csv("FND_Dataset.csv")
df.head()

Unnamed: 0,news,label
0,2019ರ ಐಪಿಎಲ್​​ಗೆ ಆರ್​ಸಿಬಿ ಕ್ಯಾಪ್ಟನ್ ಇವರೆ: ತಂಡದ...,1
1,ಟಿ-20 ಕ್ರಿಕೆಟ್ ಇತಿಹಾಸದಲ್ಲಿ ದಾಖಲೆ ನಿರ್ಮಿಸಿದ ಪಾಕ...,1
2,ಕೇಂದ್ರ ಸಚಿವ ಹರ್ಷ ವರ್ಧನ್ ಮೇಲೆ ಸಾರ್ವಜನಿಕರು ಹಲ್ಲ...,0
3,ಅಂಡರ್-19 ಏಷ್ಯಾ ಕಪ್: ಬಾಂಗ್ಲಾರನ್ನ ಬಗ್ಗು ಬಡಿದು ಫೈ...,1
4,ಆನ್ ಲೈನ್ ನುಸುಳುಕೋರರ ಪತ್ತೆಗೆ ವಿಶೇಷ ಸಾಧನ,0


##Splitting independent and dependent columns

In [None]:
x_train = df.iloc[:,0]
y_train = df.iloc[:,1]

##Punctuation cleaning

In [None]:
def punctuation_cleaning():
  for i in range(0,2252):
    x_train[i] = str(x_train[i])
    x_train[i] = x_train[i].replace("\u200b","")
    x_train[i] = x_train[i].replace("\u200c","")
    x_train[i] = x_train[i].replace("\xa0"," ")
    x_train[i] = x_train[i].replace(":","")
    x_train[i] = x_train[i].replace("'","")
    x_train[i] = x_train[i].replace(".","")
    x_train[i] = x_train[i].replace(";","")
    x_train[i] = x_train[i].replace("|","")
    x_train[i] = x_train[i].replace(",","")
    x_train[i] = x_train[i].replace("Fact Check","")
punctuation_cleaning()

x_train.head(10)

0    2019ರ ಐಪಿಎಲ್ಗೆ ಆರ್ಸಿಬಿ ಕ್ಯಾಪ್ಟನ್ ಇವರೆ ತಂಡದ ವಕ್...
1    ಟಿ-20 ಕ್ರಿಕೆಟ್ ಇತಿಹಾಸದಲ್ಲಿ ದಾಖಲೆ ನಿರ್ಮಿಸಿದ ಪಾಕ...
2     ಕೇಂದ್ರ ಸಚಿವ ಹರ್ಷ ವರ್ಧನ್ ಮೇಲೆ ಸಾರ್ವಜನಿಕರು ಹಲ್ಲ...
3    ಅಂಡರ್-19 ಏಷ್ಯಾ ಕಪ್ ಬಾಂಗ್ಲಾರನ್ನ ಬಗ್ಗು ಬಡಿದು ಫೈನ...
4               ಆನ್ ಲೈನ್ ನುಸುಳುಕೋರರ ಪತ್ತೆಗೆ ವಿಶೇಷ ಸಾಧನ
5    ಇಂದು ಲಾಂಚ್ ಆಗಲಿದೆ Galaxy Note 9 ವಿಶೇಷತೆಗಳೇನು? ...
6    ಜಿಯೋ ರೈಲ್ ಆ್ಯಪ್ ಇನ್ಮುಂದೆ ಸರತಿ ಸಾಲಿನಲ್ಲಿ ನಿಂತು ...
7     ಕಲ್ಲು ಉಪ್ಪು ಮತ್ತು ಈರುಳ್ಳಿ ಕೊರೊನಾದಿಂದ ಗುಣಪಡಿಸು...
8                          ನೈನಿತಾಲ್ನ ನಕಲಿ ಫೋಟೋ ಹಂಚಿಕೆ 
9    ಫ್ಯಾಕ್ಟ್ ಚೆಕ್ ಪೊಲೀಸ್ ಮೇಲೆ ಹಲ್ಲೆ ಆರೋಪ ವೈರಲ್ ಆಗಿ...
Name: news, dtype: object

##Getting top n words in the dataset

In [None]:
def get_top_n_words(corpus, n=None):
    vec = CountVectorizer().fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0)
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]

common_words = get_top_n_words(df['news'], 20)

for word, freq in common_words:
    print(word, freq)

ಗಳ 344
ನಲ 286
ರತ 246
ಯಲ 229
ದರ 182
ಸರ 168
ನಡ 156
ತರ 152
ಯನ 145
ಮತ 143
u200c 143
ವರ 140
ಕರ 131
ರದ 123
ದಲ 119
ಸಲ 119
ಯಕ 115
ಆರ 109
ನಟ 108
ಬರ 99
