# Import Libraries

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer, TfidfTransformer
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC, SVC
from sklearn.tree import DecisionTreeClassifier

# Load data

In [6]:
df = pd.read_csv(r'D:\Dat\Fake News Detection\Data\pre-train-data.csv')
df.drop(['index','num_like_post','num_comment_post','num_share_post'], axis='columns', inplace=True)

In [7]:
print(df.shape)
df.head()

(3392, 2)


Unnamed: 0,post_message,label
0,thăng cấp_bậc hàm cán_bộ chiến sỹ hy_sinh đà n...,0
1,tư_vấn mùa thi nộp hồ_sơ trúng_tuyển chương_tr...,0
2,cơ_quan cạnh_tranh thị_trường quyết_định điều_...,0
3,ca quảng_nam hành_khách chuyến bay bệnh_nhân n...,0
4,học_thể dụ ‌ c thầy_giáo nguyễn_văn_quân phụ t...,0


In [8]:
inputs = df.drop(['label'], axis='columns')
print(inputs.post_message[0])

thăng cấp_bậc hàm cán_bộ chiến sỹ hy_sinh đà nẵng đại_tướng tô lâm bộ_trưởng công_an ký quyết_định qđ bcax thăng cấp_bậc hàm đại_úi thiếu_tá đồng_chí đặng_thanh tuấn thiếu_tướng vũ xuân_viên giám_đốc công_an thành_phố đà nẵng ký quyết_định qđ cathành phố thăng cấp_bậc hàm trung_sĩ thượng sỹ đồng_chí võ văn toàn cán_bộ chiến sỹ hy_sinh nhiệm_vụ an_ninh trật_tự phòng_chống tội_phạm địa_bàn thành_phố đà nẵng h công_an thành_phố đà nẵng báo nhân_dân đối_tượng đua xe cướp_giật đi đường khu_vực sơn_trà bối_cảnh toàn_quốc cách_li xã_hội chỉ_thị thủ_tướng chính_phủ công_an thành_phố đà nẵng chỉ_đạo công_an sơn_trà triển_khai lực_lượng truy bắt đối_tượng truy_đuổi đối_tượng đại_úi đặng_thanh_tuấn trung_sĩ võ văn toàn_bị tai_nạn hy_sinh ảnh ttxviệt nam


In [9]:
X_train, X_test, y_train, y_test = train_test_split(inputs.post_message, df.label, test_size = 0.2, random_state = 42)
print(y_test.shape[0])
print(y_test.tolist())

679
[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,

# Model

In [10]:
clf = Pipeline([
    ('cv', CountVectorizer(ngram_range=(1,2))),
    ('tfidf', TfidfTransformer()), #TfidfVectorizer() TfidfTransformer()
    ('model', MultinomialNB()) 
    #LogisticRegression() RandomForestClassifier() MultinomialNB() 
    #LinearSVC(C=1.0, max_iter=1000) SGDClassifier() XGBClassifier()
])

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# Score

In [11]:
print('Accuracy = %.2f%%\n' % \
     (accuracy_score(y_test, y_pred)*100))
print('Confusion matrix:\n', metrics.confusion_matrix(y_test, y_pred),'\n')
print(metrics.classification_report(y_test,y_pred))

Accuracy = 82.33%

Confusion matrix:
 [[559   0]
 [120   0]] 

              precision    recall  f1-score   support

           0       0.82      1.00      0.90       559
           1       0.00      0.00      0.00       120

    accuracy                           0.82       679
   macro avg       0.41      0.50      0.45       679
weighted avg       0.68      0.82      0.74       679



  _warn_prf(average, modifier, msg_start, len(result))


# BAD SCORE!!!