In [30]:
import pandas as pd
from spacy.lang.id import Indonesian
from spacy.lang.id.stop_words import STOP_WORDS
import string

In [31]:
# ML Packages
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.metrics import accuracy_score 
from sklearn.base import TransformerMixin 
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC, SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn import svm
from sklearn.ensemble import VotingClassifier
from sklearn import model_selection

In [32]:
nlp = Indonesian()

In [33]:
df = pd.read_excel("News-Articles-Dataset.xls", sheet_name = "berita", na_values = ' ')
df.head(10)

Unnamed: 0,ID,Articles,Tagging
0,1,"Jakarta, Di jejaring sosial, banyak beredar in...",valid
1,2,Isu bahwa ikan lele mengandung sel kanker di j...,valid
2,3,Bagi penikmat kuliner dengan bahan dasar ikan ...,valid
3,4,Ikan lele merupakan salah satu makanan favorit...,valid
4,5,Ikan lele merupakan bahan makanan yang cukup p...,valid
5,6,"SURABAYA, KOMPAS.com - ""Dalam sesuap daging ik...",hoax
6,7,Bahaya Mengkonsumsi Ikan Lele Yang Mengandung ...,hoax
7,8,"Di jejaring sosial, banyak beredar informasi y...",hoax
8,9,"Jakarta, Sebuah artikel yang cukup viral di in...",valid
9,10,Pada dasarnya tidak ada makanan yang membawa s...,valid


In [34]:
#Replace tagging with numeric value
# 1 for valid article 
# 0 for hoax article
df.Tagging.replace(['valid', 'hoax'], [1, 0], inplace= True)
df.head(10)

Unnamed: 0,ID,Articles,Tagging
0,1,"Jakarta, Di jejaring sosial, banyak beredar in...",1
1,2,Isu bahwa ikan lele mengandung sel kanker di j...,1
2,3,Bagi penikmat kuliner dengan bahan dasar ikan ...,1
3,4,Ikan lele merupakan salah satu makanan favorit...,1
4,5,Ikan lele merupakan bahan makanan yang cukup p...,1
5,6,"SURABAYA, KOMPAS.com - ""Dalam sesuap daging ik...",0
6,7,Bahaya Mengkonsumsi Ikan Lele Yang Mengandung ...,0
7,8,"Di jejaring sosial, banyak beredar informasi y...",0
8,9,"Jakarta, Sebuah artikel yang cukup viral di in...",1
9,10,Pada dasarnya tidak ada makanan yang membawa s...,1


In [35]:
stopwords = list(STOP_WORDS)
stopwords

['sebutlah',
 'seluruhnya',
 'jangankan',
 'datang',
 'sela',
 'sebagainya',
 'waktunya',
 'seketika',
 'tiga',
 'mendapat',
 'ataupun',
 'biasa',
 'seorang',
 'khususnya',
 'sepertinya',
 'bermacam',
 'toh',
 'manalagi',
 'tuturnya',
 'bersiap',
 'dilihat',
 'mempersiapkan',
 'bakalan',
 'bawah',
 'dari',
 'mereka',
 'jadi',
 'meminta',
 'bermaksud',
 'janganlah',
 'berapa',
 'jumlah',
 'bermula',
 'sebutnya',
 'dimintai',
 'siapakah',
 'bertanya-tanya',
 'sendirian',
 'pada',
 'sejak',
 'siap',
 'sekaligus',
 'juga',
 'mengibaratkannya',
 'tandas',
 'malah',
 'selaku',
 'tersampaikan',
 'depan',
 'semaunya',
 'tidaklah',
 'mendatang',
 'segala',
 'tampak',
 'kepada',
 'cuma',
 'dimulailah',
 'semata',
 'sebelumnya',
 'ditunjuk',
 'masing',
 'menunjuknya',
 'bermacam-macam',
 'jawaban',
 'itulah',
 'perlunya',
 'kemudian',
 'kala',
 'setiap',
 'sejumlah',
 'selama',
 'sempat',
 'kamulah',
 'kalaupun',
 'kitalah',
 'berupa',
 'benarlah',
 'rupanya',
 'pertanyakan',
 'daripada',
 'sedik

In [36]:
sampleArticle = df['Articles'].values[0]
sampleArticle


'Jakarta, Di jejaring sosial, banyak beredar informasi yang menyebut lele sebagai ikan paling jorok. Dalam sesuap daging ikan lele, terkandung 3000 sel kanker. Benarkah?\nJulukan sebagai ikan paling jorok merujuk pada sifat lele yang doyan mengonsumsi segala jenis limbah di perairan. Bahkan sebuah artikel yang cukup viral di internet menyebutkan kotoran manusia juga dijadikan pakan pada sebuah budidaya lele di Kota Haikou, China.\nSementara itu di habitat aslinya, lele atau catfish juga dikenal sebagai spesies ikan yang sangat tangguh. Ikan ini dilengkapi alat pernapasan tambahan berupa labirin, sehingga mampu bertahan hidup dalam kondisi perairan berlumpur atau bahkan tercemar. Agaknya, fakta inilah yang memunculkan dugaan soal akumulasi racun karsinogen (penyebab kanker) di tubuh ikan lele.\nUntungnya, ikan lele yang beredar di pasaran bukan berasal dari alam liar. Lele banyak dibudidayakan di kolam-kolam, yang mestinya bisa dikendalikan agar bebas dari pencemaran. Pakan yang diberik

In [37]:
#Lemmatization
docx = nlp(sampleArticle)
for word in docx: 
    print(word.text,"Lemma =>",word.lemma_)


Jakarta Lemma => Jakarta
, Lemma => ,
Di Lemma => Di
jejaring Lemma => jejaring
sosial Lemma => sosial
, Lemma => ,
banyak Lemma => banyak
beredar Lemma => edar
informasi Lemma => informasi
yang Lemma => yang
menyebut Lemma => sebut
lele Lemma => lele
sebagai Lemma => bagai
ikan Lemma => ikan
paling Lemma => paling
jorok Lemma => jorok
. Lemma => .
Dalam Lemma => Dalam
sesuap Lemma => suap
daging Lemma => daging
ikan Lemma => ikan
lele Lemma => lele
, Lemma => ,
terkandung Lemma => kandung
3000 Lemma => 3000
sel Lemma => sel
kanker Lemma => kanker
. Lemma => .
Benarkah Lemma => Benarkah
? Lemma => ?

 Lemma => 

Julukan Lemma => Julukan
sebagai Lemma => bagai
ikan Lemma => ikan
paling Lemma => paling
jorok Lemma => jorok
merujuk Lemma => rujuk
pada Lemma => pada
sifat Lemma => sifat
lele Lemma => lele
yang Lemma => yang
doyan Lemma => doyan
mengonsumsi Lemma => konsumsi
segala Lemma => segala
jenis Lemma => jenis
limbah Lemma => limbah
di Lemma => di
perairan Lemma => air
. Lemma => .


In [38]:
# Filtering out Stopwords and Punctuations
for word in docx:
    if word.is_stop == False and not word.is_punct:
        if word.is_stop != True and not word.is_punct:
            print(word)

Jakarta
Di
jejaring
sosial
beredar
informasi
menyebut
lele
ikan
jorok
Dalam
sesuap
daging
ikan
lele
terkandung
3000
sel
kanker
Benarkah


Julukan
ikan
jorok
merujuk
sifat
lele
doyan
mengonsumsi
jenis
limbah
perairan
Bahkan
artikel
viral
internet
kotoran
manusia
dijadikan
pakan
budidaya
lele
Kota
Haikou
China


Sementara
habitat
aslinya
lele
catfish
dikenal
spesies
ikan
tangguh
Ikan
dilengkapi
alat
pernapasan
tambahan
labirin
bertahan
hidup
kondisi
perairan
berlumpur
tercemar
Agaknya
fakta
memunculkan
dugaan
akumulasi
racun
karsinogen
penyebab
kanker
tubuh
ikan
lele


Untungnya
ikan
lele
beredar
pasaran
berasal
alam
liar
Lele
dibudidayakan
kolam
kolam
mestinya
dikendalikan
bebas
pencemaran
Pakan
dipilih
mengandalkan
limbah


Yang
popularitas
ikan
bersungut
pudar
meningkat
Data
Kementerian
Kelautan
Perikanan
KKP
menyebut
produksi
lele
2013
mencapai
543,461
ton
meningkat
441,217
ton
2012
337,577
ton
2011


Konsumsi
ikan
lele
Badan
Pusat
Statistik
BPS
tercatat
29,98
kg
kapita
22,58
kg
kapi

In [39]:
# Stop words and Punctuation In List Comprehension
[ word for word in docx if word.is_stop == False and not word.is_punct ]

[Jakarta,
 Di,
 jejaring,
 sosial,
 beredar,
 informasi,
 menyebut,
 lele,
 ikan,
 jorok,
 Dalam,
 sesuap,
 daging,
 ikan,
 lele,
 terkandung,
 3000,
 sel,
 kanker,
 Benarkah,
 ,
 Julukan,
 ikan,
 jorok,
 merujuk,
 sifat,
 lele,
 doyan,
 mengonsumsi,
 jenis,
 limbah,
 perairan,
 Bahkan,
 artikel,
 viral,
 internet,
 kotoran,
 manusia,
 dijadikan,
 pakan,
 budidaya,
 lele,
 Kota,
 Haikou,
 China,
 ,
 Sementara,
 habitat,
 aslinya,
 lele,
 catfish,
 dikenal,
 spesies,
 ikan,
 tangguh,
 Ikan,
 dilengkapi,
 alat,
 pernapasan,
 tambahan,
 labirin,
 bertahan,
 hidup,
 kondisi,
 perairan,
 berlumpur,
 tercemar,
 Agaknya,
 fakta,
 memunculkan,
 dugaan,
 akumulasi,
 racun,
 karsinogen,
 penyebab,
 kanker,
 tubuh,
 ikan,
 lele,
 ,
 Untungnya,
 ikan,
 lele,
 beredar,
 pasaran,
 berasal,
 alam,
 liar,
 Lele,
 dibudidayakan,
 kolam,
 kolam,
 mestinya,
 dikendalikan,
 bebas,
 pencemaran,
 Pakan,
 dipilih,
 mengandalkan,
 limbah,
 ,
 Yang,
 popularitas,
 ikan,
 bersungut,
 pudar,
 meningkat,
 Data,
 

In [11]:
# Use the punctuations of string module
punctuations = string.punctuation
# Creating a Spacy Parser
parser = Indonesian()


In [12]:
def tokenizer(sentence):
    mytokens = parser(sentence)
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]
    mytokens = [ word for word in mytokens if word not in stopwords and word not in punctuations ]
    return mytokens

In [40]:
tokenizer(sampleArticle)

['jakarta',
 'jejaring',
 'sosial',
 'edar',
 'informasi',
 'lele',
 'ikan',
 'jorok',
 'suap',
 'daging',
 'ikan',
 'lele',
 'kandung',
 '3000',
 'sel',
 'kanker',
 'julukan',
 'ikan',
 'jorok',
 'rujuk',
 'sifat',
 'lele',
 'doyan',
 'konsumsi',
 'jenis',
 'limbah',
 'air',
 'artikel',
 'viral',
 'internet',
 'kotor',
 'manusia',
 'dijadikan',
 'pakan',
 'budidaya',
 'lele',
 'kota',
 'haikou',
 'china',
 'habitat',
 'aslinya',
 'lele',
 'catfish',
 'dikenal',
 'spesies',
 'ikan',
 'tangguh',
 'ikan',
 'dilengkapi',
 'alat',
 'napas',
 'rupa',
 'labirin',
 'tahan',
 'hidup',
 'kondisi',
 'air',
 'lumpur',
 'cemar',
 'fakta',
 'muncul',
 'duga',
 'akumulasi',
 'racun',
 'karsinogen',
 'kanker',
 'tubuh',
 'ikan',
 'lele',
 'untungnya',
 'ikan',
 'lele',
 'edar',
 'pasar',
 'alam',
 'liar',
 'lele',
 'dibudidayakan',
 'kolam',
 'kolam',
 'mestinya',
 'dikendalikan',
 'bebas',
 'cemar',
 'pakan',
 'dipilih',
 'andal',
 'limbah',
 'popularitas',
 'ikan',
 'sungut',
 'pudar',
 'tingkat',


In [41]:
# Custom transformer
class predictors(TransformerMixin):
    def transform(self, X, **transform_params):
        return [clean_text(text) for text in X]
    def fit(self, X, y=None, **fit_params):
        return self
    def get_params(self, deep=True):
        return {}
class DenseTransformer(TransformerMixin):

    def transform(self, X, y=None, **fit_params):
        return X.todense()

    def fit_transform(self, X, y=None, **fit_params):
        self.fit(X, y, **fit_params)
        return self.transform(X)

    def fit(self, X, y=None, **fit_params):
        return self
    
    def get_params(self, deep=True):
        return {}    

# Basic function to clean the text 
def clean_text(text):     
    return text.strip().lower()

In [42]:
# Vectorization
vectorizer = CountVectorizer(tokenizer = tokenizer, ngram_range=(1,1)) 
classifier = LinearSVC()
nbClassifier = GaussianNB()
mNbClassifier = MultinomialNB()
svmClassifier = svm.SVC()
knnClassifier = KNeighborsClassifier(n_neighbors=3)

votingClassifier = VotingClassifier(estimators=[('KNN', knnClassifier),
                                                ('NaiveBayes', mNbClassifier), 
                                                ('SVM', svmClassifier)])

In [43]:
# Using Tfidf
tfvectorizer = TfidfVectorizer(tokenizer = tokenizer, max_df= 0.5, min_df=2, max_features = 600)

In [44]:
# Splitting Data Set
from sklearn.model_selection import train_test_split
# Features and Labels
X = df['Articles']
ylabels = df['Tagging']

In [45]:
X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.2, random_state=42)

In [46]:
# Create the  pipeline to clean, tokenize, vectorize, and classify 
pipe = Pipeline([("cleaner", predictors()),
                 ('vectorizer', tfvectorizer),
                 ('to_dense', DenseTransformer()),
                 ('clf', votingClassifier)])

In [47]:
# Fit our data
pipe.fit(X_train,y_train)

Pipeline(memory=None,
     steps=[('cleaner', <__main__.predictors object at 0x1a23950a20>), ('vectorizer', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=0.5, max_features=600, min_df=2,
        ngram...l=0.001, verbose=False))],
         flatten_transform=None, n_jobs=1, voting='hard', weights=None))])

In [49]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

# Predicting with a test dataset
sample_prediction = pipe.predict(X_test)
report = classification_report(y_test, sample_prediction)
print(report)

confusion = confusion_matrix(y_test, sample_prediction)
print(confusion)
#[row, column]
TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]

print(FP)

             precision    recall  f1-score   support

          0       0.92      0.58      0.71        19
          1       0.79      0.97      0.87        31

avg / total       0.84      0.82      0.81        50

[[11  8]
 [ 1 30]]
8


  if diff:


In [22]:
from sklearn.model_selection import GridSearchCV
parameter = {
    "clf__C": [0.01, 0.1, 1, 10, 100],
    "clf__gamma": [0.01, 0.1, 1, 10, 100],    
}

model = GridSearchCV(pipe, param_grid=parameter, cv=3, n_jobs=-1, verbose=1)
model.fit(X_train, y_train)

Fitting 3 folds for each of 25 candidates, totalling 75 fits


KeyboardInterrupt: 

In [None]:
model.best_estimator_

In [None]:
# Prediction Results
# 1 = Valid article
# 0 = Hoax article
for (sample,pred) in zip(X_test,sample_prediction):
    print(sample,"Prediction=>",pred)

In [29]:
# Accuracy
print("Accuracy: ",pipe.score(X_test,y_test))
print("Accuracy: ",pipe.score(X_test,sample_prediction))

  if diff:


Accuracy:  0.82
Accuracy:  0.76


  if diff:


In [52]:
tfvectorizer = TfidfVectorizer(tokenizer = tokenizer, max_df= 0.5, min_df=2, max_features = 100)

mNbClassifier = MultinomialNB(alpha=0.5, fit_prior=True, class_prior=None)
svmClassifier = svm.SVC()
knnClassifier = KNeighborsClassifier(n_neighbors=3)

# votingClassifier = VotingClassifier(estimators=[('KNN', knnClassifier),
#                                                 ('NaiveBayes', mNbClassifier), 
#                                                 ('SVM', svmClassifier)])

votingClassifier = VotingClassifier(estimators=[('KNN', knnClassifier),
                                                ('NaiveBayes', mNbClassifier), 
                                                ('SVM', svmClassifier)], voting='hard')



# Create the  pipeline to clean, tokenize, vectorize, and classify 
pipe = Pipeline([("cleaner", predictors()),
                 ('vectorizer', tfvectorizer),
                 ('to_dense', DenseTransformer()),
                 ('classifier', votingClassifier)])
# Fit our data
pipe.fit(X_train,y_train)
print("Accuracy: ",pipe.score(X_test,y_test))

Accuracy:  0.72


  if diff:


In [None]:
x= tfvectorizer.fit_transform(df['Articles'])
df1 = pd.DataFrame(x.toarray(), columns=tfvectorizer.get_feature_names())

In [None]:
df1.head()

In [None]:
feature_names = tfvectorizer.get_feature_names()
corpus_index = [n for n in corpus]
import pandas as pd
df3 = pd.DataFrame(tfs.T.todense(), index=feature_names, columns=corpus_index)
print(df3)

In [None]:
from sklearn.metrics import confusion_matrix
# from collections import defaultdict

# refsets = defaultdict(set)
# testsets = defaultdict(set)
# labels = []
# tests = []
# for i, (feats, label) in enumerate(X_test,sample_prediction):
#     refsets[label].add(i)
#     observed = classifier.classify(feats)
#     testsets[observed].add(i)
#     labels.append(label)
#     tests.append(observed)

# print(metrics.confusion_matrix(labels, tests))

# confusion_matrix(X_test,y_test)

# from sklearn.ensemble import VotingClassifier


In [None]:
from sklearn import datasets
iris = datasets.load_iris()