# Hoax Detection Using Traditional Machine Learning
## Dataset from Satria Data 2020 - Big Data Challenge

In [62]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords
from string import punctuation
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/prinanda/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [4]:
# Read Dataset
train_data = pd.read_excel("Dataset/training/train.xlsx")
test_data = pd.read_excel("Dataset/testing/test.xlsx")

In [5]:
train_data.head()

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
0,71,1,2020-08-17 00:00:00,Pemakaian Masker Menyebabkan Penyakit Legionna...,A caller to a radio talk show recently shared ...,71.jpg
1,461,1,2020-07-17 00:00:00,Instruksi Gubernur Jateng tentang penilangan ...,Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...,461.png
2,495,1,2020-07-13 00:00:00,Foto Jim Rohn: Jokowi adalah presiden terbaik ...,Jokowi adalah presiden terbaik dlm sejarah ban...,495.png
3,550,1,2020-07-08 00:00:00,"ini bukan politik, tapi kenyataan Pak Jokowi b...","Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...",550.png
4,681,1,2020-06-24 00:00:00,Foto Kadrun kalo lihat foto ini panas dingin,Kadrun kalo lihat foto ini panas dingin . .,681.jpg


In [6]:
test_data.head()

Unnamed: 0,ID,tanggal,judul,narasi,nama file gambar
0,238057,2020-07-13 00:00:00,Narasi Tito Karnavian Berideologi Komunis Kare...,TITO KARNIVAN ITU BERIDIOLOGI KOMUNIS DIA BISA...,238057.jpg
1,238158,2020-07-06 00:00:00,Anies: Seberat beratnya Pekerjaan Akan terasa ...,Seberat beratnya Pekerjaan Akan terasa ringan ...,238158.jpg
2,238865,2020-04-22 00:00:00,Hindu di india Melemparkan Patung Buatan Merek...,Hindu di india melemparkan patung buatan merek...,238865.jpg
3,248298,2019-10-22 00:00:00,RSCM Praktekkan Penyedotan Plug Vena/Saluran ...,Mulai Hari ini di RSCM mulai diPraktekkan Peny...,248298.jpg
4,255176,2020-05-01 00:00:00,Permohonan Kelonggaran Angsuran ke OJK,"Untuk sekedar info, Bagi anda yg punya ansuran...",255176.jpg


## Pre-Processing

### Tokenization

In [26]:
df = train_data.head()
df

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
0,71,1,2020-08-17 00:00:00,Pemakaian Masker Menyebabkan Penyakit Legionna...,A caller to a radio talk show recently shared ...,71.jpg
1,461,1,2020-07-17 00:00:00,Instruksi Gubernur Jateng tentang penilangan ...,Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...,461.png
2,495,1,2020-07-13 00:00:00,Foto Jim Rohn: Jokowi adalah presiden terbaik ...,Jokowi adalah presiden terbaik dlm sejarah ban...,495.png
3,550,1,2020-07-08 00:00:00,"ini bukan politik, tapi kenyataan Pak Jokowi b...","Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...",550.png
4,681,1,2020-06-24 00:00:00,Foto Kadrun kalo lihat foto ini panas dingin,Kadrun kalo lihat foto ini panas dingin . .,681.jpg


In [86]:
# define stopword list, indonesia
STOPWORDS = set(StopWordRemoverFactory().get_stop_words() + stopwords.words('english'))

In [97]:
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [91]:
def remove_stopword(text):
    if text not in STOPWORDS_ID:
        return text
    elif text not in STOPWORDS_EN:
        return text
    else:
        return ""

In [98]:
def normalize_word(row):
    # case folding, remove stopword
    judul = " ".join([word.lower() for word in nltk.word_tokenize(row.judul) if word.lower() not in STOPWORDS])
    narasi = " ".join([word.lower() for word in nltk.word_tokenize(row.narasi) if word.lower() not in STOPWORDS])
    
    # remove punctuation
    judul = " ".join([word for word in nltk.word_tokenize(judul) if word not in punctuation])
    narasi = " ".join([word.lower() for word in nltk.word_tokenize(narasi) if word not in punctuation])
    
    # final assignment
    row.judul = judul
    row.narasi = narasi
    
    return row

In [99]:
df.apply(normalize_word, axis=1)

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
0,71,1,2020-08-17,pemakaian masker menyebabkan penyakit legionna...,caller radio talk show recently shared wife ho...,71.jpg
1,461,1,2020-07-17,instruksi gubernur jateng penilangan yg bermas...,yth.seluruh anggota grup sesuai instruksi gube...,461.png
2,495,1,2020-07-13,foto jim rohn jokowi presiden terbaik dlm seja...,jokowi presiden terbaik dlm sejarah bangsa ind...,495.png
3,550,1,2020-07-08,bukan politik kenyataan pak jokowi berhasil me...,maaf mas2 mbak2 bukan politik kenyataan pak jo...,550.png
4,681,1,2020-06-24,foto kadrun kalo lihat foto panas dingin,kadrun kalo lihat foto panas dingin,681.jpg
