## Load & Eksplor Data

Dataset: https://www.kaggle.com/datasets/muhammadghazimuharam/indonesiafalsenews

In [2]:
import pandas as pd
import numpy as np

# Load dataset
data_url = '../data/Data_latih.csv'
df = pd.read_csv(data_url)

# Tampilkan beberapa baris data
df.head()

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
0,71,1,17-Aug-20,Pemakaian Masker Menyebabkan Penyakit Legionna...,A caller to a radio talk show recently shared ...,71.jpg
1,461,1,17-Jul-20,Instruksi Gubernur Jateng tentang penilangan ...,Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...,461.png
2,495,1,13-Jul-20,Foto Jim Rohn: Jokowi adalah presiden terbaik ...,Jokowi adalah presiden terbaik dlm sejarah ban...,495.png
3,550,1,8-Jul-20,"ini bukan politik, tapi kenyataan Pak Jokowi b...","Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...",550.png
4,681,1,24-Jun-20,Foto Kadrun kalo lihat foto ini panas dingin,Kadrun kalo lihat foto ini panas dingin . .,681.jpg


In [3]:
# Lihat informasi dasar dari data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4231 entries, 0 to 4230
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   ID                4231 non-null   int64 
 1   label             4231 non-null   int64 
 2   tanggal           4231 non-null   object
 3   judul             4231 non-null   object
 4   narasi            4231 non-null   object
 5   nama file gambar  4231 non-null   object
dtypes: int64(2), object(4)
memory usage: 198.5+ KB


In [4]:
# Cek jumlah data tiap label
df['label'].value_counts()

label
1    3465
0     766
Name: count, dtype: int64

In [5]:
# Contoh data dengan label 0
df_class_0 = df[df['label'] == 0].head()
df_class_0

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
19,6775,0,25-Oct-17,Sandi Sarankan Warga Ngadu ke Kelurahan Saja,Astaga! Sandiaga Sarankan Warga Ngadu ke Kelur...,6775.jpg
21,7038,0,13-Jul-17,"Irina, Istri Ahli IT Hermansyah disebut Mantan...","Irina, Istri Ahli IT Hermansyah disebut Mantan...",7038.jpg
22,7214,0,8-Mar-17,"Nezar Patria adalah Kader PKI, Ikut Rapat Seti...","Nezar Patria adalah Kader PKI, Ikut Rapat Seti...",7214.jpg
55,13483,0,17-Jul-18,Coach Indra Sjafri: Saya Pernah 1 Tahun Tak Di...,Kendati sukses mengantarkan Timnas Indonesia U...,13483.png
58,13907,0,28-Apr-18,Kronologis Polisi Berondong Sedan Terobos Razi...,"Innalillah… Hanya Karena Lalai Terobos Razia, ...",13907.png


In [6]:
# Contoh data dengan label 1
df_class_1 = df[df['label'] == 1].head()
df_class_1

Unnamed: 0,ID,label,tanggal,judul,narasi,nama file gambar
0,71,1,17-Aug-20,Pemakaian Masker Menyebabkan Penyakit Legionna...,A caller to a radio talk show recently shared ...,71.jpg
1,461,1,17-Jul-20,Instruksi Gubernur Jateng tentang penilangan ...,Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...,461.png
2,495,1,13-Jul-20,Foto Jim Rohn: Jokowi adalah presiden terbaik ...,Jokowi adalah presiden terbaik dlm sejarah ban...,495.png
3,550,1,8-Jul-20,"ini bukan politik, tapi kenyataan Pak Jokowi b...","Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...",550.png
4,681,1,24-Jun-20,Foto Kadrun kalo lihat foto ini panas dingin,Kadrun kalo lihat foto ini panas dingin . .,681.jpg


In [45]:
# Cek jumlah data tiap label
df['label'].value_counts()

label
1    3465
0     766
Name: count, dtype: int64

Label
- 0 = true fact
- 1 = false news (hoax)

## Preprocessing Data

In [9]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import re
import string
from tqdm import tqdm

# Download NLTK resources
nltk.download('stopwords')

# Inisialisasi stop words dan stemmer
stop_words = set(stopwords.words('indonesian'))
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi preprocessing
def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'\d+', '', text)
    words = text.split()
    words = [word for word in words if word not in stop_words]
    words = [stemmer.stem(word) for word in words]
    return ' '.join(words)

# Load dataset
data_url = '../data/Data_latih.csv'
df = pd.read_csv(data_url)

# Terapkan preprocessing dengan progress bar
tqdm.pandas()
df['narasi_preprocessed'] = df['narasi'].progress_apply(preprocess_text)

# Tampilkan beberapa baris data yang telah dipreprocessing
print(df[['narasi', 'narasi_preprocessed']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
100%|██████████| 4231/4231 [19:21<00:00,  3.64it/s] 

                                              narasi  \
0  A caller to a radio talk show recently shared ...   
1  Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...   
2  Jokowi adalah presiden terbaik dlm sejarah ban...   
3  Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...   
4        Kadrun kalo lihat foto ini panas dingin . .   

                                 narasi_preprocessed  
0  a caller to a radio talk show recently shared ...  
1  ythseluruh anggota grup sesuai instruksi guber...  
2  jokowi presiden baik dlm sejarah bangsa indone...  
3  maaf mas mbak politik nyata jokowi hasil pulan...  
4                kadrun kalo lihat foto panas dingin  





In [10]:
# Simpan DataFrame yang sudah dipreprocessed ke file CSV
df.to_csv('data_preprocessed.csv', index=False)

# Tampilkan beberapa baris data yang telah dipreprocessed
print(df[['narasi', 'narasi_preprocessed']].head())

                                              narasi  \
0  A caller to a radio talk show recently shared ...   
1  Yth.Seluruh Anggota Grup Sesuai Instruksi Gube...   
2  Jokowi adalah presiden terbaik dlm sejarah ban...   
3  Maaf Mas2 dan Mbak2, ini bukan politik, tapi k...   
4        Kadrun kalo lihat foto ini panas dingin . .   

                                 narasi_preprocessed  
0  a caller to a radio talk show recently shared ...  
1  ythseluruh anggota grup sesuai instruksi guber...  
2  jokowi presiden baik dlm sejarah bangsa indone...  
3  maaf mas mbak politik nyata jokowi hasil pulan...  
4                kadrun kalo lihat foto panas dingin  


In [16]:
# Cek ulang distribusi label
df['label'].value_counts()

label
1    3465
0     766
Name: count, dtype: int64

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer
import joblib

# Vectorization
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['narasi_preprocessed'])
y = df['label']

# Simpan vectorizer ke file
joblib.dump(vectorizer, 'tfidf_vectorizer.pkl')

['tfidf_vectorizer.pkl']

## Split data & Modeling

In [39]:
from sklearn.model_selection import train_test_split

# Muat vectorizer dari file
vectorizer = joblib.load('tfidf_vectorizer.pkl')

# Tentukan fitur dan label
X = vectorizer.transform(df['narasi_preprocessed'])
y = df['label']

# Split data
# 80% data latih, 20% data uji
# Pastikan distribusi label sama di data latih dan data uji (stratify=y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [40]:
from imblearn.over_sampling import SMOTE

# Inisialisasi SMOTE
smote = SMOTE(random_state=42)

# Terapkan SMOTE pada data latih
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

### Modeling dengan Multinomial Naive Bayes

In [41]:
from sklearn.naive_bayes import MultinomialNB

# Training model dengan Naive Bayes
model = MultinomialNB()
model.fit(X_resampled, y_resampled)

In [42]:
from sklearn.metrics import classification_report, accuracy_score

# Evaluasi model pada data training
y_train_pred = model.predict(X_resampled)
train_accuracy = accuracy_score(y_resampled, y_train_pred)
print("Training Accuracy:", train_accuracy)
print("Training Classification Report:\n", classification_report(y_resampled, y_train_pred))


Training Accuracy: 0.9431613136051967
Training Classification Report:
               precision    recall  f1-score   support

           0       0.91      0.98      0.95      2771
           1       0.98      0.90      0.94      2771

    accuracy                           0.94      5542
   macro avg       0.95      0.94      0.94      5542
weighted avg       0.95      0.94      0.94      5542



In [43]:
from sklearn.metrics import classification_report, accuracy_score

# Evaluasi model pada data testing
y_test_pred = model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
print("Testing Accuracy:", test_accuracy)
print("Testing Classification Report:\n", classification_report(y_test, y_test_pred))

Testing Accuracy: 0.7131050767414404
Testing Classification Report:
               precision    recall  f1-score   support

           0       0.31      0.50      0.38       153
           1       0.87      0.76      0.81       694

    accuracy                           0.71       847
   macro avg       0.59      0.63      0.60       847
weighted avg       0.77      0.71      0.74       847



In [44]:
# Simpan model ke file
joblib.dump(model, 'multinomial_nb_model.pkl')

['multinomial_nb_model.pkl']