In [1]:
# ===== Cell 1: Import Library =====
import pandas as pd
import numpy as np
import re
import string

# Preprocessing
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Model
from sklearn.naive_bayes import MultinomialNB

# Handling imbalance
from imblearn.over_sampling import SMOTE

# Save model
import joblib

print("âœ… Library berhasil diimport.")


âœ… Library berhasil diimport.


In [2]:
# ===== Cell 2: Load Dataset =====

# Load dataset
data1 = pd.read_csv("dataset_cnn_10k_cleaned.csv")
data2 = pd.read_csv("dataset_kompas_4k_cleaned.csv")

# Ambil kolom teks & label, samakan nama ke "Narasi" dan "hoax"
d1 = data1[['text_new', 'hoax']].rename(columns={'text_new':'Narasi'})
d2 = data2[['text_new', 'hoax']].rename(columns={'text_new':'Narasi'})

# Gabungkan dataset
data = pd.concat([d1, d2], ignore_index=True)

print("âœ… Dataset berhasil digabung,")
print("Ukuran dataset gabungan:", data.shape)
print(data.head())


âœ… Dataset berhasil digabung,
Ukuran dataset gabungan: (14380, 2)
                                              Narasi  hoax
0  Anies di Milad BKMT: Pengajian Menghasilkan Ib...     0
1  Edy Soal Pilgub Sumut: Kalau yang Maju Abal-ab...     0
2  PKB Bakal Daftarkan Menaker Ida Fauziyah Jadi ...     0
3  Gede Pasek Doakan AHY Jadi Capres atau Cawapre...     0
4  PKN Siapkan Jabatan Khusus Buat Anas Urbaningr...     0


In [3]:
# ===== Cell 3: Preprocessing =====
import re
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from tqdm import tqdm

# Setup stemmer & stopwords
factory = StemmerFactory()
stemmer = factory.create_stemmer()

stop_factory = StopWordRemoverFactory()
extra_stopwords = ["dengan","bahwa","karena","sudah","juga","akan","untuk"]
stop_words = set(stop_factory.get_stop_words() + extra_stopwords)

# Cache buat stemming biar ga ngulang-ngulang
stem_cache = {}

def clean_text(text):
    if pd.isna(text):
        return ""
    s = text.lower()
    s = re.sub(r"http\S+|www\S+", " ", s)   # hapus URL
    s = re.sub(r"[^a-zA-Z\s]", " ", s)      # hapus angka & simbol
    s = re.sub(r"\s+", " ", s).strip()      # hapus spasi ganda
    
    tokens = [w for w in s.split() if w not in stop_words]
    tokens = [stem_cache[w] if w in stem_cache else stemmer.stem(w) for w in tokens]
    for w in tokens:
        if w not in stem_cache:
            stem_cache[w] = stemmer.stem(w)
    return " ".join(tokens)

# Fungsi apply per chunk (biar ga berat)
def apply_in_chunks(series, func, chunk=2000):
    out_chunks = []
    for i in tqdm(range(0, len(series), chunk)):
        out = series.iloc[i:i+chunk].apply(func)
        out_chunks.append(out)
    return pd.concat(out_chunks)

# Terapkan ke kolom Narasi
data['clean_text'] = apply_in_chunks(data['Narasi'].astype(str), clean_text, chunk=2000)

print("âœ… Preprocessing selesai!")
print(data[['Narasi','clean_text','hoax']].head())


100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 8/8 [39:59<00:00, 299.88s/it]

âœ… Preprocessing selesai!
                                              Narasi  \
0  Anies di Milad BKMT: Pengajian Menghasilkan Ib...   
1  Edy Soal Pilgub Sumut: Kalau yang Maju Abal-ab...   
2  PKB Bakal Daftarkan Menaker Ida Fauziyah Jadi ...   
3  Gede Pasek Doakan AHY Jadi Capres atau Cawapre...   
4  PKN Siapkan Jabatan Khusus Buat Anas Urbaningr...   

                                          clean_text  hoax  
0  anies milad bkmt aji hasil ibu ibu tahu mantan...     0  
1  edy soal pilgub sumut kalau maju abal abal pak...     0  
2  pkb bakal daftar menaker ida fauziyah jadi cal...     0  
3  gede pasek doa ahy jadi capres cawapres ketua ...     0  
4  pkn siap jabat khusus buat anas urbaningrum us...     0  





In [10]:
# ===== Cell 4: TF-IDF + Train-Test Split =====
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# TF-IDF dengan unigram, bigram, trigram
vectorizer = TfidfVectorizer(
    ngram_range=(1,3),      # unigram + bigram + trigram
    max_features=20000,     # jumlah fitur maksimal
    sublinear_tf=True       # scaling TF
)

# ===== Cell 4: Split Data =====
from sklearn.model_selection import train_test_split

X = data['clean_text']
y = data['hoax']

# Stratified split supaya proporsi REAL/HOAX tetap seimbang di train & test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print("Distribusi y_train:\n", y_train.value_counts())
print("\nDistribusi y_test:\n", y_test.value_counts())


Distribusi y_train:
 hoax
0    10066
Name: count, dtype: int64

Distribusi y_test:
 hoax
0    4314
Name: count, dtype: int64


In [11]:
# ===== Cell 5: Training Multinomial Naive Bayes =====
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd

# Inisialisasi model MNB
mnb = MultinomialNB()

# Training
mnb.fit(X_train, y_train)

# Prediksi di data test
y_pred = mnb.predict(X_test)

# Evaluasi
print("=== Evaluasi Model (MNB) ===")
print("Akurasi:", accuracy_score(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred, labels=[0,1], target_names=["REAL","HOAX"]))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

# Tambahan: cek distribusi biar tau seimbang/tidak
print("\nClassification Report:")
print(classification_report(y_test, y_pred, labels=[0,1], target_names=["REAL","HOAX"], zero_division=0))


ValueError: could not convert string to float: 'dpr minta jokowi turun tangan soal panas dingin hubung andika dudung anggota komisi i dpr fraksi pdip effendi simbolon minta presiden joko widodo turun tangan sikap isu tegang hubung panglima tni jenderal andika perkasa ksad jenderal dudung abdurrachman effendi harap isu kereta hubung dua justru jadi liar tengah masyarakat turut panas dingin hubung panglima tni bukan kali pertama presiden turun tangan jangan orang pikir tanda petik langsung cukup lama kata kompleks parlemen kamis effendi contoh isu kereta panglima tni jabat moeldoko ksad pimpin gatot nurmantyo khawatir kereta tubuh tni justru manfaat pihak luar galang kuat effendi harap tni segera laku evaluasi tengah isu sebut enggan bicara lebih jauh soal mungkin ubah sistem komando tubuh tni andai isu sebut tak segera selesai biar semua evaluasi kan pernah nama panglima angkat darat pernah pakai tongkat tuh aja sana poin enggak sana dulu kata kata isu sebut penting segera selesai sangkut baik tni kabar disharmoni hubung andika dudung belum ungkap effendi rapat komisi i tni senin sebut ego jenderal angkat darat rusak hubung senior junior dudung tak hadir rapat apa sih kemudian tahan ego ego bapak dua rusak tatanan hubung senior junior tni pak kata effendi baik andika maupun dudung ban kereta hubung dua dudung tegas internal tni solid kalau jadi friksi jadi beda dapat rasa semua lapang sama pangdam kasdam beda dapat kapolri wakapolri ksad panglima beda dapat biasa kata dudung acara bincang bangsa mabesad jakarta rabu thr pmg'

In [6]:
# ===== Cell 6: Fungsi Prediksi Berita Tunggal =====

def prediksi_berita(teks, model=mnb):
    # Bersihkan teks
    teks_clean = clean_text(teks)

    # Transformasi ke TF-IDF
    fitur = vectorizer.transform([teks_clean])

    # Prediksi probabilitas
    probas = model.predict_proba(fitur)[0]
    pred = model.predict(fitur)[0]

    print("Teks (potongan):", teks[:100], "...")
    print("Probabilitas => REAL:", probas[0], " | HOAX:", probas[1])
    print("Prediksi:", "HOAX" if pred == 1 else "REAL")
    print("-"*80)
    return "HOAX" if pred == 1 else "REAL"


# ===== Tes dengan beberapa berita (real & hoax) =====
berita_uji = [
    # Real
    """Presiden Joko Widodo meresmikan proyek kereta cepat Jakartaâ€“Bandung 
    yang diharapkan memangkas waktu perjalanan menjadi hanya 45 menit.""",

    """Badan Meteorologi, Klimatologi, dan Geofisika (BMKG) mengeluarkan 
    peringatan dini terkait potensi hujan lebat di wilayah Jawa Barat.""",

    # Hoax
    """Minum air rebusan kabel listrik disebut-sebut bisa menyembuhkan 
    penyakit jantung tanpa obat dokter. Pesan berantai ini menyebar di WhatsApp.""",

    """Pemerintah akan membagikan uang tunai Rp15 juta kepada semua warga 
    yang memiliki KTP elektronik tanpa syarat tambahan apapun."""
]

for teks in berita_uji:
    prediksi_berita(teks)


Teks (potongan): Presiden Joko Widodo meresmikan proyek kereta cepat Jakartaâ€“Bandung 
    yang diharapkan memangkas w ...


IndexError: index 1 is out of bounds for axis 0 with size 1

In [None]:
# ===== Cell 7: Simpan Model & Vectorizer =====
import joblib

# Simpan model dan vectorizer
joblib.dump(mnb, "model_mnb.pkl")
joblib.dump(vectorizer, "vectorizer.pkl")

print("âœ… Model dan vectorizer berhasil disimpan ke file .pkl")

# Coba load ulang untuk tes
model_loaded = joblib.load("model_mnb.pkl")
vectorizer_loaded = joblib.load("vectorizer.pkl")

# Tes prediksi pakai model yang udah di-load ulang
sample_text = "BMKG mengumumkan potensi hujan deras di wilayah Jabodetabek besok sore."
prediksi_berita(sample_text, model=model_loaded)


In [None]:
# ===== Cell 8: Web App Flask untuk Deteksi Hoax =====
from flask import Flask, request, render_template_string
import joblib

# Load model & vectorizer yang sudah disimpan
model = joblib.load("model_mnb.pkl")
vectorizer = joblib.load("vectorizer.pkl")

# Inisialisasi Flask
app = Flask(__name__)

# Template HTML sederhana (langsung di sini biar gampang tes)
HTML_TEMPLATE = """
<!doctype html>
<html>
<head>
    <title>Deteksi Berita Hoax</title>
</head>
<body>
    <h2>ðŸ“° Deteksi Berita Hoax</h2>
    <form method="POST">
        <textarea name="berita" rows="10" cols="80" placeholder="Tempelkan berita di sini..."></textarea><br><br>
        <input type="submit" value="Prediksi">
    </form>
    {% if hasil %}
        <h3>Hasil Prediksi: {{ hasil }}</h3>
        <p>Probabilitas => REAL: {{ real }} | HOAX: {{ hoax }}</p>
    {% endif %}
</body>
</html>
"""

# Route utama
@app.route("/", methods=["GET", "POST"])
def index():
    hasil, real, hoax = None, None, None
    if request.method == "POST":
        teks = request.form["berita"]
        if teks.strip():
            teks_clean = teks  # bisa tambahin clean_text(teks) kalau mau
            fitur = vectorizer.transform([teks_clean])
            probas = model.predict_proba(fitur)[0]
            pred = model.predict(fitur)[0]
            hasil = "HOAX" if pred == 1 else "REAL"
            real, hoax = round(probas[0], 4), round(probas[1], 4)
    return render_template_string(HTML_TEMPLATE, hasil=hasil, real=real, hoax=hoax)

# Jalankan server Flask
if __name__ == "__main__":
    app.run(debug=True)
