In [1]:
# ===== Cell 1: Setup & Cek Environment =====
import os, sys
import platform
import pandas as pd
import numpy as np
import re
import string

# Cek versi paket penting (untuk debugging)
def version_str(pkg):
    try:
        return pkg.__version__
    except Exception:
        return "tidak tersedia"

print("Python:", platform.python_version())
print("OS:", platform.system(), platform.release())
print("pandas:", version_str(pd))
print("numpy :", version_str(np))

# Cek scikit-learn, imbalanced-learn, Sastrawi, tqdm, joblib
sklearn_v = "tidak tersedia"
imblearn_v = "tidak tersedia"
sastrawi_v = "tidak tersedia"
tqdm_v = "tidak tersedia"
joblib_v = "tidak tersedia"

try:
    import sklearn
    sklearn_v = sklearn.__version__
except Exception:
    sklearn_v = "tidak tersedia"

try:
    import imblearn
    imblearn_v = imblearn.__version__
except Exception:
    imblearn_v = "tidak tersedia"

try:
    import Sastrawi
    sastrawi_v = Sastrawi.__version__ if hasattr(Sastrawi, "__version__") else "terinstal"
except Exception:
    sastrawi_v = "tidak tersedia"

try:
    from tqdm import tqdm
    tqdm_v = tqdm.__module__  # hanya cek terinstal
except Exception:
    tqdm_v = "tidak tersedia"

try:
    import joblib
    joblib_v = joblib.__version__
except Exception:
    joblib_v = "tidak tersedia"

print("scikit-learn:", sklearn_v)
print("imbalanced-learn:", imblearn_v)
print("Sastrawi:", sastrawi_v)
print("tqdm:", tqdm_v)
print("joblib:", joblib_v)

# Tampilkan working dir dan daftar file CSV yang mungkin dataset
cwd = os.getcwd()
print("\nWorking directory:", cwd)
files = os.listdir(cwd)
csv_files = [f for f in files if f.lower().endswith((".csv", ".xlsx"))]
print(f"\nJumlah file CSV/XLSX di folder: {len(csv_files)}")
for f in csv_files:
    print("  -", f)

# Quick helper: jika ada dataset besar, tampilkan 5 baris pertama (jika file bernama seperti dataset_*.csv)
sample_names = [f for f in csv_files if "dataset" in f.lower() or "cnn" in f.lower() or "kompas" in f.lower() or "tempo" in f.lower() or "turnback" in f.lower()]
if sample_names:
    print("\nPreview (5 baris) pertama berita di dataset:", sample_names[0])
    try:
        ext = os.path.splitext(sample_names[0])[1].lower()
        if ext == ".csv":
            preview = pd.read_csv(sample_names[0], nrows=5)
        else:
            preview = pd.read_excel(sample_names[0], nrows=5)
        display(preview)
    except Exception as e:
        print("  -> Gagal preview file:", e)
else:
    print("\nTidak ditemukan file dataset dengan pola nama 'dataset' / cnn / kompas / tempo / turnback di folder kerja.")

print("\nCell 1 selesai")


Python: 3.12.6
OS: Windows 11
pandas: 2.2.2
numpy : 2.1.1
scikit-learn: 1.5.2
imbalanced-learn: 0.14.0
Sastrawi: terinstal
tqdm: tqdm.std
joblib: 1.4.2

Working directory: C:\Users\muham\Skripsi

Jumlah file CSV/XLSX di folder: 9
  - dataset_cnn_10k_cleaned.csv
  - dataset_cnn_10k_cleaned.xlsx
  - dataset_kompas_4k_cleaned.csv
  - dataset_kompas_4k_cleaned.xlsx
  - dataset_tempo_6k_cleaned.csv
  - dataset_tempo_6k_cleaned.xlsx
  - dataset_turnbackhoax_10_cleaned.csv
  - dataset_turnbackhoax_10_cleaned.xlsx
  - news.csv

Contoh preview (5 baris) dari file pertama yang terdeteksi: dataset_cnn_10k_cleaned.csv


Unnamed: 0.1,Unnamed: 0,Title,Timestamp,FullText,Tags,Author,Url,text_new,hoax
0,0,Anies di Milad BKMT: Pengajian Menghasilkan Ib...,"Selasa, 21 Feb 2023 21:22 WIB","Jakarta, CNN Indonesia -- Mantan Gubernur DKI ...",anies baswedan;pengajian;pilpres 2024;badan ko...,CNN Indonesia,https://www.cnnindonesia.com/nasional/20230221...,Anies di Milad BKMT: Pengajian Menghasilkan Ib...,0
1,1,Edy Soal Pilgub Sumut: Kalau yang Maju Abal-ab...,"Selasa, 21 Feb 2023 20:46 WIB","Medan, CNN Indonesia -- Gubernur Sumatera Utar...",edy rahmayadi;pemilu 2024;pilkada 2024,CNN Indonesia,https://www.cnnindonesia.com/nasional/20230221...,Edy Soal Pilgub Sumut: Kalau yang Maju Abal-ab...,0
2,2,PKB Bakal Daftarkan Menaker Ida Fauziyah Jadi ...,"Selasa, 21 Feb 2023 20:33 WIB","Jakarta, CNN Indonesia -- Partai Kebangkitan B...",ida fauziyah;pkb;pemilu 2024;pileg 2024,CNN Indonesia,https://www.cnnindonesia.com/nasional/20230221...,PKB Bakal Daftarkan Menaker Ida Fauziyah Jadi ...,0
3,3,Gede Pasek Doakan AHY Jadi Capres atau Cawapres,"Selasa, 21 Feb 2023 19:58 WIB","Jakarta, CNN Indonesia -- Ketua Umum Partai Ke...",gede pasek suardika;ahy;pilpres 2024;pemilu 20...,CNN Indonesia,https://www.cnnindonesia.com/nasional/20230221...,Gede Pasek Doakan AHY Jadi Capres atau Cawapre...,0
4,4,PKN Siapkan Jabatan Khusus Buat Anas Urbaningr...,"Selasa, 21 Feb 2023 18:56 WIB","Jakarta, CNN Indonesia -- Dewan Pimpinan Pusat...",anas urbaningrum;pkn;pemilu 2024,CNN Indonesia,https://www.cnnindonesia.com/nasional/20230221...,PKN Siapkan Jabatan Khusus Buat Anas Urbaningr...,0



Cell 1 selesai — kalau ada missing package atau file yang tidak ditemukan, ikuti petunjuk di bawah.


In [2]:
# ===== Cell 2: Load & Gabungkan Dataset =====

import pandas as pd

# Baca dataset (ubah sesuai file yang ada di folder kerja kamu)
data1 = pd.read_csv("dataset_cnn_10k_cleaned.csv")
data2 = pd.read_csv("dataset_kompas_4k_cleaned.csv")
data3 = pd.read_csv("dataset_tempo_6k_cleaned.csv")
data4 = pd.read_csv("dataset_turnbackhoax_10_cleaned.csv")

# Fungsi untuk standarisasi dataset
def standardize_dataset(df, sumber="unknown"):
    # Pilih teks utama
    if "text_new" in df.columns:
        teks = df["text_new"].fillna("")
    elif "FullText" in df.columns:
        teks = df["FullText"].fillna("")
    elif "Narasi" in df.columns:
        teks = df["Narasi"].fillna("")
    else:
        raise ValueError(f"Tidak ada kolom teks yang valid di dataset {sumber}")
    
    # Pilih label
    if "hoax" in df.columns:
        label = df["hoax"].astype(int)
    elif "label" in df.columns:
        label = df["label"].astype(int)
    else:
        raise ValueError(f"Tidak ada kolom label di dataset {sumber}")
    
    return pd.DataFrame({
        "text": teks,
        "label": label,
        "sumber": sumber
    })

# Standarisasi semua dataset
datasets = []
datasets.append(standardize_dataset(data1, "CNN"))
datasets.append(standardize_dataset(data2, "Kompas"))
datasets.append(standardize_dataset(data3, "Tempo"))
datasets.append(standardize_dataset(data4, "Turnbackhoax"))

# Gabungkan
data = pd.concat(datasets, ignore_index=True)

# Info dataset gabungan
print("Ukuran dataset gabungan:", data.shape)
print("\nDistribusi label (0=REAL, 1=HOAX):")
print(data["label"].value_counts())

print("\nContoh data gabungan:")
print(data.sample(5))


Ukuran dataset gabungan: (31353, 3)

Distribusi label (0=REAL, 1=HOAX):
label
0    20972
1    10381
Name: count, dtype: int64

Contoh data gabungan:
                                                    text  label        sumber
3006   AHY: Kader Demokrat Tak Boleh Nangis, Lindungi...      0           CNN
2688   SBY Diminta Arahkan Lukas Enembe untuk Patuh P...      0           CNN
30645  Sumber : Media Sosial\nNarasi :\n\nPenjelasan ...      1  Turnbackhoax
7997   PSI Tuding Viani Gelembungkan Dana Reses Lebih...      0           CNN
5471   Ganjar Respons Puan Sindir Capres Ganteng: Unt...      0           CNN


In [3]:
# ===== Cell 3 (Baru): Preprocessing =====
import re
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from tqdm import tqdm

# Setup stemmer & stopwords
factory = StemmerFactory()
stemmer = factory.create_stemmer()

stop_factory = StopWordRemoverFactory()
extra_stopwords = ["dengan","bahwa","karena","sudah","juga","akan","untuk"]
stop_words = set(stop_factory.get_stop_words() + extra_stopwords)

# Cache buat stemming biar ga ngulang-ngulang
stem_cache = {}

def clean_text(text):
    if pd.isna(text):
        return ""
    s = text.lower()
    s = re.sub(r"http\S+|www\S+", " ", s)   # hapus URL
    s = re.sub(r"[^a-zA-Z\s]", " ", s)      # hapus angka & simbol
    s = re.sub(r"\s+", " ", s).strip()      # hapus spasi ganda
    
    tokens = [w for w in s.split() if w not in stop_words]
    tokens = [stem_cache[w] if w in stem_cache else stemmer.stem(w) for w in tokens]
    for w in tokens:
        if w not in stem_cache:
            stem_cache[w] = stemmer.stem(w)
    return " ".join(tokens)

# Fungsi apply per chunk (biar ga berat kalau data banyak)
def apply_in_chunks(series, func, chunk=2000):
    out_chunks = []
    for i in tqdm(range(0, len(series), chunk)):
        out = series.iloc[i:i+chunk].apply(func)
        out_chunks.append(out)
    return pd.concat(out_chunks)

# Terapkan ke kolom 'text'
print("⚡ Sedang preprocessing data...")
data['clean_text'] = apply_in_chunks(data['text'].astype(str), clean_text, chunk=2000)

print("✅ Preprocessing selesai!")
print(data[['text','clean_text','label']].head())


⚡ Sedang preprocessing data...


100%|███████████████████████████████████████████████████████████████████████████████| 16/16 [2:04:37<00:00, 467.31s/it]


✅ Preprocessing selesai!
                                                text  \
0  Anies di Milad BKMT: Pengajian Menghasilkan Ib...   
1  Edy Soal Pilgub Sumut: Kalau yang Maju Abal-ab...   
2  PKB Bakal Daftarkan Menaker Ida Fauziyah Jadi ...   
3  Gede Pasek Doakan AHY Jadi Capres atau Cawapre...   
4  PKN Siapkan Jabatan Khusus Buat Anas Urbaningr...   

                                          clean_text  label  
0  anies milad bkmt aji hasil ibu ibu tahu mantan...      0  
1  edy soal pilgub sumut kalau maju abal abal pak...      0  
2  pkb bakal daftar menaker ida fauziyah jadi cal...      0  
3  gede pasek doa ahy jadi capres cawapres ketua ...      0  
4  pkn siap jabat khusus buat anas urbaningrum us...      0  


In [19]:
# ===== Cell 4: Vectorization & Split =====
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# Vectorizer TF-IDF
vectorizer = TfidfVectorizer(
    ngram_range=(1,2),   # unigram + bigram
    max_features=20000,  # ambil max 20k fitur
    sublinear_tf=True
)

# Pakai clean_text dari Cell 3
X = vectorizer.fit_transform(data["clean_text"])
y = data["label"].values

# Split train-test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Shape X_train:", X_train.shape)
print("Shape X_test :", X_test.shape)
print("Distribusi train:", dict(zip(*np.unique(y_train, return_counts=True))))
print("Distribusi test :", dict(zip(*np.unique(y_test, return_counts=True))))


NameError: name 'data' is not defined

In [18]:
# ===== Cell 5: Training Multinomial Naive Bayes =====
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Inisialisasi model
mnb = MultinomialNB()

# Training
mnb.fit(X_train, y_train)

# Prediksi di data test
y_pred = mnb.predict(X_test)

# Evaluasi
print("=== Evaluasi Model (MNB) ===")
print("Akurasi:", accuracy_score(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=["REAL","HOAX"]))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))


NameError: name 'X_train' is not defined

In [10]:
# ===== Cell 6: Fungsi Prediksi Berita Tunggal =====

def prediksi_berita(teks, model=mnb):
    # Bersihkan teks
    teks_clean = clean_text(teks)

    # Transformasi ke TF-IDF
    fitur = vectorizer.transform([teks_clean])

    # Prediksi probabilitas
    probas = model.predict_proba(fitur)[0]
    pred = model.predict(fitur)[0]

    print("Teks (potongan):", teks[:120], "...")
    print("Probabilitas => REAL:", probas[0], " | HOAX:", probas[1])
    print("Prediksi:", "REAL ✅" if pred == 0 else "HOAX ❌")
    print("-"*80)
    return "REAL" if pred == 0 else "HOAX"


# ===== Tes dengan beberapa berita (real & hoax) =====
berita_uji = [
    # Real
    """Presiden Joko Widodo meresmikan proyek kereta cepat Jakarta–Bandung 
    yang diharapkan memangkas waktu perjalanan menjadi hanya 45 menit.""",

    """Badan Meteorologi, Klimatologi, dan Geofisika (BMKG) mengeluarkan 
    peringatan dini terkait potensi hujan lebat di wilayah Jawa Barat.""",

    # Hoax
    """Minum air rebusan kabel listrik disebut-sebut bisa menyembuhkan 
    penyakit jantung tanpa obat dokter. Pesan berantai ini menyebar di WhatsApp.""",

    """Pemerintah akan membagikan uang tunai Rp15 juta kepada semua warga 
    yang memiliki KTP elektronik tanpa syarat tambahan apapun."""
]

for teks in berita_uji:
    prediksi_berita(teks)


NameError: name 'mnb' is not defined

In [17]:
import joblib

# Simpan model & vectorizer
joblib.dump(mnb, "model_hoax_mnb2.pkl")
joblib.dump(vectorizer, "tfidf_vectorizer2.pkl")

print("✅ Model & Vectorizer berhasil disimpan!")

NameError: name 'mnb' is not defined

In [1]:
import joblib

# Load model & vectorizer
mnb_loaded = joblib.load("model_hoax_mnb.pkl")
vectorizer_loaded = joblib.load("tfidf_vectorizer.pkl")

print("✅ Model & Vectorizer berhasil di-load!")


✅ Model & Vectorizer berhasil di-load!


In [2]:
import re
import string

def clean_text(text):
    text = str(text).lower()
    text = re.sub(r"http\S+|www\S+|https\S+", " ", text)  # hapus URL
    text = re.sub(r"\d+", " ", text)                      # hapus angka
    text = text.translate(str.maketrans("", "", string.punctuation))  # hapus tanda baca
    text = re.sub(r"\s+", " ", text).strip()              # hapus spasi ganda
    return text


In [7]:
def prediksi_berita_loaded(teks, model=mnb_loaded, vec=vectorizer_loaded):
    teks_clean = clean_text(teks)
    fitur = vec.transform([teks_clean])
    
    probas = model.predict_proba(fitur)[0]
    pred = model.predict(fitur)[0]
    
    print("Teks (potongan):", teks[:100], "...")
    print("Probabilitas => REAL:", probas[0], " | HOAX:", probas[1])
    print("Prediksi:", "HOAX ❌" if pred == 1 else "REAL ✅")
    print("-"*80)
    return "HOAX" if pred == 1 else "REAL"

# tes
prediksi_berita_loaded("""
Hanya saja, kata dia, jika Ali benar-benar tertarik dan ingin bergabung ke kubunya, maka PAN akan menerima dan menyiapkan karpet biru untuk.
"Kalau kemudian beliau tertarik dan berminat berlabuh ke PAN, kami siapkan karpet biru, welcome, ahlan wa sahlan (selat datang). Tapi saya belum bisa memastikan," ujarnya..
Sementara soal Anak La Nyalla, yakni Ali Affandi Mattaliti, Rizki mengaku dirinya belum sempat bertemu dan komunikasi. Tapi ia mempersilakan jika Affandi ingin bergabung ke PAN.
"Mas Andi (Ali Affandi) belum. Prinsipnya saya undang seluruh anak bangsa, kalangan milenial, seluruh elemen masyarakat, bahwa PAN adalah rumah besar bagi semua golongan. Kalau kata ketum kita, PAN menyinari semua lapisan masyarakat dan kita buka peluang sebesar-besarnya," kata dia.
Sementara itu, Kepala Badan Pembina Organisasi, Kaderisasi, dan Keanggotaan (BPOKK) DPD Demokrat Jawa Timur, Mugianto, menyatakan Ali dan Affandi tetap setia dan loyal pada Demokrat. Ini menepis kabar kedua kader Demokrat itu yang akan merapat ke PAN.
"Mas Andi dan Mas Ali tetap di Demokrat," kata Mugianto.
Mugianto mengatakan partainya bahkan memberi tugas baru bagi putra bungsu Gubernur Jatim Khofifah Indar Parawansa itu. Dia ditunjuk untuk menjadi Ketua Forum Komunikasi (Forkom) Milenial Demokrat Jatim.
"Mas Ali ditugaskan partai memimpin Forkom Milenial Demokrat Jatim. Kami optimistis ketika nanti dipimpin beliau, anak-anak muda dan kaum milenial akan semakin tertarik bergabung, agar bisa berpartisipasi pada Pemilu 2024," ucapnya.
Mugianto optimistis ke depan akan banyak anak muda dan generasi milenial yang bergabung ke partainya. Sehingga, pada Pemilu 2024 mendatang, partai pimpinan Agus Harimurti Yudhoyono (AHY) itu bisa berjaya.
""")


Teks (potongan): 
Hanya saja, kata dia, jika Ali benar-benar tertarik dan ingin bergabung ke kubunya, maka PAN akan m ...
Probabilitas => REAL: 0.9990239995740111  | HOAX: 0.00097600042598871
Prediksi: REAL ✅
--------------------------------------------------------------------------------


'REAL'