In [2]:
# ===== Cell X: Load Dataset Sosial Media (Auto-Detect) =====
import pandas as pd

file_path = "INA_TweetsPPKM_Labeled_Pure.csv"

# List kemungkinan separator
separators = [",", ";", "\t"]

df = None
for sep in separators:
    try:
        print(f"üîç Coba load pakai separator: '{sep}'")
        df = pd.read_csv(file_path, sep=sep, encoding="utf-8", on_bad_lines="skip")
        print("‚úÖ Berhasil load!")
        print("Kolom:", df.columns.tolist())
        display(df.head())
        break
    except Exception as e:
        print(f"‚ùå Gagal pakai separator '{sep}':", e)

if df is None:
    print("‚ö†Ô∏è Semua cara gagal, coba pakai encoding lain (contoh: latin1).")


üîç Coba load pakai separator: ','
‚úÖ Berhasil load!
Kolom: ['Date\tUser\tTweet\tsentiment']


Unnamed: 0,Date\tUser\tTweet\tsentiment
2022-03-31 14:32:04+00:00\tpikobar_jabar\tKetahui informasi pembagian #PPKM di wilayah Jabar berdasarkan level 3,2 dan 1 di #PikoData https://t.co/o2RnI7eDue\t1
"2022-03-31 09:26:00+00:00\tinewsdotid\t""Tempat Ibadah di Wilayah PPKM Level 1 Boleh Berkapasitas 100 Persen. Baca Selengkapnya di https://t.co/JfIG6nIimN",
"#Ramadhan #PPKM #inews https://t.co/ky1G5xYLQB""\t1",
Begini kira-kira gambaran bukber tanpa ngobrol. Bagaimana tanggapan sobat VDVC?,
"#VDVCNews #Viral #PPKM #Bukber https://t.co/SWuFmfaIYN""\t1",


In [4]:
print(df.columns)


Index(['Date\tUser\tTweet\tsentiment'], dtype='object')


In [5]:
# ===== Cell: Standarisasi Dataset Sosmed =====

import pandas as pd

# Load dataset dengan pemisah TAB
df = pd.read_csv("INA_TweetsPPKM_Labeled_Pure.csv", sep="\t")

print("Kolom dataset sosmed:", df.columns.tolist())
print(df.head(3))

# Fungsi standarisasi
def standardize_sosmed(df):
    # Ambil teks dari kolom Tweet
    if "Tweet" in df.columns:
        teks = df["Tweet"].fillna("")
    else:
        raise ValueError("‚ö†Ô∏è Tidak ada kolom Tweet di dataset sosmed")

    # Ambil label (sementara pakai sentiment ‚Üí bisa diganti manual jadi hoax / real)
    if "sentiment" in df.columns:
        label = df["sentiment"].apply(lambda x: 1 if str(x).lower() == "negative" else 0)
    else:
        label = "unknown"

    return pd.DataFrame({
        "text": teks,
        "label": label,
        "sumber": "Twitter"
    })

# Terapkan standarisasi
data_sosmed = standardize_sosmed(df)

print("\nPreview dataset sosmed standar:")
print(data_sosmed.head())
print("\nDistribusi label:")
print(data_sosmed["label"].value_counts())


Kolom dataset sosmed: ['Date', 'User', 'Tweet', 'sentiment']
                        Date           User  \
0  2022-03-31 14:32:04+00:00  pikobar_jabar   
1  2022-03-31 09:26:00+00:00     inewsdotid   
2  2022-03-31 05:02:34+00:00      vdvc_talk   

                                               Tweet  sentiment  
0  Ketahui informasi pembagian #PPKM di wilayah J...          1  
1  Tempat Ibadah di Wilayah PPKM Level 1 Boleh Be...          1  
2  Juru bicara Satgas Covid-19, Wiku Adisasmito m...          1  

Preview dataset sosmed standar:
                                                text  label   sumber
0  Ketahui informasi pembagian #PPKM di wilayah J...      0  Twitter
1  Tempat Ibadah di Wilayah PPKM Level 1 Boleh Be...      0  Twitter
2  Juru bicara Satgas Covid-19, Wiku Adisasmito m...      0  Twitter
3  Ketahui informasi pembagian #PPKM di wilayah J...      0  Twitter
4  Kementerian Agama menerbitkan Surat Edaran Nom...      0  Twitter

Distribusi label:
label
0    23644
Nam

In [3]:
# ===== Cell: Load & Semi-Otomatis Labeling Sosmed =====
import pandas as pd

# Load dataset sosmed
df = pd.read_csv("INA_TweetsPPKM_Labeled_Pure.csv", sep="\t", encoding="utf-8")

# Ambil kolom teks dari "Tweet"
data_sosmed = pd.DataFrame({
    "text": df["Tweet"].fillna(""),
})

# Keyword HOAX umum
keywords_hoax = [
    "konspirasi", "tanpa bukti", "katanya", "isu hoax", 
    "obat ajaib", "sumber tidak jelas", "percaya atau tidak",
    "hoax", "fitnah", "berita palsu", "provokasi", "isu palsu"
]

# Keyword HOAX spesifik COVID/PPKM
keywords_covid = [
    "vaksin bikin chip", "vaksin berbahaya", "vaksin mematikan",
    "vaksin palsu", "vaksin haram", "ppkm konspirasi",
    "lockdown konspirasi", "plandemi", "virus buatan",
    "vaksin tidak perlu", "microchip", "5g penyebab covid"
]

# Gabung semua keyword
all_keywords = keywords_hoax + keywords_covid

# Fungsi auto-labeling
def label_rule(text):
    text = str(text).lower()
    for kw in all_keywords:
        if kw in text:
            return 1   # HOAX
    return 0           # REAL

# Terapkan fungsi labeling
data_sosmed["label"] = data_sosmed["text"].apply(label_rule)
data_sosmed["sumber"] = "Twitter"

# Pilih hanya kolom yang dibutuhkan
data_sosmed_final = data_sosmed[["text", "label", "sumber"]]

# Cek distribusi
print("Distribusi label otomatis:")
print(data_sosmed_final["label"].value_counts())

# Preview
print("\nContoh data hasil labeling:")
print(data_sosmed_final.head(10))

# Simpan ke CSV untuk koreksi manual
data_sosmed_final.to_csv("sosmed_labeled_auto.csv", index=False, encoding="utf-8")
print("\n‚úÖ Dataset sosmed dengan kolom [text, label, sumber] berhasil disimpan ke 'sosmed_labeled_auto.csv'")


Distribusi label otomatis:
label
0    23532
1      112
Name: count, dtype: int64

Contoh data hasil labeling:
                                                text  label   sumber
0  Ketahui informasi pembagian #PPKM di wilayah J...      0  Twitter
1  Tempat Ibadah di Wilayah PPKM Level 1 Boleh Be...      0  Twitter
2  Juru bicara Satgas Covid-19, Wiku Adisasmito m...      0  Twitter
3  Ketahui informasi pembagian #PPKM di wilayah J...      0  Twitter
4  Kementerian Agama menerbitkan Surat Edaran Nom...      0  Twitter
5  Kapasitas tempat ibadah, termasuk masjid, yang...      0  Twitter
6  Halo Sobat Sehat\n\nDengan adanya kondisi ini,...      0  Twitter
7  Mitigasi Penting untuk Cegah Penyebaran Varian...      0  Twitter
8  Sebanyak 5 (lima) kabupaten di Provinsi Lampun...      0  Twitter
9  Komentar Satgas Penanganan Covid-19 Tentang Bu...      0  Twitter

‚úÖ Dataset sosmed dengan kolom [text, label, sumber] berhasil disimpan ke 'sosmed_labeled_auto.csv'


In [1]:
# ===== Cell: Labeling Hoax Sosial Media =====
import pandas as pd

# Load dataset asli
df = pd.read_csv("INA_TweetsPPKM_Labeled_Pure.csv", sep="\t")

# Standarisasi kolom
data_sosmed = pd.DataFrame({
    "text": df["Tweet"].astype(str),
})

# Daftar kata/kalimat kunci hoax
hoax_keywords = [
    "terbukti",
    "ampuh",
    "langsung sembuh",
    "terungkap",
    "awas",
    "hati-hati",
    "jangan sampai viral",
    "segera sebarkan",
    "mereka",
    "oknum",
    "pihak tertentu",
    "berdasarkan data rahasia",
    "seorang ahli mengatakan",
    "pesan berantai dari grup whatsapp"
]

# Fungsi deteksi hoax berdasarkan keywords
def label_rule(text):
    text = text.lower()
    for kw in hoax_keywords:
        if kw in text:
            return 1   # HOAX
    return 0           # REAL

# Terapkan aturan labeling
data_sosmed["label"] = data_sosmed["text"].apply(label_rule)

# Tambahin kolom sumber
data_sosmed["sumber"] = "Twitter"

# Lihat hasil distribusi
print("Distribusi label (0=REAL, 1=HOAX):")
print(data_sosmed["label"].value_counts())

# Contoh hasil: 5 REAL + 5 HOAX
print("\n=== Contoh Tweet REAL ===")
print(data_sosmed[data_sosmed["label"] == 0]["text"].head(5))

print("\n=== Contoh Tweet HOAX ===")
print(data_sosmed[data_sosmed["label"] == 1]["text"].head(5))


Distribusi label (0=REAL, 1=HOAX):
label
0    23081
1      563
Name: count, dtype: int64

=== Contoh Tweet REAL ===
0    Ketahui informasi pembagian #PPKM di wilayah J...
1    Tempat Ibadah di Wilayah PPKM Level 1 Boleh Be...
2    Juru bicara Satgas Covid-19, Wiku Adisasmito m...
3    Ketahui informasi pembagian #PPKM di wilayah J...
4    Kementerian Agama menerbitkan Surat Edaran Nom...
Name: text, dtype: object

=== Contoh Tweet HOAX ===
41     ‚ÄúSanksi ini diberikan agar mereka tidak melang...
52     Ye ampun mbh anda seorang Wapres loh.&amp;Gela...
98     Mereka bermain main dengan emosi rakyatnya . P...
222    Pesan akhir Pak Menko Luhut B. Pandjaitan ke #...
259    Kebijakan PPKM tahun 2021 lalu cukup mengejutk...
Name: text, dtype: object


In [2]:
# ===== Cell Tambahan: Menangani Imbalance Dataset =====
from imblearn.over_sampling import SMOTE
from sklearn.utils import resample

print("Distribusi awal (sebelum balancing):")
print(data_sosmed["label"].value_counts())

# ==== Opsi 1: Undersampling (kurangi kelas mayoritas) ====
def undersample(df):
    df_majority = df[df.label == 0]  # REAL
    df_minority = df[df.label == 1]  # HOAX
    
    # Samain jumlah REAL dengan HOAX
    df_majority_downsampled = resample(
        df_majority,
        replace=False,      # tanpa pengulangan
        n_samples=len(df_minority),
        random_state=42
    )
    
    df_balanced = pd.concat([df_majority_downsampled, df_minority])
    return df_balanced

# ==== Opsi 2: Oversampling SMOTE (nambah data HOAX) ====
def oversample_smote(X, y):
    sm = SMOTE(random_state=42, sampling_strategy='auto')
    X_res, y_res = sm.fit_resample(X, y)
    return X_res, y_res

# Contoh cara pakai:
# 1) Kalau mau pakai undersample (langsung dataframe siap pakai):
data_sosmed_bal = undersample(data_sosmed)
print("\nDistribusi setelah undersample:")
print(data_sosmed_bal["label"].value_counts())

# 2) Kalau mau pakai SMOTE (setelah vectorization, nanti di Cell 4):
# X_res, y_res = oversample_smote(X, y)


Distribusi awal (sebelum balancing):
label
0    23081
1      563
Name: count, dtype: int64

Distribusi setelah undersample:
label
0    563
1    563
Name: count, dtype: int64


In [5]:
import pandas as pd

# Load dataset asli (ubah sesuai nama file lo)
df = pd.read_csv("INA_TweetsPPKM_Labeled_Pure.csv", sep="\t")

# Standarisasi kolom (biar ada text, label, sumber)
df = df.rename(columns={"Tweet": "text"})

# Daftar kata kunci indikasi hoax
hoax_keywords = [
    "terbukti", "ampuh", "langsung sembuh", "terungkap", "awas",
    "hati-hati", "jangan sampai viral", "segera sebarkan",
    "mereka", "oknum", "pihak tertentu", "berdasarkan data rahasia",
    "seorang ahli mengatakan", "pesan berantai dari grup whatsapp"
]

def label_rule(text):
    t = str(text).lower()
    for kw in hoax_keywords:
        if kw in t:
            return 1   # HOAX
    return 0           # REAL

# Buat dataframe baru
data_sosmed = pd.DataFrame({
    "text": df["text"].fillna(""),
    "label": df["text"].apply(label_rule),
    "sumber": "Twitter"
})

# Balance dataset: samakan jumlah HOAX & REAL
min_count = data_sosmed["label"].value_counts().min()
data_sosmed_balanced = pd.concat([
    data_sosmed[data_sosmed["label"] == 0].sample(min_count, random_state=42),
    data_sosmed[data_sosmed["label"] == 1].sample(min_count, random_state=42)
], ignore_index=True)

# Simpan ke CSV
data_sosmed_balanced.to_csv("dataset_sosmed_hoax.csv", index=False)

print("‚úÖ Dataset sosmed balanced berhasil disimpan -> dataset_sosmed_hoax.csv")
print(data_sosmed_balanced["label"].value_counts())


‚úÖ Dataset sosmed balanced berhasil disimpan -> dataset_sosmed_hoax.csv
label
0    563
1    563
Name: count, dtype: int64


In [4]:
import pandas as pd

data_sosmed_balanced = pd.read_csv("dataset_sosmed_hoax.csv")
print("‚úÖ Dataset sosmed loaded!")
print(data_sosmed_balanced.head())


FileNotFoundError: [Errno 2] No such file or directory: 'dataset_sosmed_hoax.csv'