In [124]:
import pandas as pd
import numpy as np

# Preprocessing teks
import re
from sklearn.model_selection import train_test_split

# Vectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Model ML klasik
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB

# Evaluasi
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


In [125]:
df=pd.read_csv("train_fix.csv")

In [126]:
print(df.head())
print(df['label'].value_counts())

                                                text     label
0  @hyalfay @NatharElyas @BosPurwa @NatharElyas @...  ideologi
1  @sienchao @Sherly0ctaviany @jokowi Halo @Sienc...  ideologi
2  @giovannikurnwn @BudiBukanIntel Nama Budi Berl...  ideologi
3  @LeotardosMy @easyanying Kita akui keberhasila...  ideologi
4  @LuckyGaben @susipudjiastuti @prabowo Indonesi...  ideologi
label
ideologi      1221
pertahanan    1071
reformasi      771
harmoni        664
sdm            438
pekerjaan      347
pemerataan     306
hilirisasi     182
Name: count, dtype: int64


In [127]:
def clean_text(text):
    text = re.sub(r'@\w+', '', text)            # hapus mention
    text = re.sub(r'#\w+', '', text)            # hapus hashtag
    text = re.sub(r'http\S+', '', text)         # hapus URL
    text = re.sub(r'[^A-Za-z0-9\s]', '', text)  # hapus simbol
    text = re.sub(r'\s+', ' ', text).strip()    # rapikan spasi
    return text

df['clean_text'] = df['text'].astype(str).apply(clean_text)


In [128]:
X = df['clean_text']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)


In [129]:
vectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1,2))
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)


In [130]:
# SVM
svm = LinearSVC()
svm.fit(X_train_tfidf, y_train)

In [131]:
models = {
    "Logistic Regression": log_reg,
    "SVM": svm,
    "Naive Bayes": nb
}

for name, model in models.items():
    y_pred = model.predict(X_test_tfidf)
    print(f"\n=== {name} ===")
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print(classification_report(y_test, y_pred))



=== Logistic Regression ===
Accuracy: 0.592
              precision    recall  f1-score   support

     harmoni       0.69      0.63      0.66       133
  hilirisasi       0.25      0.08      0.12        37
    ideologi       0.58      0.79      0.67       244
   pekerjaan       0.57      0.25      0.34        69
  pemerataan       0.54      0.23      0.32        61
  pertahanan       0.67      0.82      0.74       214
   reformasi       0.46      0.46      0.46       154
         sdm       0.56      0.40      0.47        88

    accuracy                           0.59      1000
   macro avg       0.54      0.46      0.47      1000
weighted avg       0.58      0.59      0.57      1000


=== SVM ===
Accuracy: 0.588
              precision    recall  f1-score   support

     harmoni       0.67      0.67      0.67       133
  hilirisasi       0.22      0.14      0.17        37
    ideologi       0.61      0.74      0.67       244
   pekerjaan       0.48      0.33      0.39        69
  pe

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [132]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "Kebijakan energi nasional untuk hilirisasi"
print(predict_text(contoh, log_reg, vectorizer))

pertahanan


In [133]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "indonesia masih bisa menuju sukses tapi RUU TNI dan dwifungsi bikin khawatir upaya lawan judi online positif tapi luas peran militer di perintah dan aktivis yang diam bisa jadi tanda mundur demokrasi"
print(predict_text(contoh, log_reg, vectorizer))

ideologi


In [134]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "	mungkin terus angkat isu negatif Jokowi karena aktivis politik atau tidak puas dengan pemimpin fokus pada korupsi dan mundur demokrasi. konten mirip dengan akun lain"
print(predict_text(contoh, log_reg, vectorizer))

ideologi


In [135]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "sampai detik ini tidak ada nyata minimal apresiasi ke film ini padahal janji politik ekonomi kreatif hilirisasi digital"
print(predict_text(contoh, log_reg, vectorizer))

pekerjaan


In [136]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "dari viral film walid cabul bukti bahwa film jadi salah satu metode edukasi yang ampuh di era serba digital ini dan bahkan bisa jangkau ke pelosok desa masalah pendidikan"
print(predict_text(contoh, log_reg, vectorizer))

sdm


In [137]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "lihat umkm desa dapat latih digital langsung mikir perintah melek butuh zaman kita percaya kita bisa"
print(predict_text(contoh, log_reg, vectorizer))

pemerataan


In [138]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "terus dia bilang sudah kita jadwal daring dia kira seluruh indonesia ini punya kuat sinyal internet yang sama apa seperti di tempat dia apalagi di desa emang otak di dengkul aja ini sih gw pernah ad"
print(predict_text(contoh, log_reg, vectorizer))

pemerataan


In [139]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "masalahnya ini gua di desa internet gak siap buat unduh berkas bergiga giga serbasalah"
print(predict_text(contoh, log_reg, vectorizer))

pemerataan


In [140]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "pegawai negeri sipil itu ikut pusat kampus tidak bisa buka lowongan pegawai negeri sipil tetap ikut menteri didik tinggi sains dan teknologi"
print(predict_text(contoh, log_reg, vectorizer))

reformasi


In [141]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "dalam konteks negara kecil pandai rencana detail tata ruang bangun hubungan diploma rupa tahan kuat di zaman ini"
print(predict_text(contoh, log_reg, vectorizer))

ideologi


In [142]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "sby kata syarat prajurit TNI terjun ke perintah atau politik yakni mundur dari dunia militer"
print(predict_text(contoh, log_reg, vectorizer))

ideologi


In [143]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "iya bahasa indonesia bisa anggap jiwa zaman secara sejarah dia satu indonesia saat juang merdeka seperti pada sumpah pemuda dan proklamasi di bahasa ini dominan di komunikasi digital dari media sosial hingga dagang elektronik"
print(predict_text(contoh, log_reg, vectorizer))

ideologi


In [144]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "memang budaya indonesia jelek sekali tapi saya belajar untuk bayar ke depan ini dari orang teman yang saya temu saat magang awal usaha dia baik sekali mau ajar itu ke saya yang sedikit bodoh ini mau berbagi peluang dan lain lain"
print(predict_text(contoh, log_reg, vectorizer))

harmoni


In [145]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "kita sadar bumi makin panas energi kotor masih pakai dan ubah tidak bisa tunda makanya kita turun tangan bukan cuma ngomong soal krisis iklim tapi solusi nyata benar benar bikin aksi"
print(predict_text(contoh, log_reg, vectorizer))

pertahanan


In [146]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "hilirisasi menurut prabowo adalah olah bahan mentah di dalam negeri jadi produk nilai tinggi seperti nikel jadi baterai EV atau emas jadi hias ini strategi ekonomi untuk tingkat nilai ekspor cipta lapangan kerja da"
print(predict_text(contoh, log_reg, vectorizer))

hilirisasi


In [147]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "ya Pak gibran paham hilirisasi secara umum ia aktif promosi olah bahan mentah di dalam negeri untuk tingkat nilai ekonomi dan cipta lapangan kerja seperti target 28 komoditas senilai Rp13.000 tr"
print(predict_text(contoh, log_reg, vectorizer))

hilirisasi


In [148]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "mungkin nanti akan lebih banyak lagi alasan untuk embargo izin tambang saham Freeport ekspor bahan mentah dan lain lain"
print(predict_text(contoh, log_reg, vectorizer))

hilirisasi


In [149]:
def predict_text(text, model, vectorizer):
    text_clean = clean_text(text)
    text_vec = vectorizer.transform([text_clean])
    return model.predict(text_vec)[0]

contoh = "sistem bagi hasil tambang nikel di morowali antara perintah daerah dan pusat acu pada regulasi indonesia di mana perintah daerah dapat 20 persen dari imbalan dan retribusi tambah sisa di kelola perintah pusat meskipun"
print(predict_text(contoh, log_reg, vectorizer))

pertahanan


In [151]:
print("=" * 60)
print("KLASIFIKASI REPORT DETAIL")
print("=" * 60)

class_names = sorted(y.unique())
report = classification_report(y_test, y_pred, target_names=class_names, digits=4)
print(report)

KLASIFIKASI REPORT DETAIL
              precision    recall  f1-score   support

     harmoni     0.7344    0.3534    0.4772       133
  hilirisasi     0.0000    0.0000    0.0000        37
    ideologi     0.4238    0.8893    0.5741       244
   pekerjaan     1.0000    0.0580    0.1096        69
  pemerataan     0.0000    0.0000    0.0000        61
  pertahanan     0.5350    0.7850    0.6364       214
   reformasi     0.5517    0.3117    0.3983       154
         sdm     0.7500    0.1364    0.2308        88

    accuracy                         0.4960      1000
   macro avg     0.4994    0.3167    0.3033      1000
weighted avg     0.5355    0.4960    0.4289      1000



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
