# Pra-Pemrosesan Data

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

dataset = pd.read_csv('dataset_sms_spam_v1.csv')

X = dataset['Teks']
y = dataset['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

tfidf_vectorizer = TfidfVectorizer()
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Cek Distribusi Label

In [2]:
label_distribution = dataset['label'].value_counts()
print(label_distribution)

0    569
1    335
2    239
Name: label, dtype: int64


# Cek Distribusi Kelas di Data Latih & Data Uji

In [None]:
print("Distribusi Kelas di Data Latih:")
print(y_train.value_counts())

print("\nDistribusi Kelas di Data Uji:")
print(y_test.value_counts())


Distribusi Kelas di Data Latih:
0    470
1    253
2    191
Name: label, dtype: int64

Distribusi Kelas di Data Uji:
0    99
1    82
2    48
Name: label, dtype: int64


# Melatih Model

In [4]:
from sklearn.naive_bayes import MultinomialNB

naive_bayes = MultinomialNB()
naive_bayes.fit(X_train_tfidf, y_train)

MultinomialNB()

# Evaluasi Model

In [5]:
from sklearn.metrics import accuracy_score, classification_report

y_pred = naive_bayes.predict(X_test_tfidf)

print("Akurasi:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Akurasi: 0.9170305676855895
              precision    recall  f1-score   support

           0       0.94      0.93      0.93        99
           1       0.97      0.89      0.93        82
           2       0.80      0.94      0.87        48

    accuracy                           0.92       229
   macro avg       0.91      0.92      0.91       229
weighted avg       0.92      0.92      0.92       229



# Pengujian Model

In [6]:
new_text = "Nikmati DOUBLE kuota PROMO 10GB(4G) di jaringan Data terkuat, UNLIMITED Nelp&SMS. 24JAM, dgn pkt Freedom Combo. Tekan *123# atau indosatooredoo.com/freedom"

new_text_tfidf = tfidf_vectorizer.transform([new_text])

predicted_class = naive_bayes.predict(new_text_tfidf)

print("Hasil prediksi klasifikasi:", predicted_class)

Hasil prediksi klasifikasi: [2]


In [7]:
new_text_1 = "dawdadjaj nj ajwd awhdja bjhA Bw"

new_text_tfidf_1 = tfidf_vectorizer.transform([new_text_1])

predicted_class_1 = naive_bayes.predict(new_text_tfidf_1)

print("Hasil prediksi klasifikasi:", predicted_class_1)

Hasil prediksi klasifikasi: [0]


In [8]:
new_text_2 = "Dapatkan e-Tiket Murah & Promo Untuk Penerbangan Domestic & International BOOKING ONLINE Info Hub: 085216181177 www.surya-travel.jimdo.com"

new_text_tfidf_2 = tfidf_vectorizer.transform([new_text_2])

predicted_class_2 = naive_bayes.predict(new_text_tfidf_2)

print("Hasil prediksi klasifikasi:", predicted_class_2)

Hasil prediksi klasifikasi: [1]


# Cek Kata Suspect untuk Masing Masing Kelas

In [9]:
import numpy as np

feature_names = tfidf_vectorizer.get_feature_names_out()

log_prob = naive_bayes.feature_log_prob_

# Menampilkan kata-kata dengan nilai tertinggi untuk setiap kelas
for i, label in enumerate(naive_bayes.classes_):
    top_features = np.argsort(log_prob[i])[-100:]
    print(f"\nKelas {label}:")
    for feature_idx in top_features:
        print(feature_names[feature_idx])


Kelas 0:
tidak
nilai
sep
habis
liat
masuk
dy
lama
bawa
engga
kang
pulang
sudah
hari
depan
hehe
gt
brp
sore
pagi
harus
mana
mohon
kalian
minta
bimbingan
min
waktu
semoga
oke
semua
gitu
berapa
guys
buat
jd
untuk
wkwk
belum
biar
siapa
sih
terus
data
siang
blm
kamu
tau
tapi
dari
iya
bu
jg
kosan
gais
jadi
pake
gak
masih
yah
baru
juga
dulu
udh
mah
atau
maaf
boleh
dan
lg
tp
besok
sama
apa
kan
lagi
kita
udah
ini
nanti
teh
itu
bisa
kalo
nya
jam
kalau
yang
pak
ke
saya
ga
di
ya
aja
mau
yg
ada
nama1
aku

Kelas 1:
kios
poin
harga
xv
xxx
dengan
rs
tronik
hubungi
hp
sdh
dulu
uang
sebagai
bni
021
kasih
tricare
all
2016
uangnya
8jf2177
gebyar
indosat
dikirim
pelanggan
maaf
telkomsel
men
webs
ulang
transfer
yaris
bri
saja
honda
jazz
silahkan
surat
sudah
mendapatkan
kirim
kode
dpt
promo
dri
isi
keputusan
slmt
toyota
co
nomor
jt
indonesia
id
kami
bank
untuk
saya
unit
jimdo
bpk
tunai
sy
pesan
3care
simcard
kunjungi
rek
terpilih
undian
dptkan
bb
pulsa
yth
care
ini
sms
mobil
dari
cek
selamat
dr
rp
di
ke
hub