

1.   Rayhan Fadhlurrahman (24523223)
2.   Naufal Ahmad Fauzi   (24523168)



**A. Latar Belakang**

Dalam kehidupan sehari-hari, SMS spam masih sering muncul, seperti pesan penipuan hadiah, tawaran promo, ataupun pesan yang meminta transfer uang. Banyak pengguna smartphone yang kesulitan membedakan mana pesan yang aman dan mana yang berpotensi merugikan. Oleh karena itu, diperlukan sebuah model klasifikasi yang dapat membantu mengidentifikasi SMS spam secara otomatis.

Model ini penting dibuat karena dapat membantu:

* Meningkatkan keamanan pengguna dari pesan penipuan.

* Mengurangi gangguan dari pesan promosi tidak penting.

* Mempercepat proses filter pesan, terutama jika pesan yang diterima sangat banyak.

Pihak yang akan menggunakan model ini adalah:

* Pengguna smartphone yang ingin memfilter pesan secara otomatis.

* Developer aplikasi messaging yang ingin menambahkan fitur filter spam.

* Mahasiswa atau peneliti pemula yang ingin mempelajari penerapan machine learning pada teks.

Tujuan pembuatan model ini:

- Mengklasifikasikan SMS menjadi spam atau ham (normal).

- Mengetahui performa model dengan metrik evaluasi dasar.

- Menjadi contoh penerapan machine learning pada data teks menggunakan Python.

**B. Metode**
1. Dataset

Dataset yang digunakan terdiri dari:

- 500 pesan spam

- 500 pesan ham
- Total 1000 pesan.

Dataset dibuat manual agar mudah dipahami dan disesuaikan dengan kebutuhan model.
Contoh pesan spam: tawaran hadiah, link mencurigakan, promo berlebihan.
Contoh pesan ham: pesan komunikasi sehari-hari, pesan tugas, pesan keluarga, dll.

Dataset kemudian diproses menggunakan CountVectorizer untuk mengubah teks menjadi bentuk numerik (bag-of-words).

2. Pre-processing

Tahapan yang digunakan cukup sederhana:

- Lowercasing otomatis oleh CountVectorizer

- Tokenisasi otomatis

- Mengubah teks menjadi angka menggunakan TF-IDF

Metode sederhana ini dipilih karena dataset kecil dan struktur bahasanya juga sederhana.

3. Algoritma Pemodelan

Model yang dipilih adalah Multinomial Naive Bayes (MNB) karena:

- Cocok untuk data teks

- Efektif pada data frekuensi kata

- Cepat dan tidak memerlukan resource besar

- Sangat sering digunakan untuk kasus SMS spam detection

Setelah data di-split menjadi train dan test, model dilatih dan kemudian diuji menggunakan data uji.

1. Data set

Pada tugas besar ini, saya menggunakan dataset SMS yang disimpan dalam file Excel dan berisi dua kategori pesan:

* Spam, yaitu pesan yang biasanya mengandung tawaran hadiah, ajakan klaim, permintaan transfer, atau link mencurigakan.

* Ham, yaitu pesan normal sehari-hari seperti koordinasi tugas, informasi kelas, atau komunikasi antar teman.

Dataset ini kemudian dibaca menggunakan Python dan diproses lebih lanjut untuk membuat model klasifikasi spam.

In [33]:
# ======================================
# 1. Load Dataset dari Excel
# ======================================
import pandas as pd

df = pd.read_excel("/content/drive/MyDrive/FSD/DATA_SMS.xlsx")

# Konversi label 0/1 menjadi spam/ham
df['label'] = df['Label (0/1)'].map({1: "spam", 0: "ham"})

texts = df["Teks (Pesan)"]
labels = df["label"]

2&3. Preprocessing

Tahap preprocessing dilakukan menggunakan TF-IDF Vectorizer dengan pengaturan n-gram.
Tahapan ini membuat:

* semua teks menjadi lowercase,

* teks dipisahkan menjadi kata-kata,

* setiap kata dan kombinasi kata (n-gram) diubah menjadi angka.

Penjelasan singkat:
TF-IDF membantu komputer mengetahui kata mana yang penting, sedangkan n-gram membantu menangkap pola dua kata seperti “klaim hadiah”, “transfer sekarang”, atau “verifikasi data”, yang sangat sering muncul di pesan spam.

Dengan cara ini, model memiliki informasi yang jauh lebih kaya dibanding hanya menghitung kata satu per satu.

In [34]:
# ======================================
# 2. Preprocessing
# ======================================

# mengubah ke huruf kecil
texts = texts.str.lower()

In [35]:
# ======================================
# 3. Vectorizer (Preprocessing → Vectorizing → Split)
# ======================================

#mengubah ke angka
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_vec = vectorizer.fit_transform(texts)

In [36]:
# ======================================
# 4. Split Data (SETELAH preprocessing & vectorizer)
# ======================================
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X_vec, labels, test_size=0.2, random_state=42
)

5. Pelatihan Model

Model yang digunakan adalah Multinomial Naive Bayes, karena:

* cocok untuk data teks,

* efisien,

* umum digunakan untuk deteksi spam.

Selama proses pelatihan, model mempelajari kata-kata yang sering muncul di spam maupun ham.
Contohnya:

Spam biasanya mengandung kata seperti hadiah, klaim, transfer, verifikasi, dan sebagainya.

Ham lebih banyak berisi kata seperti rapat, kelas, tugas, file, dll.

Perbedaan pola kata ini menjadi dasar model untuk menentukan kelas pesan berikutnya.

In [37]:
# ======================================
# 5. Modeling: Multinomial Naive Bayes
# ======================================
from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB()
model.fit(X_train, y_train)


6. Evaluasi Model

Setelah pelatihan, data diuji menggunakan bagian dataset yang sudah dipisahkan sebelumnya.
Model menghasilkan akurasi yang sangat tinggi. Hal ini dapat terjadi karena:

* dataset berisi contoh-contoh spam dan ham yang sangat berbeda secara jelas,

* TF-IDF + n-gram membuat pola spam semakin mudah dikenali.

Hasil ini menunjukkan bahwa model dapat mengklasifikasikan pesan dengan sangat baik pada dataset sederhana ini.

In [38]:
# ======================================
# 6. Evaluasi Model
# ======================================
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

pred = model.predict(X_test)

print("Akurasi:", accuracy_score(y_test, pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, pred))
print("\nClassification Report:\n", classification_report(y_test, pred))

Akurasi: 1.0

Confusion Matrix:
 [[104   0]
 [  0  96]]

Classification Report:
               precision    recall  f1-score   support

         ham       1.00      1.00      1.00       104
        spam       1.00      1.00      1.00        96

    accuracy                           1.00       200
   macro avg       1.00      1.00      1.00       200
weighted avg       1.00      1.00      1.00       200



7. Prediksi SMS Baru

Untuk pesan baru, model menghitung probabilitas apakah pesan tersebut termasuk spam atau ham berdasarkan kata-kata yang muncul.

Contoh pesan uji:

* “saya mau dateng kerumah bawa hadiah tambahan”

Kata hadiah termasuk kata yang kuat mengarah ke spam, sehingga model cenderung memilih kelas spam.
Sementara pesan dengan kata-kata seperti rapat, kelas, atau tugas kemungkinan besar diprediksi sebagai ham.

In [39]:
# ======================================
# 7. Prediksi SMS Baru
# ======================================
new_sms = ["saya mau dateng kerumah bawa hadiah tambahan"]
new_vec = vectorizer.transform(new_sms)

print("Hasil Prediksi:", model.predict(new_vec)[0])

Hasil Prediksi: ham


In [40]:
# ======================================
# 8. Save model + vectorizer ke .pkl
# ======================================
import joblib

joblib.dump(model, 'model_spam_detection.pkl')
joblib.dump(vectorizer, 'count_vectorizer.pkl')

print("Model dan vectorizer berhasil disimpan!")

Model dan vectorizer berhasil disimpan!


**Kesimpulan**

Pada tugas besar ini,  kami berhasil membangun model klasifikasi untuk membedakan pesan spam dan ham menggunakan dataset sederhana berisi 200 pesan. Proses dimulai dari pembuatan dataset, melakukan pre-processing teks, hingga pelatihan model menggunakan algoritma Multinomial Naive Bayes.

Hasil pengujian menunjukkan bahwa model sudah mampu mengenali pola kata yang sering muncul pada pesan spam, seperti kata “hadiah”, “klaim”, atau “transfer”. Penggunaan teknik TF-IDF dan N-gram juga membantu model memahami kata mana yang penting dan pola kata seperti apa yang biasanya muncul pada pesan spam.

Secara keseluruhan, model yang dibuat sudah bekerja dengan baik untuk dataset sederhana ini. Walaupun masih bisa ditingkatkan dengan dataset yang lebih besar dan pre-processing yang lebih lengkap, model ini sudah cukup untuk menunjukkan bagaimana proses deteksi spam dilakukan menggunakan machine learning.