# üì® Klasifikasi Spam Menggunakan Naive Bayes  
Notebook ini menjelaskan langkah-langkah pemrosesan data Email untuk mengklasifikasikan pesan menjadi **Spam** atau **Ham** menggunakan algoritma **Multinomial Naive Bayes**.


In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import pickle
import numpy as np


## üìÇ Step 1: Baca Dataset  
Dataset dibaca menggunakan `pandas.read_csv()` dengan encoding `latin-1`.  
Dataset memiliki kolom: `label`, `text`, dan beberapa kolom tambahan yang tidak digunakan.


In [3]:
# 1. BACA DATA - Menggunakan Pemisah Koma (Default)
df = pd.read_csv(
    'spam_dataset.csv', 
    encoding='latin-1',
    header=None,
    names=['label', 'text', 'col3', 'col4', 'col5']
)

print(f"Jumlah baris data awal: {len(df)}")
df.head()


Jumlah baris data awal: 83449


Unnamed: 0,label,text,col3,col4,col5
0,label,text,,,
1,1,ounce feather bowl hummingbird opec moment ala...,,,
2,1,wulvob get your medircations online qnb ikud v...,,,
3,0,computer connection from cnn com wednesday es...,,,
4,1,university degree obtain a prosperous future m...,,,


## üßπ Step 2: Pembersihan Data (Cleaning)
Dataset memiliki baris pertama yang merupakan header duplikat.  
Pada langkah ini:
- Baris tersebut dihapus.
- Hanya kolom `label` dan `text` yang dipilih.


In [4]:
# Hapus baris pertama yang hanya berisi header
df = df.iloc[1:].copy()

# Pilih kolom yang dipakai
df = df[['label', 'text']]

df.head()


Unnamed: 0,label,text
1,1,ounce feather bowl hummingbird opec moment ala...
2,1,wulvob get your medircations online qnb ikud v...
3,0,computer connection from cnn com wednesday es...
4,1,university degree obtain a prosperous future m...
5,0,thanks for all your answers guys i know i shou...


## üßΩ Step 3: Menghapus Baris Kosong  
Baris yang memiliki nilai kosong (NaN) pada kolom `label` atau `text` akan dihapus.


In [5]:
df.dropna(subset=['label', 'text'], inplace=True)
print(f"Jumlah baris setelah drop NaN: {len(df)}")


Jumlah baris setelah drop NaN: 83448


## üî¢ Step 4: Konversi Label ke Tipe Integer  
Label sudah berupa angka (0 = Ham, 1 = Spam), sehingga cukup dikonversi menjadi `int`.


In [6]:
df['label'] = df['label'].astype(int)
df.head()


Unnamed: 0,label,text
1,1,ounce feather bowl hummingbird opec moment ala...
2,1,wulvob get your medircations online qnb ikud v...
3,0,computer connection from cnn com wednesday es...
4,1,university degree obtain a prosperous future m...
5,0,thanks for all your answers guys i know i shou...


## ‚úîÔ∏è Step 5: Validasi Dataset  
Menampilkan jumlah baris akhir untuk memastikan data siap diproses lebih lanjut.


In [7]:
print(f"Jumlah baris data akhir setelah pembersihan: {len(df)}")

if len(df) == 0:
    raise ValueError("DataFrame kosong setelah pembersihan!")


Jumlah baris data akhir setelah pembersihan: 83448


## ‚úÇÔ∏è Step 6: Split Data  
Dataset dibagi menjadi:
- 80% data training  
- 20% data testing  
Proses pembagian menggunakan `train_test_split`.


In [8]:
X = df['text']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

len(X_train), len(X_test)


(66758, 16690)

## üß† Step 7: TF-IDF Vectorization  
Teks pesan diubah menjadi nilai numerik menggunakan **TF-IDF**  
(Term Frequency - Inverse Document Frequency).


In [13]:
vectorizer = TfidfVectorizer(stop_words='english', lowercase=True)

X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

X_train_vectorized.shape, X_test_vectorized.shape


((66758, 262619), (16690, 262619))

## ü§ñ Step 8: Train Model  
Model **Multinomial Naive Bayes** dilatih menggunakan data hasil TF-IDF.


In [10]:
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)


## üìä Step 9: Evaluasi Model  
Mengukur performa model menggunakan metrik **Accuracy Score**.


In [11]:
y_pred = model.predict(X_test_vectorized)
accuracy = accuracy_score(y_test, y_pred)

print("--- Hasil Klasifikasi Spam ---")
print(f"Total Data Uji: {len(X_test)}")
print(f"Akurasi Model Naive Bayes: {accuracy:.4f}")


--- Hasil Klasifikasi Spam ---
Total Data Uji: 16690
Akurasi Model Naive Bayes: 0.9771


## üìä Step 9: Evaluasi Model  
Mengukur performa model menggunakan metrik **Accuracy Score**.


In [12]:
with open('spam_model.pkl', 'wb') as file:
    pickle.dump(model, file)

with open('vectorizer.pkl', 'wb') as file:
    pickle.dump(vectorizer, file)

print("Model & Vectorizer berhasil disimpan.")


Model & Vectorizer berhasil disimpan.


# üèÜ Tugas Besar Pemrograman Lanjut: Analisis Komparatif File Handling & ML

* **Kelompok:** Muhammad Robi Ardita (202410370110002), Farid Al Farizi (202410370110017), Naufal Arkaan (202410370110020)
* **Dosen:** Ir. Wildan Suharso, S.Kom., M.Kom.

---

## üìß I. Pendahuluan: Permasalahan & Dataset

### Permasalahan: Klasifikasi Email Spam
Permasalahan yang kami angkat adalah membangun sistem prediktif untuk membedakan email yang sah (Non-Spam / Ham) dari email yang berbahaya/tidak relevan (Spam).

### Dataset (File Handling)
* **Sumber Data:** Kaggle (`spam_dataset.csv`)
* **Format:** CSV (Comma Separated Values).
* **Ukuran Data Bersih:** **83,448** baris data.
* **Isi Data:** Dua kolom utama: Teks Email dan Label (0 = Ham, 1 = Spam).

---

## üêç II. Implementasi Python: Otak Prediktif (ML)

Python digunakan untuk membangun inti analitis sistem, memanfaatkan kekuatan *library* Machine Learning.

### 1. File Handling & Data Preprocessing (Pembersihan Data)

Tahap ini menunjukkan kemampuan *File Handling* Python dan pra-pemrosesan data anomali:

* **Tindakan:** Membaca file CSV, menghapus baris anomali (termasuk baris *header* yang rusak), dan memastikan semua **83.448** baris data valid dan bersih.
* **Aksi Kunci:** Mengubah teks email menjadi **vektor numerik** menggunakan `TfidfVectorizer` (Term Frequency-Inverse Document Frequency) agar bisa diproses oleh komputer. 
* **Penyimpanan Biner:** Model dan Vektorisasi disimpan sebagai file biner (`.pkl`) menggunakan `pickle`, mendemonstrasikan **File Handling mode biner** (`'wb'`).

### 2. Hasil Klasifikasi dan Evaluasi Model

Kami menggunakan algoritma **Multinomial Naive Bayes** karena efisiensinya yang tinggi dalam klasifikasi teks.

| Metrik | Nilai | Interpretasi |
| :--- | :--- | :--- |
| **Total Data Uji** | 16,690 | Jumlah email yang digunakan untuk menguji model (sekitar 20% dari total data bersih). |
| **Akurasi Model** | **0.9771 (97.71%)** | Model berhasil mengklasifikasikan dengan benar **97.71%** dari total email yang diuji. Ini membuktikan model sangat sukses. |

### üí° Kesimpulan Python
Python unggul dalam **Analisis Data dan Komputasi** karena *library* ML (`scikit-learn`), yang memungkinkan kami mencapai hasil prediksi hampir $98\%$ dengan cepat dan ringkas.

---

## ‚òï III. Implementasi Java: Tampilan Interaktif (GUI)

Java digunakan untuk memenuhi persyaratan **Modul 5 (File Handling: Read)** dan **Modul 6 (GUI)**, dengan fokus pada struktur aplikasi dan interaksi pengguna.

### 1. Struktur Aplikasi
* **Teknologi:** Java Swing (untuk GUI).
* **Fungsi:** Aplikasi desktop sederhana dengan tombol "Load Data CSV".

### 2. File Handling & Tampilan Data

* **Aksi Kunci (Modul 5):** Saat tombol diklik, Java menggunakan `BufferedReader` dan `FileReader` untuk **membaca** file `spam_dataset.csv` secara sekuensial (baris demi baris).
* **Tampilan Data (Modul 6):** Data yang dibaca kemudian di-parse dan dimasukkan ke dalam komponen `JTable` untuk ditampilkan secara terstruktur kepada pengguna. 

### üí° Kesimpulan Java
Java unggul dalam **Struktur Aplikasi Desktop dan Interaksi GUI**. Meskipun Java mampu membaca file, proses *File Handling* di Java lebih *verbose* (panjang) dan memerlukan penanganan *Exception* (`try-catch`) yang eksplisit, berbeda dengan Python yang lebih ringkas untuk tujuan analisis.

---

## ‚öñÔ∏è IV. Analisis Komparatif (Python vs. Java)

| Aspek Perbandingan | Python (ML & Pandas) | Java (GUI & Reader) |
| :--- | :--- | :--- |
| **Tujuan Utama** | Analisis Data, Klasifikasi, Prediksi. | Interaksi Pengguna & Tampilan Terstruktur. |
| **File Handling (READ)** | Sangat efisien (`pd.read_csv`). | Membutuhkan proses manual (`BufferedReader`) dan `try-catch`. |
| **Kelebihan Ekosistem** | Kekuatan terletak pada *library* ML (`Scikit-learn`), menghasilkan Akurasi **97.71%**. | Kekuatan terletak pada pembangunan GUI (*Swing/JavaFX*) yang stabil dan terstruktur. |
| **Kesimpulan** | Ideal untuk membangun **'Otak'** sistem (komputasi). | Ideal untuk membangun **'Meja Kerja'** sistem (antarmuka). |

### Final Conclusion
Kedua bahasa sangat powerful, tetapi dalam domain *Data Science* dan ML, Python menunjukkan superioritas dalam efisiensi kode dan hasil prediktif. Sementara itu, Java memberikan fondasi yang kokoh untuk pengembangan *software* berbasis antarmuka.

---