In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import pickle
import numpy as np 

# 1. BACA DATA - Menggunakan Pemisah Koma (Default)
df = pd.read_csv(
    'spam_dataset.csv', 
    encoding='latin-1', 
    header=None, # Membaca baris pertama sebagai data
    names=['label', 'text', 'col3', 'col4', 'col5']
) 

# --- LANGKAH DIAGNOSTIK AWAL ---
print(f"Jumlah baris data awal: {len(df)}")

# --- REVISI: HAPUS BARIS HEADER TEKS DAN PEMBERSIHAN DATA ---

# 1. Hapus baris pertama (indeks 0) yang merupakan header teks ("label", "text", dll.)
# Ini menghilangkan baris yang membuat pemetaan label menjadi NaN.
df = df.iloc[1:].copy() 

# 2. SELEKSI KOLOM YANG DIBUTUHKAN
df = df[['label', 'text']]

# 3. Hapus baris di mana kolom 'text' atau 'label' memiliki NaN
df.dropna(subset=['label', 'text'], inplace=True) 

# *************************************************************************
# 4. REVISI KRITIS: HAPUS LANGKAH PEMETAAN map({'ham': 0, 'spam': 1})
# Data Anda sudah berbentuk 0 (Ham) dan 1 (Spam). Kita hanya perlu konversi tipe.
# *************************************************************************

# 5. Konversi tipe data label menjadi integer
df['label'] = df['label'].astype(int)

# 6. CETAK JUMLAH BARIS AKHIR (DIAGNOSTIK)
print(f"Jumlah baris data akhir setelah pembersihan: {len(df)}")

# PASTIKAN DATA TIDAK KOSONG SEBELUM SPLIT
if len(df) == 0:
    raise ValueError("DataFrame kosong setelah pembersihan! Ada masalah pada file atau encoding.")

# ---------------------------------------------------

X = df['text']
y = df['label']

# Split data: 80% untuk training, 20% untuk testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. PRA-PEMROSESAN DAN VEKTORISASI (TF-IDF)
vectorizer = TfidfVectorizer(stop_words='english', lowercase=True)
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# 3. PELATIHAN MODEL
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

# 4. PREDIKSI DAN EVALUASI
y_pred = model.predict(X_test_vectorized)
accuracy = accuracy_score(y_test, y_pred)

print("--- Hasil Klasifikasi Spam ---")
print(f"Total Data Uji: {len(X_test)}")
print(f"Akurasi Model Naive Bayes: {accuracy:.4f}")
print("\nModel Python siap untuk dianalisis!")

# --- SIMPAN MODEL DAN VEKTORIZER ---
with open('spam_model.pkl', 'wb') as file:
    pickle.dump(model, file)

with open('vectorizer.pkl', 'wb') as file:
    pickle.dump(vectorizer, file)

Jumlah baris data awal: 83449
Jumlah baris data akhir setelah pembersihan: 83448
--- Hasil Klasifikasi Spam ---
Total Data Uji: 16690
Akurasi Model Naive Bayes: 0.9771

Model Python siap untuk dianalisis!


# üèÜ Tugas Besar Pemrograman Lanjut: Analisis Komparatif File Handling & ML

* **Kelompok:** Muhammad Robi Ardita (202410370110002), Farid Al Farizi (202410370110017), Naufal Arkaan (202410370110020)
* **Dosen:** Ir. Wildan Suharso, S.Kom., M.Kom.

---

## üìß I. Pendahuluan: Permasalahan & Dataset

### Permasalahan: Klasifikasi Email Spam
Permasalahan yang kami angkat adalah membangun sistem prediktif untuk membedakan email yang sah (Non-Spam / Ham) dari email yang berbahaya/tidak relevan (Spam).

### Dataset (File Handling)
* **Sumber Data:** Kaggle (`spam_dataset.csv`)
* **Format:** CSV (Comma Separated Values).
* **Ukuran Data Bersih:** **83,448** baris data.
* **Isi Data:** Dua kolom utama: Teks Email dan Label (0 = Ham, 1 = Spam).

---

## üêç II. Implementasi Python: Otak Prediktif (ML)

Python digunakan untuk membangun inti analitis sistem, memanfaatkan kekuatan *library* Machine Learning.

### 1. File Handling & Data Preprocessing (Pembersihan Data)

Tahap ini menunjukkan kemampuan *File Handling* Python dan pra-pemrosesan data anomali:

* **Tindakan:** Membaca file CSV, menghapus baris anomali (termasuk baris *header* yang rusak), dan memastikan semua **83.448** baris data valid dan bersih.
* **Aksi Kunci:** Mengubah teks email menjadi **vektor numerik** menggunakan `TfidfVectorizer` (Term Frequency-Inverse Document Frequency) agar bisa diproses oleh komputer. 
* **Penyimpanan Biner:** Model dan Vektorisasi disimpan sebagai file biner (`.pkl`) menggunakan `pickle`, mendemonstrasikan **File Handling mode biner** (`'wb'`).

### 2. Hasil Klasifikasi dan Evaluasi Model

Kami menggunakan algoritma **Multinomial Naive Bayes** karena efisiensinya yang tinggi dalam klasifikasi teks.

| Metrik | Nilai | Interpretasi |
| :--- | :--- | :--- |
| **Total Data Uji** | 16,690 | Jumlah email yang digunakan untuk menguji model (sekitar 20% dari total data bersih). |
| **Akurasi Model** | **0.9771 (97.71%)** | Model berhasil mengklasifikasikan dengan benar **97.71%** dari total email yang diuji. Ini membuktikan model sangat sukses. |

### üí° Kesimpulan Python
Python unggul dalam **Analisis Data dan Komputasi** karena *library* ML (`scikit-learn`), yang memungkinkan kami mencapai hasil prediksi hampir $98\%$ dengan cepat dan ringkas.

---

## ‚òï III. Implementasi Java: Tampilan Interaktif (GUI)

Java digunakan untuk memenuhi persyaratan **Modul 5 (File Handling: Read)** dan **Modul 6 (GUI)**, dengan fokus pada struktur aplikasi dan interaksi pengguna.

### 1. Struktur Aplikasi
* **Teknologi:** Java Swing (untuk GUI).
* **Fungsi:** Aplikasi desktop sederhana dengan tombol "Load Data CSV".

### 2. File Handling & Tampilan Data

* **Aksi Kunci (Modul 5):** Saat tombol diklik, Java menggunakan `BufferedReader` dan `FileReader` untuk **membaca** file `spam_dataset.csv` secara sekuensial (baris demi baris).
* **Tampilan Data (Modul 6):** Data yang dibaca kemudian di-parse dan dimasukkan ke dalam komponen `JTable` untuk ditampilkan secara terstruktur kepada pengguna. 

### üí° Kesimpulan Java
Java unggul dalam **Struktur Aplikasi Desktop dan Interaksi GUI**. Meskipun Java mampu membaca file, proses *File Handling* di Java lebih *verbose* (panjang) dan memerlukan penanganan *Exception* (`try-catch`) yang eksplisit, berbeda dengan Python yang lebih ringkas untuk tujuan analisis.

---

## ‚öñÔ∏è IV. Analisis Komparatif (Python vs. Java)

| Aspek Perbandingan | Python (ML & Pandas) | Java (GUI & Reader) |
| :--- | :--- | :--- |
| **Tujuan Utama** | Analisis Data, Klasifikasi, Prediksi. | Interaksi Pengguna & Tampilan Terstruktur. |
| **File Handling (READ)** | Sangat efisien (`pd.read_csv`). | Membutuhkan proses manual (`BufferedReader`) dan `try-catch`. |
| **Kelebihan Ekosistem** | Kekuatan terletak pada *library* ML (`Scikit-learn`), menghasilkan Akurasi **97.71%**. | Kekuatan terletak pada pembangunan GUI (*Swing/JavaFX*) yang stabil dan terstruktur. |
| **Kesimpulan** | Ideal untuk membangun **'Otak'** sistem (komputasi). | Ideal untuk membangun **'Meja Kerja'** sistem (antarmuka). |

### Final Conclusion
Kedua bahasa sangat powerful, tetapi dalam domain *Data Science* dan ML, Python menunjukkan superioritas dalam efisiensi kode dan hasil prediktif. Sementara itu, Java memberikan fondasi yang kokoh untuk pengembangan *software* berbasis antarmuka.

---