# **🚎 Tugas Lab 2**

- Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

1. Menggunakan data `spam.csv`

2. Fitur `CountVectorizer` dengan mengaktifkan **stop_words**

3. Evaluasi hasilnya

- Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

1. Menggunakan data `spam.csv`

2. Fitur `TF-IDF` dengan mengaktifkan **stop_words**

3. Evaluasi hasilnya dan bandingkan dengan hasil pada Tugas no 2.

4. Berikan kesimpulan fitur mana yang terbaik pada kasus data `spam.csv`

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

In [None]:
# --- 0. Pemuatan dan Persiapan Data ---
try:
    # Dataset spam sering menggunakan encoding 'latin-1'
    # Kolom yang relevan adalah v1 (label) dan v2 (teks)
    df = pd.read_csv('spam.csv', encoding='latin-1', usecols=['v1', 'v2'])
    df.columns = ['label', 'message'] # Ganti nama kolom agar lebih jelas
except FileNotFoundError:
    print("Error: File 'spam.csv' tidak ditemukan.")
    print("Pastikan file tersebut berada di direktori yang sama dengan skrip ini.")
    exit()
except Exception as e:
    print(f"Error saat membaca file: {e}")
    print("Mungkin ada masalah dengan encoding atau format file.")
    exit()

print("--- Informasi Data Awal ---")
print(df.info())
print("\nContoh Data:")
print(df.head())

In [None]:
# Konversi label 'ham'/'spam' menjadi numerik (0/1)
le = LabelEncoder()
df['label_encoded'] = le.fit_transform(df['label'])
# le.classes_ akan menunjukkan ['ham', 'spam'], artinya ham=0, spam=1

# Pisahkan fitur (X) dan target (y)
X = df['message']
y = df['label_encoded']

# Bagi data menjadi training dan testing
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nData dibagi menjadi {len(X_train)} data latih dan {len(X_test)} data tes.")

In [None]:
# --- TUGAS 1: Multinomial Naive Bayes dengan CountVectorizer ---
print("\n" + "="*50)
print(" TUGAS 1: Model Naive Bayes + CountVectorizer")
print("="*50)

# 1. Inisialisasi CountVectorizer dengan stop_words='english'
print("Membuat fitur menggunakan CountVectorizer (stop_words='english')...")
vectorizer_count = CountVectorizer(stop_words='english')

# 2. Fit dan transform data latih
X_train_count = vectorizer_count.fit_transform(X_train)

# 3. Transform data tes
X_test_count = vectorizer_count.transform(X_test)

# 4. Latih model Multinomial Naive Bayes
print("Melatih model MultinomialNB...")
model_count = MultinomialNB()
model_count.fit(X_train_count, y_train)

# 5. Prediksi data tes
y_pred_count = model_count.predict(X_test_count)

# 6. Evaluasi hasil
acc_count = accuracy_score(y_test, y_pred_count)
print(f"\nAkurasi (CountVectorizer): {acc_count:.4f}")
print("\nLaporan Klasifikasi (CountVectorizer):")
# target_names=['ham', 'spam'] didapat dari le.classes_
print(classification_report(y_test, y_pred_count, target_names=['ham', 'spam']))

In [None]:
# --- TUGAS 2: Multinomial Naive Bayes dengan TF-IDF ---
print("\n" + "="*50)
print(" TUGAS 2: Model Naive Bayes + TF-IDF Vectorizer")
print("="*50)

# 1. Inisialisasi TfidfVectorizer dengan stop_words='english'
print("Membuat fitur menggunakan TfidfVectorizer (stop_words='english')...")
vectorizer_tfidf = TfidfVectorizer(stop_words='english')

# 2. Fit dan transform data latih
X_train_tfidf = vectorizer_tfidf.fit_transform(X_train)

# 3. Transform data tes
X_test_tfidf = vectorizer_tfidf.transform(X_test)

# 4. Latih model Multinomial Naive Bayes
print("Melatih model MultinomialNB...")
model_tfidf = MultinomialNB()
model_tfidf.fit(X_train_tfidf, y_train)

# 5. Prediksi data tes
y_pred_tfidf = model_tfidf.predict(X_test_tfidf)

# 6. Evaluasi hasil
acc_tfidf = accuracy_score(y_test, y_pred_tfidf)
print(f"\nAkurasi (TF-IDF): {acc_tfidf:.4f}")
print("\nLaporan Klasifikasi (TF-IDF):")
# target_names=['ham', 'spam'] didapat dari le.classes_
print(classification_report(y_test, y_pred_tfidf, target_names=['ham', 'spam']))

In [None]:
# --- TUGAS 3 & 4: Perbandingan dan Kesimpulan ---
print("\n" + "="*50)
print(" TUGAS 3 & 4: Perbandingan dan Kesimpulan")
print("="*50)

print(f"Akurasi Model dengan CountVectorizer: {acc_count:.4f}")
print(f"Akurasi Model dengan TF-IDF Vectorizer: {acc_tfidf:.4f}")

print("\n--- Kesimpulan ---")
if acc_tfidf > acc_count:
    print("Fitur TF-IDF Vectorizer memberikan hasil akurasi yang LEBIH BAIK.")
    print("Alasan: TF-IDF tidak hanya menghitung frekuensi kata (seperti CountVectorizer),")
    print("tetapi juga memberi bobot pada kata-kata tersebut berdasarkan seberapa penting")
    print("kata itu dalam satu dokumen dan di seluruh kumpulan data.")
    print("Kata-kata yang sering muncul di semua dokumen (seperti 'call' atau 'text')")
    print("akan diberi bobot lebih rendah, sehingga model dapat fokus pada")
    print("kata-kata yang lebih unik dan informatif untuk 'spam' (misalnya 'free', 'win', 'prize').")
elif acc_count > acc_tfidf:
    print("Fitur CountVectorizer memberikan hasil akurasi yang LEBIH BAIK.")
    print("Alasan: Ini jarang terjadi, tetapi mungkin untuk Multinomial Naive Bayes,")
    print("informasi frekuensi kata murni (raw counts) sudah cukup untuk")
    print("membedakan 'ham' dan 'spam' secara efektif pada dataset ini.")
    print("Model MNB secara inheren bekerja baik dengan hitungan (counts).")
else:
    print("Kedua fitur (CountVectorizer dan TF-IDF) memberikan hasil akurasi yang SAMA.")
    print("Ini menunjukkan bahwa untuk dataset ini, pembobotan TF-IDF tidak memberikan")
    print("keuntungan signifikan dibandingkan frekuensi kata murni.")

print("\nPada kebanyakan kasus klasifikasi teks, TF-IDF seringkali (walaupun tidak selalu)")
print("memberikan performa yang sedikit lebih unggul atau sebanding dengan CountVectorizer.")
