# **Tugas Praktikum**


1. Buatlah model klasifikasi dengan menggunakan SVM untuk data suara, voice.csv. 

2. Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

    1. Menggunakan data spam.csv

    2. Fitur CountVectorizer dengan mengaktifkan stop_words

    3. Evaluasi hasilnya

3. Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

    1. Menggunakan data spam.csv

    2. Fitur TF-IDF dengan mengaktifkan stop_words

    3. Evaluasi hasilnya dan bandingkan dengan hasil pada Tugas no 2.

    4. Berikan kesimpulan fitur mana yang terbaik pada kasus data spam.csv

# **Jawaban Tugas**

## **1. Model Klasifikasi dengan SVM untuk Data Suara**

Pertama, pastikan Anda sudah memiliki file voice.csv. Berikut adalah langkah-langkah dan kode untuk membuat model SVM.

**a. Memuat dan Mempersiapkan Data**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Memuat data
data = pd.read_csv('data/voice.csv')

# Misalkan kolom target bernama 'label'
X = data.drop(columns=['label'])
y = data['label']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menstandarisasi fitur
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Membuat model SVM
svm_model = SVC()
svm_model.fit(X_train_scaled, y_train)

# Memprediksi dan mengevaluasi
y_pred = svm_model.predict(X_test_scaled)
print("SVM Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))


SVM Accuracy: 0.9826498422712934
              precision    recall  f1-score   support

      female       0.98      0.99      0.98       297
        male       0.99      0.98      0.98       337

    accuracy                           0.98       634
   macro avg       0.98      0.98      0.98       634
weighted avg       0.98      0.98      0.98       634



## **2. Model Klasifikasi Multinomial Naive Bayes dengan CountVectorizer**

Untuk menggunakan CountVectorizer dengan stop words, kita akan bekerja dengan data teks seperti spam.csv.

**a. Memuat dan Mempersiapkan Data**

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report

# Memuat data
spam_data = pd.read_csv('data/spam.csv', encoding='latin-1')
spam_data = spam_data[['v1', 'v2']]  # Misalkan kolom 'v1' adalah label dan 'v2' adalah teks
spam_data.columns = ['label', 'text']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(spam_data['text'], spam_data['label'], test_size=0.2, random_state=42)

# Pipeline untuk CountVectorizer dan Multinomial Naive Bayes
pipeline_count = Pipeline([
    ('vect', CountVectorizer(stop_words='english')),
    ('clf', MultinomialNB())
])

pipeline_count.fit(X_train, y_train)
y_pred_count = pipeline_count.predict(X_test)

print("CountVectorizer + Naive Bayes Accuracy:", accuracy_score(y_test, y_pred_count))
print(classification_report(y_test, y_pred_count))


CountVectorizer + Naive Bayes Accuracy: 0.9838565022421525
              precision    recall  f1-score   support

         ham       0.99      0.99      0.99       965
        spam       0.96      0.92      0.94       150

    accuracy                           0.98      1115
   macro avg       0.97      0.96      0.96      1115
weighted avg       0.98      0.98      0.98      1115



## **Evaluasi Hasil**

Model klasifikasi menggunakan CountVectorizer dengan Naive Bayes menunjukkan performa yang sangat baik, dengan akurasi mencapai 98.39%. Precision, recall, dan F1-score untuk kategori 'ham' sangat tinggi (masing-masing 0.99), menandakan model ini sangat efektif dalam mendeteksi email non-spam. Untuk kategori 'spam', meskipun precision (0.96) dan recall (0.92) sedikit lebih rendah, F1-score tetap kuat di 0.94. Rata-rata metrik untuk kedua kategori (macro average) dan keseluruhan (weighted average) juga menunjukkan hasil yang solid. Secara keseluruhan, model ini sangat akurat dan seimbang dalam menangani kedua kategori email.

## **3. Model Klasifikasi Multinomial Naive Bayes dengan TF-IDF**

Kali ini kita akan menggunakan TfidfVectorizer dengan stop words.

**a. Memuat dan Mempersiapkan Data**

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Pipeline untuk TF-IDF dan Multinomial Naive Bayes
pipeline_tfidf = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words='english')),
    ('clf', MultinomialNB())
])

pipeline_tfidf.fit(X_train, y_train)
y_pred_tfidf = pipeline_tfidf.predict(X_test)

print("TF-IDF + Naive Bayes Accuracy:", accuracy_score(y_test, y_pred_tfidf))
print(classification_report(y_test, y_pred_tfidf))


TF-IDF + Naive Bayes Accuracy: 0.9668161434977578
              precision    recall  f1-score   support

         ham       0.96      1.00      0.98       965
        spam       1.00      0.75      0.86       150

    accuracy                           0.97      1115
   macro avg       0.98      0.88      0.92      1115
weighted avg       0.97      0.97      0.96      1115



## **Evaluasi Hasil dan Perbandingan dnegan CountVectorizer**

Model klasifikasi menggunakan CountVectorizer dan TF-IDF menunjukkan perbedaan dalam performa meskipun keduanya memiliki kelebihan masing-masing. Akurasi model dengan CountVectorizer lebih tinggi pada 98.39% dibandingkan dengan 96.68% dari TF-IDF, menandakan bahwa CountVectorizer sedikit lebih baik dalam memprediksi kelas secara keseluruhan. Untuk kategori 'ham', CountVectorizer mencatat precision dan recall yang lebih tinggi (0.99) dibandingkan dengan TF-IDF, yang memiliki precision 0.96 dan recall sempurna (1.00). Ini berarti CountVectorizer lebih konsisten dalam mengidentifikasi email non-spam, sementara TF-IDF lebih baik dalam mendeteksi email non-spam tetapi dengan penurunan precision. Di sisi lain, untuk kategori 'spam', TF-IDF memiliki precision sempurna (1.00) tetapi dengan recall yang lebih rendah (0.75) dibandingkan dengan CountVectorizer yang memiliki precision 0.96 dan recall 0.92. Ini menunjukkan bahwa TF-IDF lebih akurat dalam mengidentifikasi email spam yang benar, tetapi mungkin melewatkan beberapa email spam. Dalam hal rata-rata metrik, CountVectorizer menunjukkan nilai macro average dan weighted average yang lebih baik untuk precision dan recall, sedangkan TF-IDF sedikit lebih baik dalam precision pada macro average namun dengan recall yang lebih rendah. Pilihan antara kedua metode ini tergantung pada prioritas aplikasi: apakah lebih penting memiliki akurasi keseluruhan yang lebih tinggi atau precision dalam mengidentifikasi spam dengan benar.

## **Kesimpulan fitur mana yang terbaik pada kasus data spam.csv**

Model dengan CountVectorizer secara keseluruhan lebih baik dalam hal akurasi dan memberikan keseimbangan yang lebih baik antara precision dan recall untuk kedua kategori. Namun, model dengan TF-IDF menunjukkan keunggulan dalam precision untuk kategori 'spam' dan recall sempurna untuk kategori 'ham'. Pilihan terbaik tergantung pada prioritas aplikasi: jika mengutamakan akurasi keseluruhan, CountVectorizer mungkin lebih unggul; jika precision untuk 'spam' lebih penting, TF-IDF bisa menjadi pilihan.