# Tugas 1

  1. Buatlah model klasifikasi dengan menggunakan SVM untuk data suara, voice.csv.

### 1. Import Library

In [15]:
# Import Required Libraries
import pandas as pd  # Untuk memproses data
import numpy as np
from sklearn.model_selection import train_test_split  # Untuk split data
from sklearn.svm import SVC  # SVM model
from sklearn.metrics import classification_report, accuracy_score  # Untuk evaluasi akurasi dan laporan klasifikasi
from sklearn.preprocessing import StandardScaler  # Untuk scaling fitur

### 2. Load Dataset (voice.csv)

In [16]:
# Load the dataset
df = pd.read_csv('voice.csv')

# Tampilkan beberapa baris data untuk melihat strukturnya
print(df.head())

   meanfreq        sd    median       Q25       Q75       IQR       skew  \
0  0.059781  0.064241  0.032027  0.015071  0.090193  0.075122  12.863462   
1  0.066009  0.067310  0.040229  0.019414  0.092666  0.073252  22.423285   
2  0.077316  0.083829  0.036718  0.008701  0.131908  0.123207  30.757155   
3  0.151228  0.072111  0.158011  0.096582  0.207955  0.111374   1.232831   
4  0.135120  0.079146  0.124656  0.078720  0.206045  0.127325   1.101174   

          kurt    sp.ent       sfm  ...  centroid   meanfun    minfun  \
0   274.402906  0.893369  0.491918  ...  0.059781  0.084279  0.015702   
1   634.613855  0.892193  0.513724  ...  0.066009  0.107937  0.015826   
2  1024.927705  0.846389  0.478905  ...  0.077316  0.098706  0.015656   
3     4.177296  0.963322  0.727232  ...  0.151228  0.088965  0.017798   
4     4.333713  0.971955  0.783568  ...  0.135120  0.106398  0.016931   

     maxfun   meandom    mindom    maxdom   dfrange   modindx  label  
0  0.275862  0.007812  0.007812  

### 3. Eksplorasi dan Preprocessing

In [17]:
# Encode the 'label' column: 'male' -> 1, 'female' -> 0
df['label'] = df['label'].map({'male': 1, 'female': 0})

# Pisahkan fitur dan label
X = df.drop('label', axis=1)  # Fitur
y = df['label']  # Label

# Normalisasi fitur menggunakan StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Tampilkan informasi tentang data
print("Shape of feature data:", X_scaled.shape)
print("Shape of label data:", y.shape)


Shape of feature data: (3168, 20)
Shape of label data: (3168,)


### 4. Split Dataset untuk Training dan Testing

In [18]:
# Split data into training and testing set (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Tampilkan ukuran dataset untuk training dan testing
print(f"Training data shape: {X_train.shape}, Testing data shape: {X_test.shape}")


Training data shape: (2534, 20), Testing data shape: (634, 20)


### 5. Latih Model SVM

In [19]:
# Buat model SVM dengan kernel RBF
model = SVC(kernel='rbf', random_state=42)

# Latih model pada data training
model.fit(X_train, y_train)


### 6. Evaluasi Model

In [20]:
# Prediksi pada data training
y_train_pred = model.predict(X_train)

# Prediksi pada data testing
y_test_pred = model.predict(X_test)

# Evaluasi akurasi pada data training dan testing
train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

print(f'Accuracy on training data: {train_accuracy:.4f}')
print(f'Accuracy on test data: {test_accuracy:.4f}')

# Laporan klasifikasi pada data testing
print("\nClassification Report for Test Data:")
print(classification_report(y_test, y_test_pred, target_names=['female', 'male']))


Accuracy on training data: 0.9858
Accuracy on test data: 0.9826

Classification Report for Test Data:
              precision    recall  f1-score   support

      female       0.98      0.99      0.98       297
        male       0.99      0.98      0.98       337

    accuracy                           0.98       634
   macro avg       0.98      0.98      0.98       634
weighted avg       0.98      0.98      0.98       634




2. Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

  1. Menggunakan data spam.csv
  2. Fitur CountVectorizer dengan mengaktifkan stop_words
  3. Evaluasi hasilnya

### 1. Import Library

In [21]:
# Import required libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


### 2. Load Dataset (spam.csv)

In [22]:
# Load the dataset
df = pd.read_csv('spam.csv', encoding='latin-1')

# Tampilkan beberapa baris pertama dataset untuk melihat strukturnya
print(df.head())

# Kita biasanya hanya butuh dua kolom pertama: 'v1' sebagai label, dan 'v2' sebagai pesan
df = df[['v1', 'v2']]
df.columns = ['label', 'message']  # Rename columns for better understanding

# Tampilkan distribusi data untuk melihat jumlah spam dan ham
print(df['label'].value_counts())


     v1                                                 v2 Unnamed: 2  \
0   ham  Go until jurong point, crazy.. Available only ...        NaN   
1   ham                      Ok lar... Joking wif u oni...        NaN   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3   ham  U dun say so early hor... U c already then say...        NaN   
4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   

  Unnamed: 3 Unnamed: 4  
0        NaN        NaN  
1        NaN        NaN  
2        NaN        NaN  
3        NaN        NaN  
4        NaN        NaN  
label
ham     4825
spam     747
Name: count, dtype: int64


### 3. Preprocessing & Feature Extraction menggunakan CountVectorizer

In [23]:
# Encode label 'spam' menjadi 1, dan 'ham' menjadi 0
df['label'] = df['label'].map({'spam': 1, 'ham': 0})

# Split data into training and testing sets (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)

# Gunakan CountVectorizer untuk mengubah teks menjadi fitur numerik
vectorizer = CountVectorizer(stop_words='english')  # Menggunakan stop words
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Tampilkan jumlah fitur yang dihasilkan oleh CountVectorizer
print(f"Number of features: {X_train_vec.shape[1]}")


Number of features: 7472


### 4. Latih Model Multinomial Naive Bayes

In [24]:
# Inisialisasi model Multinomial Naive Bayes
model = MultinomialNB()

# Latih model menggunakan data training
model.fit(X_train_vec, y_train)


### 5. Evaluasi Model

In [25]:
# Prediksi pada data testing
y_pred = model.predict(X_test_vec)

# Evaluasi akurasi pada data testing
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy on test data: {accuracy:.4f}')

# Tampilkan laporan klasifikasi
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=['ham', 'spam']))


Accuracy on test data: 0.9839

Classification Report:
              precision    recall  f1-score   support

         ham       0.99      0.99      0.99       965
        spam       0.96      0.92      0.94       150

    accuracy                           0.98      1115
   macro avg       0.97      0.96      0.96      1115
weighted avg       0.98      0.98      0.98      1115



**Penjelasan Hasil Evaluasi :**
- Akurasi model Naive Bayes ini sekitar 98.39%, yang menunjukkan bahwa model dapat mendeteksi email spam dengan cukup baik.
- Precision untuk spam sebesar 0.96 berarti bahwa ketika model memprediksi email sebagai spam, sekitar 96% prediksi tersebut benar.
- Recall untuk spam sebesar 0.92 berarti bahwa model berhasil mendeteksi 92% dari email yang sebenarnya adalah spam.
- Model Multinomial Naive Bayes bekerja dengan baik untuk klasifikasi teks berbasis frekuensi seperti email spam detection.

3. Buatlah model klasfikasi Multinomial Naive Bayes dengan ketentuan,

  1. Menggunakan data spam.csv
  2. Fitur TF-IDF dengan mengaktifkan stop_words
  3. Evaluasi hasilnya dan bandingkan dengan hasil pada Tugas no 2.
  4. Berikan kesimpulan fitur mana yang terbaik pada kasus data spam.csv

### 1. Import Library

In [26]:
# Import required libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


### 2. Load Dataset (spam.csv)

In [27]:
# Load the dataset
df = pd.read_csv('spam.csv', encoding='latin-1')

# Tampilkan beberapa baris pertama dataset untuk melihat strukturnya
print(df.head())

# Kita biasanya hanya butuh dua kolom pertama: 'v1' sebagai label, dan 'v2' sebagai pesan
df = df[['v1', 'v2']]
df.columns = ['label', 'message']  # Rename columns for better understanding

# Tampilkan distribusi data untuk melihat jumlah spam dan ham
print(df['label'].value_counts())


     v1                                                 v2 Unnamed: 2  \
0   ham  Go until jurong point, crazy.. Available only ...        NaN   
1   ham                      Ok lar... Joking wif u oni...        NaN   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3   ham  U dun say so early hor... U c already then say...        NaN   
4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   

  Unnamed: 3 Unnamed: 4  
0        NaN        NaN  
1        NaN        NaN  
2        NaN        NaN  
3        NaN        NaN  
4        NaN        NaN  
label
ham     4825
spam     747
Name: count, dtype: int64


### 3. Preprocessing & Feature Extraction menggunakan TfidfVectorizer

In [28]:
# Encode label 'spam' menjadi 1, dan 'ham' menjadi 0
df['label'] = df['label'].map({'spam': 1, 'ham': 0})

# Split data into training and testing sets (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)

# Gunakan TfidfVectorizer untuk mengubah teks menjadi fitur numerik berdasarkan TF-IDF
vectorizer = TfidfVectorizer(stop_words='english')  # Menggunakan stop words
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Tampilkan jumlah fitur yang dihasilkan oleh TfidfVectorizer
print(f"Number of features: {X_train_tfidf.shape[1]}")


Number of features: 7472


### 4. Latih Model Multinomial Naive Bayes

In [29]:
# Inisialisasi model Multinomial Naive Bayes
model = MultinomialNB()

# Latih model menggunakan data training
model.fit(X_train_tfidf, y_train)


### 5. Evaluasi Model

In [30]:
# Prediksi pada data testing
y_pred = model.predict(X_test_tfidf)

# Evaluasi akurasi pada data testing
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy on test data: {accuracy:.4f}')

# Tampilkan laporan klasifikasi
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=['ham', 'spam']))


Accuracy on test data: 0.9668

Classification Report:
              precision    recall  f1-score   support

         ham       0.96      1.00      0.98       965
        spam       1.00      0.75      0.86       150

    accuracy                           0.97      1115
   macro avg       0.98      0.88      0.92      1115
weighted avg       0.97      0.97      0.96      1115



**Kesimpulan**

Berdasarkan hasil perbandingan antara CountVectorizer dan TF-IDF pada klasifikasi data spam.csv, dapat disimpulkan bahwa CountVectorizer memiliki performa yang lebih baik secara keseluruhan. Dengan akurasi lebih tinggi (98.39%) dibandingkan TF-IDF (96.68%), CountVectorizer memberikan keseimbangan yang lebih baik antara precision dan recall untuk mendeteksi email spam. Recall untuk spam menggunakan CountVectorizer mencapai 0.92, menunjukkan kemampuannya yang lebih baik dalam mendeteksi sebagian besar email spam, sedangkan TF-IDF hanya berhasil mendeteksi 75% dari spam. Meskipun precision untuk spam pada TF-IDF mencapai 1.00 (tidak ada false positives), rendahnya recall membuatnya kurang efektif dalam menangkap semua email spam. Oleh karena itu, CountVectorizer lebih direkomendasikan jika tujuan utama adalah mendeteksi sebanyak mungkin email spam dengan keseimbangan yang baik antara presisi dan deteksi. Namun, jika menghindari false positives adalah prioritas utama, TF-IDF bisa dipertimbangkan dengan konsekuensi beberapa email spam mungkin tidak terdeteksi.