# Support Vector Machine (SVM)

## Importing the libraries

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, f1_score

## Importing the dataset

In [7]:
file_path = "Social_Network_Ads.csv"
df = pd.read_csv(file_path)

## Splitting the dataset into the Training set and Test set

Split features and target

In [9]:
X = df[['Age', 'EstimatedSalary']].values  # Replace 'dataset' with 'df'
y = df['Purchased'].values  # Replace 'dataset' with 'df'

Split train and test data

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Standardize the data

In [11]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Define kernels

In [12]:
kernels = ['linear', 'poly', 'sigmoid', 'rbf']
results = {}

Train and evaluate SVM with different kernels

In [13]:
for kernel in kernels:
    model = SVC(kernel=kernel, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Compute confusion matrix and F1-score
    cm = confusion_matrix(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)

    results[kernel] = {'Confusion Matrix': cm, 'F1 Score': f1}

    # Print evaluation metrics
    print(f"Kernel: {kernel}")
    print("Confusion Matrix:")
    print(cm)
    print(f"F1 Score: {f1:.4f}")
    print("-" * 50)

Kernel: linear
Confusion Matrix:
[[50  2]
 [ 9 19]]
F1 Score: 0.7755
--------------------------------------------------
Kernel: poly
Confusion Matrix:
[[52  0]
 [10 18]]
F1 Score: 0.7826
--------------------------------------------------
Kernel: sigmoid
Confusion Matrix:
[[45  7]
 [11 17]]
F1 Score: 0.6538
--------------------------------------------------
Kernel: rbf
Confusion Matrix:
[[47  5]
 [ 1 27]]
F1 Score: 0.9000
--------------------------------------------------


Hasil evaluasi model **Support Vector Machine (SVM)** dengan empat jenis kernel pada dataset **Social Network Ads** menunjukkan perbedaan performa yang cukup signifikan. Evaluasi dilakukan menggunakan **confusion matrix** dan **F1-score**, yang digunakan untuk mengukur keseimbangan antara precision dan recall.  

Pada kernel **linear**, model menunjukkan performa yang cukup baik dengan **confusion matrix** \(\begin{bmatrix} 50 & 2 \\ 9 & 19 \end{bmatrix}\). Model berhasil mengklasifikasikan 50 sampel dengan benar sebagai tidak membeli (TN) dan 19 sampel dengan benar sebagai membeli (TP). Namun, terdapat 9 kesalahan dalam mengklasifikasikan pengguna yang sebenarnya membeli tetapi diprediksi tidak membeli (FN), serta 2 kesalahan lainnya dalam mengklasifikasikan pengguna yang sebenarnya tidak membeli tetapi diprediksi membeli (FP). **F1-score yang diperoleh adalah 0.7755**, menunjukkan performa yang cukup stabil, tetapi masih bisa ditingkatkan.  

Kernel **polynomial** sedikit lebih baik dibandingkan linear, dengan **confusion matrix** \(\begin{bmatrix} 52 & 0 \\ 10 & 18 \end{bmatrix}\). Model ini memiliki **True Negative (TN) tertinggi, yaitu 52**, tanpa kesalahan dalam mengklasifikasikan pengguna yang seharusnya tidak membeli. Namun, terdapat 10 kesalahan False Negative (FN), di mana pengguna yang seharusnya membeli justru diprediksi tidak membeli. **F1-score sebesar 0.7826** menunjukkan bahwa kernel polynomial memiliki performa yang sedikit lebih baik dibandingkan kernel linear.  

Sementara itu, kernel **sigmoid** menunjukkan performa terburuk, dengan **confusion matrix** \(\begin{bmatrix} 45 & 7 \\ 11 & 17 \end{bmatrix}\). Model ini membuat **banyak kesalahan dalam False Positive (7) dan False Negative (11)**, menunjukkan bahwa model kesulitan dalam membedakan antara pengguna yang membeli dan tidak membeli. **F1-score yang diperoleh hanya 0.6538**, yang merupakan nilai terendah dibandingkan dengan kernel lainnya. Hal ini menandakan bahwa kernel sigmoid kurang cocok untuk dataset ini.  

Sebaliknya, kernel **Radial Basis Function (RBF)** menunjukkan hasil terbaik, dengan **confusion matrix** \(\begin{bmatrix} 47 & 5 \\ 1 & 27 \end{bmatrix}\). Model ini hanya melakukan **1 kesalahan False Negative (FN)**, yang berarti hampir semua pengguna yang seharusnya membeli berhasil diprediksi dengan benar. Meskipun terdapat 5 kesalahan False Positive (FP), performa model secara keseluruhan sangat baik. **F1-score sebesar 0.9000**, yang merupakan skor tertinggi di antara semua kernel, menegaskan bahwa kernel RBF memiliki tingkat prediksi terbaik.  

Berdasarkan hasil ini, **kernel RBF merupakan pilihan terbaik untuk dataset Social Network Ads** karena memiliki kombinasi **False Negative yang sangat rendah dan F1-score tertinggi**. Kernel polynomial dan linear masih dapat digunakan, tetapi memiliki performa yang lebih rendah dibandingkan RBF. **Kernel sigmoid sebaiknya dihindari**, karena memiliki akurasi dan keseimbangan prediksi yang buruk. Dengan demikian, jika tujuan utama adalah meningkatkan akurasi klasifikasi dalam membedakan pengguna yang membeli dan tidak membeli, **kernel RBF adalah opsi terbaik**.

In [None]:
# Print best kernel based on F1 Score
best_kernel = max(results, key=lambda k: results[k]['F1 Score'])
print(f"Best performing kernel: {best_kernel} with F1 Score: {results[best_kernel]['F1 Score']:.4f}")


Best performing kernel: rbf with F1 Score: 0.9000


dapat disimpulkan bahwa kernel RBF memiliki performa terbaik dengan F1-score tertinggi sebesar 0.9000. Ini mengonfirmasi bahwa kernel RBF adalah pilihan optimal untuk model SVM pada dataset Social Network Ads