# Support Vector Machine Classification (SVM)
Support Vector Machine (SVM) merupakan salah satu metode yang banyak mendapat perhatian dalam Pattern Recognition sebagai state of the art. Di mana pattern recognition, adalah metode pemetaan suatu data ke dalam konsep tertentu yang disebut juga Category atau Class. Dan dalam metode SVM ini secara matematisn jauh lebih jelas dibandingkan dengan teknik klasifikasi lainnya, serta mampu mengatasi masalah klasifikasi dan regresi dengan linier maupun non linier.  <strong>Intinya SVM mencari decision boundary yang dapat memisahkan antar kelas dengan baik.</strong>
### Konsep Dasar
#### Decision Boundary (Hyperplane)
merupakan pemisah antar kelas. $H_3$ merupakan garis pemisah antar kelas yang paling cocok.
<img src='hyperlane.png' style='width:300px'>
#### Maximum Margin
Margin ditentukan berdasarkan jarak terdekat antara decision boundary dengan anggota kelas yang ditentukan.
<img src="margin.png" style='width:300px'>
#### Liearnly Inseperable & Kernel Trics
ada sebuah kondisi dimana kita tidak bisa menarik 2 garis linear yang memisahkan kedua kelas (2 dimensi), harus di proyeksikan ke dalam 3 dimensi terlebih dahulu supaya lebih terlihat dan dapat ditarik garis bidang untuk memisakan kelasnya.
<img src='linearly.png'>

### Dataset: The MNIST database of handwritten digits

In [13]:
from sklearn.datasets import fetch_openml

X, y = fetch_openml('mnist_784', return_X_y=True)
X.shape

(70000, 784)

In [24]:
# persiapan dataset untuk train dan test
X_train = X[:60000]
y_train = y[:60000]

X_test = X[60000:]
y_test = y[60000:]

print(f'X_train shape: {X_train.shape}')
print(f'y_train shape: {y_train.shape}')
print(f'X_test shape: {X_test.shape}')
print(f'y_test shape: {y_test.shape}')

X_train shape: (60000, 784)
y_train shape: (60000,)
X_test shape: (10000, 784)
y_test shape: (10000,)


### Clasification dengan SVC (Support Vector Classifier)

In [30]:
# training model
from sklearn.svm import SVC

model = SVC(random_state=0)
model.fit(X_train, y_train)

SVC(random_state=0)

In [29]:
# evaluasi model
from sklearn.metrics import classification_report

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.99      0.99       980
           1       0.99      0.99      0.99      1135
           2       0.98      0.97      0.98      1032
           3       0.97      0.99      0.98      1010
           4       0.98      0.98      0.98       982
           5       0.99      0.98      0.98       892
           6       0.99      0.99      0.99       958
           7       0.98      0.97      0.97      1028
           8       0.97      0.98      0.97       974
           9       0.97      0.96      0.97      1009

    accuracy                           0.98     10000
   macro avg       0.98      0.98      0.98     10000
weighted avg       0.98      0.98      0.98     10000



#### Hyperparameter Tuning dengan GridsearchCV 

In [None]:
from sklearn.model_selection import GridSearchCV

parameters = {
    'kernel': ['rbf', 'poly', 'sigmoid'],
    'C': [0.5, 1, 10, 100],
    'gamma': ['scale', 1, 0.1, 0.01, 0.001]
}

grid_search = GridSearchCV(estimator=SVC(random_state=0), 
                         param_grid=parameters,
                         n_jobs=6, # number of job = mejalankan proses ini secara parale pada 6 treat prosesor
                         verbose=1,
                         scoring='accuracy')

grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 60 candidates, totalling 300 fits
