# Classification Task dengan Support Vector Machine (SVM)

Referensi: [https://www.svm-tutorial.com/](https://www.svm-tutorial.com/)

## Konsep Dasar

### Decision Boundary (Hyperplane)

<!-- ![](./images/svm_linear.png) -->
<div>
<img src="./images/svm_linear.png" width="400">
</div>

- Terdapat 2 class yaitu hitam dan putih
- Feature berjumlah 2 yakni X1 dan X2
- Pemisah antar class sering dikenal sebagai decision boundary
- Garis H1 tidak dapat dijadikan garis pemisah antar 2 class yang dimiliki
- Garis H2 dan garis H3 memisahkan 2 class dengan sempurna
- Dari garis H1, H2, dan H3, yang paling baik untuk merupakan decision boundary adalah H3 karena memiliki margin yang lebih besar bila dibandingkan dengan garis H2. 

#### Hyperplane

Terminologi yang akan dipelajari adalah Hyperplane. Merupakan termimologi yang umum digunakan untuk decision boundary.

- Terdapat 2 feature yang diplotting menjadi 2 dimensi
- Jika dalam sebuah kasus hanya memiliki 1 class saja, maka tidak ada garis pemisah melainkan hanya terdapat sebuah titik
- Jika terdapat 3 feature, maka di decision boundary nya berupa sebuah bidang datar atau dikenal dengan claim
- Jika terdapat 4 atau lebih dari 4 feature, maka pemisah antar classnya berupa bidang multi dimensi atau biasa dikenal dengan instilah hyperplane

Dalam SVM, untuk proses penyederhanaan istilah maka setiap decision boundary umumnya akan disebut dengan hyperplane

### Maximum Margin
Penentuan Margin berdasarkan jarak terdekat antara decision boundary dengan anggota dari class yang ingin dipisahkan.

<!-- ![](./images/svm_margin.png) -->
<div>
<img src="./images/svm_margin.png" width="400">
</div>

- Terdapat 2 class yaitu biru dan hijau
- Feature berjumlah 2  yaitu X1 dan X2
- Terdapat garis decision boundary berwarna merah yang digunakan untuk memisahkan class biru dan hijau
- Area yang berwarna kuning disebut margin
- Margin diperoleh berdasarkan jarak terdekat decision boundary dengan anggota class yang ingin dipisahkan
- Anggota class yang ingin dipisahkan, dikenal sebagai support vector
- Ada 3 support vector pada kasus ini, yaitu 2 bulat biru yang berada di garis putus-putus biru dan 1 bulat hijau yang terletak pada garis putus-putus hijau.

SVM memilih berdasarkan margin terbesar (maximum margin) untuk menentukan decision boundary

### Linearly Inseperable <br/>& Kernel Tricks
Referensi: [https://www.quora.com/What-is-the-kernel-trick](https://www.quora.com/What-is-the-kernel-trick)
<div>
<img src="./images/svm_kernel_01.png" width="800">
</div>

<p/>



Plotting di foto kiri :
- Terdapat 2 class, yaitu class titik dan class X
- Terdapat 2 buah feature, sehingga ketika dilakukan plotting akan mendapatkan plotting 2 dimensi
- Kondisi yang tidak memungkinkan untuk menarik garis linear dikenal drngan linearly inseperable
- Untuk mengatasi masalah linearly inseperable, SVM akan mengkonversikan data yang ada ke dimensi yang lebih tinggi

Plotting di foto kanan:
- Merupakan hasil plotting 3 dimensi dari data sebelumnya yang berbentuk 2 dimensi
- Kedua class dapat dipisahkan dengan mudah menggunakan bidang datar yang akan berperan sebagai decision boundary untuk memisahkan class X dengan class titik
- Kernel Tricks adalah teknik SVM yang cocok untuk kasus ini

## Dataset: The MNIST database of handwritten digits

Referensi: [http://yann.lecun.com/exdb/mnist/](http://yann.lecun.com/exdb/mnist/)

Kasus ini mengadopsi Handwritten Digits Dataset (Open Dataset)

Cara Mengakses Dataset :
1. Import modul fetch_openml
2. Panggil fetch_openml beserta parameternya.

- Variabel x akan menampung sekumpulan nilai features
- Variabel y akan menampung sekumpulan nilai target label
- Dimensi dari variabel X 70000 untuk jumlah baris dan 784 untuk jumlah kolom

In [1]:
from sklearn.datasets import fetch_openml

X, y = fetch_openml('mnist_784', data_home='./dataset/mnist', return_X_y=True)
X.shape

(70000, 784)

#### Menampilkan 8 Data Pertama dari Dataset yang digunakan

Dataset yang dimiliki berupa data gambar maka matplotlib akan digunakan untuk menampilkan datanya. 
1. import matplotlib.pyplot as plt
2. import matplotlib.cm as cm (color map)
3. Gunakan loop untuk menampilkan 8 data pertama

In [2]:
import matplotlib.pyplot as plt
import matplotlib.cm as cm

pos = 1
for data in X[:8]:
    plt.subplot(1, 8, pos)
    plt.imshow(data.reshape((28, 28)), 
               cmap=cm.Greys_r)
    plt.axis('off')
    pos += 1

plt.show()

<Figure size 640x480 with 8 Axes>

In [3]:
y[:8] #8 Label yang berkorelasi dengan Gambar 

array(['5', '0', '4', '1', '9', '2', '1', '3'], dtype=object)

#### Training dan Testing Model

In [4]:
#X_train = X[:60000]
#y_train = y[:60000]
#X_test = X[60000:]
#y_test = y[60000:]

#Anda bisa melakukan training menggunakan command diatas berhubung komputer saya tidak mampu menghandle 60000 data maka saya gunakan training dibawah ini.

X_train = X[:1000]
y_train = y[:1000]
X_test = X[69000:]
y_test = y[69000:]

## Classification dengan SVC (Support Vector Classifier)

- Modul yang digunakan adalah Modul SVC
- Import modul SVC
- Bentuk objek modelnyan dengan parameter random_state=0 dan ditampung dalam variabel model
- Lakukan model.fit untuk X_train dan y_trainnya

In [5]:
from sklearn.svm import SVC

model = SVC(random_state=0)
model.fit(X_train, y_train)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=0,
    shrinking=True, tol=0.001, verbose=False)

Setelah Model di Training akan dilakukan evaluasi performa menggunakan classification_report


In [6]:
from sklearn.metrics import classification_report

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.00      0.00      0.00       102
           1       0.00      0.00      0.00       119
           2       0.00      0.00      0.00        99
           3       0.00      0.00      0.00       102
           4       0.00      0.00      0.00        92
           5       0.00      0.00      0.00        85
           6       0.00      0.00      0.00       102
           7       0.12      1.00      0.21       115
           8       0.00      0.00      0.00        94
           9       0.00      0.00      0.00        90

    accuracy                           0.12      1000
   macro avg       0.01      0.10      0.02      1000
weighted avg       0.01      0.12      0.02      1000



  'precision', 'predicted', average, warn_for)


## Hyperparameter Tuning dengan `GridSearchCV`
Referensi: [https://en.wikipedia.org/wiki/Hyperparameter_optimization](https://en.wikipedia.org/wiki/Hyperparameter_optimization)

Parameter yang digunakan untuk mengatur parameter dari suatu Model dikenal dengan Hyperparameter. Proses untuk mencari suatu nilai optimum dari Hyperparameter dikenal Hyperparameter Tuning. 

Proses Menggunakannya : 
1. Import modul menggunakan from sklearn.model_selection import GridSearchCV
2. Kemudian spesifikasikan sekumpulan parameter beserta pilihan nilai yang akan dikombinasikan
3. Pada setiap parameter ditentukan pilihan nilainya
4. Kemudian bentuk objek dari GrisSearchCV dengan menyertakan beberapa parameter yang diberi nilai
5. Setelah objek GridSearchCV nya terbentuk maka akan ditampung ke dalam variabel grid_search, selanjutnya lakukan pemanggilan dengan menggunakan metode fit melalui objek grid_searh nya

In [7]:
from sklearn.model_selection import GridSearchCV

parameters = {
    'kernel': ['rbf', 'poly', 'sigmoid'],
    'C': [0.5, 1, 10, 100],
    'gamma': ['scale', 1, 0.1, 0.01, 0.001]
}

grid_search = GridSearchCV(estimator=SVC(random_state=0),
                           param_grid=parameters,
                           n_jobs=6,
                           verbose=1,
                           scoring='accuracy')

grid_search.fit(X_train, y_train)

[Parallel(n_jobs=6)]: Using backend LokyBackend with 6 concurrent workers.


Fitting 3 folds for each of 60 candidates, totalling 180 fits


[Parallel(n_jobs=6)]: Done  38 tasks      | elapsed:    5.9s
[Parallel(n_jobs=6)]: Done 180 out of 180 | elapsed:   22.2s finished


GridSearchCV(cv='warn', error_score='raise-deprecating',
             estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                           decision_function_shape='ovr', degree=3,
                           gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                           probability=False, random_state=0, shrinking=True,
                           tol=0.001, verbose=False),
             iid='warn', n_jobs=6,
             param_grid={'C': [0.5, 1, 10, 100],
                         'gamma': ['scale', 1, 0.1, 0.01, 0.001],
                         'kernel': ['rbf', 'poly', 'sigmoid']},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='accuracy', verbose=1)

### Melihat Best Score dan Best Parameters

In [8]:
print(f'Best Score: {grid_search.best_score_}')

best_params = grid_search.best_estimator_.get_params()
print(f'Best Parameters:')
for param in parameters:
    print(f'\t{param}: {best_params[param]}')

Best Score: 0.899
Best Parameters:
	kernel: rbf
	C: 10
	gamma: scale


## Predict & Evaluate

In [9]:
y_pred = grid_search.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.98      0.96       102
           1       0.98      0.99      0.98       119
           2       0.87      0.85      0.86        99
           3       0.99      0.89      0.94       102
           4       0.91      0.95      0.93        92
           5       0.92      0.89      0.90        85
           6       0.93      0.94      0.94       102
           7       0.93      0.93      0.93       115
           8       0.89      0.95      0.92        94
           9       0.92      0.88      0.90        90

    accuracy                           0.93      1000
   macro avg       0.93      0.92      0.92      1000
weighted avg       0.93      0.93      0.93      1000

