## Support Vector Machine

<img src='svm.png'>

### Hard and soft margin

<img src='svm_soft.png'>

### Funkcija greske - Hinge loss
[Literatura](https://en.wikipedia.org/wiki/Hinge_loss) <br>
<img src='hinge.png'>

In [None]:
import numpy as np
from matplotlib import pyplot as plt

[SVM dokumentacija](https://scikit-learn.org/stable/modules/svm.html)

In [None]:
from sklearn import linear_model
from sklearn import model_selection
from sklearn import metrics
from sklearn import preprocessing
from sklearn import svm # novi modul za generisanje SVM modela

### Sinteticki skup podataka:

In [None]:
N = 1000
X1 = np.random.uniform(-1, 1, N)
X2 = np.random.uniform(-1, 1, N)
X = np.vstack([X1, X2]).transpose()
X.shape

In [None]:
def f(x1, x2):
    return 2*(x1**2 + x2**2 <= 0.5) - 1

In [None]:
y = f(X1, X2) # klase dodeljujemo tako da dobijemo kruzni (nelinearni oblik) koji ih razdvaja

In [None]:
y 

In [None]:
sum(y==1), sum(y==-1)

In [None]:
plt.scatter(X1, X2, c=y) # bojimo vrednostima klase, odnosno ciljne promenljive

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.3, random_state = 25, stratify = y)

### Sta je kernel i kada ga koristimo?
[Literatura](https://medium.com/geekculture/kernel-methods-in-support-vector-machines-bb9409342c49) <br>
Linearni SVM klasifikator (`LinearSVC`), kako mu i samo ime kaze, u stanju je da pronadje samo linearne zakonitosti u podacima. <br>
    Svaki kernel se moze smatrati merom slicnosti nad elementima skupa X. U trenutnoj situaciji, mozemo ga posmatrati kao preslikavanje nasih podataka proizvoljne strukture u novi prostor gde mozemo primeniti linearni SVM. Ta dva koraka objedinjena su u `SVC` (Support Vector Classification) modelu.  

### Linearni SVM klasifikator

In [None]:
linear_svm = svm.LinearSVC(loss='hinge', C=1.0) # C kao regularizacioni parametar koji kontrolise znacajnost gresaka
linear_svm.fit(X_train, y_train)

In [None]:
metrics.accuracy_score(y_test, linear_svm.predict(X_test)) 
# ocekivano slaba tacnost za linearni SVM zbog nelinearne strukture podataka

### Kernelizovani SVM klasifikator

In [None]:
kernelized_svm = svm.SVC(kernel='rbf', gamma=1, C=1.0) # gamma kao koeficijent RBF kernela koji koristimo za transformaciju
kernelized_svm.fit(X_train, y_train)

In [None]:
metrics.accuracy_score(y_test, kernelized_svm.predict(X_test)) # i ocekivano dobra tacnost za SVC!

### Potporni vektori

Kernelizovani SVM klasifikator pamti najvaznije instance u procesu treniranja, odnosno potporne vektore. Predikcija novih instanci se vrsi samo na osnovu vrednosti potpornih vektora.

In [None]:
print("Broj potpornih vektora: ", kernelized_svm.support_vectors_.shape[0])
print("Broj potpornih vektora po klasama: ", format(kernelized_svm.n_support_))
print("Broj instanci u skupu za treniranje: ", X_train.shape[0])

Iscrtajmo ponovo podatke uz dodatak pronađenih potpornih vektora.

In [None]:
plt.scatter(X1, X2, c=y)  
plt.scatter(kernelized_svm.support_vectors_[:, 0], kernelized_svm.support_vectors_[:, 1], c = ['red'])