# 서포트 벡터 머신(Support Vector Machine) 실습



  
  + Margin을 최대화 하는 분류 경계면을 찾는 기법 
  + Margin --> 두 데이터 군과 결정 경계가 떨어져 있는 정도
  + Support Vector --> 두 클래스 사이의 경계에 위치해 있는 데이터 포인트들
  

+ Linear SVM  
하지만, 선형적으로 완벽하게 분리하는 것은 불가능하다. 따라서 약간의 오류를 허용하는 전략이 필요하다.  
이것과 관련된 파라미터가 Cost(c)이다. --> 얼마나 많은 다른 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는 정도.  
cost가 클수록 적게 허용하고 cost가 작을수록 크게 허용한다. 따라서, 너무 높은 cost는 overfitting을 초래한다.

+ RBF 커널 SVM  
선형만으로는 해결할 수 없는 경우가 존재한다. 이런 경우 자주 활용되는 것이 RBF 커널이다.  
커널기법이란 데이터를 고차원으로 특징 공간으로 사상해주는 것이다. 이렇게 되면 원래의 차원에서는 볼 수 없었던 선형으로 분류 가능하다!  
  
  매개 변수로는 gamma가 추가적으로 존재한다. gamma는 하나의 데이터가 영향력을 행사하는 거리를 결정한다.  
  gamma는 표준편차와 관련이 있다. gamma가 클수록 데이터가 영향력을 행사하는 거리가 짧아지므로 표준편차가 작게 된다.
  따라서 너무 높은 gamma는 데이터의 영향력 행사 거리가 짧아지므로 overfitting을 초래한다.

In [3]:
from sklearn import datasets
data = datasets.load_breast_cancer()
x = data['data']
y = data['target']
print(x.shape)

(569, 30)


### 데이터 분할

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3, random_state=0)
X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((398, 30), (171, 30), (398,), (171,))

### Training Model

In [5]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import svm
linear_svm = svm.SVC(kernel='linear')
linear_svm.fit(X_train, Y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='linear', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

linear 모델의 정확도를 파악한다

In [6]:
from sklearn import metrics
Y_pred = linear_svm.predict(X_test)
print("Accuracy:",metrics.accuracy_score(Y_test, Y_pred))

Accuracy: 0.9590643274853801


앞선 linear 모델로도 정확도가 충분히 높았지만 다른 커널로도 정확도를 파악해보자.

In [7]:
kernels = ['poly','rbf','sigmoid']

In [8]:
for kernel in kernels:
    clf = svm.SVC(kernel = kernel, degree=2)
    clf.fit(X_train, Y_train)
    Y_pred = clf.predict(X_test)
    print("kernel : {}, Accuracy:".format(kernel), metrics.accuracy_score(Y_test, Y_pred))
    print("======================================")



kernel : poly, Accuracy: 0.9590643274853801
kernel : rbf, Accuracy: 0.631578947368421
kernel : sigmoid, Accuracy: 0.631578947368421




커널이 rbf일때, C와 gamma에 따른 정확도의 차이를 확인해보자.

In [9]:
C = [0.1, 1, 10, 100]
Gamma = [0.1,1, 10, 100]
for c in C:
    for gamma in Gamma:
        clf = svm.SVC(kernel = 'rbf', C=c, gamma=gamma)
        clf.fit(X_train, Y_train)
        Y_pred = clf.predict(X_test)
        print("C={} & Gamma={}, Accuracy:".format(c,gamma), metrics.accuracy_score(Y_test, Y_pred))
        print("======================================")

C=0.1 & Gamma=0.1, Accuracy: 0.631578947368421
C=0.1 & Gamma=1, Accuracy: 0.631578947368421
C=0.1 & Gamma=10, Accuracy: 0.631578947368421
C=0.1 & Gamma=100, Accuracy: 0.631578947368421
C=1 & Gamma=0.1, Accuracy: 0.631578947368421
C=1 & Gamma=1, Accuracy: 0.631578947368421
C=1 & Gamma=10, Accuracy: 0.631578947368421
C=1 & Gamma=100, Accuracy: 0.631578947368421
C=10 & Gamma=0.1, Accuracy: 0.631578947368421
C=10 & Gamma=1, Accuracy: 0.631578947368421
C=10 & Gamma=10, Accuracy: 0.631578947368421
C=10 & Gamma=100, Accuracy: 0.631578947368421
C=100 & Gamma=0.1, Accuracy: 0.631578947368421
C=100 & Gamma=1, Accuracy: 0.631578947368421
C=100 & Gamma=10, Accuracy: 0.631578947368421
C=100 & Gamma=100, Accuracy: 0.631578947368421
