# Chap05 - Support Vector Machine

**SVM**(Support Vector Machine)은 러시아 과학자 *Vladimir Vapnik*가 1970년대 후반에 제안한 알고리즘으로, 그 당시에는 크게 주목 받지 못했다. 하지만 1990년대에 들어 분류(classification)문제에서 우수한 일반화(generalization) 능력이 입증되어 머신러닝 알고리즘에서 인기 있는 모델이 되었다고 한다. 그리고 SVM은 일반화 측면에서 다른 분류 모델과 비교하여 더 좋거나 대등한 것으로 알려져 있다. 

또한, SVM은 선형 또는 비선형 분류 뿐만아니라 회귀, 이상치 탐색에도 사용할 수 있는 모델이며, 특히 복잡한 분류 문제에 잘 맞으며, 중간 크기의 데이터셋에 적합하다.

## Set Up

In [2]:
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
import numpy as np

iris = datasets.load_iris()
X = iris['data'] 
y = (iris['target'] == 2).astype(np.str)  

svm_clf = Pipeline([
    ('scaler', StandardScaler()),  #Scaling
    ('liear_svc', LinearSVC(C=1, loss='hinge', random_state=42))  
])

svm_clf.fit(X, y)

Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('liear_svc', LinearSVC(C=1, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=42, tol=0.0001, verbose=0))])

In [126]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [117]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

def fivefold(x,y,model):
    model_scores = np.zeros(5)  #영벡터 생성
    scores = np.zeros(5)

    cv = KFold(5, shuffle=True, random_state=0)
    for i, (idx_train, idx_test) in enumerate(cv.split(x)):
        #데이터 하나씩 트레인과 테스트에 부과
        x_train = x[idx_train]
        x_test = x[idx_test]
        y_train = y[idx_train]
        y_test = y[idx_test]

        #모델 fit
        result = model.fit(x_train,y_train)

        #prediction
        model_pred = result.predict(x_train)  #모델 자체의 정확도
        pred = result.predict(x_test)  #test의 정확도
        model_rmse = accuracy_score(y_train, model_pred)
        #rmse아닌데 변수명 고치기 싫어서 놔둬요 정확도에요
        rmse = accuracy_score(y_test, pred)

        #test 5번 하나하나 프린트
        model_scores[i] = model_rmse
        scores[i] = rmse
        print("학습 accuacy = {:.8f}, 검증 accuacy = {:.8f}".format(model_rmse, rmse))
    print('평균 train accuacy : ' + str(model_scores.mean()) )
    print('평균 test accuacy : ' + str(scores.mean()) )

이번에는 `C=1`일때와 `C=100`일때의 결과를 비교해 보자.

In [118]:
scaler = StandardScaler()
svm_clf1 = LinearSVC(C=1, loss="hinge", random_state=42)
svm_clf2 = LinearSVC(C=100, loss="hinge", random_state=42)
svm_clf3 = LinearSVC(C=0.1, loss="hinge", random_state=42)

scaled_svm_clf1 = Pipeline([
        ("scaler", scaler),
        ("linear_svc", svm_clf1),
    ])
scaled_svm_clf2 = Pipeline([
        ("scaler", scaler),
        ("linear_svc", svm_clf2),
    ])
scaled_svm_clf3 = Pipeline([
        ("scaler", scaler),
        ("linear_svc", svm_clf3),
    ])



scaled_svm_clf1.fit(X, y)
scaled_svm_clf2.fit(X, y)
scaled_svm_clf3.fit(X, y)



Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('linear_svc', LinearSVC(C=0.1, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=42, tol=0.0001, verbose=0))])

In [119]:
#c=0.1
fivefold(X,y,scaled_svm_clf3)

학습 R2 = 0.93333333, 검증 R2 = 0.93333333
학습 R2 = 0.95833333, 검증 R2 = 0.86666667
학습 R2 = 0.94166667, 검증 R2 = 0.96666667
학습 R2 = 0.95000000, 검증 R2 = 1.00000000
학습 R2 = 0.95000000, 검증 R2 = 0.93333333
평균 train rmse : 0.9466666666666667
평균 test rmse : 0.9400000000000001


In [120]:
#c= 1
fivefold(X,y,scaled_svm_clf1)

학습 R2 = 0.96666667, 검증 R2 = 1.00000000
학습 R2 = 0.99166667, 검증 R2 = 0.90000000
학습 R2 = 0.97500000, 검증 R2 = 1.00000000
학습 R2 = 0.96666667, 검증 R2 = 1.00000000
학습 R2 = 0.98333333, 검증 R2 = 0.90000000
평균 train rmse : 0.9766666666666668
평균 test rmse : 0.96


In [121]:
#c=100
fivefold(X,y,scaled_svm_clf2)

학습 R2 = 0.97500000, 검증 R2 = 1.00000000
학습 R2 = 1.00000000, 검증 R2 = 0.93333333
학습 R2 = 0.97500000, 검증 R2 = 1.00000000
학습 R2 = 0.98333333, 검증 R2 = 0.96666667
학습 R2 = 0.99166667, 검증 R2 = 0.90000000
평균 train rmse : 0.9850000000000001
평균 test rmse : 0.9600000000000002




## 5.2 NonLinear SVM Classification

실제 데이터셋은 위에서 살펴본 Linear SVM으로 분류할 수 없는 즉, 선형적으로 분류할 수 없는 비선형 적인 데이터셋이 많다. 

이러한, 비선형 데이터셋을 다루는 한 가지 방법은 다항 특성(polynomial features)과 같은 특성을 추가하는 방법이 있다. 

아래의 예제는 $x_1$ 특성에 $x_2 = (x_1)^{2}$ 을 추가하여 2차원의 데이터셋을 만들어 선형분리가 가능하게끔 해준것이다.

Scikit-Learn의 `datasets`에서 `make_moons` 데이터(Scikit-Learn에서 제공하는 두개의 반달 모양 데이터셋)를 이용해 다항 특성을 추가하는 `PolynomialFeatures`와 `StandardScaler` 그리고 `LinearSVC`를 `Pipeline`을 이용해 분류기를 만들어 보자.

### 5.2.1 다항식 커널 (Polynomial Kernel)

위에서 처럼 다항식 특성을 추가하는 것은 간단한 방법이지만, 많은 다항식 특성들이 추가되게 되면 모델의 속도가 느려진다. 

SVM에서는 이를 해결하기 위해 **커널 트릭**(kernel trick)을 이용한다. 

$$
K \left( \mathbf{a}, \mathbf{b} \right) = \left( \gamma \mathbf{a}^{T} \cdot \mathbf{b} + r \right)^{d}
$$

아래의 예제 코드는 바로 위의 코드를 kernel trick을 이용해 SVM모델을 만든것이다. Scikit-Learn에서 [`SVC`](http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC) 클래스에서 커널(kernel)을 사용할 수 있다. `SVC`의 인자 중 `coef0`은 위의 식에서 $r$에 해당하는 부분이다. 

- 커널은 차수가 높아질 수록 $r < 1$ 인 값과 $r > 1$ 인 값의 차이가 크므로 `coef0`을 적절히 조절하면 고차항의 영향을 줄일 수 있다.

### 5.2.2 유사도 특성 추가

비선형 특성을 다루는 또 다른 방법은 각 데이터(샘플)이 특정 **랜드마크**(landmark)와 얼마나 닮았는지 측정하는 **유사도 함수**(similarity function)로 계산한 특성을 추가하는 것이다. 

예를 들어, 아래의 그래프와 같이 $x_2 = -2$와 $x_3 = 1$을 랜드마크라고 하고, $\gamma = 0.3$인 가우시안 **RBF**(Radial Basis Function, 방사 기저 함수)를 유사도 함수라고 정의해보자.

$$
\phi_{\gamma} \left( \mathbf{x}, \ell \right) = \text{exp} \left( -\gamma \left\| \mathbf{x} - \ell \right\|^{2} \right)
$$

- $\ell$ : 랜드마크 지점
- $\gamma$ : $\gamma > 0$ 이며, 값이 작을 수록 넓은 종 모양(bell shape)이 됨

예를 들어, $x_1 = -1$일 경우 

- 첫 번째 랜드마크인 $x_1 = -2$에서 $\| -1 - (-2) \| = 1$ 
- 두 번째 랜드마크인 $x_2 = 1$에서 $2$

만큼 떨어져 있다.

따라서, $x_1$의 새로운 특성은 $x_2 = \text{exp}(-0.3 \times 1^2) \approx 0.74$ 와 $x_3 = \text{exp}(-0.3 \times 2^2) \approx 0.30$이다. 

이러한, 유사도 특성 추가를 통해 아래의 오른쪽 그래프와 같이 선형분리가 가능하다.

### 5.2.3 가우시안 RBF 커널

위의 5.2.2에서 살펴본 것처럼 유사도 특성을 추가하는 방법도 유용하게 사용될 수 있다. 하지만, 이러한 특성을 추가하기 위해서는 계산 비용이 많이 드는 문제가 있다. 

이를 가우시안 **RBF Kernel**을 이용하면 위와 같이 특성들을 계산하지 않고 비슷한 결과를 얻을 수 있다.

$$
K \left( \mathbf{a}, \mathbf{b} \right) = \text{exp} \left( -\gamma \left\| \mathbf{a} - \mathbf{b} \right\|^{2} \right)
$$

- $\gamma$ : regularization 역할을 함
    - $\gamma$가 커지면 종 모양이 좁아져 각 데이터의 영향 범위가 작아져, 결정 경계(Decision Boundary)가 불규칙하고 구부러진다.
    - $\gamma$가 작아지면 넓은 종 모양이 되며, 데이터의 영향이 넓어져 결정 경계가 부드러워 진다. 

In [122]:
from sklearn.svm import SVC

rbf_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
    ])

rbf_kernel_svm_clf.fit(X, y)

Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', SVC(C=0.001, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=5, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

In [123]:
fivefold(X,y,rbf_kernel_svm_clf)

학습 R2 = 0.63333333, 검증 R2 = 0.80000000
학습 R2 = 0.70833333, 검증 R2 = 0.50000000
학습 R2 = 0.66666667, 검증 R2 = 0.66666667
학습 R2 = 0.66666667, 검증 R2 = 0.66666667
학습 R2 = 0.65833333, 검증 R2 = 0.70000000
평균 train rmse : 0.6666666666666666
평균 test rmse : 0.6666666666666666


In [124]:
X.shape

(150, 4)