# 5장 서포트 벡터 머신

**서포트벡터머신**(SVM)  
- 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 모델
- 머신러닝에서 가장 인기 있는 모델중 하나  
- 복잡한 분류모델에 잘 맞고, 작거나 중간 크기의 데이터 셋에 적합


## 5.1 선형 SVM 분류

![image.png](attachment:image.png)

- 왼쪽 그래프는 두 분류의 데이터를 선형 분류 한 것  
선형으로 완벽하게 분류된것처럼 보이지만 결정경계가 샘플에 너무 가까워 새로운 데이터에 잘 작동할지는 의문.  
- 오른쪽 그래프는 SVM 분류기의 결정 경계. 이 직선은 두 개의 크래스를 나누고 있을 뿐만 아니라 제일 가까운 훈련 샘플로 부터 가능한한 멀리 떨어져있다.  
다시말해 SVM 분류기는 두 클래스 사이에 가장 폭이 넓은 도로를 찾는 것으로 생각할 수 있다. 이를 **라지마진분류**라고한다.

도로 바깥쪾(그러니까 점선 바깥쪽)에 새로운 샘플을 추가해도 결정 경계에는 영향을 미치지않는다. (실선 결정경계에서 가장 가까운 데이터만이 결정경계 형성에 영향을 미침) 이러한 샘플을 **서포트 벡터**라고한다.

![image.png](attachment:image.png)

*`Caution`   
SVM은 특성의 스케일에 민감하다. 왼쪽 그래프에서는 수직축의 스케일이 수평축의 스케일보다 훨씬 커서 가장 넓은 도로가 거의 수평에 가깝게 된다. 특성의 스케일을 조정하면 결정 경계가 훨씬 좋아진다.*

#### 5.1.1 소프트 마진 분류

모든 샘플이 도로 바깥쪽에 올바르게 분류되어있다면 __하드 마진 분류__ 라고 함.  
하드 마진 분류의 문제점 
1. 데이터가 선형적으로 구분될 수 있어야 제대로 작동한다.
2. 이상치에 민감하다.

![image.png](attachment:image.png)

왼쪽 그래프와 같이 이상치가 있는 경우 하드마진을 찾을 수 없다.  
오른쪽 그래프의 결정경계는 이상치가 없던 결정경계과 매우 다르고 일반화가 잘 되지 않을 것 같다.

이 문제를 해결하기위해 좀 더 유연한 모델이 필요하다. 도로의 폭을 가능한 한 넓게 유지하는 것과 __마진 오류__ 사이에 적절한 균형을 잡아야한다. 이를 __소프트마진분류__라 한다.

사이킷런 SVM 모델에서는 C 하이퍼파라미터를 사용해 이 균형(도로의 폭을 가능한한 넓게 유지하는것 <-> 마진 오류)을 조절할 수 있다.  
C↓ -> 도로의 폭↑, 마진 오류↑  
C↑ -> 도로의 폭↓, 마진 오류↓

![image.png](attachment:image.png)

C가 100일때는 마진오류를 적게 냈지만 마진이 좁아졌다.  
C가 1일때는 마진이 넓어졌지만 많은 샘플이 도로안에 포함 되었다.  
즉 C가 1일떄 일반화는 더 잘된것 처럼 보인다. 

_SVM 모델이 과대적합이 의심된다면 C를 감소시켜 모델을 규제할 수 있다_

In [2]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris = datasets.load_iris()
X = iris["data"][:, (2, 3)] ##petal length, petal width
y = (iris['target'] ==2).astype(np.float64) #Iris-Virginica

svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("linear_svc", LinearSVC(C=1, loss="hinge", random_state = 42)), 
])

svm_clf.fit(X,y)

Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('linear_svc',
                 LinearSVC(C=1, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,
                           loss='hinge', max_iter=1000, multi_class='ovr',
                           penalty='l2', random_state=4, tol=0.0001,
                           verbose=0))],
         verbose=False)

In [3]:
svm_clf.predict([[5.5, 1.7]]) #즉 Iris-Virginica로 예측

array([1.])

`주의할것`  
linearSVC와 SVC(kernel = "linear") 은 명백히 다름.  
SVC(kernel = "linear")은 큰 훈련셑에서 속도가 매우 느리므로 권장하지않는다  
SGDClassifier(loss="hinge", alpha = 1/(m*C)) 와 같은 모델을 사용할 수도 있다. 이는 선형 SVM 분류기를 훈련시키기외해 호가률적 경사하강법을 적용한다. LienarSVC만큼 빠르게 수렴하지는 않지만 데이터셋이 아주 커서 메모리에 적재할수 없거나 온라인 학습으로 문제를 다룰떄는 유용하다