# Support Vector Machine

서포트 벡터 머신은 도로의 폭과 마진 오류를 적절하게 조율하는 것이 중요하다. 

모든 샘플이 도로 밖에 위치한다면 이를 하드 마진분류라고 한다. 하드마진분류는 데이터가 선형적으로 분류되어야 하고, 이상치가 없어야한다는 단점이 있다. 그러므로 보통 소프트 마진 오류가 적절한 선택일 것이다. 

서포트 벡터 머신은 피처의 스케일에 민감하게 반응하기 때문에 StandardScaler로 스케일링 해주는게 적절하다. 

SVM모델을 만들 때 여러 하이퍼파라미터를 지정할 수 있다. 그중 C라는 하이퍼파라미터가 있는데, C가 높을수록 과대적합되는 경향이 있다. 
이말은 즉슨 마진 오류가 감소하고 도로의 폭도 함께 함소하는 형태이다.

# 선형 SVM 분류

In [5]:
import numpy as np
from sklearn import datasets 
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler 
from sklearn.svm import LinearSVC

iris = datasets.load_iris()
X = iris['data'][:, (2,3)]
y = (iris['target']==2).astype(np.float64)

# 파이프라인을 만든다. 
# 손실은 힌지 손실을 사용한다.
svm_clf = Pipeline([
    ('scaler', StandardScaler()),
    ('linear_svc', LinearSVC(C=1, loss='hinge'))
])

svm_clf.fit(X,y)

In [9]:
svm_clf.predict([[5.5, 1.7]])

array([1.])

---------
> LinearSVC()

대신에 

> SVC(kernel="linear", C=1), SGDClassifier(loss="hinge", alpha=1/(m\*C)) (m은 샘플 수이다.)

를 사용할 수 있다.

# 비선형 SVM 분류

선형분류만으로 모든 문제를 해결하면 좋겠지만 데이터가 비선형적이라면 선형분류는 좋지 않은 모델이다. 비선형 데이터를 다루는 방법은 다항 특성과 같은 특성을 더 추가하는 것이다. 

In [16]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

# 초승달 모양 두개로 이루어진 데이터를 만듦
# ^ 모양과 v 모양이라고 생각하면 될듯..
X, y = make_moons(n_samples=100, noise=0.15)
polynomial_svm_clf = Pipeline([
    ("poly_features", PolynomialFeatures(degree=3)),
    ('scaler', StandardScaler()),
    ('linear_svc', LinearSVC(C=10, loss='hinge'))
])

polynomial_svm_clf.fit(X, y)

# 다항식 커널
다항식 특성을 추가하는 것은 간단하고 모든 머신러닝 알고리즘에서 잘 작동하지만 낮은 차수의 다항식은 매우 복잡한 데이터셋을 잘 표현하지 못하고 높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모델을 너무 느리게 만든다.

다행히도 SVM을 사용할 땐 커널 트릭이라는 거의 기적에 가까운 수학적 기교를 적용할 수 있다. 커널 트릭은 실제로는 특성을 추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를얻을 수 있다. 사실 어떤 특성도 추가하지 않기 때문에 엄청난 수의 특성 조합이 생기지 않는다. 이 기법은 SVC 파이썬 클래스에 구현되어 있다. 

In [19]:
from sklearn.svm import SVC

poly_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    # coef0은 모델이 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절할 수 있다.
    # 다항식에 있는 상수 r을 조정하면 고차항의 영향을 줄일 수 있다.
    ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])

poly_kernel_svm_clf.fit(X,y)

# 유사도 특성
