모든 샘플이 도로 바깥쪽에 올바르게 분류되어 있다면 **하드 마진**이라고 한다.

하드 마진 분류에는 두가지 문제점이 있다. 1. 데이터가 선형적으로 구분되어있어야 제대로 작동함 2. 이상치에 민감

이 문제를 피하려면 좀 더 유연한 모델이 필요하다.

도로의 폭을 가능한 넓게 유지하는 것과 마진 오류 사이의 적절한 균현을 잡아야한다. -> **소프트 마진**

In [3]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC  # ghinge loss function 적용함

iris = datasets.load_iris()
X = iris["data"][:,(2,3)]   # 꽃잎의 길이, 너비
y = (iris["target"] == 2).astype(np.float64)  # Iris-virginica

svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("linear_svc", LinearSVC(C=1, loss="hinge")),
])

svm_clf.fit(X,y)

Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('linear_svc', LinearSVC(C=1, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=None, tol=0.0001, verbose=0))])

In [3]:
svm_clf.predict([[5.5,1.7]])

array([ 1.])

In [5]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

X,y = make_moons(n_samples = 100,noise=0.15, random_state=42)

polynomial_svm_clf = Pipeline([
    ("poly_features", PolynomialFeatures(degree=3)),
    ("scaler", StandardScaler()),
    ("svm_clf", LinearSVC(C=10, loss="hinge"))
])

polynomial_svm_clf.fit(X,y)

Pipeline(memory=None,
     steps=[('poly_features', PolynomialFeatures(degree=3, include_bias=True, interaction_only=False)), ('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', LinearSVC(C=10, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=None, tol=0.0001, verbose=0))])

다항식 커널

In [6]:
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])

poly_kernel_svm_clf.fit(X,y)

Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', SVC(C=5, cache_size=200, class_weight=None, coef0=1,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='poly',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

가우시안 RBF 커널

In [7]:
rbf_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))  # 하이퍼 파라미터 : gamma와 C
])   # gamma를 증가시키면 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아진다.
    # 결정 경계가 조금 더 불규칙해지고 각 샘플에 따라 구불구불하게 휘어진다.
    # 규제의 역할을 함 (C와 비슷) -> 과적합일 때 감소시키기

rbf_kernel_svm_clf.fit(X,y)

Pipeline(memory=None,
     steps=[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svm_clf', SVC(C=0.001, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=5, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

여러 커널 중 선형 커널을 가장 먼저 시도해보자.
LinearSVC 가 SVC(kernel="linear") 보다 훨씬 빠르다.
특히 훈련 세트가 아주 크거나 특성 수가 많을 경우에 그렇다.

훈련세트가 너무 크지 않다면 가우시안 RBF 커널을 시도해보면 좋다. 대부분의 경우 이 커널이 잘 들어 맞는다.

시간과 컴퓨터 성능이 충분하다면 교차 검증과 그리드 탐색을 사용해 다른 커널을 좀 더 시도해 볼 수 있다.

In [8]:
from sklearn.svm import SVR   #SVM을 이상치 탐지에도 사용할 수 있다.

svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)
svm_poly_reg.fit(X,y)

SVR(C=100, cache_size=200, coef0=0.0, degree=2, epsilon=0.1, gamma='auto',
  kernel='poly', max_iter=-1, shrinking=True, tol=0.001, verbose=False)

In [4]:
from sklearn.svm import LinearSVR   #SVM을 이상치 탐지에도 사용할 수 있다.

svm_poly_reg = LinearSVR(epsilon=1.5)
svm_poly_reg.fit(X,y)

LinearSVR(C=1.0, dual=True, epsilon=1.5, fit_intercept=True,
     intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000,
     random_state=None, tol=0.0001, verbose=0)

결정함수의 기울기를 생각해보면 가중치 벡터 ||w||의 노름과 같다.

가중치 벡터 w 가 작을수록 마진은 커진다.