In [1]:
"""선형 SVM 분류: 결정 경계가 클래스 사이에 공간을 최대화 하게 함"""
# 소프트 마진 분류: 이상치가 있을 경우 마진 오류 사이에 적절한 균형을 이루게 함

import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris = datasets.load_iris()
X = iris['data'][:, (2, 3)]
y = (iris['target'] == 2).astype(np.float64)

svm_clf = Pipeline([
        ('scaler', StandardScaler()),
        ('linear_svc', LinearSVC(C=1, loss='hinge')),   # C가 작을 수록 마진 오류가 많아지지만 일반화엔 좋음
])

svm_clf.fit(X, y)
svm_clf.predict([[5.5, 1.7]])

array([1.])

In [2]:
"""비선형 SVM 분류: 다항식 특성 추가"""

from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

X, y = make_moons(n_samples=100, noise=0.15)
polynomial_svm_clf = Pipeline([
    ('poly_features', PolynomialFeatures(degree=3)),
    ('scaler', StandardScaler()),
    ('svm_clf', LinearSVC(C=10, loss='hinge'))
])

polynomial_svm_clf.fit(X, y)
polynomial_svm_clf.predict([[1, 2]])



array([0], dtype=int64)

In [3]:
# 커널 트릭: 실제로 특성을 추가하지 않으면서 다항식 특성을 추가한 것과 같은 효과

from sklearn.svm import SVC

poly_kernel_svm_clf = Pipeline([
    ('scaler', StandardScaler()),
    ('svm_clf', SVC(kernel='poly', degree=3, coef0=1, C=5))
])

poly_kernel_svm_clf.fit(X, y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=5, coef0=1, kernel='poly'))])

In [6]:
# 가우시안 RBF 커널
# gamma는 C와 같이 모델이 과대적합일 경우 감소시키고 과소적합일 경우 증가시켜야 한다
rbf_kernel_svm_clf = Pipeline([
    ('scaler', StandardScaler()),
    ('svm_clf', SVC(kernel='rbf', gamma=5, C=0.001))
])

In [7]:
"""SVM 회귀"""
# 마진 오류(epsilon으로 조절) 의 도로 폭 내에서 최대한 많은 샘플이 들어가도록 학습
from sklearn.svm import LinearSVR
from sklearn.svm import SVR

svm_reg = LinearSVR(epsilon=1.5)
svm_reg.fit(X, y)

# 비선형 회귀 작업
svm_poly_reg = SVR(kernel='poly', degree=2, C=100, epsilon=0.1)
svm_reg.fit(X, y)

LinearSVR(epsilon=1.5)