## Chapter 5과제

In [2]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

Iris Virginia 품종을 분류하기 위한 선형 SVM 모델을 훈련시킨다.

In [7]:
iris = datasets.load_iris()
X = iris["data"][:, (2,3)]
y = (iris["target"] == 2).astype(np.float64)

svm_clf = Pipeline([
    ("scalaer", StandardScaler()),
    ("linear_svc", LinearSVC(C=1, loss="hinge")),
])

In [8]:
svm_clf.fit(X,y)

Pipeline(steps=[('scalaer', StandardScaler()),
                ('linear_svc', LinearSVC(C=1, loss='hinge'))])

In [10]:
svm_clf.predict([[5.5,1.7]])

array([1.])

StandardScaler를 사용해 스케일링을 진행하고 LinearSVC를 적용한 파이프라인을 svm_clf로 정의한 후 데이터를 하나 넣어 테스트해본 상태

### 비선형 SVM 분류
위의 코드는 선형으로 데이터가 속하는지 아닌지 확인하는 것이었고 4장 다항회귀에서 사용한 PolynomialFeatures 변환기와 StandardScaler, LinearSVC를 연결한 Pipeline을 만들어 moons 데이터셋에 적용해본다

In [11]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

In [14]:
X,y = make_moons(n_samples=100, noise=0.15)
polynomial_svm_clf = Pipeline([
    ("poly_features", PolynomialFeatures(degree=3)),
    ("scaler", StandardScaler()),
    ("svm_clf", LinearSVC(C=10, loss="hinge"))
])

In [15]:
polynomial_svm_clf.fit(X,y)



Pipeline(steps=[('poly_features', PolynomialFeatures(degree=3)),
                ('scaler', StandardScaler()),
                ('svm_clf', LinearSVC(C=10, loss='hinge'))])

### 다항식 커널
어떤 한 특성을 가지고 분류를 하고 싶을 때 (한 특성이니까 한 축에 대해 점들이 쭉 일자로 나열돼있을 것) 선형 분류를 사용할 수 없을 것이다. 따라서 새로운 특성을 추가하는 등의 방법을 사용해 분류를 가능하게 할 수 있다. 꼭 한 특성만 있을 때만 사용하는 것은 아니다. 다만 특성의 수가 많거나 높은 차수의 다항식을 사용하면 모델의 연산이 복잡해진다. 단, SVM을 사용할땐 커널트릭을 사용하여 이를 해결할 수 있다.

In [16]:
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
])

In [17]:
poly_kernel_svm_clf.fit(X,y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=5, coef0=1, kernel='poly'))])

### RBF커널을 사용한 SVC

In [18]:
rbf_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])

In [19]:
rbf_kernel_svm_clf.fit(X,y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=0.001, gamma=5))])

### SVM 회귀
SVM은 다양한 목적에 사용할 수 있다. 이 다양한 목적 중 회귀도 포함되어있고, 이를 사용해보려 한다. 회귀는 분류와 상반되게 제한된 마진 오류 내에서 가능한 많은 샘플이 도로(마진)내에 있도록 하는 것이다.

In [20]:
from sklearn.svm import LinearSVR
svm_reg = LinearSVR(epsilon=1.5)

In [21]:
svm_reg.fit(X,y)

LinearSVR(epsilon=1.5)

위 코드는 선형SVR을 사용해 회귀를 한 것이고, 비선형 회귀 작업을 위해선 커널 SVM모델을 활용한다. SVR의 kernel = "poly"를 추가한다.

In [22]:
from sklearn.svm import SVR
svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)

In [23]:
svm_poly_reg.fit(X,y)

SVR(C=100, degree=2, kernel='poly')