# 서포트 벡터 머신(Support Vector Machines)

[참고강의](https://www.youtube.com/watch?v=dGjBhSHW9lg&t=4907s)

* 회귀, 분류, 이상치 탐지 등에 사용되는 지도학습 방법
* 클래스 사이의 경계에 위치한 데이터 포인트를 서포트 벡터(support vector)라고 함
* 각 지지 벡터가 클래스 사이의 결정 경계를 구분하는데 얼마나 중요한지를 학습
* 각 지지 벡터 사이의 마진이 가장 큰 방향으로 학습
* 지지 벡터 까지의 거리와 지지 벡터의 중요도를 기반으로 예측을 수행

![support vector machine](https://upload.wikimedia.org/wikipedia/commons/thumb/2/20/Svm_separating_hyperplanes.png/220px-Svm_separating_hyperplanes.png)

* H3은 두 클래스의 점들을 제대로 분류하고 있지 않음
* H1과 H2는 두 클래스의 점들을 분류하는데, H2가 H1보다 더 큰 마진을 갖고 분류하는 것을 확인할 수 있음

In [1]:
import multiprocessing #계산량이 많을 때 효율적인 프로세싱을 도움
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use(['seaborn-whitegrid']) #시각화 스타일 설정

In [2]:
from sklearn.svm import SVR, SVC #서포트 벡터 머신 알고리즘 제공/ SVR : sv회귀 , SVC : sv분류
from sklearn.datasets import load_boston, load_breast_cancer, load_diabetes, load_iris, load_wine #데이터셋 불러오기
from sklearn.pipeline import make_pipeline, Pipeline #특징 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공
from sklearn.model_selection import train_test_split, cross_validate, GridSearchCV #교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API 제공 (GridSearch 등)
from sklearn.preprocessing import StandardScaler, MinMaxScaler #preprocessing : 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등)
from sklearn.manifold import TSNE #고차원의 데이터를 그보다 낮은 2,3차원 데이터로 시각화하는데 쓰이는 알고리즘

* [(데이터)스케일링이란?](https://homeproject.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81-Data-Scaling)
*  [manifold란? TSNE알고리즘이란?](https://agiantmind.tistory.com/215)
*  [multiprocessing이란?](https://wikidocs.net/85603)

## SVM을 이용한 회귀 모델과 분류 모델

### [참고]분류 또는 회귀용 데이터 세트

| API | 설명 |
|-----|------|
| `datasets.load_boston()` | 미국 보스턴의 집에 대한 특징과 가격 데이터 (회귀용) |
| `datasets.load_breast_cancer()` | 위스콘신 유방암 특징들과 악성/음성 레이블 데이터 (분류용) |
| `datasets.load_diabetes()` | 당뇨 데이터 (회귀용) |
| `datasets.load_digits()` | 0에서 9까지 숫자 이미지 픽셀 데이터 (분류용) |
| `datasets.load_iris()` | 붓꽃에 대한 특징을 가진 데이터 (분류용) |

### SVM을 사용한 회귀 모델 (SVR)

In [3]:
#BOSTON(회귀용 데이터셋)
X, y = load_boston(return_X_y=True)#함수들의 매개변수 return_X_y를 True로 설정하면 Bunch 클래스가 아닌 특성 X와 타깃 y로 반환
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)
#random_state : 데이터 분할시 셔플이 이루어지는데 이를 위한 시드값 (int나 RandomState로 입력)
#X_train, X_test, y_train, y_test : 분할시킬 데이터로 train_test_split의 파라미터 안에 데이터(특성 X)와 레이블(타깃 y)을 둘 다 넣었을 경우의 반환이며, 데이터와 레이블의 순서쌍은 유지된다.

model = SVR()
model.fit(X_train, y_train)
#데이터를 어떤 모델에 적합시킬 때, 그 모델 클래스의 인스턴스의 fit() 메서드를 호출한다
print("학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("평가 데이터 점수: {}".format(model.score(X_test, y_test)))

학습 데이터 점수: 0.14581743554284632
평가 데이터 점수: 0.0008910347420971743


### SVM을 사용한 분류 모델 (SVC)

In [4]:
#BREAST_CANCER
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

model = SVC()
model.fit(X_train, y_train)

print("학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("평가 데이터 점수: {}".format(model.score(X_test, y_test)))

학습 데이터 점수: 1.0
평가 데이터 점수: 0.6223776223776224


## 커널 기법

* 입력 데이터를 고차원 공간에 사상해서 비선형 특징을 학습할 수 있도록 확장하는 방법
* scikit-learn에서는 Linear, Polynomial, RBF(Radial Basis Function)등 다양한 커널 기법을 지원

![kernel trick](https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_svc_0011.png)

In [None]:
#회귀(boston)

X, y = load_boston(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

#Linear SVR
linear_svr = SVR(kernel='linear')
linear_svr.fit(X_train, y_train)

print("Linear SVR 학습 데이터 점수: {}".format(linear_svr.score(X_train, y_train)))
print("Linear SVR 평가 데이터 점수: {}".format(linear_svr.score(X_test, y_test)))

#Polynomial SVR
polynomial_svr = SVR(kernel='poly')
polynomial_svr.fit(X_train, y_train)

print("Polynomial SVR 학습 데이터 점수: {}".format(polynomial_svr.score(X_train, y_train)))
print("Polynomial SVR 평가 데이터 점수: {}".format(polynomial_svr.score(X_test, y_test)))

#RBF SVR
rbf_svr = SVR(kernel='rbf')
rbf_svr.fit(X_train, y_train)

print("RBF SVR 학습 데이터 점수: {}".format(rbf_svr.score(X_train, y_train)))
print("RBF SVR 평가 데이터 점수: {}".format(rbf_svr.score(X_test, y_test)))

Linear SVR 학습 데이터 점수: 0.7153702841875516
Linear SVR 평가 데이터 점수: 0.6377861956176316


In [None]:
#분류(breast_cancer)

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

#Linear SVC
linear_svc = SVC(kernel='linear')
linear_svc.fit(X_train, y_train)

print("Linear SVC 학습 데이터 점수: {}".format(linear_svc.score(X_train, y_train)))
print("Linear SVC 평가 데이터 점수: {}".format(linear_svc.score(X_test, y_test)))

#Polynomial SVC
polynomial_svc = SVC(kernel='poly')
polynomial_svc.fit(X_train, y_train)

print("Polynomial SVC 학습 데이터 점수: {}".format(polynomial_svc.score(X_train, y_train)))
print("Polynomial SVC 평가 데이터 점수: {}".format(polynomial_svc.score(X_test, y_test)))

#RBF SVC
rbf_svc = SVC(kernel='rbf')
rbf_svc.fit(X_train, y_train)

print("RBF SVC 학습 데이터 점수: {}".format(rbf_svc.score(X_train, y_train)))
print("RBF SVC 평가 데이터 점수: {}".format(rbf_svc.score(X_test, y_test)))

## 매개변수 튜닝

* SVM은 사용하는 커널에 따라 다양한 매개변수 설정 가능
* 매개변수를 변경하면서 성능변화를 관찰

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

In [None]:
#Polynomial SVC
polynomial_svc = SVC(kernel='poly', degree=2, C=0.1, gamma='auto')  #기본값(degree=3(degree값은 poly만 있음) / C=1.0 / gamma='scale')
polynomial_svc.fit(X_train, y_train)

print("kernel=poly, degree={}, C={}, gamma={}".format(2, 0.1, 'auto'))
print("Polynomial SVC 학습 데이터 점수: {}".format(polynomial_svc.score(X_train, y_train)))
print("Polynomial SVC 평가 데이터 점수: {}".format(polynomial_svc.score(X_test, y_test)))

#실행시간 더딘 점 참고
#매개변수 튜닝하니 값이 훨씬 나아짐

In [None]:
#RBF SVC
rbf_svc = SVC(kernel='rbf', C=2.0, gamma='scale')
rbf_svc.fit(X_train, y_train)

print("kernel=rbf, C={}, gamma={}".format(2.0, 'scale'))
print("RBF SVC 학습 데이터 점수: {}".format(rbf_svc.score(X_train, y_train)))
print("RBF SVC 평가 데이터 점수: {}".format(rbf_svc.score(X_test, y_test)))

#C값과 gamma를 직접 이리저리 바꿔가며 최적을 찾아본다.

## 데이터 전처리

* SVM은 입력 데이터가 정규화 되어야 좋은 성능을 보임
* 주로 모든 특성 값을 [0, 1] 범위로 맞추는 방법을 사용(MinMaxScaler 사용)
* scikit-learn의 StandardScaler 또는 MinMaxScaler를 사용해 정규화

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

In [None]:
model = SVC()
model.fit(X_train, y_train)

print("학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("평가 데이터 점수: {}".format(model.score(X_test, y_test)))

In [None]:
#StandardScaler로 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
#스케일링해줬으니 다시 적합 실행 및 결과보기. 데이터 전처리 두번째 셀과 동일.
model = SVC()
model.fit(X_train, y_train)

print("학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("평가 데이터 점수: {}".format(model.score(X_test, y_test)))

In [None]:
#MinMaxScaler로 스케일링
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
#스케일링해줬으니 다시 적합 실행 및 결과보기
model = SVC()
model.fit(X_train, y_train)

print("학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("평가 데이터 점수: {}".format(model.score(X_test, y_test)))

## Kernel SVR

### 보스턴 주택 가격

In [None]:
# 1. 전처리 과정
# 1-1. 데이터 나누기
'''
boston = datasets.load_boston()
X = boston.data
y = boston.target

--> X, y = load_boston(return_X_y=True)
'''
X, y = load_boston(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# 1-2. 스케일링 과정
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# 1-3. 매개변수 튜닝(적합)
model = SVR(kernel='rbf')
model.fit(X_train, y_train)

In [None]:
# 1-4. 결과출력
print("RBF SVR 학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("RBF SVR 평가 데이터 점수: {}".format(model.score(X_test, y_test)))

In [None]:
# 5. 왜 점수가 낮게/높게 나오는지 확인
#TSNE 알고리즘: 데이터 포인트 사이의 거리를 가장 잘 보존하는 2차원 표현을 찾는 것
#n_components=n : n차원으로 시각화
X_comp = TSNE(n_components=1).fit_transform(X)
plt.scatter(X_comp, y)

In [None]:
# 6. 적합 후 예측결과 시각화
model.fit(X_comp, y)
predict = model.predict(X_comp)
plt.scatter(X_comp, y)
plt.scatter(X_comp, predict, color='r')

In [None]:
# 7. 교차검증 실행(cross validation)
estimator = make_pipeline(StandardScaler(), SVR(kernel='rbf'))
cross_validate(
    estimator = estimator,
    X=X, y=y,
    cv=5,
    n_jobs=multiprocessing.cpu_count(),
    verbose=True
)

In [None]:
# 8. try1: 그리트서치(GridSearchCV)이용해 파이프 파라미터 찾기
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__kernel': ['rbf', 'polynomial', 'sigmoid']}]

gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
# 9. 최적 찾기
gs.best_estimator_

In [None]:
# 10. try2: 위의 try1에서 최적의 커널로 나온 커널을 파이프라인에서 기본으로 설정하고, 다른 요소들을 param_grid에 추가하여 다시 최적 탐색
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__gamma': ['scale', 'auto'],
               'model__C':[1.0, 0.1, 0.01],
               'model__epsilon':[1.0, 0.1, 0.01]}]
#gamma, C, epsilon을 어떤 값을 취해야 최적일지 param_grid에 추가
gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
# 11. 다시 최적 찾기
gs.best_estimator_
# gamma='scale', C=1.0, epsilon=0.01일때 최적이라는 결과도출

### 당뇨병

In [None]:
#셀을 채워보세요. 앞선 보스턴 주택 가격과 동일하게 하면 됩니다. 단 데이터는 당뇨병 데이터셋을 불러와주세요.
# 1. 전처리 과정(불러오는 데이터만 다름)
# 1-1. 데이터 나누기
X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# 1-2. 스케일링 과정
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# 1-3. 매개변수 튜닝(적합)
model = SVR(kernel='rbf')
model.fit(X_train, y_train)

In [None]:
# 1-4. 결과출력
print("RBF SVR 학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("RBF SVR 평가 데이터 점수: {}".format(model.score(X_test, y_test)))

In [None]:
# 5. 왜 점수가 낮게/높게 나오는지 확인
#TSNE 알고리즘: 데이터 포인트 사이의 거리를 가장 잘 보존하는 2차원 표현을 찾는 것
#n_components=n : n차원으로 시각화
X_comp = TSNE(n_components=1).fit_transform(X)
plt.scatter(X_comp, y)

In [None]:
# 6. 적합 후 예측결과 시각화
model.fit(X_comp, y)
predict = model.predict(X_comp)
plt.scatter(X_comp, y)
plt.scatter(X_comp, predict, color='r')

In [None]:
# 7. 교차검증 실행(cross validation)
estimator = make_pipeline(StandardScaler(), SVR(kernel='rbf'))
cross_validate(
    estimator = estimator,
    X=X, y=y,
    cv=5,
    n_jobs=multiprocessing.cpu_count(),
    verbose=True
)

In [None]:
# 8. try1: 그리트서치(GridSearchCV)이용해 파이프 파라미터 찾기
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__kernel': ['rbf', 'polynomial', 'sigmoid']}]

gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
# 9. 최적 찾기
gs.best_estimator_

In [None]:
# 10. try2: 위의 try1에서 최적의 커널로 나온 커널을 파이프라인에서 기본으로 설정하고, 다른 요소들을 param_grid에 추가하여 최적 탐색
#gamma, C, epsilon을 어떤 값을 취해야 최적일지 param_grid에 추가
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__gamma': ['scale', 'auto'],
               'model__C':[1.0, 0.1, 0.01],
               'model__epsilon':[1.0, 0.1, 0.01]}]
#gamma, C, epsilon을 어떤 값을 취해야 최적일지 param_grid에 추가
gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
# 11. 다시 최적 찾기
gs.best_estimator_

## Kernel SVC

### 유방암

In [None]:
X, y = load_breast_cancer(return_X_y=True) #데이터 로드
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
model = SVC(kernel='rbf')
model.fit(X_train, y_train)

In [None]:
print("RBF SVR 학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("RBF SVR 평가 데이터 점수: {}".format(model.score(X_test, y_test)))

* SVR과 달리 SVC는 데이터를 보여준 후 그 바깥에 구분이 되는 부분에 대한 시각화를 위한 코드 추가해주어야 하므로 그에 따른 함수를 추가 작성한다

In [None]:
    """
    make_meshgrid(x, y, h=0.2)
    --> 매개변수 2개 = 2차원그리드 만드는 메소드

    Parameters
    ----------
    x: data to base x-axis meshgrid on
    y: data to base y-axis meshgrid on
    h: stepsize for meshgrid, optional(그리드 간격 설정, 필수설정X)

    Returns
    -------
    xx, yy : ndarray
    """  
#시각화
#SVR과 달리 추가된 메서드
def make_meshgrid(x, y, h=0.2):
  x_min, x_max = x.min()-1, x.max()+1
  y_min, y_max = y.min()-1, y.max()+1
  xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                       np.arange(y_min, y_max, h))
  
  return xx, yy 

In [None]:
    """
    classifier의 결정 경계에 대한 플롯 생성

    Parameters
    ----------
    ax: matplotlib axes object
    clf: a classifier
    xx: meshgrid ndarray
    yy: meshgrid ndarray
    params: dictionary of params to pass to contourf, optional
    """ 
#시각화
#SVR과 달리 추가된 메서드
def plot_contours(clf, xx, yy, **params):
  Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
  Z = Z.reshape(xx.shape)
  out = plt.contourf(xx, yy, Z, **params)
  #contourf: 채워진 2차원(Filled 2-D) 등고선 플롯
  #생성한 격자 행렬 좌표값들에 대해 Classifier의 predict() 메소드로 예측을 하여 contour plot의 높이에 해당하는 Z 값 구함

  return out 

[contourf 설명](https://kr.mathworks.com/help/matlab/ref/contourf.html#responsive_offcanvas)

In [None]:
#SVR과 달리 TSNE의 n_components값을 2로 줌
X_comp = TSNE(n_components=2).fit_transform(X)
X0, X1 = X_comp[:,0], X_comp[:,1]
xx, yy = make_meshgrid(X0, X1)

In [None]:
#SVR과 달라진 부분
model.fit(X_comp, y)

plot_contours(model,xx, yy, cmap=plt.cm.coolwarm, alpha=0.7)
plt.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')

In [None]:
estimator = make_pipeline(StandardScaler(), SVC(kernel='rbf'))

cross_validate(
    estimator = estimator,
    X=X, y=y,
    cv=5,
    n_jobs=multiprocessing.cpu_count(),
    verbose=True
)

In [None]:
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVC(kernel='rbf'))])

param_grid = [{'model__kernel': ['rbf', 'polynomial', 'sigmoid']}]

gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
gs.best_estimator_

In [None]:
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVC(kernel='rbf'))])

param_grid = [{'model__gamma': ['scale', 'auto'],
               'model__C':[1.0, 0.1, 0.01],
               'model__epsilon':[1.0, 0.1, 0.01]}]
#gamma, C, epsilon을 어떤 값을 취해야 최적일지 param_grid에 추가
gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
gs.best_estimator_

### 붓꽃

In [None]:
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
model = SVR(kernel='rbf')
model.fit(X_train, y_train)

In [None]:
print("RBF SVR 학습 데이터 점수: {}".format(model.score(X_train, y_train)))
print("RBF SVR 평가 데이터 점수: {}".format(model.score(X_test, y_test)))

In [None]:
X_comp = TSNE(n_components=1).fit_transform(X)
plt.scatter(X_comp, y)

In [None]:
model.fit(X_comp, y)
predict = model.predict(X_comp)
plt.scatter(X_comp, y)
plt.scatter(X_comp, predict, color='r')

In [None]:
estimator = make_pipeline(StandardScaler(), SVR(kernel='rbf'))
cross_validate(
    estimator = estimator,
    X=X, y=y,
    cv=5,
    n_jobs=multiprocessing.cpu_count(),
    verbose=True
)

In [None]:
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__kernel': ['rbf', 'polynomial', 'sigmoid']}]

gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
gs.best_estimator_

In [None]:
pipe = Pipeline([('scaler', StandardScaler()),
                 ('model', SVR(kernel='rbf'))])

param_grid = [{'model__gamma': ['scale', 'auto'],
               'model__C':[1.0, 0.1, 0.01],
               'model__epsilon':[1.0, 0.1, 0.01]}]
#gamma, C, epsilon을 어떤 값을 취해야 최적일지 param_grid에 추가
gs = GridSearchCV(
    estimator = pipe,
    param_grid = param_grid,
    n_jobs = multiprocessing.cpu_count(),
    cv=5,
    verbose=True
)

gs.fit(X, y)

In [None]:
gs.best_estimator_