# 5. 서포트 벡터머신

## 5.1 핵심개념

**서포트 벡터머신(SVM)은 뛰어난 성능으로 활용도가 높았던 분류 모델**입니다. <u>데이터 크기가 중간이하 이면서, 여러 변수를 기준으로 분류를 수행하는 다고 복잡한 과제에 적합한 머신러닝 기법</u>입니다. 종속변수 범주를 선형적으로 구분하거나 비선형적으로 분류하는 선 또는 초평면을 찾는 것이 핵심 과제 입니다.

<u>서포트 벡터머신에서는 어떻게 집단과 집단을 구분하는 최선의 선을 그을까가 핵심 사항</u>입니다. 2차원 평면의 경우 우리의 눈으로 직관적인 확인이 가능하지만 3개이상의 독립변수(차원-특성치)를 이용할때에는 분류 최적선을 찾는 것은 수학의 도움 없이는 어려운 작업입니다.

초평면 : 
서포트벡터 :
마진 : 

# 작성중

## 5.2 scikit-learn

**서포트 벡터머신은 sklearn.svm 패키지**에 속해 있습니다.
이중 **분류 알고리즘으로는 SVC(Support Vector Classification)** 이 있고, **회귀분석 알고리즘으로는 SVR(Support Vector Regression)** 이 있습니다.


|sklearn.svm|Support Vector Machines|
|:--|:--|
|sklearn.svm.LinearSVC() |Linear Support Vector Classification. |
|sklearn.svm.LinearSVR() |Linear Support Vector Regression. |
|sklearn.svm.NuSVC() |Nu-Support Vector Classification. |
|sklearn.svm.NuSVR() |Nu-Support Vector Regression. |
|sklearn.svm.OneClassSVM() |Unsupervised Outlier Detection. |
|sklearn.svm.SVC() |C-support Vector Classification. |
|sklearn.svm.SVR() |Epsilon-Support Vector Regression. |


**SVM 의 하이퍼파라미터로는 'C'와 'kernel'**이 있습니다.

|Hyper Parameter||
|--:|:--|
|C|디폴트 값은 '1'이며 작을 수록 모델이 단순 해지고 값이 커질수록 모델이 복잡해진다.<br/>C는 로그스케일 단위로 최적치 탐색을 권고 하고 있다. (0.01, 0.1, 1, 10, 100 등)|ㄴ
|kernel|rbf(기본값), linear, poly, sigmoid, precomputed가 있다.|

## 5.3 분석 코드

### Part1. 분류(Classification)

In [1]:
# 경고레벨조정
import warnings
warnings.filterwarnings("ignore")

# 데이터 로드
import pandas as pd
data = pd.read_csv("./extrafiles/breast-cancer-wisconsin.csv", encoding='utf-8')

# 컬럼정보 확인
print(data.columns)

# 독립변수/ 종속변수 분리
X = data[['code', 'Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses']]
y = data[['Class']]

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, stratify=y)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['code', 'Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses', 'Class'],
      dtype='object')
Class    0.349609
dtype: float64
Class    0.350877
dtype: float64


In [2]:
# SVM 적용
from sklearn.svm import SVC
model=SVC()
model.fit(X_scaled_train, y_train)
pred_train = model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.982421875

In [3]:
# 훈련데이터의 혼동행렬 작성
from sklearn.metrics import confusion_matrix
confusion_train = confusion_matrix(y_train, pred_train)
print("훈련데이터 오차행렬 : \n", confusion_train)

훈련데이터 오차행렬 : 
 [[329   4]
 [  5 174]]


![혼동행렬](./extrafiles/matrix.png)

In [6]:
# 훈련데이터의 분류 레포트 작성
from sklearn.metrics import classification_report
cfreport_train = classification_report(y_train, pred_train)
print("분류예측 레포트 : \n", cfreport_train)

분류예측 레포트 : 
               precision    recall  f1-score   support

           0       0.99      0.99      0.99       333
           1       0.98      0.97      0.97       179

    accuracy                           0.98       512
   macro avg       0.98      0.98      0.98       512
weighted avg       0.98      0.98      0.98       512



In [8]:
# 테스트데이터 예측결과 생성
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.9649122807017544

In [9]:
# 테스트데이터의 혼동행렬 작성
confusion_test = confusion_matrix(y_test, pred_test)
print("테스트데이터 오차행렬 : \n", confusion_test)

테스트데이터 오차행렬 : 
 [[106   5]
 [  1  59]]


In [10]:
# 테스트데이터의 분류 레포트 작성
from sklearn.metrics import classification_report
cfreport_test = classification_report(y_test, pred_test)
print("분류예측 레포트 : \n", cfreport_test)

분류예측 레포트 : 
               precision    recall  f1-score   support

           0       0.99      0.95      0.97       111
           1       0.92      0.98      0.95        60

    accuracy                           0.96       171
   macro avg       0.96      0.97      0.96       171
weighted avg       0.97      0.96      0.97       171



In [11]:
# 하이퍼 파라미터 튜닝 - Grid Search
from sklearn.model_selection import GridSearchCV
param_grid = [{'kernel':['rbf'], 'C':[0.001, 0.01, 0.1, 1, 10, 100],
             'gamma':[0.001, 0.01, 0.1, 1, 10, 100]},
             {'kernel':['linear'], 'C':[0.001, 0.01, 0.1, 1, 10, 100],
             'gamma':[0.001, 0.01, 0.1, 1, 10, 100]}]
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_scaled_train, y_train)

GridSearchCV(cv=5, estimator=SVC(),
             param_grid=[{'C': [0.001, 0.01, 0.1, 1, 10, 100],
                          'gamma': [0.001, 0.01, 0.1, 1, 10, 100],
                          'kernel': ['rbf']},
                         {'C': [0.001, 0.01, 0.1, 1, 10, 100],
                          'gamma': [0.001, 0.01, 0.1, 1, 10, 100],
                          'kernel': ['linear']}])

In [12]:
# 파라미터 튜닝 결과 확인
print("Best Parameter : {}".format(grid_search.best_params_))
print("Best Score : {:.4f}".format(grid_search.best_score_))
print("Test set Score : {:.4f}".format(grid_search.score(X_scaled_test, y_test)))

Best Parameter : {'C': 100, 'gamma': 0.01, 'kernel': 'rbf'}
Best Score : 0.9746
Test set Score : 0.9591


In [13]:
# 하이퍼 파라미터 튜닝2 - Randomized Search
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {'kernel':['rbf'], 'C':randint(low=0.001, high=100),'gamma':randint(low=0.001, high=100)}

random_search = RandomizedSearchCV(SVC(), param_distributions=param_distribs, n_iter=100, cv=5)
random_search.fit(X_scaled_train, y_train)

RandomizedSearchCV(cv=5, estimator=SVC(), n_iter=100,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001D3D7E06DF0>,
                                        'gamma': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001D3D44D42E0>,
                                        'kernel': ['rbf']})

In [14]:
# 파라미터 튜닝 결과값 확인
print("Best Parameter : {}".format(random_search.best_params_))
print("Best Score : {:.4f}".format(random_search.best_score_))
print("Test set Score : {:.4f}".format(random_search.score(X_scaled_test, y_test)))

Best Parameter : {'C': 59, 'gamma': 5, 'kernel': 'rbf'}
Best Score : 0.9629
Test set Score : 0.9649


**[종합정리]**

<u>서포트벡터머신은 다른 알고리즘에 비해 kernel 종류, C, gamma 등 하이퍼 파라미터가 다양한 편</u>이다. 그만큼 모델의 유연성이 뛰어난 편이다. 다만 이에 대한 이해가 깊어야 유연하게 사용할 수 있는 모델이기도 하다. 그러나 대규모 데이터에는 다소 느린 학습 속도를 보이는 단점도 존재한다.

### Part2. 회귀(Regression)

**서포트 벡터 머신의 회귀분석 알고리즘은 SVR 을 이용**합니다. kernel 종류는 'linear', 'poly', 'rbf', 'sigmoid', 'precomputed' 중 <u>'poly' 만이 정확도가 상식적인 수준으로 나타나며 나머지 kernel 들은 잘 맞지 않습니다. </u>

In [16]:
# 데이터 로드
data2 = pd.read_csv('./extrafiles/house_price.csv', encoding='utf-8')

print(data2.columns)

X = data2[data2.columns[1:5]]
y = data2[['house_value']]

print(X.columns)

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['housing_age', 'income', 'bedrooms', 'households', 'rooms',
       'house_value'],
      dtype='object')
Index(['income', 'bedrooms', 'households', 'rooms'], dtype='object')
house_value    189260.967812
dtype: float64
house_value    188391.001357
dtype: float64


In [17]:
# SVR 모델 적용
from sklearn.svm import SVR
model = SVR(kernel='poly')
model.fit(X_scaled_train, y_train)
pred_train = model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.45177025652823866

In [18]:
# 테스트 데이터 모델 적용
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.46997708096191404

In [20]:
# 회귀분석의 지표 R Square n RMSE
# RMSE (Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
import numpy as np
MSE_train = mean_squared_error(y_train, pred_train)
MSE_test = mean_squared_error(y_test, pred_test)
print("훈  련데이터 RMSE:", np.sqrt(MSE_train))
print("테스트데이터 RMSE:", np.sqrt(MSE_test))

훈  련데이터 RMSE: 70669.55244251259
테스트데이터 RMSE: 69600.08959938576


In [None]:
# 하이퍼 파라미터 튜닝 - Grid Search
from sklearn.model_selection import GridSearchCV
param_grid = {'kernel':['poly'], 'C':[0.01, 0.1, 1, 10],
             'gamma':[0.01, 0.1, 1, 10]}
grid_search = GridSearchCV(SVR(), param_grid, cv=5)
grid_search.fit(X_scaled_train, y_train)

In [None]:
# 파라미터 튜닝 결과 확인
print("Best Parameter : {}".format(grid_search.best_params_))
print("Best Score : {:.4f}".format(grid_search.best_score_))
print("Test set Score : {:.4f}".format(grid_search.score(X_scaled_test, y_test)))