In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Completer.use_jedi = False
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.family'] = 'NanumGothicCoding'
plt.rcParams['font.size'] = 10
import seaborn as sns

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import mean_squared_error  
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
from sklearn.metrics import precision_score 
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

***
서포트 벡터 머신(Support Vector machine)은 벡터를 기준으로 클래스를 판별하는 방식으로 클래스를 구분하는 여러 방법 중 중심선과 경계선을 이용해  
데이터를 구분한다.  
경계선을 서포트 벡터라고하며, 이것이 서포트 벡터 머신이라는 이름의 유래이다.

중심선을 그리기 위해서는 중심선에 수직인 벡터 w를 구하는 것이 중요하다. 중심선에 수직인 벡터 w와 테이터 포인트 x를 내적했을 때 내적값 c가 되는 지점이  
중심선이 되고 $w^T = c$라고 표현한다.  

내적값 c가 되는 지점인 중심선을 기준으로 영역을 나눌 수 있다. 데이터 공간을 내적없이 c보다 큰 영역과 c보다 작은 영역으로 각각 나누면  
중심선의 윗부분과 아랫부분을 나눌 수 있다는 것을 알 수 있다.  

서포트 벡터 머신은 마진(Margin)을 최대화하는 것이 목표이다.  
마진이란 서포트 벡터간 너비를 의미한다.  
***

소프트 마진(Soft Margin)  
서포트 벡터 머신은 데이터가 잘못 분류되는 경우를 고려하지 않는다. 하지만 잘못 분류된 데이터가 하나도 없다는 조건은 현실적으로 너무 엄격한 기준이므로 성립되기 쉽지 않다.  
 소프트 마진은 기존 서포트 벡터 머신의 기준을 완화해서 잘못 분류된 데이터를 어느 정도 허용하는 방법이다.
***

커널 소프트 벡터 머신(Kernel Support Vector Machine)  
커널 소프트 벡터 머신이란 피쳐 공간을 변형한 후 서포트 벡터 머신을 적용하는 것을 의미한다.  
좌표 평면을 평평한 종이라고 생각하고 종이 위에 데이터가 퍼져있다고 가정하면, 종이를 구부렸을 때 기존 좌표 공간과 구부러진 공간의 데이터 좌표가 서로 다를 것이다.  
구부러진 공간에 서포트 벡터 머신을 적용한 후 종이를 펴면 데이터가 잘 분리된 것을 볼 수 있다.
***

와인 데이터를 사용해 와인 종류를 분류하는 모델을 생성하고 학습시킨다.
***

In [2]:
# 데이터 불러오기
raw_data = datasets.load_wine() # 사이킷런이 제공하는 와인 데이터를 불러온다.

# 피쳐, 레이블 데이터 저장
xData = raw_data.data # 피쳐 데이터를 저장한다.
yData = raw_data.target # 피쳐 데이터에 따른 레이블을 저장한다.
print(xData.shape, yData.shape)


# 학습 데이터와 테스트 데이터로 분할
x_train, x_test, y_train, y_test = train_test_split(xData, yData, random_state=0)
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

# 데이터 표준화
std_scale = StandardScaler() # 표준화 스케일러 객체를 만든다.
x_train = std_scale.fit_transform(x_train) # 학습 데이터를 스케일러로 표준화하고 적용한다.
x_test = std_scale.transform(x_test) # 테스트 데이터를 학습 데이터로 표준화된 스케일러에 적용한다.

#  모델 생성 후 데이터 학습
from sklearn.svm import SVC # 서포트 벡터 머신을 사용하기 위해 import 한다.

# 서포트 벡터 머신 모델을 만든다.
#서포트 벡터 머신 모델의 kernel 속성으로 커널 함수 종류를 지정해서 모델을 만든다.
# kernel 속성의 기본값은 'rbf'(방사기저함수)이고 'linear'(선형함수), 'poly'(다항식), 'sigmoid'(시그모이드) 중에서 지정 가능하다.
# 학습된 모델로 테스트 데이터를 예측할 때 predict()일 경우 문제 없지만,  
# 예측 결과를 비율로 얻어오는 predict_proba()일 경우 probability 속성을 True로 설정해야한다.
clf = SVC(kernel='rbf', probability=True)

# 표준화된 학습 데이터 x_train와 학습 데이터에 따른 레이블 데이터 y_train으로 서포트 벡터 머신 모델에 학습시킨다.
clf.fit(x_train, y_train)


(178, 13) (178,)
(133, 13) (45, 13) (133,) (45,)


SVC(probability=True)

***
학습된 모델로 테스트 데이터를 예측한다.
***

In [5]:
#predict() 메소드의 인수로 표준화된 테스트 데이터를 넘겨서 예측한다.
predict = clf.predict(x_test)
# predict_proba() 메소드를 사용하려면 서포트 벡터 머신 모델 생성시 probability=True 속성을 반드시 지정해줘야한다.
#predict = clf.predict_proba(x_test) 
print(predict)

[0 2 1 0 1 1 0 2 1 1 2 2 0 1 2 1 0 0 1 0 1 0 0 1 1 1 1 1 1 2 0 0 1 0 0 0 2
 1 1 2 0 0 1 1 1]


***
학습된 모델을 평가한다.
***

In [6]:
# 혼동 행렬
conf_matrix = confusion_matrix(y_test, predict)
print(conf_matrix)

[[16  0  0]
 [ 0 21  0]
 [ 0  0  8]]


In [7]:
#분류 리포트
class_report = classification_report(y_test, predict, target_names=raw_data.target_names)
print(class_report)

              precision    recall  f1-score   support

     class_0       1.00      1.00      1.00        16
     class_1       1.00      1.00      1.00        21
     class_2       1.00      1.00      1.00         8

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

