In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Completer.use_jedi = False

서포트 벡터 머신(Support Vector Machine)  
서포트 벡터 머신은 벡터를 기준으로 클래스를 판별하는 방식으로 클래스를 구분하는 여러 방법 중 중심선과 경계선을 이용해 데이터를 구분한다. 경계선을 서포트 벡터라고 하며, 이것이 서포트 벡터 머신이라는 이름의 유래이다.

중심선을 그리기 위해서는 중심선에 수직인 벡터 $w$를 구하는 것이 중요하다. 중심선에서 수직인 벡터 $w$와 데이터 포인트 $x$를 내적했을 때 내적값 $c$가 되는 지점이 중심선이 되고 $w^T = c$라고 표현한다.

내적값 $c$가 되는 지점인 중심선을 기준으로 영역을 나눌 수 있다. 데이터 공간을 내적값이 $c$보다 큰 영역과 $c$보다 작은 영역으로 각각 나누면 중심선의 윗부분과 아랫부분으로 나눌 수 있다는 것을 알 수 있다.

서포트 벡터 머신은 마진(margin)을 최대화 하는 것이 목표이다. 마진이란 서포트 벡터 간 너비(width)를 의미한다.

소프트 마진(soft margin)  
서포트 벡트 머신은 데이터가 잘못 분류되는 경우를 고려하지 않는다. 하지만 잘못 분류된 데이터가 하나도 없다는 조건은 현실적으로 너무 엄격한 기준이므로 성립되기 어렵다. 소프트 마진은 기존 서포트 벡터 머신의 기준을 완화해서 잘못 분류된 데이터를 어느 정도 허용하는 방법이다.

커널 소프트 벡터 머신(Kernel Support Vector Machine)  
커널 소프트 벡터 머신이란 피쳐 공간을 변형한 후 서포트 벡터 머신을 적용하는 것을 의미한다.  
좌표 평면을 빳빳한 종이라 생각하고 종이 위에 데이터가 퍼져있다고 가정하면 종이를 구부렸을 때 기존 좌표 공간과 구부려진 공간의 데이터 좌표가 서로 다를 것이다. 구부러진 공간에 서포트 벡터 머신을 적용한 후 종이를 다시 펴면 데이터가 잘 분리된 것을 볼 수 있다.

서포트 벡터 머신 알고리즘을 활용해 와인 종류를 구분한다.

In [2]:
# 데이터 불러오기
from sklearn import datasets # 사이킷런이 제공하는 데이터셋을 사용하기 위해 import 한다.
raw_wine = datasets.load_wine() # 와인 데이터를 불러온다.

In [3]:
# 피쳐, 타겟 데이터 저장
X = raw_wine.data # 피쳐 데이터를 저장한다.
y = raw_wine.target # 타겟 데이터를 저장한다.
X.shape

(178, 13)

In [29]:
# 트레이닝, 테스트 데이터 분할
from sklearn.model_selection import train_test_split # 트레이닝, 테스트 데이터 분할을 위해 import 한다.
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state=0)
print(X_tn.shape, y_tn.shape, X_te.shape, y_te.shape) # 트레이닝 데이터와 테스트 데이터로 분할한다.

(133, 13) (133,) (45, 13) (45,)


In [30]:
# 데이터 표준화
from sklearn.preprocessing import StandardScaler # 데이터 표준화를 위해 import 한다.
std_scale = StandardScaler() # 표준화 스케일러 객체를 만든다.
# 표준화는 트레이닝 데이터를 기반으로 실행하므로 트레이닝 피쳐 데이터 X_tn을 표준화 스케일러에 적합시킨다.
X_tn_std = std_scale.fit_transform(X_tn) # 트레이닝 데이터를 적합 후 표준화 한다.
X_te_std = std_scale.transform(X_te) # 테스트 데이터를 표준화 한다.

In [37]:
# 모델 생성 후 데이터 학습
from sklearn.svm import SVC  # 서포트 벡터 머신 알고리즘을 사용하기 위해 import 한다.
# kernel 옵션을 이용해서 커널 함수 종류를 지정한다.
# kernel 옵션은 linear(선형), poly(다항식), rbf(방사 기저 함수, 기본값), sigmoid 중에서 지정 가능하다.
clf_svm = SVC(kernel='rbf') # 서포트 벡터 머신 모델을 만든다.
# 표준화된 트레이닝 피쳐 데이터 X_tn_std와 트레이닝 타겟 데이터 y_tn를 모델에 넣어서 서포트 벡터머신 알고리즘을 학습시킨다.
clf_svm.fit(X_tn_std, y_tn)

SVC()

In [38]:
# 테스트 데이터 예측
# 표준화된 테스트 데이터 X_te_std로 예측한다.
pred_svm = clf_svm.predict(X_te_std)
print(pred_svm)

[0 2 1 0 1 1 0 2 1 1 2 2 0 1 2 1 0 0 1 0 1 0 0 1 1 1 1 1 1 2 0 0 1 0 0 0 2
 1 1 2 0 0 1 1 1]


In [39]:
# 정확도 평가
from sklearn.metrics import accuracy_score # 모델의 정확도를 평가하기 위해 import 한다.
# accuracy_score() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 정확도를 계산한다.
accuracy = accuracy_score(y_te, pred_svm)
print(accuracy)

1.0


In [41]:
# 정밀도 평가
from sklearn.metrics import precision_score # 모델의 정밀도를 평가하기 위해 import 한다.
# precision_score() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 정밀도를 계산한다.
precision = precision_score(y_te, pred_svm, average=None)
print(precision)

[1. 1. 1.]


In [40]:
# 재현율 평가
from sklearn.metrics import recall_score # 모델의 재현율를 평가하기 위해 import 한다.
# recall_score() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 재현율를 계산한다.
recall = recall_score(y_te, pred_svm, average=None)
print(recall)

[1. 1. 1.]


In [42]:
# f1 score 평가
from sklearn.metrics import f1_score # 모델의 f1 score를 평가하기 위해 import 한다.
# f1_score() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 f1 score를 계산한다.
f1 = f1_score(y_te, pred_svm, average=None)
print(f1)

[1. 1. 1.]


In [43]:
# 혼돈 행렬 확인
from sklearn.metrics import confusion_matrix # 혼돈 행렬을 만들기 위해 import 한다.
# confusion_matrix() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 혼돈 행렬을 만든다.
conf_matrix = confusion_matrix(y_te, pred_svm)
print(conf_matrix)

[[16  0  0]
 [ 0 21  0]
 [ 0  0  8]]


In [44]:
# 분류 리포트 확인
from sklearn.metrics import classification_report # 분류 리포트를 출력하기 위해 import 한다.
# classification_report() 메소드의 인수로 실제 타겟 데이터(y_te)와 예측된 데이터(pred_svm)를 넘겨 분류 리포트를 만든다.
target_names = raw_wine.target_names
class_report = classification_report(y_te, pred_svm, target_names=target_names)
print(class_report)

              precision    recall  f1-score   support

     class_0       1.00      1.00      1.00        16
     class_1       1.00      1.00      1.00        21
     class_2       1.00      1.00      1.00         8

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

