In [1]:
%config Completer.use_jedi = False
import warnings
warnings.filterwarnings(action='ignore')

서포트 벡터 머신(Support Vector Machine)은 벡터를 기준을 클래스를 판별한다.  
클래스를 구분하는 여러 방법 중 서포트 벡터 머신은 중심선과 경계선을 이용해 데이터를 구분한다. 그 경계선을 서포트 벡터라고 하며, 이것이 서포트 벡터 머신이라는 이름의 유래이다.  

중심선을 그리기 위해서 중심선에 수직인 벡터 $w$를 구하는 것이 중요하다. 중심선에서 수직인 벡터 $w$와 데이터 포인트 $x$를 내적했을 때 내적값 $c$가 되는 지점이 중심선이 되고 $w^Tx = c$라고 표현한다.

내적값 $c$가 되는 지점인 중심선을 기준으로 영역을 나눌 수 있다. 데이터 공간을 내적값이 $c$보다 큰 영역과 $c$보다 작은 영역으로 각각 나누면 중심선의 윗부분과 아랫부분으로 나눌 수 있다는 것을 알 수 있다.

서포트 벡터 머신에서는 마진(margin)을 최대화하는 것이 목표이다. 마진이란 서포트 벡터 간 너비(width)를 의미한다.

소프트 마진(soft margin)  
서포트 벡터 머신은 데이터가 잘못 분류되는 경우를 고려하지 않는다. 하지만 잘못 분류된 데이터가 하나도 없다는 조건은 현실적으로 너무 엄격한 기준이므로 성립되기 어렵다.  
소프트 마진은 기존 서포트 벡터 머신의 기준을 완화해서 잘못 분류된 데이터를 어느 정도 허용하는 방법이다.

커널 서포트 벡터 머신(Kernel Support Vector Machine)  
커널 소프트 벡터 머신이란 피쳐 공간을 변형한 후 서포트 벡터 머신을 적용하는 것을 의미한다.  
좌표 평면을 빳빳한 종이라 생각하고 종이 위에 데이터가 펴져있다고 가정하면 종이를 구부렸을 때 기존 좌표 공간과 구부러진 공간의 데이터 좌표가 서로 다를 것이다. 구부러진 공간에 대해서 서포트 벡터 머신을 적용한 후 종이를 다시 펴면 데이터가 잘 분리된 것을 볼 수 있다.

서포트 벡터 회귀(Support Vector Regression)  
서포트 벡터 머신이 분류 모형을 생성하는데 사용한다면 서포트 벡터 회귀는 서포트 벡터를 회귀 모형을 만드는 데 활용하는 방법이다.

서포트 벡터 머신 알고리즘을 활용해 와인 종류를 구분한다.

In [2]:
# 데이터 불러오기
from sklearn import datasets # 와인 데이터를 사용하기 위해 import 한다.
raw_wine = datasets.load_wine() # 와인 데이터를 불러온다.

In [3]:
# 피쳐/타겟 데이터 지정
X = raw_wine.data # 와인 피쳐 데이터를 저장한다.
y = raw_wine.target # 와인 타겟 데이터를 저장한다.

In [4]:
# 트레이닝/테스트 데이터 분할
from sklearn.model_selection import train_test_split # 트레이닝/테스트 데이터 분할을 위해 import 한다.
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state=0) # 트레이닝 데이터와 테스트 데이터로 분할한다.
print(X_tn.shape, X_te.shape)

(133, 13) (45, 13)


In [5]:
# 데이터 표준화
from sklearn.preprocessing import StandardScaler # 데이터 표준화를 위해 import 한다.
std_scale = StandardScaler() # 표준화 스케일러 객체를 만든다.
# 표준화는 트레이닝 데이터를 기반으로 실행하므로 트레이닝 피쳐 데이터 X_tn을 표준화 스케일러에 적합시킨다.
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn) # 트레이닝 피쳐 데이터 X_tn을 표준화 한다.
X_te_std = std_scale.transform(X_te) # 테스트 피쳐 데이터 X_te를 표준화 한다.