* 서포트 벡터 머신 장점
    * 속도가 빠르다
    * 대부분의 머신러닝 지도학습 알고리즘들이 학습 데이터를 모두 사용하여 모델을 학습하는 반면 SVM은 결정 경계를 정의하는 서포트 벡터만 잘 골라내면
    * 나머지 중요하지 않은 수 많은 데이터 포인트들을 무시할 수 있기 때문에
    * 속도가 매우 빠름

* 하드 마진 (hard margin)
    * 모든 학습 샘플이 경계 바깥쪽에 올바르게 분류되도록 하는 마진 분류
    * 훈련 세트가 선형적으로 구분되는 경우에만 가능
    * 아웃라이어를 허용하지 않고 기준을 까다롭게 설정
    * 서포트 벡터와 결정 경계 사이의 거리가 좁음
    * 즉, 마진이 작아짐
    * 이 경우, 오버피팅 (과적합) 발생 

* 소프트 마진 (soft margin)
    * 마진 위반 (margin violation) 사례의 발생 정도를 조절하면서
    * 결정 경계의 폭을 최대로 유지하는 마진 분류
    * 마진 위반 : 학습 샘플이 결정 경계를 넘어 해당 클래스 반대편에 위치하는 샘플 
    * 마진 안에 아웃라이어 포함시켜 결정 계를 느슨하게 설정
    * 서포트 벡터와 결정 경계 사이의 거리가 멀어짐
    * 마진이 커짐
    * 이 경우 언더피팅 (과소적합) 발생 가능 

* 사이킷런의 SVM 클래스 사용
    * SVM 클래스 최적화 할때
    * 하드마진과 소프트 마진을 설정하기 위해 C (cost) 파라미터 사용
    * C : 규제 강도
        * 값이 클수록 하드 마진
        * 값이 작을수록 소프트 마진
        * 적절한 C값을 찾는 것이 중요


* 서포트 벡터 유형
    * 선형 SVM
    * 비선형 SVM
        * 커널 기법 사용
        * 입력 자료를 다차원 공간으로 맵핑하는 기법
        * 비선형 분류도 효율적으로 수행
* 커널 기법
    * 주어진 데이터를 고차원 공간으로 매핑하는 것
    * 고차원 공간에 매핑되고 나면 원래 차원에서는 보이지 않던 선형 분류 방법이 보임 

* SVM에서 데이터를 고차원 공간에 매핑하는 방법 크게 2가지
1. 다항식 커널 SVM
    * 개체간의 고차원 상의 관계를 계산하여
    * 소프트 마진 분류기로 찾아내는 방식 
    * 원래 특성의 가능한 조합을 지정된 차수까지 모두 계산 
2. RBF(Radical Basis Function)
    * 방사 기저 함수
    * 가우시안 분포와 유사해서 가우시안 커널로도 불림
    * 유사성 또는 서로 얼마나 가까운지를 계산
    * 다항식 커널의 경우 일부 지정된 차수까지만 계산하지만
    * RFB는 무한하게 확장
    * 모든 차수의 다항식을 고려
    * 선형 SVM으로 분류하기 어려운 경우 가장 널리 사용하는 방식

In [4]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

In [5]:
# 한글 문제
# matplotlib의 기본 폰트에서 한글이 지원되지 않기 때문에
# matplotlib의 폰트 변경 필요
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':  # 맥OS 
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 윈도우
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system...  sorry~~~')

Unknown system...  sorry~~~


In [None]:
iris = load_iris()
X = iris.data[:,[2,3]] # 세번째, 네번째
# petal_length(꽃잎 길이)와 petal_width (꽃잎의 너비)

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)


# 정규화
sc = StandardScaler()
sc.fit(X_train)
x_train_scaled = sc.transform(x_train)
x_test_scaled = sc.transform(x_test)