분류 모델 : 데이터가 사상된 공간에서 경계

svm 알고리즘 : 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘

gamma : 커널 폭의 역수 1/r
    (작은값) -> 넓은 커널 영역, 많은 포인트 고려
    
c : 규제매개변수 (각 포인트의 중요도)
    (작은값) -> 제약이 큰 모델, 포인트의 영향력이 작아진다.

In [15]:
from sklearn.model_selection import train_test_split
from sklearn import datasets
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import mglearn

#한글을 출력하기 위한 import
#한글 font를 설정해준다.

from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname ="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font',family=font_name)

import matplotlib as mpl # -깨짐 현상을 해결하기 위햏 matplotlib을 import
mpl.rcParams['axes.unicode_minus'] = False # - 깨짐 현상을 해결하기 위한 구문



In [16]:
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer

#cancer에 cancer 데이터 저장
cancer = load_breast_cancer()

#cancer데이터 훈련, 테스트 셋으로 나누기
X_train, X_test, y_train, y_test = train_test_split(cancer.data,
                                                   cancer.target,
                                                   random_state = 0)

svc = SVC()
svc.fit(X_train, y_train)

print("훈련 세트 정확도: {:.2f}".format(svc.score(X_train, y_train)))
print("테스트 세트 정확도: {:.2f}".format(svc.score(X_test, y_test)))



훈련 세트 정확도: 0.90
테스트 세트 정확도: 0.94


In [8]:
#데이터 전처리

#훈련 세트에서 특성별 최소값 계산
min_on_training = X_train.min(axis=0)

#훈련 세트에서 특성별 (최대값 - 최소값) 범위 계산
range_on_training = (X_train - min_on_training).max(axis=0)

#훈련 데이터에 최소값을 빼고 범위로 나누면
#각 특성에 대해 최솟값은 0 최댓값은 1
X_train_scaled = (X_train - min_on_training) / range_on_training

#훈련세트에서 계산한 최솟값과 범위를 사용
X_test_scaled = (X_test - min_on_training) / range_on_training

In [10]:
#데이터 전처리를 한 데이터로 학습을 시킨다.
svc.fit(X_train_scaled,y_train)

#데이터 전처리 이후의
#훈련, 테스트 세트 정확도 출력
print("훈련 세트 정확도:{:.3f}".format(svc.score(X_train_scaled, y_train)))
print("테스트 세트 정확도:{:.3f}".format(svc.score(X_test_scaled, y_test)))


훈련 세트 정확도:0.984
훈련 세트 정확도:0.972


In [13]:
# svc 객체를 C = 1000으로 설정한다  /   C 가 클수록 제약완화
svc = SVC(C=1000)
svc.fit(X_train_scaled,y_train)

# 훈련, 테스트 세트의 정확도를 출력한다.
print("훈련 세트 정확도:{:.3f}".format(svc.score(X_train_scaled, y_train)))
print("훈련 세트 정확도:{:.3f}".format(svc.score(X_test_scaled, y_test)))


훈련 세트 정확도:1.000
훈련 세트 정확도:0.958


SVC 매개변수
C, gamma(RBF 커널), coef0(다항, 시그모이드), degree(다항차수)

#################################################################

SVC 장점

-강력하며 여러 종류의 데이터 셋에 적용 가능

-특성이 적을 때에도 복잡한 결정 경계 만듬 (커널 트릭)

0저차원 고차원에 모두 잘 맞음

##################################################################

단점

-샘플이 많을 경우 느림 (>100,000)

-데이터 전처리와 매개변수에 민감

-분석하기 어렵고 설명하기 어려움