# SVM 
* 변수들 중 r,c가 존재하는데 이는 둘다 커질수록 복잡해 지는 경향을 지님
* r은 매개변수로서 훈련 sample이 미치는 영향이며 작을수록 kernel 반경이 커서 많은 sample이 영향을 미쳐 부들부들
* c는 변수들의 영향력을 의미하며 클 수록 영향력이 커져서 복잡해짐

### 실습 코드 예제

In [1]:
from scipy import linalg
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib import colors

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

In [4]:
# Step0. Load data
import sklearn.datasets
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
data = load_breast_cancer()
X = data.data
y = data.target

# Step1. Train test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,random_state=123, stratify=y)

# Step2. Instantiate a model by specifying model hyperparameters
from sklearn.svm import SVC
svm = SVC(kernel="linear")

# Step3. Train / fit the model to the data
svm.fit(X_train, y_train)

# Step4. Score performance / Make prediction
svm.score(X_test, y_test)

0.9532163742690059

In [5]:
# Make a new data set keeping only the support vectors [support vecor을 지닌 데이터를 형성]
print("Number of original examples", len(X))
print("Number of support vectors", len(svm.support_))
X_small = X_train[svm.support_]
y_small = y_train[svm.support_]

# Train a new SVM using only the support vectors
svm_small = SVC(kernel="linear")     #여기서 시행 , 각각의 변수도 설정의 가능함
svm_small.fit(X_small, y_small)

Number of original examples 569
Number of support vectors 43


SVC(kernel='linear')

In [6]:
svm_small.score(X_test, y_test)

0.9532163742690059

### kernel은 데이터의 특성을 증가시키지 않으며 무한한 차원으로 진행을 시킴
* 2개의 자주 이용하는 방법으로 진행을 함
* 제일 좋은 parameter을 찾는 과정 임으로 이걸 먼저 시행하는게 더 효율적일 듯

In [8]:
from sklearn.model_selection import GridSearchCV   #제일 좋
# Instantiate an RBF SVM
svm = SVC()

# Instantiate the GridSearchCV object and run the search
parameters = {'C':[0.1, 10], 'gamma':[0.01, 0.1], 'kernel': ['linear', 'rbf']}
searcher = GridSearchCV(svm, parameters)   #가장좋은 hyperparameter을 찾는 과정임
searcher.fit(X_train, y_train)

# Report the best parameters and the corresponding score
print("Best CV params", searcher.best_params_)
print("Best CV accuracy", searcher.best_score_)

# Report the test accuracy using these best parameters
print("Test accuracy of best grid search hypers:", searcher.score(X_test, y_test))

Best CV params {'C': 10, 'gamma': 0.01, 'kernel': 'linear'}
Best CV accuracy 0.9572784810126581
Test accuracy of best grid search hypers: 0.9649122807017544


### SVM을 위한 데이터의 전처리 시행
* 데이터의 range가 클 시 정규화를 통해 모든 값을 0~1사이로 맞추는 과정을 실시
* 이걸 제일 먼저 해야 하는게 더 나을듯 싶음(시간이 나면 하자)

In [10]:
min_on_training = X_train.min(axis=0)
range_on_training = (X_train-min_on_training).max(axis=0)

X_train_scaled = (X_train-min_on_training)/ range_on_training
X_test_scaled = (X_test-min_on_training)/range_on_training   #동일하게 전처리를 시행 함
