### SVM(Support Vector Machine)
- 데이터를 분류하는 결정 경계선을 찾아 분류하는 것 
- Support Vector는 이 결정 경계선과 가장 근접한 데이터 포인트
- Margin은 Suppoer Vector와 결정 경계선의 거리를 의미 
- svm의 목표는 이 margin을 최대로 하는 결정 경계선을 찾는 것
- margin이 클수록 새로운 데이터에 대해 안정적으로 분류할 가능성이 높다.  

#### 비용(cost)
- 약간의 오류를 허용하여 margin을 높힌다. 
- 비용이 낮을수록 margin은 최대한 높이고 학습 에러율을 증가시키는 방향으로 경계선이 생성 
- 비용이 높을수록 margin은 낮아지고 학습 에러율을 감소 시키는 방향으로 경계선이 생성. 

#### 결정 경계선
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 결정
- 커널 트릭 : 선형분리가 주어진 차원에서 불가능할 경우 , 비용과 gamma를 조절해서 마진의 크기를 결정 


In [1]:
import pandas as pd

In [3]:
train = pd.read_csv("../Data/baseketball_train.csv")
test = pd.read_csv("../Data/baseketball_test.csv")

#### SVM의 최적의 파라미터 찾기
SVM의 파라미터는 2가지가 있음     
1. C : 비용(Cost), 결정 경계선의 마진을 결정하는 파라미터 입니다.       
2. gamma : 커널의 데이터포인트의 표준편차를 결정하는 파라미터.     
결과적으로 C가 클수록 결정 경계선과 서포트벡터의 마진이 작아진다.    
결과적으로 gamma가 클수록 결정경계선이 데이터포인트와 가까워 집니다. 


#### GridSearch를 이용하여 최적의 C와 gamma 구하기

In [4]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC

In [5]:
def svc_param_selection(train_data, train_target, nfolds):
    svc_parameters = [
                {'kernel':['rbf'], 
                # kernel이 linear이면 C parameter만,
                # kernel이 rbf이면 C와 Gamma를 모두 사용
                'gamma' : [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
                'C' : [0.01, 0.1, 1, 10, 100, 1000]
                }
    ]
    clf = GridSearchCV(
            SVC(),
            svc_parameters,
            cv=nfolds
    )
    clf.fit(train_data, train_target)
    print(clf.best_params_)
    return clf

In [6]:
train_data = train[['3P', 'BLK']]
train_target = train['Pos']
clf = svc_param_selection(train_data, train_target, 10)

{'C': 1, 'gamma': 1, 'kernel': 'rbf'}


In [7]:
test_data = test[['3P', 'BLK']]
test_target = test['Pos']
pred = clf.predict(test_data)
accuracy_score(test_target, pred)

0.95