# SVM(Support Vector Machine)
: 경계선과 support vector의 거리 'margin'이 최대가 되는 경우가 최선   
: 비용(cost) == 오차
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조정한다.   
- 커널 트릭 : 선형분리가 주어진 차원에서 불가능할 경우, 고차원으로 데이터를 옮기는 방법. 비용과 gamma(RBF 커널)을 조절해서 마진의 크기를 조정
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며, 이 표준편차의 조정변수를 gamma라고 한다.

### 파라미터 튜닝
: 정확도를 높이기 위해 비용과 감마의 수치를 조정함으로써 정확도를 높일 수 있음.
- 비용 : 마진의 너비 조절 변수, 클수록 마진의 너비가 좁아지고 작을수록 마진의 너비가 넓어진다.
- 감마 : 커널의 표준편차 조절변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고    
클수록 데이터포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.

In [2]:
import pandas as pd

In [3]:
train = pd.read_csv('../data/basketball_train.csv')
test = pd.read_csv('../data/basketball_test.csv')

### Grid Search를 이용하여 C와 gamma 구하기

In [4]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV # c, gamma

In [5]:
def svc_param_selection(X, y, nfolds):
    svm_parameters = [
        {
            'kernel':['rbf'], # kernel이 linear이면 C Parameter만 사용
            'gamma':[0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
            'C':[0.01, 0.1, 1, 10, 100, 1000]
        }
    ]
    clf = GridSearchCV(SVC(), svm_parameters, cv=10)
    clf.fit(X, y)
    print(clf.best_params_)
    return clf

In [8]:
x_train = train[['3P','BLK']]
y_train = train['Pos']

clf = svc_param_selection(x_train, y_train, 10) # svm C, gamma, kernel

{'C': 1, 'gamma': 1, 'kernel': 'rbf'}


In [9]:
x_test = test[['3P','BLK']]
y_test = test['Pos']

clf.score(x_test, y_test)

0.95