# SVM (Support Vector Machine)
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절.   
- 커널 트릭 : 선형 분리가 주어진 차원에서 불가능할 경우 고차원으로 데이터를 옮기는 효과를 찾음.   
비용(Cost) 와 gamma(RBF 커널)을 조절해서 마진의 크기를 조절   
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차릐 조정변수를 감마라고 한다.

### 파라미터 튜닝
- 정확도를 높이기 위해 비용(C) 와 감마의 수치를 조정함으로써 정확도를 높일 수 있음.    
- 비용 : 마진의 너비 조절 변수, 클수록 마진너비가 좁아지고 작을수록 마진 너비가 넓어진다.
- 감마(곡률) : 커널의 표준편차, 조절변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고 클수록 데이터포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.
- (커널이 커지면 곡선이 된다. 커널이 크면 과대적합이 되어서 C, 감마 조절을 잘해야함)


In [35]:
import pandas as pd

In [36]:
train = pd.read_csv("../Data/basketball_train.csv")
test = pd.read_csv("../Data/basketball_test.csv")

### GridSearch를 이용하여 C와 gamma 구하기
- Grid(격자)

In [37]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

In [41]:
def svc_param_selection(X, y, nfolds):
    # GridSearchCV 에서 써야할것을 먼저 정의해줌
    svc_parameters = [
        {
            'kernel':['rbf'], # Kernel이 linear(직선 = 'rbf')이면 C Parameter만 사용
            'gamma':[0.00001, 0.0001, 0.001, 0.01, 0.1, 1], # 곡률 범위 정해주고
            'C' : [0.01, 0.1, 1, 10 ,100, 1000]
        }
    ]
    #GridSearchCV(쓸 모델, 위에서 정의한것)
    clf = GridSearchCV(SVC(),svc_parameters, cv = nfolds)
    clf.fit(X, y)
    print(clf.best_params_)
    return clf

In [42]:
x_train = train[['3P','BLK']]
y_train = train["Pos"]
clf = svc_param_selection(x_train,y_train,10)


{'C': 0.1, 'gamma': 1, 'kernel': 'rbf'}


In [44]:
x_test = test[['3P','BLK']]
y_test = test['Pos']
clf.score(x_test, y_test)

0.95