# SVM(Support Vector Machine)
- 선형 SVM : 커널을 사용 하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절     
- 커널 트릭 : 선형 분리가 주어진 차원에서 불가능한 경우 고차원으로 데이터를 옮기는 효과를 찾음. 비용(C)과 gamma(RBF커널)을 조절해서 Margin의 크기를 조절    
- 함수의 표준 편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차의 조정변수를 감마라고 한다.     

![](../Data/a.png),![](../Data/s.png)
- Margin이 커야한다.


----
![](../Data/v.png)
- 1번이 더 좋다. 2번은 과대적합이 발생한다.
- cost(비용)이 낮을수록 margin이 크게 발생한다.
- cost는 오차의 범위이다.

### 파라미터 튜닝
: 정확도를 높히기 위해 비용(C)과 감마의 수치를 조정함으로써 정확도를 높일 수 있음.   
- 비용 : Margin 너비 조절 변수, 클수록 Margin 너비가 좁아지고 작을수록 Margin 너비가 넓어진다.
- 감마 : 커널의 표준편차 조절 변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고 클수록 데이터 포인트가
결정경계에 영향을 미쳐서 경계가 구부러진다.

In [1]:
import pandas as pd

In [2]:
train = pd.read_csv("../Data/basketball_train.csv")
test = pd.read_csv("../Data/basketball_test.csv")

### GridSearch를 이용하여 C와 gamma구하기

In [4]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

In [13]:
def svc_parma_selection(X, y, nfolds):
    svm_parameters = [
        {
            'kernel' : ['rbf'], # kernel이 liner이면 C Parameter만 사용
            'gamma' : [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
            'C' : [0.01, 0.1, 1, 10, 100, 1000]
        }
    ]
    clf =GridSearchCV(SVC(), svm_parameters, cv =nfolds) #svm_parameters을 정의하고 cv =nfolds nfolds번만 돌림거임
    clf.fit(X, y)
    print(clf.best_params_)
    return clf # 최저값을 준다.

In [10]:
x_train = train[['3P', 'BLK']]
y_train = train['Pos']
clf = svc_parma_selection(x_train, y_train, 10)

{'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}


In [11]:
x_test = test[['3P', 'BLK']]
y_test = test['Pos']
clf.score(x_test,y_test)

0.95