# SVM(Support Vector Machine)
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절한다.
- 커널 트릭 : 선형 분리가 주어진 차원에서 불가능할 경우 고차원으로 데이터를 옮기는 효과를 찾음. 비용(C)과 gamma(RBF 커널)을 조절해서 마진의 크기를 조절
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차의 조정변수를 감마라고 한다.

### 파라미터 튜닝
: 정확도를 높이기 위해 비용(C)와 감마의 수치를 조정함으로써 정확도를 높일 수 있음.
- 비용 : 마진의 너비 조절 변수, 클수록 마진너비가 좁아지고 작을수록 마진 너비가 넓어진다.
- 감마 : 커널의 표준편차 조절변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고 클수록 데이터포인트가 클수록
데이터포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.


In [2]:
import pandas as pd

In [3]:
# svm의 목표는 선과 점사이의 거리인 margin을 최대로할 수 잇는 선을 찾는 것
# 비용(오차)을 주고라도 일반화 가능한 모델이 좋다.


In [4]:
train = pd.read_csv("../Data/basketball_train.csv")
test = pd.read_csv("../Data/basketball_test.csv")

In [7]:
train.head()

Unnamed: 0,Player,Pos,3P,TRB,BLK
0,Alex Abrines,SG,1.4,1.3,0.1
1,Marcus Smart,SG,1.2,3.9,0.4
2,Chris Andersen,C,0.0,2.6,0.6
3,Jodie Meeks,SG,1.6,2.1,0.1
4,Ian Mahinmi,C,0.0,4.8,0.8


### GridSearch를 이용하여 C와 gamma구하기

In [11]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

In [17]:
def svc_param_selection(X,y,nfolds):
    svm_parameters = [
        {
            'kernel' : ['rbf'], # kernel이 linear이면 C Parameter만 사용 rbf면 c와 감마 둘다 사용
            'gamma' : [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
            'C' : [0.01, 0.1, 1, 10, 100, 1000] #보통 0.1
        }
    ]
    clf = GridSearchCV(SVC(), svm_parameters, cv=nfolds)
    clf.fit(X,y)
    print(clf.best_params_) # 계산하면서 결과값 보여주는 것이 끝에 언더바가 하나 붙어있음
    return clf


In [18]:
x_train = train[['3P','BLK']]
y_train = train['Pos']
clf = svc_param_selection(x_train,y_train,10)

{'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}


In [19]:
x_test = test[['3P','BLK']]
y_test = test['Pos']
clf.score(x_test,y_test)


0.95