# SVM (Support Vector Machine)
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절
- 커널 트릭 : 선형 분리가 주어진 차원에서 불가능할 경우 고차원으로 데이터를 옮기는 효과를 찾음. 비용(C)과 gamma(RBF 커널)을 조절해서 마진의 크기를 조절
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차의 조정변수를 감마라고 한다.

### 파라미터 튜닝
: 정확도를 높히기 위해 비용(C)과 감마의 수치를 조정함으로써 정확도를 높일 수 있음.
- 비용 : 마진 너비 조절 변수, 클수록 마진 너비가 좁아지고, 작을수록 마진 너비가 넓어진다. (비용 : 오차)
- 감마 : 커널의 표준편차 조절변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고 (직선을 이루고),     
클수록 데이터 포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.(곡선을 이룬다)
        
*커널이 너무 크면 과대적합이 된다. C와 감마를 잘 조절하는게 중요하다*


In [1]:
import pandas as pd

In [2]:
train = pd.read_csv('../Data/basketball_train.csv')
test = pd.read_csv('../Data/basketball_test.csv')

### GridSearch를 이용하여 C와 gamma 구하기

In [3]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

In [4]:
def svc_param_selection(X, y, nfolds):
    svm_parameters = [
        {
            'kernel' : ['rbf'], # kernel 이 linear이면 C Parameter만 사용(직선으로만 찾을거야) , rdf 면 C와 gamma를 모두 사용 (곡선까지 동원해서 찾을거야)
            'gamma' : [0.00001, 0.0001, 0.001 , 0.01, 0.1, 1], # 범위
            'C' : [0.01, 0.1, 1, 10, 100, 1000] #
        }
    ]
    clf = GridSearchCV(
        SVC(), # 무슨 모델 쓸거야
        svm_parameters, # 옵션들 한번에 입력 
        cv = nfolds # 교차검증 횟수 10번
        )
    clf.fit(X , y) # 학습
    print(clf.best_params_) # best_params_ : 최적의 결과값
    # 맨 끝에 _ 가 있는 변수는 함부로 쓰면 안됨
    return clf

In [5]:
x_train = train[['3P' , 'BLK']]
y_train = train['Pos']
clf = svc_param_selection(x_train, y_train, 10) # 학습까지 완료 된것

{'C': 1, 'gamma': 1, 'kernel': 'rbf'}


In [6]:
x_test = test[['3P','BLK']]
y_test = test['Pos']
clf.score(x_test , y_test)

0.95

---