# SVM(SUpport Vector Machine)
- 선형 SVM: 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절
- 커널 트릭: 선형 분리가 주어진 차원에서 불가능할 경우 고차원으로 데이터를 옮기는 효과를 찾음. 비용(C)과 감마(RBF커널)을 조절해서 마진의 크기를 조절
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차의 조정변수를 감마라고 한다

### 파라미터 튜닝
: 정확도를 높이기 위해 비용(C)과 감마의 수치를 조정
- 비용: 마진 너비 조절 변수. 클수록 마진너비가 좁아지고 작을수록 마진 너비가 넓어진다.
- 감마: 커널의 표준편차 조절변수. 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고 클수록 데이터포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.

In [41]:
import pandas as pd

train = pd.read_csv('data/basketball/train.csv')
test = pd.read_csv('data/basketball/test.csv')

### GridSearch를 이용해 C와 Gamma 구하기

In [42]:
# import svm
from sklearn.svm import SVC
# import grid search
from sklearn.model_selection import GridSearchCV

In [43]:
def svc_param_selection(X, y, nfolds):
  svm_parameters = [
    {
      'kernel': ['rbf'], # kernerl이 linear인 경우 C Parameter만 사용. kernel이 rbf인 경우 gamma, C Parameter를 사용
      'gamma': [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
      'C': [0.01, 0.1, 1, 10, 100, 1000]
    }
  ]

  gs = GridSearchCV(SVC(), svm_parameters, cv=nfolds)
  gs.fit(X, y)
  print(gs.best_params_)
  return gs

In [44]:
x_train = train[['3P', 'BLK']]
y_train = train['Pos']

In [45]:
svc = svc_param_selection(x_train, y_train, 10)

{'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}


In [46]:
x_test = test[['3P', 'BLK']]
y_test = test['Pos']

In [47]:
# train data에서 최적의 parameter를 찾아서 적용
svc = SVC(kernel='rbf', gamma=0.01, C=10)
svc.fit(x_train, y_train)

# test data에서 예측
y_pred = svc.predict(x_test)

# 예측값과 실제값을 비교
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred))

1.0
