# SVM(Support Vector Machine)
- 선형 SVM : 커널을 사용하지 않고 데이터를 분류, 비용을 조절해서 마진의 크기를 조절
- 커널 트릭 : 선형분리가 주어진 차원에서 불가능할 경우 고차원으로 데이터를 옮기는 효과를 찾음. 비용(C)과 gamma(RBF 커널)을 조절해서 마진의 크기를 조절
- 함수의 표준편차를 조정함으로써 결정 경계의 곡률을 조정하며 이 표준편차의 조정변수를 감마라고 한다.

마진이 커야 잘된 머신러닝이다.<br>
1번이 2번보다 더 좋은 머신러닝이다.<br>
차라리 하나를 허용하고 쓰는게 더 좋다(비용) cost(비용) = 오차라는 뜻<br>
2번은 과대적합이 발생한 모습이다.

<img src="../Data/오차.png" width=600 height=300 >

### 파라미터 튜닝
: 정확도를 높히기 위해 비용(C)과 감마의 수치를 조정함으로써 정확도를 높일 수 있음.
- 비용 : 마진 너비 조절 변수, 클수록 마진너비가 좁아지고 작을수록 마진 너비가 넓어진다.
- 감마 : 커널의 표준편차 조절변수, 작을수록 데이터포인트의 영향이 커져서 경계가 완만해지고  
 클수록 데이터포인트가 결정경계에 영향을 미쳐서 경계가 구부러진다.

In [2]:
import pandas as pd

In [3]:
train = pd.read_csv("../Data/basketball_train.csv")
test = pd.read_csv("../Data/basketball_test.csv")

### GridSearch를 이용한 C와 gamma 구하기

In [5]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

In [6]:

def svc_param_selection(X,y,nfolds):
    svm_parameters = [
        {
            'kernel' : ['rbf'], # kernel이 linear이면 C Parameter만 사용 / rbf는 감마까지 사용해서 곡선을 사용함
            'gamma' : [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
            'C' : [0.01, 0.1, 1, 10, 100, 1000]
        }
    ]
    # 원래는 GridSearchCv( 요기 )안에 다써줘야되는데 길어서 위의 변수로 빼주었다.
    clf = GridSearchCV(SVC(), svm_parameters, cv=nfolds) # 교차검증 cv=nofolds번 실행
    clf.fit(X, y)
    print(clf.best_params_)
    return clf


In [8]:
x_train = train[['3P','BLK']]
y_train = train['Pos']

# 위의 함수에 X => x_train, y => y_train, nfolds = 10을 넣어준다.
clf = svc_param_selection(x_train, y_train, 10)

{'C': 0.1, 'gamma': 1, 'kernel': 'rbf'}


In [10]:
x_test = test[['3P','BLK']]
y_test = test['Pos']
clf.score(x_test, y_test)

0.95

> 0.95 -> 거의 1이기 때문에 직선이라고 보면 된다.