## 라이브러리 임포트
- 실습에 필요한 라이브러리 임포트.

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 데이터 불러오기(학습데이터, 테스트 데이터)_20221114
- 데이터 분석 단계에서 생성한 농구 선수 포지션 예측하기의 학습 데이터 및 테스트 데이터를 로드.

In [7]:
train = pd.read_csv("data/csv/basketball_train.csv")
test = pd.read_csv("data/csv/basketball_test.csv")

## SVM 최적의 파라미터 찾기
- 1. C(Cost, 비용) = loss : 결정경계선의 마진을 결정하는 파라미터.
- 2. gamma : 커널의 데이터포인트의 표준 편차(sd)를 결정하는 조절 변수.

### sklearn에서 제공하는 GridSearchCV 사용하시면, 손쉽게 최적의 cost, gamma를 구할 수 있음.

In [8]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC # Supporter Vector Machine - SVC

In [9]:
def svc_param_selection(X,y,nfolds):
    svm_parameters = [
        {
            'kernel' : ['rbf'],
            'gamma' : [0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
            'C':[0.01, 0.1, 1, 10, 100, 1000]
        }
    ]
    
    clf = GridSearchCV(SVC(),svm_parameters, cv=nfolds) # GridSearchCV은 참조자료형 # cv - cross validation # SVC - Classification
    clf.fit(X, y) # 2개 이상의 feature를 가지고 있을 때는 대문자 X # y는 정답 데이터
    print(clf.best_params_)
    
    return clf


In [10]:
X_train = train[['3P','BLK']]
y_train = train[['Pos']]

# 최적의 파라미터를 sklearn의 GridSearchCV()를 통해 구한다.
clf = svc_param_selection(X_train, y_train.values.ravel(), 10)
# {'C': 0.1, 'gamma': 1, 'kernel': 'rbf'} # 최적의 파라미터는 Cost는 0.1, gamma는 1이 좋다라고 추천해줌.

{'C': 0.1, 'gamma': 1, 'kernel': 'rbf'}


## 시각화_20221115
- 최적의 파라미터일때의 결정경계선과 다른 파라미터들일 때의 결정경계선을 비교

In [12]:
# 시각화를 하기 위해, 최적의 C와 다른 C를 후보로 저장한다.

C_candidaties = []
C_candidaties.append(clf.best_params_['C']* 0.01) # clf - classification
C_candidaties.append(clf.best_params_['C'])
C_candidaties.append(clf.best_params_['C']* 100) # Cost가 10일 때의 시각화

# 시각화를 하기 위해, 최적의 gamma와 다른 gamma를 후보로 저장한다.

gamma_candidaties = []
gamma_candidaties.append(clf.best_params_['gamma']* 0.01) # clf - classification
gamma_candidaties.append(clf.best_params_['gamma'])
gamma_candidaties.append(clf.best_params_['gamma']* 100) # gamma가 100일 때의 시각화

In [None]:
X = train[['3P','BLK']]
Y = train['Pos'].tolist() # 자료형을 tolist() - 리스트로 만듦

# 포지션에 해당하는 문자열 'SG'와 'C'를 벡터화한다.
position = []
for gt in Y:
    if gt == 'C':
        position.append(0)
    else:
        position.append(1)