In [None]:
# Basic setting
import os
import pickle
import numpy as np
# to make this notebook's output stable across runs
np.random.seed(42)

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

# [과제] 최적의 SVM 모델 찾기

---

## 본 과제의 목표는 다음과 같음

1. `rbf` 커널 함수를 사용한 SVM 모델을 정의할 수 있음
2. 학습과 평가 데이터셋을 나눌 수 있으며, 평가 데이터셋에 대한 분류 성능을 평가할 수 있음
3. `sklearn`에서 제공하는 하이퍼파라미터 서치 툴을 사용할 수 있음
4. SVM 모델 구현에 사용되는 하이퍼파라미터의 역할을 이해하고 분석할 수 있음

## [P.1] SVM 모델을 다양한 하이퍼파라미터로 학습하기

`rbf` 커널 함수를 사용한 SVM 모델을 정의할 때, 다양한 하이퍼파라미터 값을 설정해서 학습하며 성능 비교하기    
참고로, 이전 practice 파일에서처럼 학습 데이터셋이 아닌, 사이킷런 함수를 통해 만든 평가 데이터셋에 대해서 성능 평가하기

In [None]:
# Make train and test dataset
from ??? import ???  # divide train and test
from ??? import ???  # moons dataset

Xm, ym = ???
X_train, X_test, y_train, y_test = ???

In [None]:
def plot_dataset(X, y):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "s")
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "^")
    
    plt.xlabel("X1")
    plt.ylabel("X2")
    
    
plot_dataset(X_train, y_train)

In [None]:
# define model with pipeline
from ??? import ???  # pipeline
from ??? import ???   # scaler
from ??? import ???   # svc

In [None]:
# 평가 데이터셋에 대한 성능 확인을 위해서 sklearn.metrics 안의 함수를 사용해주세요
from ??? import ???

In [None]:
params = [(gamma, C), ...]  # any combination you want!

svm_clfs = []
for g, C in params:
    svm_clf = ???
    svm_clf.???
    
    svm_clfs.append(svm_clf)

In [None]:
def plot_predictions(clf):
    x0 = np.linspace(-3, 3, 100)
    x1 = np.linspace(-3, 3, 100)
    x0, x1 = np.meshgrid(x0, x1)
    X = np.c_[x0.ravel(), x1.ravel()]
    
    y_pred = clf.predict(X)
    y_pred = y_pred.reshape(x0.shape)
    plt.contourf(x0, x1, y_pred, alpha=0.1)

In [None]:
for i, svm_clf in enumerate(svm_clfs):
    plt.figure(figsize=(6, 4))
    
    plot_dataset(X_train, y_train)
    
    plot_predictions(svm_clf)
    
    y_pred = svm_clf.???
    acc = ???
    
    print('[%s] Acc: %s' % (params[i], acc))

## [P.2] GridSearchCV를 이용해 최적의 하이퍼파라미터 찾기

직접 하나부터 열까지 구현하는 것을 방지하기 위해 사이킷런에서는 유용한 툴을 제공해주고 있음    
`sklearn`의 [`GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 클래스를 이용해서 교차 검증을 구현해보기     
`make_moons` 데이터셋에 가장 적합한 하이퍼파라미터를 찾고, 평가 데이터에 대한 최고 성능 얻기

In [None]:
# import gridsearchcv
from ??? import ???

############################################################################
##### 찾고싶은 하이퍼파라미터와 후보군들을 dictionary 형태로 만들어서 학습하시면 됩니다. #####





############################################################################

In [None]:
# get results of cross-validation
grid_search_cv.???

In [None]:
############################################################################
############### 적절한 함수를 찾아 y_test에 대한 성능을 얻으시면 됩니다. ###############





############################################################################

## [P.3] 하이퍼파라미터 서치 결과 분석

P.2에서 구현했던 내용을 바탕으로, 아래 질문에 대한 답변 작성

#### Q.1) 어떤 하이퍼파라미터와 값들을 후보군으로 설정했는지 서술
---

#### Q.2) 해당 하이퍼파라미터의 역할을 분석하고, 왜 해당 결과값이 가장 좋은 성능을 보여줄 수 있었는지에 대해 자유롭게 작성
---