# 42.Hyper Parameter Tuning - Random Search & Grid Search

* 이제 함수를 이용하여 성능을 다루는 연습을 합니다.
* Data : 이동통신 가입고객 이탈여부 예측 


## 00.환경 준비와 데이터 로딩

### 01.라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

### 02.데이터 업로드 

In [None]:
# mobile data
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/mobile_cust_churn.csv"
mobile = pd.read_csv(path)

In [None]:
# train set과 holdout(test set) 두 df로 나눕니다.
target = 'CHURN'
x = mobile.drop(target, axis=1)
y = mobile.loc[:, target]

## 10.데이터 이해

## 20.데이터 준비

### 21.변수 정리

In [None]:
x.drop('id', axis = 1, inplace = True)

### 22.NA 처리

In [None]:
x.isna().sum()

### 23.Feature Engineering

### 24.Dummy Variable

In [None]:
col_cat = ['REPORTED_SATISFACTION', 'REPORTED_USAGE_LEVEL', 'CONSIDERING_CHANGE_OF_PLAN' ]

In [None]:
# 범주형(명목형) 변수를 가변수로 만들고 붙여봅시다.

for v in col_cat :
    dummies = pd.get_dummies(x[v], prefix=v)
    x = pd.concat([x, dummies], axis=1)
    x.drop(v, axis = 1, inplace=True)

x.head()

### 25.Scaling




### 26.Data Split

In [None]:
train_x, val_x, train_y, val_y = train_test_split(x, y, test_size=0.4, random_state=1)

In [None]:
print(train_x.shape)
print(val_x.shape)

## 30.모델링

### Random Search

작업 순서

    1) 파라미터의 범위 지정
    2) 함수 불러오기
        - 알고리즘
        - Random Search
    3) 모델 선언
        - 모델
        - Random Search
    4) 학습
    5) 예측
    6) 평가



In [None]:
# 1) random하게 찾을 범위를 지정
# 지정하지 않는 파라미터는 default 값으로 지정됨.
# 1) 파라미터를 dictionary형태로 선언
rand_param = { 'n_neighbors' : [3,5,7,9,11,13,15,17,19]  # 9
                , 'metric' : ['euclidean', 'manhattan']  # 2   
            }

rand_param

In [None]:
# 2) 함수 불러오기
from sklearn.neighbors import KNeighborsClassifier

# Random Search를 수행해 줄 함수!
from sklearn.model_selection import RandomizedSearchCV  

In [None]:
# 3) 모델선언
# 기본모델
knn_model = KNeighborsClassifier()

# Random Search 설정.
rand_model = RandomizedSearchCV(knn_model
                          , rand_param    # hyperparameter 범위 지정.
                          , cv=3                    # k-fold Cross Validation
                          , n_iter=5                 #Random하게 시도할 횟수
                          )

In [None]:
# 4) 학습 : knn_model이 아니라 rand_model
rand_model.fit(train_x, train_y)

In [None]:
# 시행에 대한 정보.
rand_model.cv_results_

In [None]:
# 그때의 (최적의) 파라미터
rand_model.best_params_

In [None]:
rand_model.best_score_

In [None]:
# 5) 예측 및 평가
val_pred = rand_model.predict(val_x)


In [None]:
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
print(classification_report(val_y, val_pred))

In [None]:
print(confusion_matrix(val_y, val_pred))

#### 실습 1 : Random Search
* 데이터셋 : mobile
* 사용할 알고리즘 : decision tree
* 튜닝 방식 : Random Search
    * 조절해 볼 만한 파라미터 : 아래 값의 범위에서 튜닝을 시도하세요.
        * max_depth : 2~10
        * min_samples_leaf : 10~50
        * 랜덤하게 시도할 횟수 : 5

In [None]:
# 1. 필요한 함수 불러온다.



In [None]:
# 1) random하게 찾을 범위를 지정
# 지정하지 않는 파라미터는 default 값으로 지정됨.
# 1) 파라미터를 dictionary형태로 선언
rand_param_dt = { 'max_depth' :    
                , 'min_samples_leaf' :  
}

rand_param_dt

In [None]:
# 3) 모델선언
# 기본모델 

# Random Search 설정.




In [None]:
# 4) 학습



In [None]:
# 5) 전체 파라미터들을 열어 봅시다.

# 6) 선택된 best parameter는?

# 7) best parameter에서의 cv 성능은?



In [None]:
# 8) 예측해 봅시다.



In [None]:
# 평가해봅시다.



### Grid Search

* random search는 범위 내에서 무작위로 수행하는 반면
* grid search는 범위 내의 모든 경우의 수 만큼 수행

작업 순서

    1) 파라미터의 범위 지정
    2) 함수 불러오기
        - 알고리즘
        - Grid Search
    3) 모델 선언
        - 모델
        - Grid Search
    4) 학습
    5) 예측
    6) 평가



In [None]:
# 1) 파라미터를 dictionary형태로 선언
grid_param = {
    'n_neighbors' : list(range(15,31, 2))  # 9
    , 'metric' : ['euclidean', 'manhattan']  # 2   
}
grid_param

In [None]:
# 2) 함수 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV  # 이번엔 GridSearchCV

In [None]:
# 3) 모델 선언
knn = KNeighborsClassifier()

knn_gs = GridSearchCV(knn,
                     grid_param,
                     cv = 3,      # k-fold cross validation
                     n_jobs = -1  #병렬처리.
                     )

In [None]:
# 4) 학습 : 
knn_gs.fit(train_x, train_y)


In [None]:
# 최적의 파라미터를 찾아준다.
knn_gs.best_params_

In [None]:
knn_gs.best_score_

In [None]:
# 5) 예측 및 평가
val_pred = knn_gs.predict(val_x)
accuracy_score(val_y, val_pred)

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(val_y, val_pred  ))

#### 실습 2 : Grid Search
* 데이터셋 : data
* 사용할 알고리즘 : decision tree
* 튜닝 방식 : Grid Search
    * 조절해 볼 만한 파라미터 : 아래 값의 범위에서 튜닝을 시도하세요.
        * max_depth : range(2,7)
        * min_samples_leaf : range(10,50, 10)

In [None]:
# 1) 파라미터를 dictionary형태로 선언





In [None]:
# 2) 함수 불러오기




In [None]:
# 3) 모델 선언




In [None]:
# 4) 학습 : 




In [None]:
# 5) 전체 파라미터들을 열어 봅시다.

# 6) 선택된 best parameter는?

# 7) best parameter에서의 cv 성능은?



In [None]:
# 8) 예측 및 평가

