# 성능튜닝

## 1.환경준비

### (1) import

In [None]:
#라이브러리들을 불러오자.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 전처리
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# 모델링
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import *

import warnings  # 경고메시지 제외

warnings.filterwarnings(action='ignore')

### (2) 데이터 준비

* 변수설명
    * COLLEGE : 대학 졸업여부
    * INCOME : 연수입
    * OVERAGE : 월평균 초과사용 시간(분)
    * LEFTOVER : 월평균 잔여시간비율(%)
    * HOUSE : 집값
    * HANDSET_PRICE : 스마트폰 가격
    * OVER_15MINS_CALLS_PER_MONTH : 월평균 장기통화(15분이상) 횟수
    * AVERAGE_CALL_DURATION : 평균 통화 시간
    * REPORTED_SATISFACTION : 만족도 설문조사 결과
    * REPORTED_USAGE_LEVEL : 사용도 자가진단 결과
    * CONSIDERING_CHANGE_OF_PLAN : 향후 변경계획 설문조사 결과
    * CHURN : 이탈(번호이동) 여부 (1-이탈, 0-잔류, Target 변수)


In [None]:
# 데이터를 불러옵시다.
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/mobile_cust_churn.csv'
data = pd.read_csv(path)
data = data.sample(5000, random_state=2022)

# sklearn에서는 'CHURN'을 가변수화 할 필요가 없다
# statsmodels, tensorflow(keras)에서는 가변수화가 필요하다.
# 전진선택법 함수에서 statsmodels.sm.Logit()을 사용했기 떄문에 가변수화를 진행
data['CHURN'] = data['CHURN'].map({'LEAVE': 1, 'STAY': 0})
data.head()

## 2.데이터 준비

### (1) 데이터 정리

In [None]:
drop_cols = ['id']
data.drop(drop_cols, axis=1, inplace=True)

### (2) 데이터분할1 : x, y 나누기

In [None]:
target = 'CHURN'
x = data.drop(target, axis=1)
y = data.loc[:, target]

### (3) NA 조치

### (4) 가변수화

In [None]:
dumm_cols = ['REPORTED_SATISFACTION', 'REPORTED_USAGE_LEVEL', 'CONSIDERING_CHANGE_OF_PLAN']
x = pd.get_dummies(x, columns=dumm_cols, drop_first=True)

### (5) 데이터분할2 : train : validation 나누기

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.3, random_state=20)

### (6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train_s = scaler.fit_transform(x_train)
x_val_s = scaler.transform(x_val)

## 3.선형모델 튜닝

Logistic Regression : 전진선택법
* 변수를 하나씩 늘려가면서
* AIC를 가장 낮추는 모델 찾기

### (1) 전진선택을 수행할 함수 만들기( **로지스틱 회귀** 용)

In [None]:
# 아래 함수는 로지스틱 회귀를 위한 전진선택법 함수 입니다.
import statsmodels.api as sm


def forward_stepwise_logistic(x_train, y_train):
    # 변수목록, 선택된 변수 목록, 단계별 모델과 AIC 저장소 정의
    features = list(x_train)
    selected = []
    step_df = pd.DataFrame({'step': [], 'feature': [], 'aic': []})

    # 
    for s in range(0, len(features)):
        result = {'step': [], 'feature': [], 'aic': []}

        # 변수 목록에서 변수 한개씩 뽑아서 모델에 추가
        for f in features:
            vars = selected + [f]
            x_tr = x_train[vars]
            model = sm.Logit(y_train, x_tr).fit()
            result['step'].append(s + 1)
            result['feature'].append(vars)
            result['aic'].append(model.aic)

        # 모델별 aic 집계
        temp = pd.DataFrame(result).sort_values('aic').reset_index(drop=True)

        # 만약 이전 aic보다 새로운 aic 가 크다면 멈추기
        if step_df['aic'].min() < temp['aic'].min():
            break
        step_df = pd.concat([step_df, temp], axis=0).reset_index(drop=True)

        # 선택된 변수 제거
        v = temp.loc[0, 'feature'][s]
        features.remove(v)

        selected.append(v)

    # 선택된 변수와 step_df 결과 반환
    return selected, step_df

### (2) 전진선택법 수행

In [None]:
vars, result = forward_stepwise_logistic(x_train, y_train)

* 선택된 변수

In [None]:
vars

In [None]:
result

In [None]:
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', -1)

### (3) 모델링

* 전체 변수 

In [None]:
m1 = LogisticRegression()
m1.fit(x_train, y_train)
p1 = m1.predict(x_val)

print(accuracy_score(y_val, p1))
print(classification_report(y_val, p1))

* 전진선택법 변수

In [None]:
m2 = LogisticRegression()
m2.fit(x_train[vars], y_train)
p2 = m2.predict(x_val[vars])

print(accuracy_score(y_val, p2))
print(classification_report(y_val, p2))

## 4.하이퍼파라미터 튜닝

### (1) 필요한 함수 불러오기 

In [None]:
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV

### (2) Random Search

① 값의 범위를 지정한다.  
② 모델 선언(시도 횟수 지정)  
③ 모델링(값의 범위 내에서 시도 횟수만큼 랜덤하게 선택해서 시도한다.)  
④ 가장 성능이 좋은 값을 선정


#### ① 값의 범위를 지정한다.

In [None]:
# dictionary형태로 선언
params = {'n_neighbors': range(1, 51), 'metric': ['euclidean', 'manhattan']}
params

#### ② 모델 선언

In [None]:
# 기본모델
model = KNeighborsClassifier()

# Random Search 설정.
model_rs = RandomizedSearchCV(model
                              , params  # hyperparameter 범위 지정.
                              , cv=5  # k-fold Cross Validation
                              , n_iter=5  # Random하게 시도할 횟수
                              )

#### ③ 모델링

In [None]:
# 학습 : model이 아니라 model_rs
model_rs.fit(x_train_s, y_train)

In [None]:
# 튜닝 결과
model_rs.cv_results_

In [None]:
print(model_rs.cv_results_)

In [None]:
model_rs.cv_results_['params']

In [None]:
model_rs.cv_results_['mean_test_score']

In [None]:
# 최적의 파라미터
model_rs.best_params_

In [None]:
# 그때의 성능
model_rs.best_score_

In [None]:
# best 모델로 예측 및 평가
pred = model_rs.predict(x_val_s)
print(classification_report(y_val, pred))

### (3) 실습 : Random Search

* decision tree로 튜닝을 시도해 봅시다.
    * max_depth : 1~10
    * min_samples_leaf : 10 ~ 100

#### ① 값의 범위를 지정한다.

In [None]:
model = DecisionTreeClassifier()

params = {'max_depth': range(1, 11), 'min_samples_leaf': range(10, 101, 10)}

#### ② 모델 선언

In [None]:
model_rs = RandomizedSearchCV(estimator=model, param_distributions=params)

#### ③ 모델링

In [None]:
model_rs.fit(x_train, y_train)

In [None]:
model_rs.best_params_

In [None]:
model_rs.best_score_

In [None]:
pred = model_rs.predict(x_val)
print(classification_report(y_val, pred))

### (4) Grid Search

① 값의 범위를 지정한다.  
② 모델링(값의 범위 내에서 모든 조합을 다 시도한다.)  
③ 가장 성능이 좋은 값을 선정


#### ① 값의 범위를 지정한다.

In [None]:
# dictionary형태로 선언
params = {'n_neighbors': range(3, 31, 2), 'metric': ['euclidean', 'manhattan']}
params

#### ② 모델 선언

In [None]:
# 기본모델
model = KNeighborsClassifier()

# Random Search 설정.
model_gs = GridSearchCV(model, params, cv=5)

#### ③ 모델링

In [None]:
# 학습 : model이 아니라 model_rs
model_gs.fit(x_train_s, y_train)

In [None]:
# 튜닝 결과
model_gs.cv_results_

In [None]:
model_gs.cv_results_['params']

In [None]:
model_gs.cv_results_['mean_test_score']

In [None]:
# 최적의 파라미터
model_gs.best_params_

In [None]:
# 그때의 성능
model_gs.best_score_

In [None]:
# best 모델로 예측 및 평가
pred = model_gs.predict(x_val_s)
print(classification_report(y_val, pred))

### (5) 실습 : Grid Search

* decision tree로 튜닝을 시도해 봅시다.
    * max_depth : 1~10
    * min_samples_leaf : 10 ~ 100

#### ① 값의 범위를 지정한다.

In [None]:
params = {'max_depth': range(1, 11),
          'min_samples_leaf': range(10, 101, 10)}

#### ② 모델 선언

In [None]:
practice_gs = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=params, cv=5)

#### ③ 모델링

In [None]:
practice_gs.fit(x_train_s, y_train)

In [None]:
pred = practice_gs.predict(x_val_s)
print(classification_report(y_val, pred))

In [None]:
# 튜닝 결과
practice_gs.cv_results_

In [None]:
practice_gs.cv_results_['params']

In [None]:
practice_gs.cv_results_['mean_test_score']

In [None]:
# 최적의 파라미터
practice_gs.best_params_

In [None]:
# 그때의 성능
practice_gs.best_score_

In [53]:
practice_gs.cv_results_['mean_test_score']

array([0.614     , 0.614     , 0.614     , 0.614     , 0.614     ,
       0.614     , 0.614     , 0.614     , 0.614     , 0.614     ,
       0.66142857, 0.66142857, 0.66142857, 0.66142857, 0.66142857,
       0.66142857, 0.66142857, 0.66142857, 0.66142857, 0.66142857,
       0.692     , 0.69314286, 0.69314286, 0.69314286, 0.69314286,
       0.69314286, 0.69314286, 0.69314286, 0.69314286, 0.69514286,
       0.68942857, 0.68857143, 0.68942857, 0.68971429, 0.68942857,
       0.68914286, 0.69285714, 0.69342857, 0.69742857, 0.69314286,
       0.686     , 0.69285714, 0.69514286, 0.69314286, 0.68857143,
       0.688     , 0.69057143, 0.69085714, 0.69771429, 0.69342857,
       0.67885714, 0.684     , 0.68714286, 0.68657143, 0.69114286,
       0.68742857, 0.69142857, 0.68971429, 0.69571429, 0.69228571,
       0.67371429, 0.68828571, 0.70057143, 0.69657143, 0.69      ,
       0.686     , 0.69      , 0.69114286, 0.69542857, 0.69228571,
       0.66657143, 0.688     , 0.694     , 0.69428571, 0.69257

In [54]:
# 최적의 파라미터
practice_gs.best_params_

{'max_depth': 7, 'min_samples_leaf': 30}

In [55]:
# 그때의 성능
practice_gs.best_score_

0.7005714285714285