### 교차 검증을 이용한 최적의 임계값을 찾기

### 학습 내용
 * 라이브러리 및 데이터 준비
 * 교차 검증을 이용한 최적의 임계값 찾기

### 교차 검증이란?
 * 교차 검증은 머신 러닝에서 모델의 성능을 평가하는 방법입니다. 교차 검증은 데이터 세트를 여러 개의 부분으로 나누고, 각 부분을 사용하여 모델을 학습하고 평가

### 라이브러리 불러오기

In [1]:
import numpy as np
import pandas as pd

# -----------------------------------
# out-of-fold에서의 임곗값(threshold)의 최적화
# -----------------------------------
from scipy.optimize import minimize
from sklearn.metrics import f1_score
from sklearn.model_selection import KFold

### 데이터 준비

In [3]:
# 샘플 데이터 생성
rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)

In [4]:
# 실젯값과 예측값을 다음과 같은 train_y, train_pred_prob이었다고 가정
train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape) * 0.3), 0.0, 1.0)


### 교차 검증을 이용한 최적의 임곗값 찾기
  * 5-Fold 
  * 평가지표 : F1-score

In [6]:
# 교차 검증 구조로 임곗값을 구함
thresholds = []
scores_tr = []
scores_va = []

kf = KFold(n_splits=5, random_state=71, shuffle=True)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_pred_prob)):
    tr_pred_prob, va_pred_prob = train_pred_prob[tr_idx], train_pred_prob[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

    # 최적화 목적함수를 설정
    def f1_opt(x):
        return -f1_score(tr_y, tr_pred_prob >= x)

    # 학습 데이터로 임곗값을 실시하고 검증 데이터로 평가를 수행
    result = minimize(f1_opt, x0=np.array([0.5]), method='Nelder-Mead')
    threshold = result['x'].item()
    score_tr = f1_score(tr_y, tr_pred_prob >= threshold)
    score_va = f1_score(va_y, va_pred_prob >= threshold)
    print(threshold, score_tr, score_va)

    thresholds.append(threshold)
    scores_tr.append(score_tr)
    scores_va.append(score_va)

# 각 fold의 임곗값 평균을 테스트 데이터에 적용
threshold_test = np.mean(thresholds)
print("최적의 임곗값 : ", threshold_test)

0.32187499999999986 0.7557375282835901 0.7551369863013699
0.34257812499999984 0.7589071038251367 0.7452538631346579
0.32499999999999984 0.7544676703130077 0.7598475222363404
0.32324218749999983 0.7572732152442297 0.7494534324442501
0.3234374999999998 0.7542820208984163 0.7610008628127696
최적의 임곗값 :  0.3272265624999998
