### 임곗값(threshold)의 최적화

* 학습 내용
   * 어떻게 가장 좋은 성능을 갖는 임곗값을 찾을 수 있을까?
     * 평가지표(F1-score)

### 라이브러리 불러오기

In [3]:
import numpy as np
import pandas as pd


from sklearn.metrics import f1_score
from scipy.optimize import minimize

In [8]:
# 0~1 사이의 값 준비 (10개의 값 확인)
rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)
train_y_prob.shape, train_y_prob[0:10]

((10000,),
 array([0.        , 0.00010001, 0.00020002, 0.00030003, 0.00040004,
        0.00050005, 0.00060006, 0.00070007, 0.00080008, 0.00090009]))

In [12]:
# train_y(True, False의 10000개의 값)
# train_pred_prob(예측값 - 확률 표현)
train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape) * 0.3), 0.0, 1.0)

print(train_y[0:15], train_pred_prob[0:15])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
dtype: bool [0.         0.00022027 0.00036054 0.00031804 0.00037484 0.00035137
 0.00081335 0.00092438 0.00109668 0.00073556 0.00080953 0.00087939
 0.00159474 0.00168023 0.00162518]


In [None]:
### 임곗값(threshold)를 0.5로 지정했을 때의 F1-score

In [13]:
# 임곗값(threshold)을 0.5로 하면, F1은 0.722
init_threshold = 0.5
init_score = f1_score(train_y, train_pred_prob >= init_threshold)
print(init_threshold, init_score)

0.5 0.7170388498011624


In [14]:
# 최적화의 목적함수를 설정
def f1_opt(x):
    return -f1_score(train_y, train_pred_prob >= x)

### 가장 F1-score가 좋은 값을 찾기

In [15]:
# scipy.optimize의 minimize 메소드에서 최적의 임곗값 구하기
# 구한 최적의 임곗값을 바탕으로 F1을 구하면 0.756이 됨
result = minimize(f1_opt, x0=np.array([0.5]), method='Nelder-Mead')
best_threshold = result['x'].item()
best_score = f1_score(train_y, train_pred_prob >= best_threshold)
print(best_threshold, best_score)

0.3314453124999998 0.7531003382187147
