<a href="https://colab.research.google.com/github/ShotaArima/kaggle/blob/main/books/Kaggle%E3%81%A7%E5%8B%9D%E3%81%A4%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%81%AE%E6%8A%80%E8%A1%93/02-%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%A8%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99/05-threshold-optimization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 閾値の最適化
目的関数が微分可能ではなくても使用できる最適化アルゴリズムとして、Nelder-Meadを使用する。他には
- COBYLA
    - 制約式を設定できるアルゴリズム
- SLSQP
    - 目的関数、制約式が微分可能であることを必要とするアルゴリズム



In [4]:
from sklearn.metrics import f1_score
from scipy.optimize import minimize
import numpy as np
import pandas as pd

In [12]:
# サンプルデータの作成
rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)

# 真の値と予測値が以下のtrain_y, train_y_prebであったとする
train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_exponential(train_y_prob.shape) * 0.3), 0.0, 1.0)

# 閾値を0.5とする
init_threshold = 0.5
init_score = f1_score(train_y, train_pred_prob >= init_threshold)
print(f"init_threshold:\t{init_threshold}, \ninit_socre:\t{init_score}")

init_threshold:	0.5, 
init_socre:	0.7580384408119274


In [16]:
# 最適化の目的関数を設定
def F1_opt(x):
    return -f1_score(train_y, train_pred_prob >= x)

In [18]:
# scipy.optimizeのminimizeメソッドで最適化閾値を求める
# 求めた最適な閾値を元にF1-socreを求める
result = minimize(F1_opt, x0=np.array([0.5]), method = "Nelder-Mead")
best_threshold = result['x'].item()
best_score = f1_score(train_y, train_pred_prob >= best_threshold)
print(f"best_threshold:\t{best_threshold}, \nbest_socre:\t{best_score}")

best_threshold:	0.4292968749999999, 
best_socre:	0.7605272167066073
