# 第2章
分析コンペを構成する要素である、タスク、データおよび評価指標を学ぶ。

---
ソースコードは以下から引用しています: https://github.com/ghmagazine/kagglebook/tree/master/ch02

ライセンス: https://github.com/ghmagazine/kagglebook/blob/master/LICENSE

In [1]:
import numpy as np
import pandas as pd

## 閾値最適化の例
F1は正例の割合や正しく予測できている割合によって最大になる閾値が異なるため、最適な閾値を求める必要。

最適な閾値を求める方法の１つとして、閾値を引数にしてスコアを返す関数を最適化する方法がある。

In [2]:
from sklearn.metrics import f1_score
from scipy.optimize import minimize

In [3]:
# サンプルデータ生成の準備
rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)

In [4]:
# 真の値と予測値が以下のtrain_y, train_pred_probであったとする
train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape) * 0.3), 0.0, 1.0)

In [5]:
print('Trueの数: ', len(np.where(train_y==True)[0]))
print('Falseの数: ', len(np.where(train_y==False)[0]))

Trueの数:  4973
Falseの数:  5027


In [6]:
# 閾値を0.5とすると、F1は0.722
init_threshold = 0.5
init_score = f1_score(train_y, train_pred_prob >= init_threshold)
print(init_threshold, init_score)

0.5 0.7224831529507862


In [7]:
# 最適化の目的関数を設定
def f1_opt(x):
    return -f1_score(train_y, train_pred_prob >= x)

In [8]:
# scipy.optimizeのminimizeメソッドで最適な閾値を求める
# Nelder-Meadは目的関数が微分可能でなくても使用できる
# 求めた最適な閾値をもとにF1を求めると、0.756 となる
result = minimize(f1_opt, x0=np.array([0.5]), method='Nelder-Mead')
best_threshold = result['x'].item()
best_score = f1_score(train_y, train_pred_prob >= best_threshold)
print(best_threshold, best_score)

0.32324218749999983 0.7557317703844165


→最適な閾値を選ぶことでスコアが改善

（最適化でスコアを改善する閾値を選んでいるから当然だが・・・）