In [1]:
import numpy as np

# Normalized Entropy

In [2]:
def cal_normalized_entropy(pred, y):
    
    n = len(y)
    p = np.sum(y==1) / n

    ne = (- (1/n) * np.sum( (1+y)/2*np.log(pred) + (1-y)/2*np.log(1-pred)) /
          (- (p * np.log(p) + (1-p) * np.log(1-p))))
    
    return ne

In [3]:
y = np.array([ -1, -1, 1, 1])

In [4]:
pred_1 = np.array([ 0.6 , 0.3 , 0.7 , 0.4 ])
pred_2 = np.array([ 0.4 , 0.3 , 0.7 , 0.6 ])
pred_3 = np.array([ 0.01, 0.01, 0.99, 0.99])

In [5]:
cal_normalized_entropy(pred_1, y)

0.9182506338585604

In [6]:
cal_normalized_entropy(pred_2, y)

0.6257693834979823

In [7]:
cal_normalized_entropy(pred_3, y)

0.01449956969511509

* 予測が近いほど `NE` は `0` に近い値を返す。

# Calibration

In [8]:
def cal_calibration(pred, y):

    n = len(y)
    p = np.sum(y==1) / n #empirical CTR
    
    mean_ctr = np.mean(pred)
    
    calib = mean_ctr / p
    
    return calib

In [9]:
pred_4 = np.array([ 0.6 , 0.3 , 0.7 , 0.4 ])
pred_5 = pred_4 / 2

In [10]:
cal_calibration(pred_4, y)

1.0

In [11]:
cal_calibration(pred_5, y)

0.5

* `Calibration` は `1`に近ければ近いほど良いモデル。

# AUC

In [12]:
from sklearn import metrics

In [13]:
def cal_auc(pred, y):
    fpr, tpr, thresholds = metrics.roc_curve(y, pred,pos_label=1)
    auc = metrics.auc(fpr, tpr)
    
    return auc

In [14]:
cal_auc(pred_4, y)

0.75

In [15]:
cal_auc(pred_5, y)

0.75

* 予測確率が `1/2` 倍されても、予測のランクは変更されていないため、AUCは変わらない。

In [16]:
pred_6 = np.array([ 0.5 , 0.4 , 0.8 , 0.7 ])

In [17]:
ne = cal_normalized_entropy(pred_6, y)
ne

0.6433667154708317

In [18]:
calibration = cal_calibration(pred_6,y)
calibration

1.2000000000000002

In [19]:
pred_6_correct = pred_6 / calibration
pred_6_correct

array([0.41666667, 0.33333333, 0.66666667, 0.58333333])

In [20]:
cal_normalized_entropy(pred_6_correct, y)

0.6812850396923542

In [21]:
cal_calibration(pred_6_correct, y)

0.9999999999999999

* 補正すれば `NE` が良くなる（低くなる）と思ったが、上記ではそのような結果にならなかった。
* 下記サンプルデータを増やしてみる。

In [22]:
y_2 = np.array([-1]*99 + [1])
y_2

array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1])

In [23]:
pred_7 = np.array([0.0000000001]*99 + [0.50])
np.round(pred_7,2)

array([0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ,
       0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0.5])

In [24]:
cal_normalized_entropy(pred_7,y_2)

0.12377289273324153

In [25]:
calibration_2 = cal_calibration(pred_7,y_2)
calibration_2

0.5000000099

In [26]:
pred_7_correct = pred_7 / calibration_2
np.round(pred_7_correct,2)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.])

In [27]:
cal_normalized_entropy(pred_7_correct,y_2)

7.071235088881021e-09

In [28]:
cal_calibration(pred_7_correct,y_2)

1.0

* 上記の補正では `NE` が `0.123` から ほぼ `0` となり良くなった。