## ■ 2値分類を評価する関数 (予測値が実数の場合)

- 以下の showscores という関数を利用すると、2値分類において accuracy, precision, recall, f1-score, AUC of ROCなどが算出される
- trueval には、0 / 1 の教師データを、predval には、0〜1の予測値(実数)を入力する
- ROCのAUCを算出するには、予測値が予測モデルから算出された実数(0〜1程度)の必要がある
- Pythonにおける混同行列の表記は[[TN, FP],[FN,TP]]となるが、本関数では[[TP, FP],[FN, TN]] とした。

In [None]:
# 本関数での混同行列の表記
print(pd.DataFrame([['TP', 'FP'],['FN', 'TN']], index = ('予測(+)', '予測(-)'), columns=('実際(+)', '実際(-)')))

      実際(+) 実際(-)
予測(+)    TP    FP
予測(-)    FN    TN


In [None]:
# Pythonでの混同行列の表記
print(pd.DataFrame([['TN', 'FP'],['FN', 'TP']], index = ('実際(-)', '実際(+)'), columns=('予測(-)', '予測(+)')))

      予測(-) 予測(+)
実際(-)    TN    FP
実際(+)    FN    TP


In [None]:
# 2値分類の結果を評価する関数
def showscores(trueval, predval):
    # trueval: 検証データの観測値 (0 or 1), predval: 予測モデルによる予測値 (0〜1程度の実数)
    !pip install lifelines --quiet
    from lifelines.utils import concordance_index    
    from sklearn.metrics import confusion_matrix
    import seaborn as sns
    from sklearn.metrics import accuracy_score
    from sklearn.metrics import precision_score
    from sklearn.metrics import recall_score
    from sklearn.metrics import f1_score
    from sklearn.metrics import roc_auc_score

    # 端数処理
    import math
    def my_round(val, digit=0):
        p = 10 ** digit
        try:
            ans = (val * p * 2 + 1) // 2 / p
        except:
            ans = 'N/A'
        return ans      

    # predintが整数の場合、AUCが低く出ることの警告文
    if predval[0][0].is_integer():
        print('')
        print('◇ 予測値が整数であったため、ROCのAUC と C-index が実際よりも低値に出ることに注意。')
        print('')     
    else: 
        pass
    

    round = [1 if p >= 0.5 else 0 for p in predval]   

    cm = confusion_matrix(trueval, round)
    tn, fp, fn, tp = confusion_matrix(trueval, round).ravel()
    confmat = [[tp, fp], [fn, tn]]
    acc = accuracy_score(trueval, round)
    prec = precision_score(trueval, round)
    rec = recall_score(trueval, round)
    f1 = f1_score(trueval, round)
    spec = tn/(tn + fp)

    auc = roc_auc_score(trueval, predval)
    cind = concordance_index(trueval, predval)

    hm = sns.heatmap(confmat, annot=True, cmap='Blues')

    print('■ 2値分類の予測結果の評価')
    print('')
    print('□　検証データのサンプル数: ' + str(len(trueval)))
    print('')
    print('□　混同行列: ')
    print(pd.DataFrame(confmat,  index=['Predict True', 'Predict False'], columns=['Actual True', 'Actual False'] ))
    print('')
    print('   Accuracy(正解率): ' + str(my_round(acc,5)) + '   precision(精度): ' + str(my_round(prec,5)) + '    recall(再現率): ' + str(my_round(rec, 5)))
    print('   f1-score(f1値): ' + str(my_round(f1,5)) + '   specificity(特異度): ' + str(my_round(spec,5)))  
    print('')
    print('   AUC of ROC: ' + str(my_round(auc)) + '    C-index (c-Statistics): ' + str(my_round(cind,5)))
    print('')
    print('□　混同行列のヒートマップ:')
    plt.show()

## ■ 2値分類を評価する関数 (予測値が整数 0/1 の場合)

- Pythonにおける混同行列の表記は[[TN, FP],[FN,TP]]となるが、本関数では[[TP, FP],[FN, TN]] とした。

In [None]:
# 本関数での混同行列の表記
print(pd.DataFrame([['TP', 'FP'],['FN', 'TN']], index = ('予測(+)', '予測(-)'), columns=('実際(+)', '実際(-)')))

      実際(+) 実際(-)
予測(+)    TP    FP
予測(-)    FN    TN


In [None]:
# Pythonでの混同行列の表記
print(pd.DataFrame([['TN', 'FP'],['FN', 'TP']], index = ('実際(-)', '実際(+)'), columns=('予測(-)', '予測(+)')))

      予測(-) 予測(+)
実際(-)    TN    FP
実際(+)    FN    TP


In [None]:
def confusionmatrix(trueval, predint):
    # trueval: 検証データの観測値 (0 or 1), predint: 予測モデルによる予測値 (0 or 1)
    import matplotlib.pyplot as plt
    import seaborn as sns    
    from sklearn.metrics import confusion_matrix

    # 端数処理
    import math
    def my_round(val, digit=0):
        p = 10 ** digit
        try:
            ans = (val * p * 2 + 1) // 2 / p
        except:
            ans = 'N/A'
        return ans    

    # predintが実数の場合、整数に変換する
    if predint[0][0].is_integer():
        pass
    else: 
        predint = [1 if p >= 0.5 else 0 for p in predint]
        print('')
        print('◇ 予測値が実数であったため、予測値は整数(0/1)に変換した。')
        print('')

    # 混同行列の作成
    # TP = 0
    # FP = 0
    # FN = 0
    # TN = 0

    # for i in range(len(predint)):
    #    if (predint[i]==1) & (trueval[i]==1):
    #        TP += 1
    #    elif (predint[i]==1) & (trueval[i]==0):
    #        FP += 1
    #    elif (predint[i]==0) & (trueval[i]==1):
    #        FN += 1
    #    elif (predint[i]==0) & (trueval[i]==0):
    #        TN += 1

    TN, FP, FN, TP = confusion_matrix(trueval, predint).ravel()
    confmat = [[TP, FP], [FN, TN]] 

    # confmat = np.array( [[TP, FP], [FN, TN]] )

    acc = (TP+TN)/(TP+FP+FN+TN)
    
    if TP + FP != 0:
        prec = TP/(TP+FP)
    elif TP + FP == 0:
        prec = 'N/A'
    if TP + FN != 0:
        rec = TP/(TP+FN)
    elif TP + FP ==0:
        rec = 'N/A'
    if TN + FP != 0:
        spec = TN/(TN + FP)
    elif TN + FP == 0:
        spec = 'N/A'
    if TP + FP/2 + FN/2 != 0:
        f1 = TP/(TP + FP/2 + FN/2)
    elif TP + FP/2 + FN/2 == 0:
        f1 = 'N/A'

    res = np.array([acc, prec, rec, f1, spec, [[TP, FP], [FN, TN]] ])

    # 出力　: ( 1, Accuracy, 2. Precision 3. Recall 4. f1-score 5. Specificity, 6. 混同行列)

    hm = sns.heatmap(confmat, annot=True, cmap='Blues')    

    print('■ 2値分類の検定結果')
    print('')
    print('□　検証データのサンプル数: ' + str(len(trueval)) )
    print('')
    print('□　混同行列:')
    print(pd.DataFrame(np.array(confmat), index=['Predict True', 'Predict False'], columns=['Actual True', 'Actual False']))
    print('')    
    print('   Accuracy(正解率): ' + str(my_round(acc,5)) + '   precision(精度): ' + str(my_round(prec,5)) + '    recall(再現率): ' + str(my_round(rec, 5)))
    print('   f1-score(f1値): ' + str(my_round(f1,5)) + '   specificity(特異度): ' + str(my_round(spec,5)))
    print('')
    print('□　混同行列のヒートマップ:')
    plt.show()