In [2]:
!pyNTCIREVAL

Usage: pyNTCIREVAL [OPTIONS] COMMAND [ARGS]...

Options:
  -h, --help  Show this message and exit.

Commands:
  compute
  label


In [4]:
!cat ../data/eval/q1.rel # 適合性評価ファイル

d1 L1
d2 L0
d3 L2
d4 L1
d5 L0
d6 L0

In [5]:
!cat ../data/eval/method1.q1.res # 検索結果ファイル

d1
d2
d3

---
## 必須課題 （１） 動作の確認
このページで用いた検索結果に対するpyNTCIREVALの出力のうち，MSnDCG@0003とnERR@0003が，講義資料の定義に従った計算と一致していることを確かめよ．つまり，nDCG@3とnERR@3を計算するプログラム書き，その結果がpyNTCIREVALの結果と一致していることを確認せよ．

---

In [10]:
import math

In [125]:
def rel_convert(rel):
    """ rel: 文書IDをi、rel[i]はi番目の文書の適合度とするリスト """
    with open(rel, "r") as rr:
        rels = []
        ress = []
        for line in rr:
            rels.append(int(line.split(" ")[1].strip("L"))) # d1: 1 d2: 0...のような形式
            ress.append(int(line.split(" ")[0].strip("d")))
    return rels, ress

def res_convert(res):
    """ res: 検索結果順に並んだリスト """
    with open(res, "r") as rs:
        ress = [rels[int(line.strip("d"))-1] for line in rs] # [2, 1, 0, 1]  検索結果順に並んだ適合率
    return ress

In [101]:
def MSnDCG(k, rels, ress):
    """ nDCG@kを計算 """
    dcg_k = 0
    ideal_dcg_k = 0

    ideal_rels = sorted(rels, reverse=True)

    for i in range(k):
        dcg_k += (2**ress[i] - 1) / math.log2(1 + (i+1))
        ideal_dcg_k += (2**ideal_rels[i] - 1) / math.log2(1 + (i+1))
    ndcg_k = dcg_k / ideal_dcg_k
    #print("DCG / DCG' = {0} / {1} = {2}".format(dcg_k, ideal_dcg_k, ndcg_k))

    return ndcg_k

In [103]:
def nERR(k, rels, ress):
    ideal_rels = sorted(rels, reverse=True)
    
    def p_stop(rel_i, rel_max):
        return (2**rel_i - 1) / (2**rel_max)
    
    def permute(k, ress, rel_max):
        p = 1
        if k == 0: return p
        for i in range(k):
            p = p * (1 - p_stop(ress[i], max(rels)))
        return p

    def ERR(docIDs, max_rel):
        p_err = 0
        for i in range(len(docIDs)):
            p_s = p_stop(docIDs[i], max_rel)
            prm = permute(i, docIDs, max(rels))
            p_err += p_s * prm / (i+1)
            #print("P_stop: {0} * ERR: {1} / Rank: {2} = P_ERR: {3}".format(p_s, prm, i+1, p_err))
        return p_err
            
    ideal_p_err = ERR(ideal_rels[:k], max(rels))
    p_err = ERR(ress[:k], max(rels))
    #print("{0}: ERR / ERR* = {1} / {2}".format(i+1, p_err, ideal_p_err))

    #print("ERR / ERR* = {0} / {1} = {2}".format(p_err, ideal_p_err, p_err/ideal_p_err))    
    return p_err / ideal_p_err

In [22]:
rel = "../data/eval/q1.rel"
res = "../data/eval/method1.q1.res"

In [93]:
rels, ress = rel_convert(rel)
# ress = res_convert(res)
print(rels)
print(ress)

[1, 0, 2, 1, 0, 0]
[1, 0, 2]


In [105]:
print("MSnDCG: {}".format(MSnDCG(3, rels, ress)))
print("nERR: {}".format(nERR(3, rels, ress)))

MSnDCG: 0.6051906348295047
nERR: 0.5490196078431373


In [95]:
!pyNTCIREVAL label -r ../data/eval/q1.rel < ../data/eval/method1.q1.res > method1.q1.rel
!pyNTCIREVAL compute -r ../data/eval/q1.rel -g 1:3 --cutoffs=1,3　< method1.q1.rel

 # syslen=3 jrel=3 jnonrel=3
 # r1=1 rp=3
 RR=                 1.0000
 OMeasure=           0.5000
 PMeasure=           0.7500
 PPlusMeasure=       0.6250
 AP=                 0.5556
 QMeasure=           0.4167
 NCUguP=             0.6000
 NCUguBR=            0.5500
 NCUrbP=             0.5726
 NCUrbBR=            0.4251
 RBP=                0.0618
 ERR=                0.4375
 AP@0001=            1.0000
 QMeasure@0001=      0.5000
 nDCG@0001=          0.3333
 MSnDCG@0001=        0.3333
 Precision@0001=     1.0000
 nERR@0001=          0.3333
 Hit@0001=           1.0000
 AP@0003=            0.5556
 QMeasure@0003=      0.4167
 nDCG@0003=          0.6247
 MSnDCG@0003=        0.6052
 Precision@0003=     0.6667
 nERR@0003=          0.5490
 Hit@0003=           1.0000


上記のMSnDCGとnERRが、自ら作成した関数の値と一致していることが確認できた

---
## 必須課題（２）独自データに対する評価指標の計算
演習課題1で扱った検索課題集合と検索結果に対して各自で評価用データを作成しpyNTCIREVALを用いて評価指標を計算せよ．そして， MRR，nDCG@3およびnERR@3の平均を報告し，それらの値の違いが各指標のどういった要因によるものか考察せよ．なお，演習課題1で扱ったコーパス以外で評価データを作成してもい．ただし，評価データはダミーデータでなく実際の何らかのランキングを評価したものとし，検索課題（クエリ）は3つ以上とする．

---

In [127]:
for i in range(3):
    rl = "../data/eval/my_q{}.rel".format(i+1)
    rs = "../data/eval/my_q{}.res".format(i+1)
    rls, rss = rel_convert(rl)
#     rss = res_convert(rs)
    print(rls)
    print(rss)
    print("MSnDCG{0}: {1}".format(i+1, MSnDCG(10, rls, rls[:10])))
    print("nERR{0}: {1}".format(i+1, nERR(10, rls, rls[:10])))

[2, 2, 1, 1, 2, 1, 0, 0, 0, 2] [83, 20, 37, 6, 1, 2, 3, 4, 5, 38]
[2, 2, 1, 1, 2, 1, 0, 0, 0, 2]
[83, 20, 37, 6, 1, 2, 3, 4, 5, 38]
MSnDCG1: 0.9367911266776714
nERR1: 0.9945769246577604
[1, 1, 1, 0, 2, 1, 1, 0, 1, 0] [61, 83, 20, 37, 6, 1, 2, 3, 4, 5]
[1, 1, 1, 0, 2, 1, 1, 0, 1, 0]
[61, 83, 20, 37, 6, 1, 2, 3, 4, 5]
MSnDCG2: 0.7594996391124835
nERR2: 0.5668800693825847
[1, 1, 1, 2, 2, 1, 1, 1, 1, 1] [54, 67, 76, 49, 64, 1, 2, 3, 4, 5]
[1, 1, 1, 2, 2, 1, 1, 1, 1, 1]
[54, 67, 76, 49, 64, 1, 2, 3, 4, 5]
MSnDCG3: 0.7915805917934894
nERR3: 0.5701946504834883
