# Caderno de teste - Métricas

Fontes:

- https://huggingface.co/spaces/evaluate-metric/trec_eval

- https://github.com/joaopalotti/trectools

## Teste 1 - Execução simples testando uma query

Vamos supor que o qrel da query 0 indica 3 documentos, doc_1, doc_2 e doc_3, cujas relevâncias são 3, 2, 1.

O sistema de busca retornou, nessa ordem, doc_2, doc_1, doc_10, doc_11, doc_12:

In [24]:
from evaluate import load
trec_eval = load("trec_eval")
 
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run = {
    "query": [0, 0, 0, 0, 0], # QUERY ID
    "q0": ["q0", "q0", "q0", "q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1", "doc_10", "doc_11", "doc_12"], # DOCUMENT_ID
    "rank": [0, 1, 2, 3, 4], # RANKING DO DOCUMENTO
    "score": [1.5, 1.2, 1.1, 1, 0.9], # SCORE DO DOCUMENTO
    "system": ["test", "test", "test", "test", "test"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.4
0.8174935137996165


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


Agora, vamos ver o que ocorre se tirarmos os três documentos não relevantes (não pode mudar nada):

In [25]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [1.5, 1.2], # SCORE DO DOCUMENTO
    "system": ["test", "test"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.4
0.8174935137996165


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


Checando o efeito do score no qrels (só pode mudar o ndcg, mas a precisão tem que continuar a mesma):

In [26]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [10, 9, 8]
    }
run = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [1.5, 1.2], # SCORE DO DOCUMENTO
    "system": ["test", "test"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.4
0.777975983841851


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


Agora vamos alterar novamente o score no qrel, mas para 30, 20, 10 (mantém a mesma proporção que 3, 2, 1):

In [27]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [30, 20, 10]
    }
run = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [1.5, 1.2], # SCORE DO DOCUMENTO
    "system": ["test", "test"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.4
0.8174935137996167


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


Vamos ver se o score no run faz algum efeito:

In [28]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [0, 1000], # SCORE DO DOCUMENTO
    "system": ["test", "test"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.4
0.8174935137996165


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


As conclusões aqui:

- O score no qrel fazem diferença pro nDCG. Uma relação de 2/1 no score do qrel equivale a uma relação de 6/2. A relação entre os scores no qrel parece ser multiplicativa.

- O score no run parece não fazer diferença para o nDCG. Mesmo mudando a ordem (colocando um score mais alto para quem está mais atrás no ranking) não faz diferença nos valores.

## Teste 2 - Execução testando uma query e dois sistemas

Vamos supor que o qrel da query 0 indica 3 documentos, doc_1, doc_2 e doc_3, cujas relevâncias são 3, 2, 1.

O sistema 1 retornou, nessa ordem, doc_2, doc_1.

O sistema 2 retornou apenas doc_3.

In [35]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run = {
    "query": [0, 0, 0], # QUERY ID
    "q0": ["q0", "q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1", "doc_3"], # DOCUMENT_ID
    "rank": [0, 1, 0], # RANKING DO DOCUMENTO
    "score": [2, 1, 2], # SCORE DO DOCUMENTO
    "system": ["sistema1", "sistema1", "sistema2"] # SISTEMA
}
 
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.6
0.9224945116765986


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


O resultado não é o que queremos e dá pra ver isso na precisão.

Estou interpretando "system" como um sistema, então quero o resultado por sistema. 

O que eu esperava aqui é ter uma precisão/ndcg para o sistema 1 e uma precisão/ndcg para o sistema 2. Vamos tentar separar o run em dois, run_sistema_1 e run_sistema_2:

In [37]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run_sistema_1 = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [2, 1], # SCORE DO DOCUMENTO
    "system": ["sistema1", "sistema1"] # SISTEMA
}
 
run_sistema_2 = {
    "query": [0], # QUERY ID
    "q0": ["q0"], # LITERAL q0
    "docid": ["doc_3"], # DOCUMENT_ID
    "rank": [0], # RANKING DO DOCUMENTO
    "score": [2], # SCORE DO DOCUMENTO
    "system": ["sistema2"] # SISTEMA
}

try:
    results = trec_eval.compute(predictions=[run_sistema_1, run_sistema_2], references=[qrel])
    print(results['P@5'])
    print(results['NDCG@5'])
except:
    print('Essa abordagem não dá certo')


Essa abordagem não dá certo


O jeito parece ser separar e rodar duas vezes:

In [38]:
qrel = {
    "query": [0, 0, 0],
    "q0": ["q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3"],
    "rel": [3, 2, 1]
    }
run_sistema_1 = {
    "query": [0, 0], # QUERY ID
    "q0": ["q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1"], # DOCUMENT_ID
    "rank": [0, 1], # RANKING DO DOCUMENTO
    "score": [2, 1], # SCORE DO DOCUMENTO
    "system": ["sistema1", "sistema1"] # SISTEMA
}
 
run_sistema_2 = {
    "query": [0], # QUERY ID
    "q0": ["q0"], # LITERAL q0
    "docid": ["doc_3"], # DOCUMENT_ID
    "rank": [0], # RANKING DO DOCUMENTO
    "score": [2], # SCORE DO DOCUMENTO
    "system": ["sistema2"] # SISTEMA
}

results_sistema_1 = trec_eval.compute(predictions=[run_sistema_1], references=[qrel])
results_sistema_2 = trec_eval.compute(predictions=[run_sistema_2], references=[qrel])
print(results_sistema_1['P@5'])
print(results_sistema_1['NDCG@5'])
print('*'*30)
print(results_sistema_2['P@5'])
print(results_sistema_2['NDCG@5'])


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


0.4
0.8174935137996165
******************************
0.2
0.21000199575396408


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


## Teste 3: agregando queries diferentes para um sistema

Agora que sabemos como a ferramenta trata sistemas diferentes (é necessário executar separadamente), vamos ver como é o tratamento com mais de uma query. Vamos testar 3 queries:

O qrel de cada query está assim:

- query 0
    - docs: doc_1, doc_2, doc_3
    - relevância: 3, 2, 1

- query 1
    - docs: doc_1, doc_5, doc_6
    - relevância: 3, 2, 1

- query 2
    - docs: doc_3
    - relevância: 3

O sistema de busca retornou:

- query 0:
    - docs: doc_1, doc_2 (P@5 = 2/5 = 0.4)
- query 1:
    - docs: doc_5 (P@5 = 1/5 = 0.2)
- query 2:
    - docs: não retornou nada (P@5 = 0)

Como a query 2 não retornou nada, vou fazer o primeiro teste sem passar ela:

In [39]:
qrel = {
    "query": [0, 0, 0, 1, 1, 1, 2],
    "q0": ["q0", "q0", "q0", "q0", "q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3", "doc_1", "doc_5", "doc_6", "doc_3"],
    "rel": [3, 2, 1, 3, 2, 1, 3]
    }
run = {
    "query": [0, 0, 1], # QUERY ID
    "q0": ["q0", "q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1", "doc_5"], # DOCUMENT_ID
    "rank": [0, 1, 0], # RANKING DO DOCUMENTO
    "score": [2, 1, 2], # SCORE DO DOCUMENTO
    "system": ["test", "test", "test"] # SISTEMA
}
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.30000000000000004
0.6187487526537724


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


A média dos P@5 deve ser de (0.4 + 0.2 + 0)/3 = 0.2.

Como não passamos a query 2, ele desconsiderou-a da métrica. Assim, mesmo que não tenha resultados, é necessário informá-la de alguma forma:

In [43]:
qrel = {
    "query": [0, 0, 0, 1, 1, 1, 2],
    "q0": ["q0", "q0", "q0", "q0", "q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3", "doc_1", "doc_5", "doc_6", "doc_3"],
    "rel": [3, 2, 1, 3, 2, 1, 3]
    }
run = {
    "query": [0, 0, 1, 2], # QUERY ID
    "q0": ["q0", "q0", "q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1", "doc_5", ""], # DOCUMENT_ID
    "rank": [0, 1, 0, -1], # RANKING DO DOCUMENTO
    "score": [2, 1, 2, -1], # SCORE DO DOCUMENTO
    "system": ["test", "test", "test", "test"] # SISTEMA
}
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.20000000000000004
0.4124991684358483


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()


Passando vazio no docid e -1 no rank/score funcionou. O mesmo ocorre passando alguma string inexistente no docid e qualquer outro número no rank/score:

In [44]:
qrel = {
    "query": [0, 0, 0, 1, 1, 1, 2],
    "q0": ["q0", "q0", "q0", "q0", "q0", "q0", "q0"],
    "docid": ["doc_1", "doc_2", "doc_3", "doc_1", "doc_5", "doc_6", "doc_3"],
    "rel": [3, 2, 1, 3, 2, 1, 3]
    }
run = {
    "query": [0, 0, 1, 2], # QUERY ID
    "q0": ["q0", "q0", "q0", "q0"], # LITERAL q0
    "docid": ["doc_2", "doc_1", "doc_5", "XXXXXXX"], # DOCUMENT_ID
    "rank": [0, 1, 0, 0], # RANKING DO DOCUMENTO
    "score": [2, 1, 2, 0], # SCORE DO DOCUMENTO
    "system": ["test", "test", "test", "test"] # SISTEMA
}
 
results = trec_eval.compute(predictions=[run], references=[qrel])
print(results['P@5'])
print(results['NDCG@5'])

0.20000000000000004
0.4124991684358483


  selection = selection[~selection["rel"].isnull()].groupby("query").first().copy()
