In [1]:
import pandas as pd
import json
from tqdm import tqdm
import numpy as np
from scipy.stats import kendalltau
from sklearn.metrics import ndcg_score
from openai import OpenAI

In [2]:
corpus = pd.read_json("corpus.jsonl", lines=True)
queries = pd.read_json("queries.jsonl", lines=True)
corpus.set_index("_id", inplace=True)
queries.set_index("_id", inplace=True)
top_qrels = pd.read_csv("top_qrels.tsv", sep="\t")
top_qrels

Unnamed: 0,query-id,corpus-id,e5-score,score
0,0,599,83.478034,1
1,0,91397,83.293903,0
2,0,140938,83.293903,0
3,0,9725,83.293903,0
4,0,598,83.043307,1
...,...,...,...,...
10675,558,188549,84.378934,0
10676,558,188527,84.362769,0
10677,558,188537,84.205627,0
10678,558,188543,84.190488,0


In [3]:
prompt_name = "grok_fact"
full_name = f"deepseek_{prompt_name}.tsv"

In [4]:
deepseek_df = pd.read_csv(full_name, sep="\t")

In [5]:
def merge_scores_llm(e5_df, llm):
  merged = pd.merge(
        e5_df,
        llm,
        on=['query-id', 'corpus-id'],
        how='left'
    )

  del merged["human-score"]
  
  return merged
ftop_qrels = merge_scores_llm(top_qrels, deepseek_df)

In [6]:
class DeepSeekJudge:
  def __init__(self):
    self.client = OpenAI(api_key="sk-21cb3976392646d687940daed0ca3650", base_url="https://api.deepseek.com")
  def generate_judgement(self, query, passage):
    system_message = """
Вы — строгая система оценки релевантности для информационного поиска. 
Ваша единственная задача — определить, насколько отрывок подтверждает или содержит факт, заявленный в запросе.

Используйте только целочисленную шкалу от 0 до 2:

2 = Отрывок полностью содержит и явно подтверждает весь факт из запроса (прямое и полное соответствие).
1 = Отрывок содержит только часть факта, косвенно на него намекает или подтверждает лишь отдельные элементы.
0 = Отрывок не содержит никаких элементов факта или полностью нерелевантен.

Отвечайте ИСКЛЮЧИТЕЛЬНО одним JSON-объектом вида {"score": N}, где N — 0, 1 или 2.
Никаких пояснений, комментариев, дополнительного текста, кавычек или форматирования вне JSON не допускается.
"""
    user_message_template = f"""
Запрос: {query}

Отрывок: {passage}

Оцените релевантность по шкале 0–2 и верните только JSON {{"score": N}}.
"""
    response = self.client.chat.completions.create(
      model="deepseek-chat",
      messages=[
          {"role": "system", "content": system_message},
          {"role": "user", "content": user_message_template},
      ],
      stream=False,
      response_format={
        'type': 'json_object'
      }
    )
    return response.choices[0].message.content

In [7]:
judge = DeepSeekJudge()

In [8]:
results = []
for idx, row in tqdm(ftop_qrels.iterrows(), total=len(ftop_qrels)):
  true_score = row["score"]
  llm_score = row["llm-score"]
  if pd.isna(llm_score):
    query = queries.loc[row["query-id"]]["text"]
    response = corpus.loc[row["corpus-id"]]["text"]
    res = judge.generate_judgement(query, response)
    res = json.loads(res)
    llm_score = res["score"]
  result = {
    "llm-score": llm_score,
    "human-score": true_score,
    "query-id": row["query-id"],
    "corpus-id": row["corpus-id"]
  }
  results.append(result)

100%|██████████| 10680/10680 [3:54:21<00:00,  1.32s/it] 


In [9]:
results_df = pd.DataFrame(results)
from sklearn.metrics import cohen_kappa_score
llm = results_df["llm-score"].to_numpy(int)
human = results_df["human-score"].to_numpy(int)
cohen_kappa_score(llm, human)

0.3454476800697558

In [10]:
import numpy as np
import metrics


print("NDCG: ", metrics.calc_ndcg(results_df))
print("NRMSE: ", metrics.calc_nrmse(results_df))
print("NMAE: ", metrics.calc_nmae(results_df))
print("kendalltau: ", metrics.calc_kendalltau(results_df))
print("RBO: ", metrics.calc_rbo(results_df))

NDCG:  0.801798988360169
NRMSE:  0.31182980568790375
NMAE:  0.1555243445692884
kendalltau:  0.5307825137841512
RBO:  0.6334445293125055


In [11]:
pd.DataFrame(results_df).to_csv(f"rerank_{full_name}", sep='\t', index=False)