## 任务6：多路召回+重排序case2

## BM25 (gensim)
#### 教学

In [9]:
from gensim.corpora import Dictionary
from gensim.models import TfidfModel,OkapiBM25Model
from gensim.similarities import SparseMatrixSimilarity
import numpy as np

In [10]:
corpus =[
    "今天 很开心",
    "明天 也 很开心",
    "Python is programming language"
]
corpus

['今天 很开心', '明天 也 很开心', 'Python is programming language']

In [11]:
corpus_split = [doc.lower().split() for doc in corpus]
corpus_split

[['今天', '很开心'],
 ['明天', '也', '很开心'],
 ['python', 'is', 'programming', 'language']]

In [12]:
dictionary=Dictionary(corpus_split)  ## 这个是将里面的每个value进行了去重，生成词典
for key,value in dictionary.items():
    print(key,value)

0 今天
1 很开心
2 也
3 明天
4 is
5 language
6 programming
7 python


In [13]:
bm25_model = OkapiBM25Model(dictionary=dictionary) # 相当于给模型喂一本词典

In [14]:


# dictionary.doc2bow：是一个方法，用来将文档表示为词袋的形式（Bag of Words），即将文档中的单词转换成整数索引，并计算它们的词频
# map(dictionary.doc2bow,corpus_split)：对corpus_split中的每个文档应用转换成词袋的表示形式
# list是将这些词袋表示的文档重新组合成一个列表
# bm25_model[...] 这部分代码使用了 Python 中的列表推导式，对 list(map(dictionary.doc2bow, corpus_split)) 中的每个文档应用了 bm25_model，即将文档转换为 Okapi BM25 模型的表示形式。
# bm25_model[list(map(dictionary.doc2bow, corpus_split))] 这行代码实际上是将整个语料库（由 corpus_split 表示）转换为 Okapi BM25 模型的表示形式，以便后续用于相似性计算和搜索

bm25_corpus = bm25_model[list(map(dictionary.doc2bow,corpus_split))] # 先转换成词袋，再转换成模型的表示形式
# for i in bm25_corpus:
#     print(i)

In [15]:
# bm25_corpus 是已经通过 Okapi BM25 模型处理过的语料库，其中每个文档都被表示为一个 Okapi BM25 模型表示形式。
# SparseMatrixSimilarity 是 Gensim 库中的类，用于构建一个稀疏矩阵相似性索引器。
# num_docs=len(corpus_split) 指定了语料库中文档的数量，这里使用了 len(corpus_split) 来获取文档数量。
# num_terms=len(dictionary) 指定了语料库中的唯一词汇数量，这里使用了 len(dictionary) 来获取词汇数量。
# normalize_queries=False 表示不对查询进行规范化，即不对查询向量进行归一化处理。
# normalize_documents=False 表示不对文档进行规范化，即不对文档向量进行归一化处理。
# 因此，整个行代码的含义是在基于 Okapi BM25 模型处理过的语料库上构建一个稀疏矩阵相似性索引器 bm25_index，以便后续用于执行相似性搜索操作。这个索引器可以用于计算查询与文档之间的相似性得分，从而找到与查询最匹配的文档。
# 生成了相似性索引器
bm25_index = SparseMatrixSimilarity(bm25_corpus,num_docs=len(corpus_split),num_terms=len(dictionary),normalize_queries=False,normalize_documents=False)


In [16]:
query = ["learn","今天"]
tfidf_model=TfidfModel(dictionary=dictionary,smartirs='bnn') # 使用之前的 字典，并bnn指定了对查询进行二进制加权
tfidf_query = tfidf_model[dictionary.doc2bow(query)] #将查询词转换成词袋的表示，并进行TF-IDF加权 
smiilarities = bm25_index[tfidf_query]  # 用相似性索引器 计算查询文本tfidf_query与语料库中的每个文档的相似性得分
print(smiilarities) # 打印出与每个文档的相似性得分
best_document=corpus_split[np.argmax(smiilarities)] # 找出相似性得分最大的，并且输出索引，最后查询出词
print(best_document)

[0.60097134 0.         0.        ]
['今天', '很开心']


## BM25 (gensim)
#### 真实数据

In [17]:
from datasets import load_dataset
import jieba
from tqdm import tqdm
import numpy as np
import pandas as pd
from sklearn.metrics import ndcg_score

In [18]:

data = load_dataset('C-MTEB/DuRetrieval')
qrels = load_dataset('C-MTEB/DuRetrieval-qrels')
data

DatasetDict({
    corpus: Dataset({
        features: ['id', 'text'],
        num_rows: 100001
    })
    queries: Dataset({
        features: ['id', 'text'],
        num_rows: 2000
    })
})

In [19]:
qrels_pd = pd.DataFrame(qrels["dev"])
qrels_dict = qrels_pd.groupby("qid")["pid"].apply(list).to_dict()
qrels_dict["0014452c4edd2dee9b40b0f78bfaf8e4"]

['a2635150b429b5f2e7f6a19161e5cd48',
 '6b1ab3ee329e26780b85c6b9d7a6802c',
 '94575ac389d80de88128c3f1788d395b',
 '1c37837640973fbe28c1035fb7dcac61',
 '2e23a09ebd69974932d653b3d39b31c7',
 '373bbf909da9704d2973f2b0411cedf1',
 '2d9f2b19a60b45ef24e4b265bbb05847']

In [20]:
corpus = [jieba.lcut(x['text']) for x in data["corpus"]]

In [21]:
dictionary=Dictionary(corpus)
bm25_model = OkapiBM25Model(dictionary=dictionary)
bm25_corpus=bm25_model[list(map(dictionary.doc2bow,corpus))]
bm25_index = SparseMatrixSimilarity(bm25_corpus,num_docs=len(corpus),num_terms=len(dictionary),normalize_documents=False,normalize_queries=False)


In [22]:
tfidf_model=TfidfModel(dictionary=dictionary,smartirs='afc')

In [25]:
%%time
query="请注意识别，谨防上当受骗！"
query = jieba.lcut(query)
tfidf_query=tfidf_model[dictionary.doc2bow(query)]
similarities = bm25_index[tfidf_query]
best_document = corpus[np.argmax(similarities)]
" ".join(best_document)

CPU times: total: 0 ns
Wall time: 21.5 ms


'该 经验 图片 、 文字 中 可能 存在 外站 链接 或 电话号码 等 , 请 注意 识别 , 谨防 上当受骗 ! 百度 经验 : jingyan . baidu . com 在 之前 win7 的 设置 中 大部分 操作 都 是 在 控制面板 中 完成 的 , 可是 在 新 的 win10 系统 中 却 发现 控制面板 很难 找 了 , 那么 在 哪里 能 找到 呢 ? 让 我 来 告诉 你 吧 ~ 百度 经验 : jingyan . baidu . com 百度 经验 : jingyan . baidu . com1   打开 开始菜单 , 点击 所有 应用   步骤 阅读   2   找到 windows 系统 , 点击 打开 下级菜单   步骤 阅读   3   在 当中 找到 控制面板 点击 打开 即可   步骤 阅读   END 百度 经验 : jingyan . baidu . com'

In [26]:
qrels_dict={x['qid']:x["pid"] for x in qrels["dev"]}
pid_array = np.array(x["id"] for x in data["corpus"])

{'edb58f525bd14724d6f490722fa8a657': 'f659e0711490aee108fe656dafa4386d',
 'a451acd1e9836b04b16664e9f0c290e5': '1b3e3db2a7762c5f20b33fbe07b410a7',
 '48a8338aefaff17573048a088a08de70': '09047f2d4d9485eb1da4ae8486fd7e6d',
 '7871706c5cb1a1d6912ff8222434ccbd': '53a1c13e2d7209f7434574772aab3dfe',
 '2b22b972c4e30776b9160fc83ee05367': '58e9820abe7589d4d9baba072ce45f68',
 '979f5cfe8a8cc82ef302b98e2de59648': '2e2158cdbc6302692bf0c90d66b6b1c1',
 '93052ecb6ad07eb3b6f27a704004226c': '1ca41d6a1fea5fe0b18dede2e3a2376d',
 '14c34a53aa3d9327ac30184c651ee4df': '4173a49e099baa223b9eb62501eb9937',
 'a835a0d06cf0e5e7becca9a992a79b70': '2c2f3440782845e64c2daac49c2370bb',
 'ba62cc123e5631fc2e8705241c20cd61': 'c45851df6718d1db93c4ef22308a6582',
 '983f04bed5035f0d8993ebf6b9ed7bbb': 'a4946b3d4c40bcae21a97fc1925c3d1a',
 '2b68efa248d341064a71a1b7e75235aa': '08a6fcdd98743eec1a47d7ad65c691e4',
 'e043a94041c66f30fc72a85327f888b4': 'd21e59761c9be0dda0d740ea246fdd6d',
 '0a427cb6c8f3d4596620ae8aa788f521': 'fa8246a79b702

In [None]:
topn = 30
query_ndcg_score = []
for query_data in tqdm(data['queries']):
    query = jieba.lcut(query_data['text'])
    query_qid = query_data['id']
    query_pids = qrels[query_qid]
    
    tfidf_query = tfidf_model[dictionary.doc2bow(query)]
    similarities = np.array(bm25.get_scores(query))
    top_results = similarities.argsort()[::-1][:topn]
    top_results = [data['corpus'][int(x)]['id'] for x in top_results]
    true_relevance  = [[x in query_pids for x in top_results]]
    scores = [list(similarities[similarities.argsort()[::-1][:topn]])]

    query_ndcg_score.append(ndcg_score(true_relevance, scores))