In [46]:
from pymilvus.model.hybrid import BGEM3EmbeddingFunction
import pandas as pd
from pymilvus import AnnSearchRequest, WeightedRanker
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSequenceClassification
import torch
# from langchain_milvus import Milvus
from pymilvus import connections, utility, FieldSchema, CollectionSchema, DataType, Collection

In [3]:
# 加载嵌入模型
def load_db():
    embedding_model = BGEM3EmbeddingFunction(
        model_name=r'autodl-tmp/embedding_model/BAAI/bge-m3',
        use_fp16=False,
        device='cpu'
    )
    connections.connect(uri='vectordb/milvus_mix/milvus_m3_2.db')
    collection_name = 'hybrid_demo'
    milvus_collection = Collection(name=collection_name)
    milvus_collection.load()
    return milvus_collection, embedding_model

In [4]:
device = torch.device('cuda')

In [5]:
# 加载实体组合模型
def entity_list_model():
    model_path = r'autodl-tmp/Qwen/Qwen2.5-3B-Instruct'
    entity_model = AutoModelForCausalLM.from_pretrained(model_path).to(device).eval()
    entity_tokenizer = AutoTokenizer.from_pretrained(model_path)
    return entity_model, entity_tokenizer

In [6]:
# 初始化
milvus_collection,embedding_model = load_db()
entity_model, entity_tokenizer = entity_list_model()

  return self.fget.__get__(instance, owner)()


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [7]:
# 模型实体抽取组合函数
def model_gerenate(prompt, model, tokenizer):
    input = [
        {'role':'user', 'content':prompt}
    ]
    text = tokenizer.apply_chat_template(
        input,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors='pt').to(device)
    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=512
    )
    generated_ids = [ 
        output_ids[len(input_ids):]
        for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response = tokenizer.batch_decode(generated_ids,  skip_special_tokens=True)[0]
    return response

In [8]:
def hybrid_search(
    col,
    query_dense_embedding,
    query_sparse_embedding,
    sparse_weight=1.0,
    dense_weight=1.0,
    limit=10
):

    dense_search_params = {'metric_type': 'IP', 'params': {}}
    dense_req = AnnSearchRequest(
        [query_dense_embedding], 'dense_vector', dense_search_params, limit=limit
    )

    sparse_search_params = {'metric_type':'IP', 'params':{}}
    sparse_req = AnnSearchRequest(
        [query_sparse_embedding], 'sparse_vector', sparse_search_params, limit=limit
    )

    rerank = WeightedRanker(sparse_weight, dense_weight)
    res = col.hybrid_search(
        [sparse_req, dense_req], rerank=rerank, limit=limit, output_fields=['text', 'title', 'time', 'infosource']
    )[0]

    return [{'metadata':{'title':hit.get('title'), 'time':hit.get('time'), 'infosource':hit.get('infosource')}, 'page_content':hit.get('text')} for hit in res]

In [50]:
# 这里调用前两者
# entity_ = '投标人或竞买人，违约情形，保证金，处理'
entity_ = '意向受让方,登记,受让意向,条件'
prompt = f"""
                    请通过提供的实体上下文，随机组合实体，按照实体个数丰富程度输出至少2个组合列表。请根据以下步骤进行输出。

                    步骤：
                    1-输入的上下文实体之间是用逗号分隔的，请不要把上下文当成1个整体或者是一个实体。
                    2-根据提供的多个实体，分析其实体的词性。
                    3-根据实体输入时的排列顺序，组合列表至少由两个实体组成。
                    4-组合列表内实体以逗号分隔，组合列表之间以句号分隔。
                    
                    请将提取的实体直接输出，不要改写实体。
                    
                    输出格式为：
                        实体1,实体2
                        实体2,实体3,实体4


                    上下文实体：{entity_}
                    实体列表输出："""
response = model_gerenate(prompt, entity_model, entity_tokenizer)
print('实体组合response', response)

# 将实体组合
search_input = response.split('\n') +['意向受让方在登记受让意向时需要满足哪些条件？'] #+ ['投标人或竞买人出现违约情形，保证金如何处理？']
recall_list = []
for input in search_input:
    print('实体输入：', input)
    # 混合搜素向量召回
    embed_input = embedding_model([input])
    # print('embed_input', embed_input)
    hybrid_res = hybrid_search(
        milvus_collection,
        embed_input['dense'][0],
        embed_input['sparse']._getrow(0),
        sparse_weight=0.7,
        dense_weight=1.0,
        limit=10
    )
    recall_list.append(hybrid_res)
    meta = [file['metadata']['title'] for file in hybrid_res]
    print('hybrid_res_meta', meta)

实体组合response 意向受让方,登记
意向受让方,受让意向
意向受让方,条件
登记,受让意向
登记,条件
受让意向,条件
实体输入： 意向受让方,登记
hybrid_res_meta ['【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '协议出让国有土地使用权规范（试行）', '协议出让国有土地使用权规范（试行）', '协议出让国有土地使用权规范（试行）', '招标拍卖挂牌出让国有土地使用权规范（试行）', '国务院国有资产监督管理委员会关于印发《企业国有产权交易操作规则》的通知', '上海市土地使用权出让办法', '上海市国资委、市工商局、市产管办关于印发《上海市产权交易市场管理办法实施细则》的通知(2009年修订)']
实体输入： 意向受让方,受让意向
hybrid_res_meta ['协议出让国有土地使用权规范（试行）', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '【产权交易】上海联合产权交易所有限公司产权交易保证金操作细则(沪联产交〔2020〕29号)', '\u200b【产权交易】上海联合产权交易所有限公司物权交易操作指引(沪联产交〔2020〕26号)', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', '协议出让国有土地使用权规范（试行）', '国务院国有资产监督管理委员会关于印发《企业国有产权交易操作规则》的通知', '财政部关于印发《金融企业非上市国有产权交易规则》的通知', '协议出让国有土地使用权规范（试行）']
实体输入： 意向受让方,条件
hybrid_res_meta ['协议出让国有土地使用权规范（试行）', '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕

In [51]:
# 构建RRF算法
from langchain.load import dumps, loads
def reciprocal_rank_fusion(results: list[list], k=60):
    fused_scores = {}
    for docs in results:
        # 某一路召回
        for rank, doc in enumerate(docs):
            # 某一路召回的每个文本
            # title_ = doc['metadata']['title']
            doc_str = dumps(doc)
            if doc_str not in fused_scores:
                fused_scores[doc_str] = 0
            previous_score = fused_scores[doc_str]
            fused_scores[doc_str] += 1 / (rank + k)
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]
    return reranked_results

In [52]:
reranked_results = reciprocal_rank_fusion(recall_list)
es_res = [(file[0]['metadata']['title'],file[1]) for file in reranked_results]
print('reranked_results', es_res)

reranked_results [('【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', 0.09588561447366313), ('协议出让国有土地使用权规范（试行）', 0.0952353616532721), ('【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', 0.09378089428492654), ('协议出让国有土地使用权规范（试行）', 0.09140314342520225), ('国务院国有资产监督管理委员会关于印发《企业国有产权交易操作规则》的通知', 0.0902585169074414), ('【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', 0.08224925083729949), ('财政部关于印发《金融企业非上市国有产权交易规则》的通知', 0.05882989146339912), ('上海市国资委、市工商局、市产管办关于印发《上海市产权交易市场管理办法实施细则》的通知(2009年修订)', 0.048651507139079855), ('金融企业国有资产转让管理办法', 0.04762704813108039), ('协议出让国有土地使用权规范（试行）', 0.032266458495966696), ('招标拍卖挂牌出让国有土地使用权规范（试行）', 0.030776515151515152), ('上海市土地使用权出让办法', 0.03057889822595705), ('【产权交易】上海联合产权交易所有限公司产权交易保证金操作细则(沪联产交〔2020〕29号)', 0.03036576949620428), ('\u200b【产权交易】上海联合产权交易所有限公司物权交易操作指引(沪联产交〔2020〕26号)', 0.030117753623188408), ('上海市国资委、市工商局、市产管办关于印发《上海市产权交易市场管理办法实施细则》的通知(2009年修订)', 0.028985507246376812), ('上海市公共资源交易综合专家库管理规则（试行）', 0.016666666666666666), ('区域性股权市场监督管理

In [53]:
# RRF算法融合多路召回后，使用重排方式继续进行过滤。过滤后的最终召回数量暂定在个chunk。
# 加载排序模型
def model_load():
    # 加载模型
    path = r'autodl-tmp/rerank_model/BAAI/bge-reranker-base'
    model = AutoModelForSequenceClassification.from_pretrained(path).cuda()
    tokenizer = AutoTokenizer.from_pretrained(path)
    return model, tokenizer

In [55]:
# top10进行重排序
# 调整结果格式

pairs = []
# question = '投标人或竞买人出现违约情形，保证金如何处理？'
question = '意向受让方在登记受让意向时需要满足哪些条件？'
max_score_page_idxs = []
for idx in range(len(reranked_results)):
    max_score_page_idxs.append(idx)
    pairs.append([question, reranked_results[idx][0]['page_content']])
ranker_model, ranker_tokenizer = model_load()
inputs = ranker_tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
with torch.no_grad():
    #将数据移至gpu
    inputs = {key:inputs[key].cuda() for key in inputs.keys()}
    scores = ranker_model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(f'重排分数：{scores}')

max_score_page_idx = max_score_page_idxs[scores.cpu().numpy().argmax()]
print(f'重排得分索引：{max_score_page_idx}')
print(f"重排得分title: {reranked_results[max_score_page_idx][0]['metadata']}")

重排分数：tensor([ 5.2128,  2.9223,  3.0496,  2.5233,  3.5431,  5.4414,  3.4428,  5.6595,
         3.0548,  1.9911,  1.5852,  1.7569,  3.2432,  4.5577,  2.6247, -1.7468,
        -2.0402, -5.7529, -2.5841,  4.9722, -3.9234, -3.4793, -5.9649, -3.2976,
        -4.8864,  1.5441, -0.5091, -1.7463], device='cuda:0')
重排得分索引：7
重排得分title: {'title': '上海市国资委、市工商局、市产管办关于印发《上海市产权交易市场管理办法实施细则》的通知(2009年修订)', 'time': '发布时间：2021-07-15', 'infosource': '信息来源：上海市'}


In [75]:
# 取重排前五
score_page_idx = scores.cpu().numpy().argsort()[-5:]
print(f'重排得分索引：{score_page_idx}')
dd = [reranked_results[idx][0]['metadata'] for idx in score_page_idx]
print(f"重排得分title: {dd}")

重排得分索引：[13 19  0  5  7]
重排得分title: [{'title': '\u200b【产权交易】上海联合产权交易所有限公司物权交易操作指引(沪联产交〔2020〕26号)', 'time': '发布时间：2020-11-12', 'infosource': '信息来源：国家'}, {'title': '财政部关于印发《金融企业非上市国有产权交易规则》的通知', 'time': '发布时间：2021-07-15', 'infosource': '信息来源：国家'}, {'title': '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', 'time': '发布时间：2020-11-12', 'infosource': '信息来源：国家'}, {'title': '【产权交易】上海联合产权交易所有限公司企业国有产权转让登记受让意向操作细则（沪联产交〔2020〕45号)', 'time': '发布时间：2020-11-12', 'infosource': '信息来源：国家'}, {'title': '上海市国资委、市工商局、市产管办关于印发《上海市产权交易市场管理办法实施细则》的通知(2009年修订)', 'time': '发布时间：2021-07-15', 'infosource': '信息来源：上海市'}]
