In [2]:
from openai import OpenAI
import os
from dotenv import dotenv_values
from ReadLoad import read_jsonl, write_jsonl, read_json, write_json
from tqdm import tqdm
from evaluation import get_embedding, cosine_similarity
from prompt_template import get_sys_prompt, get_qa_prompt, get_refine_prompt, get_re_query_prompt
from eval_data import key_word_score
from qwen import qwen_response
import pandas as pd
import time

config = dotenv_values('.env')
client = OpenAI(
    api_key=config['qwen_key'],
    base_url=config['qwen_url']
)


def get_response(prompt,sys_prompt=get_sys_prompt()):
    time.sleep(0.1)
    try:
        completion = client.chat.completions.create(
            model="qwen2-7b-instruct",
            messages=[
                {'role': 'system', 'content': sys_prompt},
                {'role': 'user', 'content': prompt}
            ]

            )
        return completion.choices[0].message.content
    except Exception as e:
    # Handle any other unexpected exceptions
        print(f"An unexpected error occurred: {e}")
        return f"An unexpected error occurred: {e}"


2024-07-24 20:55:15.764788: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-07-24 20:55:15.765944: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-07-24 20:55:15.768966: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-07-24 20:55:15.777500: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-24 20:55:15.792036: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been 

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [3]:
def re_query(data):
    for d in tqdm(data):
        query = d['问题']
        clause = d['条款']
        name = d['产品名']
        prompt = get_re_query_prompt(name, clause, query)
        d['重述问题'] = qwen_response(prompt)
    return data

In [4]:
def completion(data):
    for d in tqdm(data):
        query = d['问题']
        clause = d['条款']
        name = d['产品名']
        prompt = get_qa_prompt(name, clause, query)
        d['prompt'] = prompt
        #d['answer'] = get_response(prompt)
        #d['answer'] = get_respond(prompt)
        #d['original_answer'] = qwen_response(prompt),
        d['original_answer'] = get_response(prompt),
        d['refine_prompt'] = get_refine_prompt(query, d['original_answer'], name, clause)
        d['answer'] =  d['original_answer'] #qwen_response(d['refine_prompt'])
    return data

In [5]:
def evaluation(data, name="测试数据"):
    similaritys = []
    key_word_simi  = []
    for d in tqdm(data):
        vec1 = dev_data_embd[d['ID']]
        vec2 = get_embedding(d['answer'])
        similarity = cosine_similarity(vec1, vec2)
        kw_score = key_word_score(d['答案'], d['answer'])
        d['similarity'] = similarity
        d['key_word_similarity'] = kw_score
        similaritys.append(similarity)
        key_word_simi.append(kw_score)
    length = len(data)
    score = sum(similaritys)/length
    key_word_simi = sum(key_word_simi)/length
    print(f'测评数据集：{length} \n相识度得分：{score} \n关键词得分：{key_word_simi}')
    df = pd.DataFrame(data)
    df.to_excel(f"{name}_score_{score}.xlsx", index=False)
    return data

In [6]:
def to_summit_json(data, commit="大道至简_result"):
    result = []
    for d in data:
        rd = {
            "ID": d['ID'],
            "question": d['问题'],
            "answer": d['answer']
        }
        result.append(rd)
    #write_json(result, commit)
    write_jsonl(result, commit)

### loading data

In [16]:
# dev_data = read_jsonl("dataset/resultdev_with_embedding.jsonl")
# dev_data_embd = {}
# for d in dev_data:
#     dev_data_embd[d['ID']] = d['ans_embedding']
#     d.pop('ans_embedding')
# requery_data = re_query(data)
# comp_data = completion(dev_data[200:300])
# eval_data = evaluation(comp_data)

In [14]:
#test_data = read_json("dataset/test.json")
from Rag import retrieve_clause
test_data = read_jsonl("dataset/test-B-0722.json")[:5]
for data in test_data:
    query = data['问题']
    data['条款'] = '\n\n'.join(retrieve_clause(query))
# test_data_result = completion(test_data)
# to_summit_json(test_data_result)


In [15]:
test_data

[{'产品名': '50万运动意外医疗险',
  '条款': '（二）投保人申报的被保险人年龄不真实，导致投保人实付保险费少于应付保险费的，保险人有权更正并要求投保人补交保险费，或在给付保险金时按照实付保险费与应付保险费的比例支付. \n （三）投保人申报的被保险人年龄不真实，导致投保人支付保险费多于应付保险费的，保险人应将多收的保险费无息退还投保人. \n 保险金的申请\n保险金申请人（释义十五）向保险人申请给付保险金时，应提供如下材料.  保险金申请人因特殊原因不能提供以下材料的，应提供其他合法有效的材料.  保险金申请人未能提供有关材料，导致保险人无法核实该申请的真实性的，保险人对无法核实部分不承担给付保险金的责任. \n 意外伤残保险金申请\n1.保险金给付申请书；\n2.保险合同凭据；\n3.被保险人的身份证明；\n4.司法部门、二级及二级以上医院、保险人认可的医疗机构或保险人认可的其他鉴定机构出具的伤残鉴定诊断书；\n5.保险金申请人所能提供的与确认保险事故的性质、原因、损失程度等有关的其他证明和资料；\n6.若保险金申请人委托他人申请的，还应提供授权委托书原件、委托人和受托人的身份证明等相关证明文件.  受益人为无民事行为能力人或者限制民事行为能力人的，由其监护人代为申领保险金，并需要提供监护人的身份证明等资料. \n\n本附加合同中的运动意外住院医疗保险金额、运动意外门急诊医疗保险金额和总保险金额由投保人、保险人双方约定，并在本附加合同中载明.  保险金额一经确定，保险期间内不能进行变更. \n 保险金的申请\n保险金申请人（释义九）向保险人申请给付保险金时，应提供如下材料：\n（一）保险金给付申请书；\n（二）保险合同凭据；\n（三）保险金申请人的有效身份证件；\n（四）支持索赔的全部账单、证明、信息和证据，医院出具的病历资料、医学诊断书、处方、病理检查、化验检查报告、医疗费用原始单据、费用明细单据等.  保险金申请人因特殊原因不能提供上述材料的，应提供其他合法有效的材料；\n（五）保险金申请人所能提供的其他与确认保险事故的性质、原因等有关的其他证明和资料；\n（六）若保险金申请人委托他人申请的，还应提供授权委托书原件、委托人和受托人的身份证明等相关证明文件. \n 保险金申请人未能提供有关材料，导致保险人无法核实该申请的真实性的，保险人对无法核实

In [12]:
print(read_jsonl("dataset/test-B-0722.json")[0]['条款'])

众安在线财产保险股份有限公司个人运动意外伤害保险（互联网）
合同构成
本保险合同由保险条款、投保单、保险单或其他保险凭证、批单等组成。凡涉及本保险合同的约定，均应采用书面形式。
合同的成立
投保人提出保险申请，经保险人（释义一）同意承保，本保险合同成立。
投保人
本保险合同的投保人应为具有完全民事行为能力的被保险人本人或对被保险人有保险利益的其他人。
被保险人
除本保险合同另有约定外，被保险人应为65周岁（释义二）以下，身体健康，能正常工作或正常生活的自然人。
无民事行为能力人和限制民事行为能力人不能作为本保险合同的被保险人，但父母为未成年子女投保本保险合同的不受此限。对未成年人死亡给付的保险金总和不得超过国务院保险监督管理机构规定的限额。
总则
本保险合同所指的“运动”包括：
（一）普通运动（释义三）
（二）高风险运动（释义四）
投保人可选择上述运动中的一项或两项进行投保，并在本保险合同中载明。
保险责任
在保险期间内，被保险人在运动期间（释义五）遭受意外伤害（释义六），并因该意外伤害直接导致其身故或残疾的，保险人依照下列约定承担保险责任。
意外身故保险金
在保险期间内，被保险人在运动期间遭受意外伤害，并自该意外伤害发生之日起180日（含第180日）内因该意外伤害身故的，保险人按本保险合同载明的意外身故保险金额承担向意外身故保险金受益人给付意外身故保险金的责任，本保险合同终止。
被保险人因遭受意外伤害且自该意外伤害发生之日起下落不明，后经人民法院宣告死亡的，保险人按本保险合同载明的意外身故保险金额承担向意外身故保险金受益人给付意外身故保险金的责任。但若被保险人被宣告死亡后生还的，保险金受领人应于知道或应当知道被保险人生还后30日内退还保险人给付的意外身故保险金。
若被保险人在意外身故前保险人已给付下述第（二）项约定的意外伤残保险金的，则保险人在给付意外身故保险金时应扣除已累计给付的意外伤残保险金。
意外伤残保险金
在保险期间内，被保险人在运动期间因遭受意外伤害，并自该意外伤害发生之日起180日（含第180日）内因该意外伤害造成被保险人伤残并达到本保险合同所附《人身保险伤残评定标准》（保监发[2014]6号，标准编号为JR/T0083-2013,以下简称“评定标准”）所列伤残程度之一的，保险人按《评定标准》所对应伤残等级的给付比例乘以约定的意外伤残保险金额，承担向被

In [1]:
from ReadLoad import read_jsonl, write_jsonl, read_json, write_json
from llama_index.core.node_parser import SentenceWindowNodeParser
from llama_index.core import Document
from tqdm import tqdm

test_dataB = read_jsonl("dataset/test-B-0722.json")

In [12]:
documents = [Document(text=t['条款'],
                      metadata={
                          '产品名': t['产品名'],
                          'ID': t['ID'],
                          '问题': t['问题']
                      }) for t in test_dataB]
# for data in tqdm(documents):
#     data.text = data.text.replace('\n','. ')
    
# documents[:5]

100%|██████████| 1000/1000 [00:00<00:00, 19015.41it/s]


### 参考资料

https://dashscope.console.aliyun.com/billing