测试LLM能不能用

In [11]:
import os
import json
import re
import threading
import concurrent.futures
import pandas as pd
from tqdm.auto import tqdm

# 模拟LLM调用函数 - 仅用于测试！
def chat(prompt, temperature=0.7, max_tokens=1000, model="gpt-3.5-turbo"):
    """
    模拟LLM调用 - 返回固定结果用于测试
    实际使用时替换为真实的API调用
    """
    # 以下是固定返回的评分结果（仅用于测试流程）
    return """```json
{
    "score": 4, 
    "reason": "The answer is accurate but could be more detailed (simulated response)"
}
```"""

# 其他函数保持不变（build_qa_scoring_prompt, extract_json, score_qa_pairs）
def build_qa_scoring_prompt(qa_pair):
    """构建评分提示"""
    return f"""请对以下问答对评分(1-5分):
问题: {qa_pair['question']}
回答: {qa_pair['answer']}

返回JSON格式:
```json
{{
    "score": <分数>,
    "reason": "<评分理由>"
}}
```"""

def extract_json(text):
    """从响应中提取JSON"""
    pattern = r'\{.*?\}'
    ret = {}
    try:
        ret = json.loads(text)
    except:
        match = re.search(pattern, text, re.DOTALL)
        try:
            matched = match.group(0)
            ret = json.loads(matched)
        except Exception as e:
            print(f"解析失败: {str(e)}")
    return ret

def score_qa_pairs(qa_df, output_dir="./qa_scoring_results"):
    """主评分函数"""
    os.makedirs(output_dir, exist_ok=True)
    ckpt_filename = os.path.join(output_dir, "qa_scoring_ckpt.jsonl")
    result_filename = os.path.join(output_dir, "qa_scoring_results.csv")
    
    # 加载检查点
    qa_scoring_ckpt = {}
    if os.path.exists(ckpt_filename):
        with open(ckpt_filename, 'r', encoding='utf-8') as f:
            qa_scoring_ckpt = [json.loads(line.strip()) for line in f if line.strip()]
        qa_scoring_ckpt = {item['question']: item for item in qa_scoring_ckpt}
        print(f'加载检查点，已有 {len(qa_scoring_ckpt)} 个已评分问题')
    
    # 并行处理
    file_lock = threading.Lock()
    max_workers = 3
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            row['question']: executor.submit(chat, build_qa_scoring_prompt(row))
            for _, row in qa_df.iterrows() 
            if row['question'] not in qa_scoring_ckpt
        }
        
        for question in tqdm(futures, desc="评分QA对"):
            future = futures[question]
            result = future.result()
            
            if result is None:
                continue
            
            item = {'question': question, 'raw_resp': result}
            qa_scoring_ckpt[question] = item
            
            # 写入检查点
            file_lock.acquire()
            try:
                with open(ckpt_filename, 'a', encoding='utf-8') as f:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
            except Exception as e:
                print(f"写入检查点失败: {e}")
            finally:
                file_lock.release()
    
    # 提取评分
    qa_scoring_dict = {}
    for key, value in qa_scoring_ckpt.items():
        try:
            result = extract_json(value['raw_resp'])
            if 'score' not in result:
                result = {'score': -1, 'reason': f"解析失败: {value['raw_resp']}"}
            qa_scoring_dict[key] = result
        except Exception as e:
            print(f"处理问题 '{key}' 时出错: {e}")
            qa_scoring_dict[key] = {'score': -1, 'reason': f"处理出错: {str(e)}"}
    
    # 合并结果
    qa_df['score'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('score', -1))
    qa_df['score_reason'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('reason', '无评分理由'))
    
    # 保存结果
    qa_df.to_csv(result_filename, index=False, encoding='utf-8-sig')
    print(f"评分完成！结果保存到: {result_filename}")
    print("\n评分分布:")
    print(qa_df['score'].value_counts())
    
    return qa_df

# 示例测试
if __name__ == "__main__":
    # 示例数据
    test_data = [
        {"question": "Python是什么?", "answer": "一种编程语言"},
        {"question": "机器学习?", "answer": "AI的一个分支"},
        {"question": "深度学习?", "answer": "使用神经网络的机器学习"}
    ]
    test_df = pd.DataFrame(test_data)
    
    # 运行测试
    print("=== 开始测试评分系统（使用模拟LLM）===")
    scored_df = score_qa_pairs(test_df)
    
    print("\n=== 测试结果 ===")
    print(scored_df[['question', 'score', 'score_reason']])

=== 开始测试评分系统（使用模拟LLM）===
加载检查点，已有 97 个已评分问题


评分QA对:   0%|          | 0/3 [00:00<?, ?it/s]

解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' object has no attribute 'group'
解析失败: 'NoneType' obj

使用GPT测试LLM，原本跑出来证明LLM可以正常使用

对QA对进行打分 百度API

In [None]:
import os
import json
import re
import threading
import concurrent.futures
import pandas as pd
from tqdm.auto import tqdm

import requests

API_KEY = "bce-v3/ALTAK-pnj9BqB5Xe5qD6ScieUl6/37a6f27e70d7b732dab2d8dcb7bb296c0ff5bc42"
SECRET_KEY = "dda05b65e93d450cb7146b7d32b5e01a"

# 强制重新获取访问令牌
os.environ.pop('access_token', None) 

def get_access_token():
    """
    使用API Key，Secret Key获取access_token，替换下列示例中的应用信息
    """
    url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={API_KEY}&client_secret={SECRET_KEY}"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    try:
        response = requests.request("POST", url, headers=headers, data=payload)
        response.raise_for_status()  # 检查请求是否成功
        return response.json().get("access_token")
    except requests.RequestException as e:
        print(f"获取访问令牌时出错: {e}")
        return None

def chat(prompt, temperature=0.7, max_tokens=1000, model="ERNIE-Bot"):
    try:
        access_token = get_access_token()
        url = f"https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token={access_token}"
        payload = {
            "messages": [
                {
                    "role": "user",
                    "content": prompt
                }
            ],
            "temperature": temperature,
            "max_tokens": max_tokens
        }
        headers = {
            'Content-Type': 'application/json'
        }
        response = requests.post(url, headers=headers, json=payload)
        result = response.json()
        if 'result' in result:
            return result['result']
        else:
            print(f"百度 API 调用出错: {result}")
            return None
    except Exception as e:
        print(f"调用过程中出现异常: {e}")
        return None
    
#打分规则
def build_qa_scoring_prompt(qa_pair):
    """
    构建评分提示 - 根据你的评分标准修改
    qa_pair: 包含'question'和'answer'的字典
    """
    return f"""请根据以下标准对问答对进行评分(1-5分):
评分标准:
1分: 问题与保险领域风险无关，或者回答完全不相关、错误
2分: 问题与保险领域风险相关，但回答信息不准确或不完整
3分: 问题与保险领域风险相关，回答基本正确但缺乏详细解释和原因
4分: 问题与保险领域风险相关，回答准确且有一定深度，提供了部分解释和原因
5分: 问题明确针对保险领域的风险问题，回答非常准确、完整，直接给出分析性内容且提供详细解释和原因

问题: {qa_pair['question']}
回答: {qa_pair['answer']}

请以JSON格式返回评分和理由，格式如下:
```json
{{
    "score": <分数>,
    "reason": "<评分理由>"
}}
```"""

def extract_json(text):
    """
    从LLM响应中提取JSON评分结果
    """
    pattern = r'\{.*?\}'
    ret = {}
    try:
        ret = json.loads(text)
    except:
        match = re.search(pattern, text, re.DOTALL)
        try:
            matched = match.group(0)
            ret = json.loads(matched)
        except Exception as e:
            print(f"解析失败: {str(e)}")
            print(f"原始文本: {text}")
    return ret

def score_qa_pairs(qa_df, output_dir="./qa_scoring_results"):
    """
    主函数: 对QA对进行评分
    
    参数:
    qa_df: DataFrame, 必须包含'question'和'answer'列
    output_dir: str, 结果输出目录
    
    返回:
    评分后的DataFrame (添加了'score'和'score_reason'列)
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)
    
    # 检查点文件路径
    ckpt_filename = os.path.join(output_dir, "qa_scoring_ckpt.jsonl")
    result_filename = os.path.join(output_dir, "qa_scoring_results.csv")
    
    # 加载检查点
    qa_scoring_ckpt = {}
    if os.path.exists(ckpt_filename):
        with open(ckpt_filename, 'r', encoding='utf-8') as f:
            qa_scoring_ckpt = [json.loads(line.strip()) for line in f if line.strip()]
        qa_scoring_ckpt = {item['question']: item for item in qa_scoring_ckpt}
        print(f'加载检查点，已有 {len(qa_scoring_ckpt)} 个已评分问题')
    
    # 文件锁用于多线程安全写入
    file_lock = threading.Lock()
    
    # 并行处理
    max_workers = 3  
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            row['question']: executor.submit(
                chat, 
                build_qa_scoring_prompt(row),
                0.7,  # temperature
                1000,  # max_tokens
                "ERNIE-Bot"  # model
            )
            for _, row in qa_df.iterrows() 
            if row['question'] not in qa_scoring_ckpt
        }
        
        for question in tqdm(futures, desc="评分QA对"):
            future = futures[question]
            result = future.result()
            
            if result is None:
                continue
            
            item = {'question': question, 'raw_resp': result}
            qa_scoring_ckpt[question] = item
            
            # 线程安全写入检查点文件
            file_lock.acquire()
            try:
                with open(ckpt_filename, 'a', encoding='utf-8') as f:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
            except Exception as e:
                print(f"写入检查点失败: {e}")
            finally:
                file_lock.release()
    
    # 提取评分结果
    qa_scoring_dict = {}
    for key, value in qa_scoring_ckpt.items():
        try:
            result = extract_json(value['raw_resp'])
            if 'score' not in result:
                result = {'score': -1, 'reason': f"解析失败: 无评分结果, raw: {value['raw_resp']}"}
            qa_scoring_dict[key] = result
        except Exception as e:
            print(f"处理问题 '{key}' 时出错: {e}")
            qa_scoring_dict[key] = {'score': -1, 'reason': f"处理出错: {str(e)}"}
    
    # 合并结果到原始DataFrame
    qa_df['score'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('score', -1))
    qa_df['score_reason'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('reason', '无评分理由'))
    
    # 保存最终结果
    qa_df.to_csv(result_filename, index=False, encoding='utf-8-sig')
    print(f"评分完成，结果已保存到 {result_filename}")
    
    return qa_df

if __name__ == "__main__":
    
    file_path = "D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv"
    qa_df = pd.read_csv(file_path)
    
    # 运行评分
    scored_df = score_qa_pairs(qa_df, output_dir="./qa_scoring_results")
    
    # 查看结果
    print("\n评分结果示例:")
    print(scored_df[['question', 'score', 'score_reason']].head())

评分QA对:   0%|          | 0/97 [00:00<?, ?it/s]

获取访问令牌时出错: 401 Client Error: Unauthorized for url: https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=bce-v3/ALTAK-pnj9BqB5Xe5qD6ScieUl6/37a6f27e70d7b732dab2d8dcb7bb296c0ff5bc42&client_secret=dda05b65e93d450cb7146b7d32b5e01a
获取访问令牌时出错: 401 Client Error: Unauthorized for url: https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=bce-v3/ALTAK-pnj9BqB5Xe5qD6ScieUl6/37a6f27e70d7b732dab2d8dcb7bb296c0ff5bc42&client_secret=dda05b65e93d450cb7146b7d32b5e01a
获取访问令牌时出错: 401 Client Error: Unauthorized for url: https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=bce-v3/ALTAK-pnj9BqB5Xe5qD6ScieUl6/37a6f27e70d7b732dab2d8dcb7bb296c0ff5bc42&client_secret=dda05b65e93d450cb7146b7d32b5e01a
百度 API 调用出错: {'error_code': 110, 'error_msg': 'Access token invalid or no longer valid'}
百度 API 调用出错: {'error_code': 110, 'error_msg': 'Access token invalid or no longer valid'}
百度 API 调用出错: {'error_code': 110, 'error_msg': 'Access tok

报错原因：百度API调用失败，多次申请新的也不行

将QA对pdf转化为DataFrame格式

In [None]:
import pandas as pd
import pdfplumber
import re

def extract_qa_pairs(pdf_path):
    qa_list = []
    with pdfplumber.open(pdf_path) as pdf:  
        for page in pdf.pages:
            text = page.extract_text()
            qa_matches = re.findall(r'Q\d*:\s*(.*?)\s*A\d*:\s*(.*?)(?=\s*Q\d*:|\Z)', text, re.DOTALL)
            for question, answer in qa_matches:
                qa_list.append({
                    'question': ' '.join(question.split()),
                    'answer': ' '.join([line.strip() for line in answer.split('\n') if line.strip()])
                })
    return pd.DataFrame(qa_list)

pdf_path = "D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.pdf"  

qa_df = extract_qa_pairs(pdf_path)
print(qa_df.head())

qa_df.to_csv("D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv", index=False, encoding='utf-8-sig')  

CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox


                   question                                             answer
0            什么是宏利环球货币保障计划？  这是一款分红型终身人寿保险计划，提供身故赔偿、意外身故赔偿及现金价值积累功 能，支持多币种转...
1              保单的身故赔偿如何计算？  身故赔偿为以下两者的较高者：(a) 表格所示现金价值 + 终期红利（如有）；或 (b) 所 ...
2                 保单支持哪些货币？    支持美元、港币、人民币、澳元、加元、英镑、新加坡元等，且可从第3个保单周年日 起申请货币转换。
3             如何行使终期红利锁定权益？  从第15个保单周年日起，保单持有人可申请将终期红利的最高50%锁定为累积已锁定终 期红利，需...
4  若受保人在保单生效1年内自杀，保险公司如何赔付？           仅退还已缴保费（扣除已支付的款项），不承担其他赔偿责任。复效后1年内自杀同理 。


改用智谱的API

In [None]:
import os
import json
import re
import threading
import concurrent.futures
import pandas as pd
from tqdm.auto import tqdm
import requests

import requests

def chat(prompt, temperature=0.7, max_tokens=1000, model="your_model_name"):
    """
    使用智谱API进行调用
    """
    api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"  
    headers = {
        "Authorization": "Bearer 388caa4aac5c4f7e8c48eea54765c5d7.z9rH2T1hGw9gXMIa",  
        "Content-Type": "application/json"
    }
    data = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens
    }

    try:
        response = requests.post(api_url, headers=headers, json=data)
        response.raise_for_status()  # 检查请求是否成功
        result = response.json()
        score = result.get("choices", [{}])[0].get("message", {}).get("content", {}).get("score")
        reason = result.get("choices", [{}])[0].get("message", {}).get("content", {}).get("reason")
        return f"""```json
{{
    "score": {score}, 
    "reason": "{reason}"
}}
```"""
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return ""
    except KeyError as e:
        print(f"响应结构不符合预期: {e}")
        return ""

# 打分规则
def build_qa_scoring_prompt(qa_pair):
    """
    构建评分提示 - 根据你的评分标准修改
    qa_pair: 包含'question'和'answer'的字典
    """
    return f"""请根据以下标准对问答对进行评分(1-5分):
评分标准:
1分: 问题与保险领域风险无关，或者回答完全不相关、错误
2分: 问题与保险领域风险相关，但回答信息不准确或不完整
3分: 问题与保险领域风险相关，回答基本正确但缺乏详细解释和原因
4分: 问题与保险领域风险相关，回答准确且有一定深度，提供了部分解释和原因
5分: 问题明确针对保险领域的风险问题，回答非常准确、完整，直接给出分析性内容且提供详细解释和原因

问题: {qa_pair['question']}
回答: {qa_pair['answer']}

请以JSON格式返回评分和理由，格式如下:
```json
{{
    "score": <分数>,
    "reason": "<评分理由>"
}}
```"""

def extract_json(text):
    """
    从LLM响应中提取JSON评分结果
    """
    pattern = r'\{.*?\}'
    ret = {}
    try:
        ret = json.loads(text)
    except:
        match = re.search(pattern, text, re.DOTALL)
        try:
            matched = match.group(0)     #在这里出问题，没有预期情况    
            ret = json.loads(matched)
        except Exception as e:
            print(f"解析失败: {str(e)}")
            print(f"原始文本: {text}")
    return ret

def score_qa_pairs(qa_df, output_dir="./qa_scoring_results"):
    """
    主函数: 对QA对进行评分
    
    参数:
    qa_df: DataFrame, 必须包含'question'和'answer'列
    output_dir: str, 结果输出目录
    
    返回:
    评分后的DataFrame (添加了'score'和'score_reason'列)
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)
    
    # 检查点文件路径
    ckpt_filename = os.path.join(output_dir, "qa_scoring_ckpt.jsonl")
    result_filename = os.path.join(output_dir, "qa_scoring_results.csv")
    
    # 加载检查点
    qa_scoring_ckpt = {}
    if os.path.exists(ckpt_filename):
        with open(ckpt_filename, 'r', encoding='utf-8') as f:
            qa_scoring_ckpt = [json.loads(line.strip()) for line in f if line.strip()]
        qa_scoring_ckpt = {item['question']: item for item in qa_scoring_ckpt}
        print(f'加载检查点，已有 {len(qa_scoring_ckpt)} 个已评分问题')
    
    # 文件锁用于多线程安全写入
    file_lock = threading.Lock()
    
    # 并行处理
    max_workers = 3  
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            row['question']: executor.submit(
                chat, 
                build_qa_scoring_prompt(row),
                0.7,  # temperature
                1000,  # max_tokens
                " chatglm_turbo"  # 模型
            )
            for _, row in qa_df.iterrows() 
            if row['question'] not in qa_scoring_ckpt
        }
        
        for question in tqdm(futures, desc="评分QA对"):
            future = futures[question]
            result = future.result()
            
            if result is None:
                continue
            
            item = {'question': question, 'raw_resp': result}
            qa_scoring_ckpt[question] = item
            
            # 线程安全写入检查点文件
            file_lock.acquire()
            try:
                with open(ckpt_filename, 'a', encoding='utf-8') as f:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
            except Exception as e:
                print(f"写入检查点失败: {e}")
            finally:
                file_lock.release()
    
    # 提取评分结果
    qa_scoring_dict = {}
    for key, value in qa_scoring_ckpt.items():
        try:
            result = extract_json(value['raw_resp'])
            if 'score' not in result:
                result = {'score': -1, 'reason': f"解析失败: 无评分结果, raw: {value['raw_resp']}"}
            qa_scoring_dict[key] = result
        except Exception as e:
            print(f"处理问题 '{key}' 时出错: {e}")
            qa_scoring_dict[key] = {'score': -1, 'reason': f"处理出错: {str(e)}"}
    
    # 合并结果到原始DataFrame
    qa_df['score'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('score', -1))
    qa_df['score_reason'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('reason', '无评分理由'))
    
    # 保存最终结果
    qa_df.to_csv(result_filename, index=False, encoding='utf-8-sig')
    print(f"评分完成，结果已保存到 {result_filename}")
    
    return qa_df

if __name__ == "__main__":
    file_path = "D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv"
    qa_df = pd.read_csv(file_path)
    
    scored_df = score_qa_pairs(qa_df, output_dir="./qa_scoring_results")
    
    print("\n评分结果示例:")
    print(scored_df[['question', 'score', 'score_reason']].head())

加载检查点，已有 100 个已评分问题


评分QA对: 0it [00:00, ?it/s]

解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'

报错原因：match为None，从智谱 API返回的响应内容格式与你预期的不同，导致无法通过该正则表达式找到对应的JSON 字符串部分，所以 match为 None

In [None]:
import os
import json
import re
import threading
import concurrent.futures
import pandas as pd
from tqdm.auto import tqdm
import requests


def chat(prompt, temperature=0.7, max_tokens=1000, model="chatglm_turbo"):
    """
    使用智谱API进行调用
    """
    api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
    headers = {
        "Authorization": "Bearer 388caa4aac5c4f7e8c48eea54765c5d7.z9rH2T1hGw9gXMIa",  #添加 Bearer 前缀
        "Content-Type": "application/json"
    }
    data = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens
    }

    try:
        response = requests.post(api_url, headers=headers, json=data)
        response.raise_for_status()  # 检查请求是否成功
        result = response.json()
        content = result.get("choices", [{}])[0].get("message", {}).get("content", "")
        print("API返回的content内容:", content)
        try:
            json_result = json.loads(content.strip('```json\n').strip('\n```'))
            score = json_result.get("score")
            reason = json_result.get("reason")
        except json.JSONDecodeError:
            print(f"解析响应内容失败: {content}")
            score = -1
            reason = "解析响应内容失败"
        return f"""```json
{{
    "score": {score}, 
    "reason": "{reason}"
}}
```"""
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return ""
    except KeyError as e:
        print(f"响应结构不符合预期: {e}")
        return ""


# 打分规则
def build_qa_scoring_prompt(qa_pair):
    """
    构建评分提示 - 根据你的评分标准修改
    qa_pair: 包含'question'和'answer'的字典
    """
    return f"""请根据以下标准对问答对进行评分(1-5分):
评分标准:
1分: 问题与保险领域风险无关，或者回答完全不相关、错误
2分: 问题与保险领域风险相关，但回答信息不准确或不完整
3分: 问题与保险领域风险相关，回答基本正确但缺乏详细解释和原因
4分: 问题与保险领域风险相关，回答准确且有一定深度，提供了部分解释和原因
5分: 问题明确针对保险领域的风险问题，回答非常准确、完整，直接给出分析性内容且提供详细解释和原因

问题: {qa_pair['question']}
回答: {qa_pair['answer']}

请以JSON格式返回评分和理由，格式如下:
```json
{{
    "score": <分数>,
    "reason": "<评分理由>"
}}
```"""


def extract_json(text):
    """
    从LLM响应中提取JSON评分结果
    """
    pattern = r'\{.*?\}'
    ret = {}
    try:
        ret = json.loads(text)
    except:
        match = re.search(pattern, text, re.DOTALL)
        try:
            matched = match.group(0)
            ret = json.loads(matched)
        except Exception as e:
            print(f"解析失败: {str(e)}")
            print(f"原始文本: {text}")
    return ret


def score_qa_pairs(qa_df, output_dir="./qa_scoring_results"):
    """
    主函数: 对QA对进行评分

    参数:
    qa_df: DataFrame, 必须包含'question'和'answer'列
    output_dir: str, 结果输出目录

    返回:
    评分后的DataFrame (添加了'score'和'score_reason'列)
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)

    # 检查点文件路径
    ckpt_filename = os.path.join(output_dir, "qa_scoring_ckpt.jsonl")
    result_filename = os.path.join(output_dir, "qa_scoring_results.csv")

    # 加载检查点
    qa_scoring_ckpt = {}
    if os.path.exists(ckpt_filename):
        with open(ckpt_filename, 'r', encoding='utf-8') as f:
            qa_scoring_ckpt = [json.loads(line.strip()) for line in f if line.strip()]
        qa_scoring_ckpt = {item['question']: item for item in qa_scoring_ckpt}
        print(f'加载检查点，已有 {len(qa_scoring_ckpt)} 个已评分问题')

    # 文件锁用于多线程安全写入
    file_lock = threading.Lock()

    # 并行处理
    max_workers = 3  # 根据你的系统调整
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            row['question']: executor.submit(
                chat,
                build_qa_scoring_prompt(row),
                0.7,  # temperature
                1000,  # max_tokens
                "GLM-4"  # 模型
            )
            for _, row in qa_df.iterrows()
            if row['question'] not in qa_scoring_ckpt
        }

        for question in tqdm(futures, desc="评分QA对"):
            future = futures[question]
            result = future.result()

            if result is None:
                continue

            item = {'question': question, 'raw_resp': result}
            qa_scoring_ckpt[question] = item

            # 线程安全写入检查点文件
            file_lock.acquire()
            try:
                with open(ckpt_filename, 'a', encoding='utf-8') as f:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
            except Exception as e:
                print(f"写入检查点失败: {e}")
            finally:
                file_lock.release()

    # 提取评分结果
    qa_scoring_dict = {}
    for key, value in qa_scoring_ckpt.items():
        try:
            result = extract_json(value['raw_resp'])
            if 'score' not in result:
                result = {'score': -1, 'reason': f"解析失败: 无评分结果, raw: {value['raw_resp']}"}
            qa_scoring_dict[key] = result
        except Exception as e:
            print(f"处理问题 '{key}' 时出错: {e}")
            qa_scoring_dict[key] = {'score': -1, 'reason': f"处理出错: {str(e)}"}

    # 合并结果到原始DataFrame
    qa_df['score'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('score', -1))
    qa_df['score_reason'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('reason', '无评分理由'))

    # 保存最终结果
    qa_df.to_csv(result_filename, index=False, encoding='utf-8-sig')
    print(f"评分完成，结果已保存到 {result_filename}")

    return qa_df


# 示例使用
if __name__ == "__main__":
    # 示例数据 - 替换为你的实际QA数据
    # 替换为你的实际QA数据文件路径
    file_path = r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv"
    qa_df = pd.read_csv(file_path)

    # 运行评分
    scored_df = score_qa_pairs(qa_df, output_dir="./qa_scoring_results")

    # 查看结果
    print("\n评分结果示例:")
    print(scored_df[['question', 'score', 'score_reason']].head())


加载检查点，已有 100 个已评分问题


评分QA对: 0it [00:00, ?it/s]

解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'
原始文本: 
解析失败: 'NoneType' object has no attribute 'group'

报错原因：API 返回的 content 里没有符合正则表达式 r'\{.*?\}' 的 JSON 格式内容

将CSV文件改为JSON格式再使用智谱

In [None]:
import pandas as pd
import json


def csv_to_json(csv_file_path, json_file_path):
    df = pd.read_csv(csv_file_path)
    result = df[['question', 'answer']].to_dict('records')
    with open(json_file_path, 'w', encoding='utf-8') as f:
        json.dump(result, f, ensure_ascii=False, indent=4)
    return result

csv_file_path = 'D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv'
json_file_path = 'D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json'
json_data = csv_to_json(csv_file_path, json_file_path)
print(f"已将数据从 {csv_file_path} 转换并保存到 {json_file_path}")

已将数据从 D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.csv 转换并保存到 D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json


In [None]:
import os
import json
import re
import threading
import concurrent.futures
import pandas as pd
from tqdm.auto import tqdm
import requests


def chat(prompt, temperature=0.7, max_tokens=1000, model="chatglm_turbo"):
    """
    使用智谱API进行调用
    """
    api_url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
    headers = {
        "Authorization": "Bearer 388caa4aac5c4f7e8c48eea54765c5d7.z9rH2T1hGw9gXMIa",  # 添加Bearer前缀
        "Content-Type": "application/json"
    }
    data = {
        "model": model,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens
    }

    try:
        response = requests.post(api_url, headers=headers, json=data)
        response.raise_for_status()  # 检查请求是否成功
        result = response.json()
        content = result.get("choices", [{}])[0].get("message", {}).get("content", "")
        print("API返回的content内容:", content)
        try:
            json_result = json.loads(content.strip('```json\n').strip('\n```'))
            score = json_result.get("score")
            reason = json_result.get("reason")
        except json.JSONDecodeError:
            print(f"解析响应内容失败: {content}")
            score = -1
            reason = "解析响应内容失败"
        return f"""```json
{{
    "score": {score}, 
    "reason": "{reason}"
}}
```"""
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return ""
    except KeyError as e:
        print(f"响应结构不符合预期: {e}")
        return ""


# 打分规则
def build_qa_scoring_prompt(qa_pair):
    """
    构建评分提示 - 根据你的评分标准修改
    qa_pair: 包含'question'和'answer'的字典
    """
    return f"""请根据以下标准对问答对进行评分(1-5分):
评分标准:
1分: 问题与保险领域风险无关，或者回答完全不相关、错误
2分: 问题与保险领域风险相关，但回答信息不准确或不完整
3分: 问题与保险领域风险相关，回答基本正确但缺乏详细解释和原因
4分: 问题与保险领域风险相关，回答准确且有一定深度，提供了部分解释和原因
5分: 问题明确针对保险领域的风险问题，回答非常准确、完整，直接给出分析性内容且提供详细解释和原因

问题: {qa_pair['question']}
回答: {qa_pair['answer']}

请以JSON格式返回评分和理由，格式如下:
```json
{{
    "score": <分数>,
    "reason": "<评分理由>"
}}
```"""


def extract_json(text):
    """
    从LLM响应中提取JSON评分结果
    """
    pattern = r'\{.*?\}'
    ret = {}
    try:
        ret = json.loads(text)
    except:
        match = re.search(pattern, text, re.DOTALL)
        if match:
            try:
                matched = match.group(0)
                ret = json.loads(matched)
            except Exception as e:
                print(f"解析失败: {str(e)}")
                print(f"原始文本: {text}")
        else:
            print(f"未找到匹配的JSON内容，原始文本: {text}")
    return ret


def score_qa_pairs(qa_data, output_dir="./qa_scoring_results"):
    """
    主函数: 对QA对进行评分

    参数:
    qa_data: 包含问答对的JSON数据（列表形式，每个元素为一个包含'question'和'answer'的字典）
    output_dir: str, 结果输出目录

    返回:
    评分后的DataFrame (添加了'score'和'score_reason'列)
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)

    # 检查点文件路径
    ckpt_filename = os.path.join(output_dir, "qa_scoring_ckpt.jsonl")
    result_filename = os.path.join(output_dir, "qa_scoring_results.csv")

    # 加载检查点
    qa_scoring_ckpt = {}
    if os.path.exists(ckpt_filename):
        with open(ckpt_filename, 'r', encoding='utf-8') as f:
            qa_scoring_ckpt = [json.loads(line.strip()) for line in f if line.strip()]
        qa_scoring_ckpt = {item['question']: item for item in qa_scoring_ckpt}
        print(f'加载检查点，已有 {len(qa_scoring_ckpt)} 个已评分问题')

    # 文件锁用于多线程安全写入
    file_lock = threading.Lock()

    # 并行处理
    max_workers = 3 
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {
            item['question']: executor.submit(
                chat,
                build_qa_scoring_prompt(item),
                0.7,  # temperature
                1000,  # max_tokens
                "GLM-4"  # 模型
            )
            for item in qa_data
            if item['question'] not in qa_scoring_ckpt
        }

        for question in tqdm(futures, desc="评分QA对"):
            future = futures[question]
            result = future.result()

            if result is None:
                continue

            item = {'question': question, 'raw_resp': result}
            qa_scoring_ckpt[question] = item

            # 线程安全写入检查点文件
            file_lock.acquire()
            try:
                with open(ckpt_filename, 'a', encoding='utf-8') as f:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
            except Exception as e:
                print(f"写入检查点失败: {e}")
            finally:
                file_lock.release()

    # 提取评分结果
    qa_scoring_dict = {}
    for key, value in qa_scoring_ckpt.items():
        try:
            result = extract_json(value['raw_resp'])
            if'score' not in result:
                result = {'score': -1,'reason': f"解析失败: 无评分结果, raw: {value['raw_resp']}"}
            qa_scoring_dict[key] = result
        except Exception as e:
            print(f"处理问题 '{key}' 时出错: {e}")
            qa_scoring_dict[key] = {'score': -1,'reason': f"处理出错: {str(e)}"}

    # 将评分结果合并到DataFrame中
    qa_df = pd.DataFrame(qa_data)
    qa_df['score'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('score', -1))
    qa_df['score_reason'] = qa_df['question'].map(lambda q: qa_scoring_dict.get(q, {}).get('reason', '无评分理由'))

    # 保存最终结果
    qa_df.to_csv(result_filename, index=False, encoding='utf-8-sig')
    print(f"评分完成，结果已保存到 {result_filename}")

    return qa_df

if __name__ == "__main__":

    json_file_path = r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json"
    with open(json_file_path, 'r', encoding='utf-8') as f:
        qa_data = json.load(f)

    # 运行评分
    scored_df = score_qa_pairs(qa_data, output_dir="./qa_scoring_results")

    # 查看结果
    print("\n评分结果示例:")
    print(scored_df[['question','score','score_reason']].head())


加载检查点，已有 100 个已评分问题


评分QA对: 0it [00:00, ?it/s]

未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 
未找到匹配的JSON内容，原始文本: 


API调用没问题了，LLM也没问题，应该是代码的问题了

In [None]:
import json
import requests
import time

API_KEY = "388caa4aac5c4f7e8c48eea54765c5d7.z9rH2T1hGw9gXMIa"  # 替换为你的 API Key
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你评估以下几个方面：
1. 回答是否准确反映文档内容（准确性）；
2. 回答是否完整涵盖要点（完整性）；
3. 回答是否清晰易懂（清晰度）；

请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def process_testset(input_file, output_file):
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)

    results = []
    for idx, item in enumerate(qa_list):
        question = item.get("question", "")
        answer = item.get("answer", "")
        print(f"[{idx+1}/{len(qa_list)}] 评分中：{question[:20]}...")
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        results.append(item)
        time.sleep(2)  # 防止触发速率限制

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

# 用法示例
process_testset(r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json", "qa_scored.json")

[1/97] 评分中：什么是宏利环球货币保障计划？...
[2/97] 评分中：保单的身故赔偿如何计算？...
[3/97] 评分中：保单支持哪些货币？...
[4/97] 评分中：如何行使终期红利锁定权益？...
[5/97] 评分中：若受保人在保单生效1年内自杀，保险公司如...
[6/97] 评分中：宽限期结束后仍未缴费，保单会怎样？...
[7/97] 评分中：货币转换后，附加保障是否继续有效？...
[8/97] 评分中：若欠款超过现金价值，保单如何处理？...
[9/97] 评分中：如何更改受益人？...
[10/97] 评分中：保单贷款的最高额度是多少？...
[11/97] 评分中：什么是“保费假期”？如何申请？...
[12/97] 评分中：若受保人年龄填报错误怎么办？...
[13/97] 评分中：终期红利是保证的吗？...
[14/97] 评分中：意外身故赔偿是否涵盖战争或高风险运动？...
[15/97] 评分中：保单转让需要哪些手续？...
[16/97] 评分中：宏挚传承保障计划是什么类型的保险？...
[17/97] 评分中：身故赔偿如何计算？...
[18/97] 评分中：保单支持哪些货币？货币转换权益如何行使？...
[19/97] 评分中：什么是“终期红利锁定权益”？如何操作？...
[20/97] 评分中：若受保人在保单生效1年内自杀，如何赔付？...
[21/97] 评分中：欠款超过现金价值时保单会怎样？...
[22/97] 评分中：货币转换后附加保障是否继续有效？...
[23/97] 评分中：若在“缓接期”内确诊指定疾病（如癌症），...
[24/97] 评分中：如何更改受益人？是否需要受益人同意？...
[25/97] 评分中：保单贷款的最高额度是多少？利息如何计算？...
[26/97] 评分中：什么是“保费假期”？申请条件是什么？...
[27/97] 评分中：“无忧选”入息支付选项有哪些？如何更改？...
[28/97] 评分中：“身心守护预支保障”覆盖哪些疾病？...
[29/97] 评分中：若受保人年龄填报错误，如何处理？...
[30/97] 评分中：保单退保后能否复效？...
[31/97] 评分中：终期红利是保证收益吗？...
[32/97] 评分中：意外身故赔偿是否涵盖高风险运动（如跳伞）...
[3

In [18]:
import json
import requests
import time
from tqdm import tqdm

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"  # 替换为你的 API Key
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你评估以下几个方面：
1. 问题和答案是否准确反映文档内容（准确性）；
2. 问题和答案是否完整涵盖要点（完整性）；
3. 问题和答案是否清晰易懂（清晰度）；

请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def process_testset(input_file, output_file):
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)

    results = []
    for item in tqdm(qa_list, desc="评分进度", unit="对"):
        question = item.get("question", "")
        answer = item.get("answer", "")
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        results.append(item)
        time.sleep(2) 

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

process_testset(r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json", "qa_scored2.json")

评分进度: 100%|██████████| 97/97 [18:13<00:00, 11.28s/对]  

所有问答评分已完成，结果保存在： qa_scored2.json





In [None]:
import json
import requests
import time
from tqdm import tqdm

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"  # 替换为你的 API Key
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你评估以下几个方面：
1. 问题和答案是否准确反映文档内容（准确性）；
2. 问题和答案是否完整涵盖要点（完整性）；
3. 问题和答案是否清晰易懂（清晰度）；

请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def process_testset(input_file, output_file):
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)

    results = []
    for item in tqdm(qa_list, desc="评分进度", unit="对"):
        question = item.get("question", "")
        answer = item.get("answer", "")
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        results.append(item)
        time.sleep(2) 

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

process_testset(r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集.json", "qa_scored2.json")

添加了一些高级问题，然后补充提示词

In [19]:
import pandas as pd
import pdfplumber
import re

def extract_qa_pairs(pdf_path):
    qa_list = []
    with pdfplumber.open(pdf_path) as pdf:  
        for page in pdf.pages:
            text = page.extract_text()
            qa_matches = re.findall(r'Q\d*:\s*(.*?)\s*A\d*:\s*(.*?)(?=\s*Q\d*:|\Z)', text, re.DOTALL)
            for question, answer in qa_matches:
                qa_list.append({
                    'question': ' '.join(question.split()),
                    'answer': ' '.join([line.strip() for line in answer.split('\n') if line.strip()])
                })
    return pd.DataFrame(qa_list)

pdf_path = "D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.pdf"  

qa_df = extract_qa_pairs(pdf_path)
print(qa_df.head())

qa_df.to_csv("D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.csv", index=False, encoding='utf-8-sig')  

CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox


                   question                                             answer
0            什么是宏利环球货币保障计划？  这是一款分红型终身人寿保险计划，提供身故赔偿、意外身故赔偿及现金价值积累功 能，支持多币种转...
1              保单的身故赔偿如何计算？  身故赔偿为以下两者的较高者：(a) 表格所示现金价值 + 终期红利（如有）；或 (b) 所 ...
2                 保单支持哪些货币？    支持美元、港币、人民币、澳元、加元、英镑、新加坡元等，且可从第3个保单周年日 起申请货币转换。
3             如何行使终期红利锁定权益？  从第15个保单周年日起，保单持有人可申请将终期红利的最高50%锁定为累积已锁定终 期红利，需...
4  若受保人在保单生效1年内自杀，保险公司如何赔付？           仅退还已缴保费（扣除已支付的款项），不承担其他赔偿责任。复效后1年内自杀同理 。


In [20]:
import pandas as pd
import json


def csv_to_json(csv_file_path, json_file_path):
    df = pd.read_csv(csv_file_path)
    result = df[['question', 'answer']].to_dict('records')
    with open(json_file_path, 'w', encoding='utf-8') as f:
        json.dump(result, f, ensure_ascii=False, indent=4)
    return result

csv_file_path = 'D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.csv'
json_file_path = 'D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json'
json_data = csv_to_json(csv_file_path, json_file_path)
print(f"已将数据从 {csv_file_path} 转换并保存到 {json_file_path}")

已将数据从 D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.csv 转换并保存到 D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json


In [None]:
import json
import requests
import time
from tqdm import tqdm

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"  
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你从保险领域专业视角，对以下几个方面评估给定的保险领域 QA 对的质量：

1.准确性：判断问题和答案是否与保险专业知识、相关条款及给定文档内容高度一致，杜绝事实性错误。若答案与权威保险资料、行业标准规范相悖，或者对问题的表述偏离文档核心意思，则视为不准确。
2.完整性：检查问题和答案是否全面覆盖关键要点。对于保险条款解读类问题，需涵盖条款核心内容、适用条件、限制范围等；理赔流程类问题，要包含从报案到赔付的主要步骤、所需材料等。若有关键环节缺失，则判定为不完整。
3.清晰度：评估问题和答案是否清晰易懂，逻辑结构是否合理。在解释保险责任判定时，推理过程应依据合理逻辑从事故情况推导到责任归属；阐述保险产品特点时，各特点之间逻辑关系需清晰，避免出现逻辑混乱或跳跃的情况。


请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def process_testset(input_file, output_file):
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)

    results = []
    for item in tqdm(qa_list, desc="评分进度", unit="对"):
        question = item.get("question", "")
        answer = item.get("answer", "")
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        results.append(item)
        time.sleep(2) 

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

process_testset(r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json", "qa_scored3.json")

评分进度: 100%|██████████| 97/97 [19:43<00:00, 12.20s/对]

所有问答评分已完成，结果保存在： qa_scored3.json





文本块对应

In [38]:
import json
import requests
import time
from tqdm import tqdm
from difflib import get_close_matches
from opencc import OpenCC

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"  
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

# 创建OpenCC对象，设置从繁体到简体的转换
cc = OpenCC('t2s')

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你从保险领域专业视角，根据uuid定位到QA对对应的文本块，然后进行比较并从以下几个方面评估给定的保险领域 QA 对的质量：

1.准确性：判断问题和答案是否与保险专业知识、相关条款及给定文档内容高度一致，杜绝事实性错误。若答案与权威保险资料、行业标准规范相悖，或者对问题的表述偏离文档核心意思，则视为不准确。
2.完整性：检查问题和答案是否全面覆盖关键要点。对于保险条款解读类问题，需涵盖条款核心内容、适用条件、限制范围等；理赔流程类问题，要包含从报案到赔付的主要步骤、所需材料等。若有关键环节缺失，则判定为不完整。
3.清晰度：评估问题和答案是否清晰易懂，逻辑结构是否合理。在解释保险责任判定时，推理过程应依据合理逻辑从事故情况推导到责任归属；阐述保险产品特点时，各特点之间逻辑关系需清晰，避免出现逻辑混乱或跳跃的情况。


请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def find_best_matching_block(question, text_blocks, threshold=0.15):
    # 将问题转换为简体字
    question = cc.convert(question)
    # 提取所有文本块的文本内容，并转换为简体字
    block_texts = [cc.convert(block["content"]) for block in text_blocks]
    # 使用difflib找到最匹配的文本
    matches = get_close_matches(question, block_texts, n=1, cutoff=threshold)
    
    if matches:
        best_match = matches[0]
        # 找到匹配文本对应的索引
        index = block_texts.index(best_match)
        return text_blocks[index]["uuid"]
    return "no_match"

def process_testset(qa_file, text_blocks_file, output_file):
    # 加载QA对文件
    with open(qa_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)
    
    # 加载文本块文件
    with open(text_blocks_file, "r", encoding="utf-8") as f:
        text_blocks = json.load(f)

    results = []
    
    print("\n开始处理QA对评分和映射...\n")
    
    for item in tqdm(qa_list, desc="处理进度", unit="对"):
        question = item.get("question", "")
        answer = item.get("answer", "")
        
        # 获取评分
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        
        # 找到最匹配的文本块
        best_block_uuid = find_best_matching_block(question, text_blocks)
        
        # 记录结果
        results.append(item)
        
        # 输出当前QA对的评分和映射关系
        print("\n" + "="*50)
        print(f"问题: {question[:80]}...")
        print(f"答案: {answer[:40]}...")
        print(f"评分结果: {feedback[:60]}...")
        print(f"对应文本块UUID: {best_block_uuid}")
        print("="*50 + "\n")
        
        time.sleep(2)  # 控制API请求频率

    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    
    print("\n所有问答评分和映射已完成，结果保存在：", output_file)

# 调用函数，替换为你的实际文件路径
process_testset(
    r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json",      # QA对JSON文件路径
    r"D:\火力全开的项目实践\宏利 pdf 文件\数据清洗与分块\all_docs_split_400_40(1).json",   # 文本块JSON文件路径
    "qa_scored_with_blocks111.json"           # 输出文件路径
)


开始处理QA对评分和映射...



处理进度:   0%|          | 0/97 [00:00<?, ?对/s]


问题: 什么是宏利环球货币保障计划？...
答案: 这是一款分红型终身人寿保险计划，提供身故赔偿、意外身故赔偿及现金价值积累功 能，...
评分结果: 分数：4.5

评语：这个问答对在保险领域的专业表现整体上是不错的。在准确性方面，回答对“宏利环球货币保障计划”的描述与...
对应文本块UUID: 9e2dcf4b-3d94-4052-b0e4-cbb588795da5



处理进度:   1%|          | 1/97 [00:10<16:16, 10.17s/对]


问题: 保单的身故赔偿如何计算？...
答案: 身故赔偿为以下两者的较高者：(a) 表格所示现金价值 + 终期红利（如有）；或 ...
评分结果: 分数：4.8

评语：这个QA对在保险领域的专业准确性、完整性和清晰度方面都做得相当不错。首先，在准确性方面，答案提供了...
对应文本块UUID: 6627fd53-2433-4ca3-9b66-6d40d73f9fc1



处理进度:   2%|▏         | 2/97 [00:21<17:11, 10.86s/对]


问题: 保单支持哪些货币？...
答案: 支持美元、港币、人民币、澳元、加元、英镑、新加坡元等，且可从第3个保单周年日 起...
评分结果: 分数：4.8
评语：这个QA对在保险领域的专业视角下，整体质量较高。在准确性方面，答案提供了保单支持的多种货币，并与文档...
对应文本块UUID: no_match



处理进度:   3%|▎         | 3/97 [00:29<14:40,  9.36s/对]


问题: 如何行使终期红利锁定权益？...
答案: 从第15个保单周年日起，保单持有人可申请将终期红利的最高50%锁定为累积已锁定终...
评分结果: 分数：4.8
评语：这个QA对在保险领域专业知识的呈现上做得相当不错。首先，在准确性方面，问题和答案的描述与保险行业中关...
对应文本块UUID: no_match



处理进度:   4%|▍         | 4/97 [00:37<13:46,  8.89s/对]


问题: 若受保人在保单生效1年内自杀，保险公司如何赔付？...
答案: 仅退还已缴保费（扣除已支付的款项），不承担其他赔偿责任。复效后1年内自杀同理 。...
评分结果: 分数：4.8
评语：这个QA对在保险领域的专业准确性、完整性和清晰度方面做得非常好。问题针对的是保单生效1年内自杀的赔付...
对应文本块UUID: 6627fd53-2433-4ca3-9b66-6d40d73f9fc1



处理进度:   5%|▌         | 5/97 [00:45<13:16,  8.66s/对]


问题: 宽限期结束后仍未缴费，保单会怎样？...
答案: 保单失效，但可在失效后1年内申请复效，需补缴欠款及利息，并提供受保资格证明。...
评分结果: 分数：4.8
评语：这个QA对在保险领域的专业准确性、完整性和清晰度方面做得非常好。首先，问题针对的是宽限期结束后的保单...
对应文本块UUID: de639342-cf8c-4241-bc16-b781861f13aa



处理进度:   6%|▌         | 6/97 [00:55<13:43,  9.05s/对]


问题: 货币转换后，附加保障是否继续有效？...
答案: 仅当新计划支持该附加保障且货币兼容时生效，否则自动终止。...
评分结果: 分数：4.5

评语：这个QA对在保险领域的专业视角下，整体表现良好。在准确性方面，回答正确地指出了附加保障在新计划中是...
对应文本块UUID: 89be1eb6-4ad3-4f72-898e-066a71ed5f9e



处理进度:   7%|▋         | 7/97 [01:03<12:58,  8.65s/对]


问题: 若欠款超过现金价值，保单如何处理？...
答案: 保险公司终止保单责任，保单自动失效。...
评分结果: 分数：4.5

评语：这个QA对在准确性方面做得很好，确实反映了保单欠款超过现金价值时的一般处理方式，即保单失效。这一点...
对应文本块UUID: no_match



处理进度:   8%|▊         | 8/97 [01:10<12:20,  8.32s/对]


问题: 如何更改受益人？...
答案: 保单持有人可随时书面申请更改受益人，无需受益人同意，需提交公司指定表格。...
评分结果: 分数：4.5

评语：这个QA对在保险领域的专业准确性、完整性和清晰度方面做得相当不错。首先，在准确性方面，回答的内容与...
对应文本块UUID: no_match



处理进度:   8%|▊         | 8/97 [01:18<14:37,  9.86s/对]


KeyboardInterrupt: 

增加定位文档页码的功能

In [22]:
import json
import requests
import time
import os
from tqdm import tqdm
import fitz  # PyMuPDF库，用于PDF处理
from collections import defaultdict

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"  
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你从保险领域专业视角，对以下几个方面评估给定的保险领域 QA 对的质量：

1.准确性：判断问题和答案是否与保险专业知识、相关条款及给定文档内容高度一致，杜绝事实性错误。若答案与权威保险资料、行业标准规范相悖，或者对问题的表述偏离文档核心意思，则视为不准确。
2.完整性：检查问题和答案是否全面覆盖关键要点。对于保险条款解读类问题，需涵盖条款核心内容、适用条件、限制范围等；理赔流程类问题，要包含从报案到赔付的主要步骤、所需材料等。若有关键环节缺失，则判定为不完整。
3.清晰度：评估问题和答案是否清晰易懂，逻辑结构是否合理。在解释保险责任判定时，推理过程应依据合理逻辑从事故情况推导到责任归属；阐述保险产品特点时，各特点之间逻辑关系需清晰，避免出现逻辑混乱或跳跃的情况。


请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def extract_text_from_pdf(pdf_path):
    """从PDF文件中提取文本"""
    text_dict = {}
    try:
        doc = fitz.open(pdf_path)
        for page_num in range(len(doc)):
            page = doc.load_page(page_num)
            text_dict[page_num + 1] = page.get_text()  # 页码从1开始
        doc.close()
    except Exception as e:
        print(f"处理PDF {pdf_path} 时出错: {str(e)}")
    return text_dict

def find_text_in_pdf(qa_pair, pdf_text_dict):
    """在PDF文本中查找问题和答案对应的页码"""
    question = qa_pair.get("question", "").strip()
    answer = qa_pair.get("answer", "").strip()
    
    question_pages = set()
    answer_pages = set()
    
    # 查找问题对应的页码
    if question:
        for page_num, text in pdf_text_dict.items():
            if question.lower() in text.lower():
                question_pages.add(page_num)
    
    # 查找答案对应的页码
    if answer:
        for page_num, text in pdf_text_dict.items():
            if answer.lower() in text.lower():
                answer_pages.add(page_num)
    
    return {
        "question_pages": sorted(list(question_pages)),
        "answer_pages": sorted(list(answer_pages)),
        "combined_pages": sorted(list(question_pages.union(answer_pages)))
    }

def process_pdf_folder(pdf_folder):
    """处理文件夹中的所有PDF文件，构建文本索引"""
    pdf_index = {}
    for filename in os.listdir(pdf_folder):
        if filename.lower().endswith('.pdf'):
            pdf_path = os.path.join(pdf_folder, filename)
            pdf_text = extract_text_from_pdf(pdf_path)
            if pdf_text:  # 只添加成功提取文本的PDF
                pdf_index[filename] = pdf_text
    return pdf_index

def process_testset(input_file, output_file, pdf_folder=None):
    """处理测试集文件，添加页码信息"""
    # 读取QA数据
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)
    
    # 处理PDF文件夹（如果提供）
    pdf_index = {}
    if pdf_folder:
        print("正在处理PDF文件夹...")
        pdf_index = process_pdf_folder(pdf_folder)
        print(f"已处理 {len(pdf_index)} 个PDF文件")
    
    # 处理每个QA对
    results = []
    for item in tqdm(qa_list, desc="评分进度", unit="对"):
        question = item.get("question", "")
        answer = item.get("answer", "")
        
        # 获取评分
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        
        # 查找页码信息
        pdf_page_info = {}
        if pdf_index:
            for pdf_name, pdf_text in pdf_index.items():
                page_info = find_text_in_pdf(item, pdf_text)
                if page_info["combined_pages"]:  # 只添加有匹配结果的PDF
                    pdf_page_info[pdf_name] = page_info
        
        item["page_info"] = pdf_page_info
        results.append(item)
        time.sleep(2)  # 避免API请求过于频繁

    # 保存结果
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

# 使用示例
pdf_folder = r"D:\火力全开的项目实践\宏利 pdf 文件\数据清洗与分块"  # 存放PDF文档的文件夹
process_testset(
    input_file=r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json",
    output_file="qa_scored_with_pages.json",
    pdf_folder=pdf_folder
)

正在处理PDF文件夹...
已处理 0 个PDF文件


评分进度:   4%|▍         | 4/97 [00:39<15:29,  9.99s/对]


KeyboardInterrupt: 

In [28]:
import os
import pandas as pd

def txt_to_csv(input_folder, output_folder, delimiter='|'):
    """
    将文件夹中的所有TXT文件转换为CSV文件
    
    参数:
    input_folder (str): 输入TXT文件所在文件夹路径
    output_folder (str): 输出CSV文件的目标文件夹路径
    delimiter (str): TXT文件中的分隔符，默认为竖线'|'
    """
    # 确保输出文件夹存在
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # 获取所有TXT文件
    txt_files = [f for f in os.listdir(input_folder) if f.lower().endswith('.txt')]
    
    if not txt_files:
        print(f"警告: 在文件夹 {input_folder} 中未找到TXT文件")
        return
    
    print(f"找到 {len(txt_files)} 个TXT文件，开始转换...")
    
    # 遍历所有TXT文件进行转换
    for txt_file in txt_files:
        txt_path = os.path.join(input_folder, txt_file)
        # 创建对应的CSV文件名
        csv_file = os.path.splitext(txt_file)[0] + '.csv'
        csv_path = os.path.join(output_folder, csv_file)
        
        try:
            # 读取TXT文件
            df = pd.read_csv(txt_path, delimiter=delimiter, engine='python')
            
            # 保存为CSV文件
            df.to_csv(csv_path, index=False)
            
            print(f"成功转换: {txt_file} -> {csv_file}")
        except Exception as e:
            print(f"转换失败: {txt_file} - 错误: {str(e)}")
    
    print(f"所有文件转换完成！共转换 {len(txt_files)} 个文件")
    print(f"CSV文件已保存至: {output_folder}")

# 使用示例
if __name__ == "__main__":
    input_folder = r"D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统"  # TXT文件所在文件夹
    output_folder = r"D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv"  # 输出CSV的文件夹
    
    # 调用函数进行转换
    txt_to_csv(input_folder, output_folder, delimiter='|')

找到 6 个TXT文件，开始转换...
成功转换: 守护无间危疾保 保单条款_2022_07.txt -> 守护无间危疾保 保单条款_2022_07.csv
成功转换: 宏利環球貨幣保障計劃 保單條款_2022_05.txt -> 宏利環球貨幣保障計劃 保單條款_2022_05.csv
成功转换: 宏摯傳承保單條款_2024_04.txt -> 宏摯傳承保單條款_2024_04.csv
成功转换: 宏摯傳承保障計劃_产品彩页.txt -> 宏摯傳承保障計劃_产品彩页.csv
成功转换: 电子行政运作手册_保单行政_2023_10.txt -> 电子行政运作手册_保单行政_2023_10.csv
成功转换: 电子行政运作手册_理赔_2024_01.txt -> 电子行政运作手册_理赔_2024_01.csv
所有文件转换完成！共转换 6 个文件
CSV文件已保存至: D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv


In [40]:
import json
import requests
import time
import os
import glob
import re
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import pandas as pd
from collections import defaultdict

API_KEY = "2a2299dd95944956b69397a89113d5a7.GW5jR7NYhANOuGES"
API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
HEADERS = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"
}

def build_prompt(question, answer):
    return f"""
你是一位保险领域的资深专家，请对以下问答对进行评分，满分为5分。

【问题】：{question}
【回答】：{answer}

请你从保险领域专业视角，对以下几个方面评估给定的保险领域QA对的质量：

1.准确性：判断问题和答案是否与保险专业知识、相关条款及给定文档内容高度一致，杜绝事实性错误。若答案与权威保险资料、行业标准规范相悖，或者对问题的表述偏离文档核心意思，则视为不准确。
2.完整性：检查问题和答案是否全面覆盖关键要点。对于保险条款解读类问题，需涵盖条款核心内容、适用条件、限制范围等；理赔流程类问题，要包含从报案到赔付的主要步骤、所需材料等。若有关键环节缺失，则判定为不完整。
3.清晰度：评估问题和答案是否清晰易懂，逻辑结构是否合理。在解释保险责任判定时，推理过程应依据合理逻辑从事故情况推导到责任归属；阐述保险产品特点时，各特点之间逻辑关系需清晰，避免出现逻辑混乱或跳跃的情况。

请按以下格式回答：
分数：X.X
评语：......
"""

def score_qa_pair(question, answer):
    prompt = build_prompt(question, answer)
    data = {
        "model": "glm-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.2
    }
    try:
        response = requests.post(API_URL, headers=HEADERS, json=data)
        if response.status_code == 200:
            result = response.json()
            return result["choices"][0]["message"]["content"]
        else:
            return f"请求失败: {response.status_code} - {response.text}"
    except Exception as e:
        return f"异常: {str(e)}"

def extract_text_with_pages_from_csv(csv_path):
    page_text = defaultdict(list)
    current_page = 0
    page_count = 0
    
    print(f"正在处理CSV文件: {csv_path}")
    
    try:
        with open(csv_path, 'r', encoding='utf-8') as f:
            content = f.read()
            # 尝试检测CSV分隔符
            if '\t' in content[:1000]:
                delimiter = '\t'
            elif ';' in content[:1000]:
                delimiter = ';'
            else:
                delimiter = ','  # 默认使用逗号
            
            # 尝试读取CSV
            try:
                df = pd.read_csv(csv_path, delimiter=delimiter)
                print(f"  CSV包含 {len(df)} 行数据")
                
                # 遍历每一行
                for idx, row in df.iterrows():
                    row_text = " ".join([str(cell) for cell in row if pd.notna(cell)]).strip()
                    
                    # 查找页码标记
                    page_match = re.search(r'(第\s*\d+\s*页)|(Page\s*\d+)|(\[\s*\d+\s*\])|(\(\s*\d+\s*\))|(\d+\s*\/\s*\d+)', row_text)
                    if page_match:
                        page_str = page_match.group(0)
                        num_match = re.search(r'\d+', page_str)
                        if num_match:
                            current_page = int(num_match.group(0))
                            page_count += 1
                            print(f"  第 {idx+1} 行找到页码标记: {page_str} -> 解析为第 {current_page} 页")
                    
                    # 保存文本内容
                    if current_page > 0:
                        page_text[current_page].append(row_text)
            
            except pd.errors.EmptyDataError:
                print("  错误: CSV文件为空或格式错误")
                # 尝试按行处理
                lines = content.split('\n')
                for idx, line in enumerate(lines):
                    line = line.strip()
                    if not line:
                        continue
                    
                    page_match = re.search(r'(第\s*\d+\s*页)|(Page\s*\d+)|(\[\s*\d+\s*\])|(\(\s*\d+\s*\))|(\d+\s*\/\s*\d+)', line)
                    if page_match:
                        page_str = page_match.group(0)
                        num_match = re.search(r'\d+', page_str)
                        if num_match:
                            current_page = int(num_match.group(0))
                            page_count += 1
                            print(f"  第 {idx+1} 行找到页码标记: {page_str} -> 解析为第 {current_page} 页")
                    
                    if current_page > 0:
                        page_text[current_page].append(line)
    
    except Exception as e:
        print(f"处理CSV {csv_path}时出错: {str(e)}")
    
    # 输出页码提取结果
    if page_text:
        print(f"  成功提取 {len(page_text)} 页内容:")
        for page_num in sorted(page_text.keys()):
            print(f"    第 {page_num} 页: {len(page_text[page_num])} 行内容")
    else:
        print("  未提取到任何页码内容")
    
    return page_text

def find_text_in_csv_pages(qa_pair, csv_page_text):
    question = qa_pair.get("question", "").strip()
    answer = qa_pair.get("answer", "").strip()
    
    question_pages = set()
    answer_pages = set()
    
    if not question and not answer:
        return {
            "question_pages": [],
            "answer_pages": [],
            "combined_pages": [],
            "matched": False
        }
    
    # 如果只有1页内容，使用简单的字符串匹配
    if len(csv_page_text) == 1:
        page_num = list(csv_page_text.keys())[0]
        page_text = csv_page_text[page_num]
        
        if question and question.lower() in page_text.lower():
            question_pages.add(page_num)
            print(f"  问题匹配第 {page_num} 页")
        
        if answer and answer.lower() in page_text.lower():
            answer_pages.add(page_num)
            print(f"  答案匹配第 {page_num} 页")
        
        return {
            "question_pages": sorted(list(question_pages)),
            "answer_pages": sorted(list(answer_pages)),
            "combined_pages": sorted(list(question_pages.union(answer_pages))),
            "matched": bool(question_pages or answer_pages)
        }
    
    # 多页内容使用机器学习方法
    vectorizer = TfidfVectorizer()
    all_texts = []
    labels = []
    
    for page, text in csv_page_text.items():
        all_texts.append(text)
        labels.append(page)
    
    # 检查是否有足够的类别
    unique_labels = set(labels)
    if len(unique_labels) < 2:
        # 不足2个类别，使用简单匹配
        print(f"  警告: 只有 {len(unique_labels)} 个不同的页码，使用简单匹配方法")
        
        for page_num, text in csv_page_text.items():
            if question and question.lower() in text.lower():
                question_pages.add(page_num)
                print(f"  问题匹配第 {page_num} 页")
            
            if answer and answer.lower() in text.lower():
                answer_pages.add(page_num)
                print(f"  答案匹配第 {page_num} 页")
        
        return {
            "question_pages": sorted(list(question_pages)),
            "answer_pages": sorted(list(answer_pages)),
            "combined_pages": sorted(list(question_pages.union(answer_pages))),
            "matched": bool(question_pages or answer_pages)
        }
    
    # 训练分类器
    X = vectorizer.fit_transform(all_texts)
    model = LogisticRegression()
    model.fit(X, labels)
    
    # 预测问题和答案所在页码
    if question:
        question_vector = vectorizer.transform([question])
        predicted_pages = model.predict(question_vector)
        question_pages.update(predicted_pages)
    
    if answer:
        answer_vector = vectorizer.transform([answer])
        predicted_pages = model.predict(answer_vector)
        answer_pages.update(predicted_pages)
    
    return {
        "question_pages": sorted(list(question_pages)),
        "answer_pages": sorted(list(answer_pages)),
        "combined_pages": sorted(list(question_pages.union(answer_pages))),
        "matched": bool(question_pages or answer_pages)
    }

def process_csv_folder(root_folder):
    csv_index = {}
    csv_files = glob.glob(os.path.join(root_folder, "**", "*.csv"), recursive=True)
    
    if not csv_files:
        print(f"警告: 在文件夹 {root_folder} 中未找到CSV文件")
        return csv_index
    
    print(f"在文件夹 {root_folder} 中找到 {len(csv_files)} 个CSV文件")
    
    for csv_path in csv_files:
        if not os.path.exists(csv_path):
            print(f"警告: CSV文件不存在: {csv_path}")
            continue
        
        rel_path = os.path.relpath(csv_path, root_folder)
        page_text = extract_text_with_pages_from_csv(csv_path)
        
        if page_text:
            csv_index[rel_path] = page_text
            print(f"  成功从 {rel_path} 提取了 {len(page_text)} 页内容")
        else:
            print(f"  未能从 {rel_path} 提取有效页码内容")
    
    return csv_index

def process_testset(input_file, output_file, csv_folder=None):
    if not os.path.exists(input_file):
        raise FileNotFoundError(f"输入文件不存在: {input_file}")
    
    with open(input_file, "r", encoding="utf-8") as f:
        qa_list = json.load(f)
    
    print(f"从 {input_file} 加载了 {len(qa_list)} 个QA对")
    
    csv_index = {}
    if csv_folder:
        print("正在处理CSV文件夹...")
        if not os.path.exists(csv_folder):
            raise FileNotFoundError(f"CSV文件夹不存在: {csv_folder}")
        
        csv_index = process_csv_folder(csv_folder)
        print(f"已处理 {len(csv_index)} 个CSV文件，共提取 {sum(len(pages) for pages in csv_index.values())} 页内容")
    
    if not csv_index:
        print("警告: 没有可用的CSV内容进行匹配")
    
    results = []
    matched_count = 0
    
    for idx, item in enumerate(tqdm(qa_list, desc="评分进度", unit="对")):
        question = item.get("question", "").strip()
        answer = item.get("answer", "").strip()
        
        if not question and not answer:
            print(f"警告: 第 {idx + 1} 个QA对问题和答案均为空")
            continue
        
        print(f"\n处理第 {idx + 1} 个QA对:")
        print(f"  问题: {question[:50]}..." if len(question) > 50 else f"  问题: {question}")
        print(f"  答案: {answer[:50]}..." if len(answer) > 50 else f"  答案: {answer}")
        
        feedback = score_qa_pair(question, answer)
        item["score_feedback"] = feedback
        
        csv_page_info = {}
        has_match = False
        
        if csv_index:
            for csv_rel_path, page_text in csv_index.items():
                print(f"  在CSV文件 {csv_rel_path} 中查找匹配...")
                page_info = find_text_in_csv_pages(item, page_text)
                
                if page_info["matched"]:
                    csv_page_info[csv_rel_path] = page_info
                    has_match = True
                    print(f"  在 {csv_rel_path} 中找到匹配: 问题页={page_info['question_pages']}, 答案页={page_info['answer_pages']}")
        
        item["csv_page_info"] = csv_page_info
        
        if has_match:
            matched_count += 1
        
        # 确保 item 中包含 uuid 字段
        if "uuid" not in item:
            item["uuid"] = f"qa_pair_{idx + 1}"  # 如果没有 uuid，添加一个唯一标识符
        
        results.append(item)
        time.sleep(2)  # 避免API请求过于频繁
    
    print(f"\n处理完成:")
    print(f"  总QA对数: {len(qa_list)}")
    print(f"  找到匹配的QA对数: {matched_count}")
    print(f"  匹配率: {matched_count / len(qa_list) * 100:.2f}%")
    
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    print("所有问答评分已完成，结果保存在：", output_file)

def main():
    csv_folder = r"D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv"
    input_file = r"D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json"
    output_file = "qa_scored_with_pages1.json"
    
    print(f"检查输入文件: {input_file}")
    if not os.path.exists(input_file):
        print(f"错误: 文件不存在 - {input_file}")
        print("请检查文件路径是否正确")
        return
    
    print(f"检查CSV文件夹: {csv_folder}")
    if csv_folder and not os.path.exists(csv_folder):
        print(f"错误: 文件夹不存在 - {csv_folder}")
        print("请检查文件夹路径是否正确")
        return
    
    try:
        process_testset(
            input_file=input_file,
            output_file=output_file,
            csv_folder=csv_folder
        )
    except Exception as e:
        print(f"处理过程中发生错误: {str(e)}")

if __name__ == "__main__":
    main()

检查输入文件: D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json
检查CSV文件夹: D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv
从 D:\火力全开的项目实践\宏利 pdf 文件\测试集\测试集 2.json 加载了 97 个QA对
正在处理CSV文件夹...
在文件夹 D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv 中找到 6 个CSV文件
正在处理CSV文件: D:\火力全开的项目实践\宏利 pdf 文件\评分QA对系统csv\守护无间危疾保 保单条款_2022_07.csv
  CSV包含 1713 行数据
  第 12 行找到页码标记: 第1页 -> 解析为第 1 页
  第 14 行找到页码标记: 07/2022 -> 解析为第 7 页
  第 15 行找到页码标记: 第 2 页 -> 解析为第 2 页
  第 52 行找到页码标记: 第2页 -> 解析为第 2 页
  第 54 行找到页码标记: 07/2022 -> 解析为第 7 页
  第 55 行找到页码标记: 第 3 页 -> 解析为第 3 页
  第 63 行找到页码标记: (1) -> 解析为第 1 页
  第 65 行找到页码标记: (2) -> 解析为第 2 页
  第 67 行找到页码标记: (3) -> 解析为第 3 页
  第 69 行找到页码标记: (4) -> 解析为第 4 页
  第 70 行找到页码标记: (5) -> 解析为第 5 页
  第 71 行找到页码标记: (6) -> 解析为第 6 页
  第 88 行找到页码标记: 第4页 -> 解析为第 4 页
  第 89 行找到页码标记: 07/2022 -> 解析为第 7 页
  第 90 行找到页码标记: 第 4 页 -> 解析为第 4 页
  第 117 行找到页码标记: 第3页 -> 解析为第 3 页
  第 119 行找到页码标记: 第3页 -> 解析为第 3 页
  第 124 行找到页码标记: 第5页 -> 解析为第 5 页
  第 125 行找到页码标记: 07/2022 -> 解析为第 7 页
  第 126 行找到页码标记: 第 5 页 -> 解析为第 5 页
  第 130 行找到页码标记: (1) -> 解析为第 1 页
  第

评分进度:   0%|          | 0/97 [00:00<?, ?对/s]


处理第 1 个QA对:
  问题: 什么是宏利环球货币保障计划？
  答案: 这是一款分红型终身人寿保险计划，提供身故赔偿、意外身故赔偿及现金价值积累功 能，支持多币种转换，并包...


评分进度:   0%|          | 0/97 [00:05<?, ?对/s]

  在CSV文件 守护无间危疾保 保单条款_2022_07.csv 中查找匹配...
处理过程中发生错误: 'list' object has no attribute 'lower'



