In [40]:
import pandas as pd
import os, json, re, datetime

bigbench_task_folder = "/home/junetheriver/codes/qa_generation/BIG-bench/bigbench/benchmark_tasks"

tasks = []

for task_folder in os.listdir(bigbench_task_folder):
    task_file = os.path.join(bigbench_task_folder, task_folder, "task.json")
    if not os.path.exists(task_file):
        continue
    with open(task_file, "r") as f:
        task = json.load(f)

    task_json = {}

    concern_fields = ['name', 'description', 'keywords', 'metrics', 'examples']
    for field in concern_fields:
        if field in task:
            if field == 'examples':
                task_json[field] = [task[field][0]]
            else:
                task_json[field] = task[field]
    
    tasks.append(task_json)

In [6]:
len(tasks)

172

In [23]:
current_abilities_examples_file = "/home/junetheriver/codes/qa_generation/huawei/dogeneval/prompts/examples.json"

abilities_examples = json.load(open(current_abilities_examples_file, "r"))

for cat in abilities_examples:
    abilities_examples[cat] = abilities_examples[cat][0]
    

len(json.dumps(abilities_examples, ensure_ascii=False, indent=4))

28601

In [20]:
from dogeneval.template.abilities import ability_templates

for ability in ability_templates:
    del ability['examples']

len(json.dumps(ability_templates, ensure_ascii=False, indent=4))


5249

In [27]:
from dogeneval.utils.llm.llms import get_azure_model, get_openai_model
from dogeneval.utils.token_utils import get_qwen_token_num
from loguru import logger

llm = get_openai_model()
logger.info(llm.chat("测试，请回复API test success"))

ability_template_text = json.dumps(ability_templates, ensure_ascii=False, indent=4)
ability_template_text_token_num = get_qwen_token_num(ability_template_text)
logger.info(f"ability_template_text_token_num: {ability_template_text_token_num}")

[32m2024-09-14 16:15:20.995[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m6[0m - [1mAPI test success[0m
[32m2024-09-14 16:15:21.006[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m10[0m - [1mability_template_text_token_num: 1758[0m


In [34]:
PROMPT = """你是华为大模型的评测集构建专家，需要构建一个通信领域的大模型评测体系，现在基于产品文档设计了以下任务，它们的描述、模板如下：

=============================================
{ability_template_text}
=============================================

现在对于BIG-Bench中的这个任务，请你判断如下几点：
1. 这个任务是否已经属于已有任务中的某一个或属于其变种、子集
2. 这个任务是否符合通信领域大模型评测的范畴

这个任务的描述是：
=============================================
{task_description}
=============================================

如果你认为这个任务不适合加入到现有任务中，返回一个json，格式如下：

{{
    "task_name": "任务名称",
    "decision": "reject",
    "reason": "原因"
}}

如果你认为这个任务适合加入到现有任务中，你需要为这个任务设计一个模板，并描述构建此类任务的题目应该采取的步骤或流程，返回一个json，格式如下：

{{
    "task_name": "任务名称（英文）",
    "decision": "accept",
    "reason": "原因",
    "ability": "总结任务的上层抽象能力，如：逻辑推理",
    "task": "翻译成中文的任务描述",
    "template": "题目模板",
    "fields": [
        {{
            "name": "字段名",
            "type": "字段类型",
            "description": "字段描述"
        }}
    ],
    "steps": "题目构建步骤或流程"
}}

你返回的内容需要是纯json，开头不要带```json，结尾不要带```
"""

In [44]:
from tqdm import tqdm
from dogeneval.utils.parser import try_parse_json

results = []

for task in tqdm(tasks):
    task_description = json.dumps(task, ensure_ascii=False, indent=4)
    prompt = PROMPT.format(ability_template_text=ability_template_text, task_description=task_description)
    
    token_len = get_qwen_token_num(prompt)
    tqdm.write(f"token_len: {token_len}")
    
    if token_len > (32768 - 4096):
        tqdm.write(f"任务 {task['name']} 的token数超过限制，跳过")
        tqdm.write(prompt)
        continue

    response = llm.chat(prompt)

    response_json = try_parse_json(response)

    if response_json:
        if response_json['decision'] == 'accept':
            tqdm.write(f"任务 {task['name']} 被接受")
            tqdm.write(f"response_json: {response_json}")
        else:
            tqdm.write(f"任务 {task['name']} 被拒绝，原因：{response_json['reason']}")

        response_json['original_task'] = task
        results.append(response_json)
    else:
        tqdm.write(f"任务 {task['name']} 的判断失败")
        results.append({
            "task_name": task['name'],
            "decision": "fail",
            "reason": "判断失败",
            "original_task": task
        })
    
    # 临时保存

    tmp_file = "/home/junetheriver/codes/qa_generation/huawei/data/bigbench_mapping_results.jsonl"
    with open(tmp_file, "at+") as f:
        f.write(json.dumps(results[-1], ensure_ascii=False))
        f.write("\n")

# 保存结果
with open("/home/junetheriver/codes/qa_generation/huawei/data/bigbench_mapping_results.json", "w") as f:
    f.write(json.dumps(results, ensure_ascii=False, indent=4))

  0%|          | 0/172 [00:00<?, ?it/s]

token_len: 2106


  1%|          | 1/172 [00:07<22:24,  7.86s/it]

任务 abstract_narrative_understanding 被接受
response_json: {'task_name': 'abstract_narrative_understanding', 'decision': 'accept', 'reason': '此任务虽然不直接属于通信领域，但其涉及的社会推理、叙事理解和类比推理在通信领域的故障排查、用户行为预测等场景中有潜在的应用价值。', 'category': '语义理解', 'template': '给定一段叙述性文本和一系列谚语，你需要选择最能反映叙述文本核心思想的谚语。叙述文本：{narrative_text}，谚语列表：{proverb_list}', 'fields': [{'name': 'narrative_text', 'type': 'string', 'description': '叙述性文本'}, {'name': 'proverb_list', 'type': 'list', 'description': '谚语列表'}], 'steps': '首先，理解叙述性文本的核心意义；其次，对比谚语列表中每个谚语的意义；最后，选择最能反映叙述文本核心思想的谚语。'}
token_len: 2184


  1%|          | 2/172 [00:11<15:48,  5.58s/it]

任务 anachronisms 被拒绝，原因：该任务不属于通信领域的范畴，主要关注的是历史时间线上的逻辑错误识别，与通信领域的大模型评测不相符
token_len: 2254


  2%|▏         | 3/172 [00:19<18:57,  6.73s/it]

任务 analogical_similarity 被接受
response_json: {'task_name': 'analogical_similarity', 'decision': 'accept', 'reason': '此任务属于逻辑推理的变种，涉及识别事件间的类比关系，符合通信领域大模型评测中逻辑推理能力的要求。', 'category': '逻辑推理', 'template': '分析以下两个事件之间的类比关系，并选择正确的类比类型：事件A：{event_a}；事件B：{event_b}。这是属于：\n{analogy_options}', 'fields': [{'name': 'event_a', 'type': 'string', 'description': '事件A的描述'}, {'name': 'event_b', 'type': 'string', 'description': '事件B的描述'}, {'name': 'analogy_options', 'type': 'list', 'description': '类比选项列表'}], 'steps': '构建此类任务时，首先确定两个事件，然后定义类比选项，最后按照模板生成题目。'}
token_len: 2181


  2%|▏         | 4/172 [00:27<19:29,  6.96s/it]

任务 analytic_entailment 被接受
response_json: {'task_name': 'analytic_entailment', 'decision': 'accept', 'reason': '此任务涉及逻辑推理，符合通信领域大模型评测的范畴，可以作为逻辑推理能力的一个补充', 'category': '逻辑推理', 'template': "你现在需要判断两个句子之间的逻辑关系。如果第一个句子必然导致第二个句子成立，则回答'entailment'；如果第一个句子并不必然导致第二个句子成立，则回答'no-entailment'。分析句子：{sentence_pair}", 'fields': [{'name': 'sentence_pair', 'type': 'list', 'description': '包含两个句子的列表，用于判断逻辑关系'}], 'steps': '构建此类任务时，首先需要准备一系列涉及逻辑推理的句子对，确保涵盖不同的逻辑关系类型，然后按照模板构造问题，最后检查问题的表述是否清晰，避免歧义'}
token_len: 2096


  3%|▎         | 5/172 [00:33<19:02,  6.84s/it]

任务 arithmetic 被接受
response_json: {'task_name': 'arithmetic', 'decision': 'accept', 'reason': '该任务属于数学计算能力的范畴，与现有任务中的数学计算能力相吻合，可以作为通信领域大模型评测的一部分', 'category': '数学计算', 'template': '请计算用户给出的数学问题并使用JSON格式输出答案{{"答案":""}}，用户问题为：{question}', 'fields': [{'name': 'question', 'type': 'string', 'description': '数学问题，复杂公式用latex格式表示'}], 'steps': '1. 确定数学问题的具体内容，包括四则运算的基本形式；2. 将问题转化为系统可理解的格式，例如使用LaTeX表示复杂公式；3. 设计问题模板，确保问题描述清晰且格式正确；4. 构建测试题库，涵盖不同难度和类型的数学计算问题。'}
token_len: 2233


  3%|▎         | 6/172 [00:37<16:18,  5.89s/it]

任务 ascii_word_recognition 被拒绝，原因：该任务不属于通信领域的范畴，与现有的通信领域大模型评测任务不相符，主要涉及视觉推理而非通信专业知识或技能
token_len: 2132


  4%|▍         | 7/172 [00:42<14:35,  5.31s/it]

任务 authorship_verification 被拒绝，原因：该任务不属于通信领域的评测范畴，主要涉及的是文本分析和作者风格识别，与已有的通信领域任务如代码MML生成、文本生成等不相关
token_len: 2145


  5%|▍         | 8/172 [00:47<14:54,  5.45s/it]

任务 auto_categorization 被接受
response_json: {'task_name': 'auto_categorization', 'decision': 'accept', 'reason': '该任务可以通过语义理解能力进行扩展，适用于通信领域的概念分类', 'category': '语义理解', 'template': '根据以下描述，识别并归类到相应的类别中。以JSON格式输出{{"类别":""}}。描述为：{description}', 'fields': [{'name': 'description', 'type': 'string', 'description': '需要分类的描述'}], 'steps': '构建此类任务时，应首先确定需要分类的通信领域概念，然后收集相关的描述性文本作为输入，最后设计测试案例，验证模型在不同描述下正确识别类别的能力。'}
token_len: 2173


  5%|▌         | 9/172 [00:54<16:08,  5.94s/it]

任务 auto_debugging 被接受
response_json: {'task_name': 'auto_debugging', 'decision': 'accept', 'reason': "虽然直接不属于任何现有任务，但可以归类于'代码MML生成'或'逻辑推理'任务的变种，专注于理解和推理代码状态。", 'category': '逻辑推理', 'template': '你现在需要根据给定的Python 3.7代码片段，分析并回答有关程序中间状态的问题。\n\n代码片段：\n\n{code_snippet}\n\n问题：\n\n{question}', 'fields': [{'name': 'code_snippet', 'type': 'string', 'description': 'Python 3.7代码片段'}, {'name': 'question', 'type': 'string', 'description': '关于代码中间状态的问题'}], 'steps': '构建此类任务时，首先需要选择一段Python 3.7代码作为基础，然后设定一个关于代码执行过程中变量状态、循环次数等的问题，最后根据代码和问题设计输入输出字段。'}
token_len: 2135


  6%|▌         | 10/172 [00:58<14:26,  5.35s/it]

任务 bbq_lite_json 被拒绝，原因：此任务涉及社会偏见测量，与通信领域大模型评测的范畴不相符，且不属于已有任务中的任何一个或其变种、子集
token_len: 2641


  6%|▋         | 11/172 [01:04<14:11,  5.29s/it]

任务 bridging_anaphora_resolution_barqa 被拒绝，原因：该任务涉及的是间接指代消解和情境依赖性问答，属于自然语言处理领域中的阅读理解和语义理解范畴，但与通信领域的特定技术和业务场景关联度较低，不符合通信领域大模型评测的范畴。
token_len: 2278


  7%|▋         | 12/172 [01:08<13:12,  4.96s/it]

任务 causal_judgment 被拒绝，原因：因果判断任务虽然涉及逻辑推理，但更偏向于人类行为、社会推理和常识理解，与通信领域的专业技能和知识关联度较低，不符合通信领域大模型评测的范畴
token_len: 2099


  8%|▊         | 13/172 [01:18<17:05,  6.45s/it]

任务 cause_and_effect 被接受
response_json: {'task_name': 'cause_and_effect', 'decision': 'accept', 'reason': '因果推理属于逻辑推理的范畴，通信领域内的设备操作、网络故障排查等场景常常涉及因果关系的理解与判断。', 'category': '逻辑推理', 'template': '分析线索：{analysis_clues}\n\n业务知识：{business_knowledge}\n\n推理规则：{reasoning_rules}\n\n你现在的任务是根据给定的分析线索和业务知识，判断选项中哪个是因，哪个是果，严格按照推理规则给出分析结果。回答格式如下：\n因果关系：\n分析结果：', 'fields': [{'name': 'analysis_clues', 'type': 'string', 'description': '分析线索，包含多个可能的因果关系描述'}, {'name': 'business_knowledge', 'type': 'string', 'description': '业务知识，提供行业背景或特定场景下的常识'}, {'name': 'reasoning_rules', 'type': 'string', 'description': '推理规则，指导如何根据分析线索和业务知识判断因果关系'}], 'steps': '首先，根据业务知识和分析线索，构建具体的因果关系场景；其次，设计多个选项，每个选项包含一对事件描述；最后，确保选项设计合理，避免歧义，让模型能够基于推理规则判断出正确因果顺序。'}
token_len: 2774


  8%|▊         | 14/172 [01:23<16:24,  6.23s/it]

任务 checkmate_in_one 被拒绝，原因：此任务涉及的是国际象棋中的将死局面，与通信领域的专业知识和技能不相关，不符合通信领域大模型评测的范畴。同时，它也不属于已有任务中的任何一个或其变种、子集，因为它涉及到的是非语言类的逻辑推理和策略游戏，这在当前的通信领域任务中没有体现。
token_len: 2105


  9%|▊         | 15/172 [01:31<17:21,  6.63s/it]

任务 chess_state_tracking 被接受
response_json: {'task_name': 'chess_state_tracking', 'decision': 'accept', 'reason': '虽然直接不属于通信领域，但逻辑推理能力的评估对于大模型的全面性很重要，可以作为跨领域逻辑推理的一个实例。', 'category': '逻辑推理', 'template': '你现在面对的是一个国际象棋棋盘状态，你的任务是根据给定的棋盘状态，列出所有合法的走法。\n棋盘状态描述为：\n{chess_board_state}\n列出所有合法的走法。', 'fields': [{'name': 'chess_board_state', 'type': 'string', 'description': '描述棋盘状态的字符串，可能包括棋子位置、颜色等信息'}], 'steps': '构建此类任务时，首先需要定义清楚棋盘状态的描述方式，然后提供一组具体的棋盘布局，最后要求模型基于给定的状态找出所有合法的走法。'}
token_len: 2235


  9%|▉         | 16/172 [01:38<17:37,  6.78s/it]

任务 chinese_remainder_theorem 被接受
response_json: {'task_name': 'chinese_remainder_theorem', 'decision': 'accept', 'reason': '虽然这个任务主要涉及数学计算，但它符合通信领域大模型评测的范畴，因为在通信工程中，数论问题和算法优化同样重要。', 'category': '数学计算', 'template': '请计算用户给出的中国剩余定理问题并使用JSON格式输出答案{{"答案":""}}，用户问题为：{question}', 'fields': [{'name': 'question', 'type': 'string', 'description': '数学问题，涉及中国剩余定理的应用'}], 'steps': '首先，确定问题是否符合中国剩余定理的基本条件；其次，解析问题中的模数和余数；最后，应用中国剩余定理求解并以JSON格式输出答案。'}
token_len: 2104


 10%|▉         | 17/172 [01:42<15:23,  5.96s/it]

任务 cifar10_classification 被拒绝，原因：此任务涉及图像分类，属于计算机视觉领域，与提供的通信领域大模型评测任务不相符，且不属于语言处理或通信技术相关的任务类型
token_len: 2213


 10%|█         | 18/172 [01:49<16:10,  6.30s/it]

任务 code_line_description 被接受
response_json: {'task_name': 'code_line_description', 'decision': 'accept', 'reason': '这个任务属于代码理解和描述的范畴，与通信领域的代码MML生成任务有相似之处，可以视为代码理解的一个子集，适合加入到现有任务中。', 'category': '代码MML生成', 'template': '给定一段Python代码，你需要用英文描述这段代码的功能和执行逻辑。你的回答应详细说明代码的每一行做了什么，以及整体代码的运行效果。', 'fields': [{'name': 'code_snippet', 'type': 'string', 'description': '需要描述的Python代码片段'}], 'steps': '构建此类任务时，首先需要准备一段Python代码作为输入，然后设计多个选项供模型选择，其中只有一个正确答案描述了代码的真实功能。'}
token_len: 2223


 10%|█         | 18/172 [01:52<15:58,  6.22s/it]


KeyboardInterrupt: 