In [1]:
import json
from http import HTTPStatus
import dashscope
from dotenv import dotenv_values
from retry import retry
config = dotenv_values('.env')

In [2]:
MODEL_NAME = 'qwen-max'
dashscope.api_key = config['qwen_key'],

@retry(delay=60, tries=3)
def call_qwen_api(MODEL_NAME, query):
    messages = [
        {'role': 'user', 'content': query}]
    response = dashscope.Generation.call(
        MODEL_NAME,
        messages=messages,
        result_format='message',  # set the result is message format.
    )
    if response.status_code == HTTPStatus.OK:
        #print(response)
        return response['output']['choices'][0]['message']['content']
    else:
        print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
            response.request_id, response.status_code,
            response.code, response.message
        ))
        raise Exception()

In [3]:
def get_prompt(problem, question, options):

    options = '\n'.join(f"{'ABCDEFG'[i]}. {o}" for i, o in enumerate(options))

    prompt = f"""你是一个逻辑推理专家，擅长解决逻辑推理问题。以下是一个逻辑推理的题目，形式为单项选择题。所有的问题都是（close-world assumption）闭世界假设，即未观测事实都为假。请逐步分析问题并在最后一行输出答案，最后一行的格式为"答案是：A"。题目如下：

### 题目:
{problem}

### 问题:
{question}
{options}
"""

    return prompt

In [4]:
def get_question_prompt(data):
    prompt = f"""你是一个逻辑推理问题出题专家，以下json是一个problem，对应一些子问题。除了这些子问题外再生成三个其他子问题，保持格式一致并给出参考答案。
### promble如下：
{data}
### 输出格式如下:
{{
promble:
questions:[
question:
options:[]
answer:
]
}}
"""
    return prompt


In [5]:
def read_file(ifn):
    # 读取输入文件
    data = []
    with open(ifn) as reader:
        for line in reader:
            # 解析每一行JSON数据
            sample = json.loads(line)
            data.append(sample)

    return data

In [32]:
def write_jsonl(results, filename):
    with open(f'data/{filename}.json', 'w',encoding='utf-8') as outfile:
        for entry in results:
            json.dump(entry, outfile, ensure_ascii=False)
            outfile.write('\n')
            
def write_json(data, filename):
    with open(f'data/{filename}.json', 'w',encoding='utf-8') as file:
        json.dump(data, file)

In [7]:
import re


def extract_json(response):
    # 使用正则表达式匹配 JSON 数据
    match = re.search(r'```json\s*(.*?)\s*```', response, re.DOTALL)
    if match:
        # 如果找到了 JSON 数据，则返回清理后的 JSON 字符串
        return match.group(1).strip()
    else:
        # 如果没有找到 JSON 数据，则返回原始响应
        return response


def process_data(data):
    query = get_question_prompt(data)
    respond = ''
    try:
        respond = call_qwen_api(MODEL_NAME, query)
        # 清理 JSON 字符串
        respond = extract_json(respond)
        # 解析 JSON 字符串
        data = json.loads(respond)
    except Exception as e:
        #print(respond)
        print(f"Error: {str(e)}")
    return data

In [8]:
file = read_file('data/round1_train_data.jsonl')

In [9]:
from tqdm import tqdm
import concurrent.futures
#file = file[:5]

# 并行批量处理
def batch_process_questions(file, max_workers=5):
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = [executor.submit(process_data, data) for data in file]
        results = [future.result() for future in tqdm(concurrent.futures.as_completed(futures), total=len(file))]
    return results

results = batch_process_questions(file)

write_jsonl(results)

 80%|████████  | 4/5 [00:48<00:07,  7.14s/it]

{
"problem": "在安大略省，我们有关于不同城市及它们之间位置关系的信息。我们知道各个城市的人口以及哪些城市在给定的城市西边。以下是我们已知的信息：\n\n- 布兰普顿的人口是590000。\n- 汉密尔顿的人口是540000。\n- 金斯顿的人口是130000。\n- 基奇纳的人口是230000。\n- 伦敦的人口是380000。\n- 马克翰的人口是330000。\n- 密西沙加的人口是720000。\n- 渥太华的人口是930000。\n- 多伦多的人口是2700000。\n- 旺市的人口是310000。\n- 温莎的人口是220000。\n\n并且我们知道以下城市在彼此的西边：\n\n- 温莎在伦敦的西边。\n- 伦敦在汉密尔顿的西边。\n- 汉密尔顿在密西沙加的西边。\n- 密西沙加在多伦多的西边。\n- 多伦多在金斯顿的西边。\n- 金斯顿在渥太华的西边。\n- 旺市在马克翰的西边。\n\n还有些城市位于其他城市的北边：\n\n- 布兰普顿在密西沙加的北边。\n- 基奇纳在伦敦的北边。\n- 旺市在多伦多的北边。\n\n根据以上信息，回答以下选择题：",
"questions": [
{
"question": "选择题 1：\n位于布兰普顿以西的城市是哪一个？",
"options": ['多伦多', '金斯顿', '渥太华', '汉密尔顿'],
"answer": 'D'
},
{
"question": "选择题 2：\n哪个城市的人口最多，且没有城市直接位于其西边？",
"options": ['多伦多', '温莎', '基奇纳', '布兰普顿'],
"answer": 'A'
},
{
"question": "选择题 3：\n哪个城市既不在任何其他城市西边，也不在任何城市北边？",
"options": ['金斯顿', '汉密尔顿', '基奇纳', '马克翰'],
"answer": 'C'
},
{
"question": "选择题 4：\n哪两个城市之间存在直接的南-北关系，同时没有其他城市位于它们之间的东西方向上？",
"options": [['布兰普顿-密西沙加', '基奇纳-伦敦', '旺市-多伦多', '温莎-伦敦']],
"answer": 'C'
}
],
"id": "round1_train_data_004"

100%|██████████| 5/5 [00:50<00:00, 10.15s/it]


In [15]:
string = '''json{
"problem": "在安大略省，我们有关于不同城市及它们之间位置关系的信息。我们知道各个城市的人口以及哪些城市在给定的城市西边。以下是我们已知的信息：\n\n- 布兰普顿的人口是590000。\n- 汉密尔顿的人口是540000。\n- 金斯顿的人口是130000。\n- 基奇纳的人口是230000。\n- 伦敦的人口是380000。\n- 马克翰的人口是330000。\n- 密西沙加的人口是720000。\n- 渥太华的人口是930000。\n- 多伦多的人口是2700000。\n- 旺市的人口是310000。\n- 温莎的人口是220000。\n\n并且我们知道以下城市在彼此的西边：\n\n- 温莎在伦敦的西边。\n- 伦敦在汉密尔顿的西边。\n- 汉密尔顿在密西沙加的西边。\n- 密西沙加在多伦多的西边。\n- 多伦多在金斯顿的西边。\n- 金斯顿在渥太华的西边。\n- 旺市在马克翰的西边。\n\n还有些城市位于其他城市的北边：\n\n- 布兰普顿在密西沙加的北边。\n- 基奇纳在伦敦的北边。\n- 旺市在多伦多的北边。\n\n根据以上信息，回答以下选择题：",
"questions": [
{
"question": "选择题 1：\n位于布兰普顿以西的城市是哪一个？",
"options": ['多伦多', '金斯顿', '渥太华', '汉密尔顿'],
"answer": 'D'
},
{
"question": "选择题 2：\n哪个城市的人口最多，且没有城市直接位于其西边？",
"options": ['多伦多', '温莎', '基奇纳', '布兰普顿'],
"answer": 'A'
},
{
"question": "选择题 3：\n哪个城市既不在任何其他城市西边，也不在任何城市北边？",
"options": ['金斯顿', '汉密尔顿', '基奇纳', '马克翰'],
"answer": 'C'
},
{
"question": "选择题 4：\n哪两个城市之间存在直接的南-北关系，同时没有其他城市位于它们之间的东西方向上？",
"options": [['布兰普顿-密西沙加', '基奇纳-伦敦', '旺市-多伦多', '温莎-伦敦']],
"answer": 'C'
}
],
"id": "round1_train_data_004"
}'''

In [20]:
s = extract_json(string)

In [33]:
write_json(results,"output")