In [12]:
from multiprocessing import Process, Manager
import json
import os
from pprint import pprint
import re
from tqdm import tqdm
import random

import uuid
import openai
import tiktoken
import json
import numpy as np
import requests
from retry import retry
from scipy import sparse
#from rank_bm25 import BM25Okapi
#import jieba
from http import HTTPStatus
import dashscope
from dotenv import dotenv_values
config = dotenv_values('.env')

In [13]:
MODEL_NAME = 'qwen2-7b-instruct'
dashscope.api_key = config['qwen_key'],

@retry(delay=60, tries=3)
def call_qwen_api(MODEL_NAME, query):
    messages = [
        {'role': 'user', 'content': query}]
    response = dashscope.Generation.call(
        MODEL_NAME,
        messages=messages,
        result_format='message',  # set the result is message format.
    )
    if response.status_code == HTTPStatus.OK:
        #print(response)
        return response['output']['choices'][0]['message']['content']
    else:
        print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
            response.request_id, response.status_code,
            response.code, response.message
        ))
        raise Exception()

In [14]:
def get_prompt(problem, question, options):

    options = '\n'.join(f"{'ABCDEFG'[i]}. {o}" for i, o in enumerate(options))

    prompt = f"""你是一个逻辑推理专家，擅长解决逻辑推理问题。以下是一个逻辑推理的题目，形式为单项选择题。所有的问题都是（close-world assumption）闭世界假设，即未观测事实都为假。请逐步分析问题并在最后一行输出答案，最后一行的格式为"答案是：A"。题目如下：

### 题目:
{problem}

### 问题:
{question}
{options}
"""

    return prompt

In [49]:
def extract(input_text):
    ans_pattern = re.compile(r"答案是：(.*)", re.S)

    # 使用 findall 方法找到所有匹配的字符串
    problems = ans_pattern.findall(input_text)

    # 提取答案中出现的所有可能的答案字母
    possible_answers = "ABCDEFG"  # 假设可能的答案字母是 A, B, C, D
    answers = [match for match in problems[0] if match in possible_answers]

#     print(answers)  # 输出：['A']
#     ans_pattern = re.compile(r"答案是：(.)", re.S)
#     problems = ans_pattern.findall(input_text)
    if len(answers) == 0:
        return ''
        
    return answers[0]

In [74]:
def produce(data, MODEL_NAME, return_list, pid):
    tqdm1 = tqdm
    for task in tqdm1(data):
            problem = task['problem']
            for question in task['questions']:
                print(question)

                prompt = get_prompt(problem, 
                                    question['question'],
                                    question['options'],
                                    )

                response = call_qwen_api(MODEL_NAME, prompt)
                try:
                    attemp = 1
                    while attemp <= 3:
                        #print(f'try：{attemp}')
                        extract_response = extract(response)
                        question[MODEL_NAME] = extract_response
                        if question[MODEL_NAME] == '':
                            print(f'wtrong response：{response}')
                            attemp += 1
                            continue
                        else:
                            attemp = 3
                    if pid == 0:
                        pprint(extract_response)
                    break
                except:
                    pass
            return_list.append(task)

In [75]:
def main(data, ofn):
    # 如果输出文件已经存在，则不进行处理
    # if os.path.exists(ofn):
    #     pass

    # 设置进程池大小
    POOL_SIZE = 5
    #data = []

    # 将数据分割成POOL_SIZE个子列表
    datas = [data[i::POOL_SIZE] for i in range(POOL_SIZE)]

    # 使用Manager创建一个共享对象
    with Manager() as manager:
        # 创建一个共享列表，用于存储所有进程的结果
        return_list = manager.list()

        # 创建进程列表
        producers = []
        for i in range(POOL_SIZE):
            # 创建每个进程，传递数据子集、模型名称、结果列表和进程编号
            p = Process(target=produce,
                        args=(datas[i],  # 数据子集
                              MODEL_NAME,  # 模型名称
                              return_list,  # 共享结果列表
                              i,  # 进程编号
                              )
                        )
            producers.append(p)

        # 启动所有进程
        for p in producers:
            p.start()

        # 等待所有进程完成
        for p in producers:
            p.join()

        # 输出结果列表的长度
        print(len(return_list))

        # 写入输出文件
        with open(ofn, 'w') as writer:
            for sample in return_list:
                # 将结果写入文件
                writer.write(json.dumps(sample, ensure_ascii=False))
                writer.write('\n')

    # 输出任务完成的消息
    print("All tasks finished!")

    # 调用评估函数
    evaluate(ofn)

In [76]:
def evaluate(ofn):
    data = []
    with open(ofn) as reader:
        for line in reader:
            sample = json.loads(line)
            data.append(sample)

    pse = 0
    cnt = 0
    tot = 0
    for task in data:
        for question in task['questions']:
            
            if MODEL_NAME in question:
                tot += 1
                cnt += question[MODEL_NAME] == question['answer']
            else:
                pse += 1

    print(cnt, tot, cnt/tot, pse)

In [77]:
def read_file(ifn):
    # 读取输入文件
    data=[]
    with open(ifn) as reader:
        for line in reader:
            # 解析每一行JSON数据
            sample = json.loads(line)
            data.append(sample)

    # 打乱数据顺序
    #random.shuffle(data)
    return data

In [78]:
if __name__ == '__main__':

    a = extract("""根据欧几里得算法，逐步解析计算两个数6和7的最大公约数（gcd）的步骤如下：

1. 判断6和7是否相等：不相等。
2. 判断6和7大小关系，7 > 6，所以用更大的数7减去较小的数6得到结果1。
3. 现在计算6和1的最大公约数。
4. 6 > 1，根据算法用更大的数6减去较小的数1得到结果5。
5. 再计算5和1的最大公约数。
6. 5 > 1，用5减去1得到结果4。
7. 再计算4和1的最大公约数。
8. 4 > 1，用4减去1得到结果3。
9. 再计算3和1的最大公约数。
10. 3 > 1，用3减去1得到结果2。
11. 再计算2和1的最大公约数。
12. 2 > 1，用2减去1得到结果1。
13. 最后计算1和1的最大公约数，两数相等，gcd即为这两个数，也就是1。

因此，6和7的最大公约数是1。

答案是：应该是阿飞.""")

    data = read_file('data/round1_train_data.jsonl')
    main(data[:2], 'result/qwen.jsonl')

  0%|          | 0/1 [00:00<?, ?it/s]


{'question': '选择题 1：\n英文句子 "the cat jumps over the moon" 翻译成法文是：', 'options': ['le chat saute sur la lune', 'le chat sauts sur le lune', 'le sauts chat sur le lune', 'le chat sauts sur le lune'], 'answer': 'D'}

  0%|          | 0/1 [00:00<?, ?it/s]


{'question': '选择题 1：\n当系数A=7, B=9, C=5时，方程的解是什么？', 'options': ['-1.2857142857142858', '0', "'+(-0.6428571428571429, *(0.5486532677049005, i))' 和 '-(-0.6428571428571429, *(0.5486532677049005, i))'", '2.2857142857142856'], 'answer': 'C'}

0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


'A'


100%|██████████| 1/1 [00:02<00:00,  2.30s/it]
100%|██████████| 1/1 [00:05<00:00,  5.20s/it]


2
All tasks finished!
1 2 0.5 5


In [79]:
data[0]

{'problem': '有一个英文到法文的词汇表，包含以下对应词汇：\n\n1. the -> le\n2. cat -> chat\n3. jumps -> sauts\n4. over -> sur\n5. moon -> lune\n6. cow -> vache\n7. plays -> jouer\n8. fiddle -> violon\n9. egg -> bougre\n10. falls -> des chutes\n11. off -> de\n12. wall -> mur\n\n根据这个词汇表，翻译以下英文句子成法文：',
 'questions': [{'question': '选择题 1：\n英文句子 "the cat jumps over the moon" 翻译成法文是：',
   'options': ['le chat saute sur la lune',
    'le chat sauts sur le lune',
    'le sauts chat sur le lune',
    'le chat sauts sur le lune'],
   'answer': 'D'},
  {'question': '选择题 2：\n英文句子 "the cow plays the fiddle" 翻译成法文是：',
   'options': ['le vache jouer le violon',
    'le jouer vache le violon',
    'le vache jouer la vièle',
    'la vache joue le violon'],
   'answer': 'A'},
  {'question': '选择题 3：\n英文句子 "the egg falls off the wall" 翻译成法文是：',
   'options': ['le bougre des chutes de le mur',
    'le oeuf tombe de le mur',
    'le bougre tomber de le mur',
    'des chutes le bougre de le mur'],
   'answer': 'A'}],
 'id': 'round

In [33]:
data = read_file('data/round1_train_data.jsonl')

In [68]:
    data = []
    with open('result/qwen.jsonl') as reader:
        for line in reader:
            sample = json.loads(line)
            data.append(sample)

In [73]:
data[2]['questions']

[{'question': '选择题 1：\n当系数A=7, B=9, C=5时，方程的解是什么？',
  'options': ['-1.2857142857142858',
   '0',
   "'+(-0.6428571428571429, *(0.5486532677049005, i))' 和 '-(-0.6428571428571429, *(0.5486532677049005, i))'",
   '2.2857142857142856'],
  'answer': 'C',
  'qwen2-7b-instruct': 'C'},
 {'question': '选择题 2：\n当系数A=7, B=9, C=5时，方程是否有解为6？',
  'options': ['是', '否'],
  'answer': 'B'},
 {'question': '选择题 3：\n当系数A=7, B=9, C=5时，方程是否有解为8？',
  'options': ['是', '否'],
  'answer': 'B'},
 {'question': '选择题 4：\n当系数A=7, B=6, C=0时，方程是否有解为6？',
  'options': ['是', '否'],
  'answer': 'B'}]