In [1]:
import sys

sys.path.append('../')

from exam_alignment.utils.alignment_utils import one_file_per_process
from exam_alignment.type_exam_parser.abstract_exam_parser import AbstractExamParser
from exam_alignment.type_exam_parser.annotated_exam_parser import AnnotatedExamParser
from exam_alignment.type_exam_parser.standard_exam_parser import StandardExamParser

from exam_alignment.exam_parser_container import ExamParserContainer

from exam_alignment.utils.new_alignment_utils import longest_increasing_subsequence_index

In [2]:
import os
import glob
from pathlib import Path
import re

examination_paper_list = []

path = Path("./docx_markdowns")

for file in path.glob("*.md"):
    with open(file, "r", encoding="utf-8") as f:
        examination_paper_list.append({
            "file_path": str(file),
            "text": one_file_per_process(f.read())
        })
len(examination_paper_list)

2230

In [3]:
remaining_exams = []
no_answer_exams = []

standard_exams = []
annotated_exams = []

for exam_info in examination_paper_list:
    if not AbstractExamParser.check_contains_answers(exam_info["text"]):
        no_answer_exams.append(exam_info)
        continue

    if StandardExamParser.detect_this_exam_type(exam_info["text"]):
        standard_exams.append(exam_info)
        continue

    if AnnotatedExamParser.detect_this_exam_type(exam_info["text"]):
        annotated_exams.append(exam_info)
        continue

    remaining_exams.append(exam_info)

In [4]:
# 识别标注和解析类型的占比
percentage = (len(standard_exams) + len(annotated_exams)) / (len(examination_paper_list)-len(no_answer_exams)) * 100
print(percentage)
# 无答案的试卷
len(remaining_exams)

53.99792315680166


886

In [5]:
len(examination_paper_list)/len(no_answer_exams)

7.3355263157894735

In [6]:
test_text = standard_exams[30]["text"]
print(test_text)


2015-2016学年河北省衡水中学高三（上）六调数学试卷（理科）
一、选择题（共12小题，每小题3分，满分36分）
1．已知集合A={x\|\|x+1\|≤2，x∈z}，B={y\|y=x^2^，﹣1≤x≤1}，则A∩B=（）
A．（﹣∞，1\] B．\[﹣1，1\] C．{0，1} D．{﹣1，0，1}
2．若z是复数，且（3+z）i=1（i为虚数单位），则z的值为（）
A．﹣3+i B．﹣3﹣i C．3+i D．3﹣i
3．已知甲、乙两名篮球运动员某十场比赛得分的茎叶图如图所示，则甲、乙两人在这十场比赛中得分的平均数与方差的大小关系为（）
![](./docx_images/media/image3.jpeg)
A．![](./docx_images/media/image4.jpeg)＜![](./docx_images/media/image5.jpeg)，S^2^~甲~＜S^2^~乙~ B．![](./docx_images/media/image4.jpeg)＜![](./docx_images/media/image5.jpeg)，S^2^~甲~＞S^2^~乙~
C．![](./docx_images/media/image4.jpeg)＞![](./docx_images/media/image5.jpeg)，S^2^~甲~＞S^2^~乙~ D．![](./docx_images/media/image4.jpeg)＞![](./docx_images/media/image5.jpeg)，S^2^~甲~＜S^2^~乙~
4．设x，y满足![](./docx_images/media/image6.jpeg)，若目标函数z=ax+y（a＞0）最大值为14，则a为（）
A．![](./docx_images/media/image7.jpeg) B．23 C．2 D．1
5．设S~n~是等比数列{a~n~}的前n项的和，S~m﹣1~=45，S~m~=93，则S~m+1~=189，则m=（）
A．6 B．5 C．4 D．3
6．在△ABC中，点D满足![](./docx_images/media/image8.jpeg)，点E是线段AD上的一个动点，若![](./docx_images/media/image9.jpeg)，则t=（λ﹣1）^2^+μ^

In [8]:
StandardExamParser(test_text).extract_answers()

[{'topic_number': 1,
  'answer': '1．已知集合A={x\\|\\|x+1\\|≤2，x∈z}，B={y\\|y=x^2^，﹣1≤x≤1}，则A∩B=（）A．（﹣∞，1\\] B．\\[﹣1，1\\] C．{0，1} D．{﹣1，0，1}【考点】交集及其运算．【分析】分别求出A和B，由此能求出A∩B．【解答】解：∵集合A={x\\|\\|x+1\\|≤2，x∈z}={x\\|﹣3≤x≤1，x∈Z}={﹣3，﹣2，﹣1，0，1}，B={y\\|y=x^2^，﹣1≤x≤1}={y\\|0≤y≤1}，∴A∩B={0，1}．故选：C．'},
 {'topic_number': 2,
  'answer': '2．若z是复数，且（3+z）i=1（i为虚数单位），则z的值为（）A．﹣3+i B．﹣3﹣i C．3+i D．3﹣i【考点】复数代数形式的混合运算．【分析】由（3+z）i=1，可得 z=![](./docx_images/media/image40.jpeg)，再利用两个复数代数形式的除法法则，运算求出z的值．【解答】解：∵（3+z）i=1，∴z=![](./docx_images/media/image40.jpeg)=﹣3﹣i，故选B．'},
 {'topic_number': 3,
  'answer': '3．已知甲、乙两名篮球运动员某十场比赛得分的茎叶图如图所示，则甲、乙两人在这十场比赛中得分的平均数与方差的大小关系为（）![](./docx_images/media/image41.jpeg)A．![](./docx_images/media/image42.jpeg)＜![](./docx_images/media/image5.jpeg)，S^2^~甲~＜S^2^~乙~ B．![](./docx_images/media/image'},
 {'topic_number': 4,
  'answer': '4.8，![](./docx_images/media/image47.jpeg)=![](./docx_images/media/image48.jpeg)（18+16+14+13+28+26+23+51）=23.625，∴![](./docx_images/media/image4'},
 {'topic_numbe

In [8]:
def merge_questions_and_answers(questions, answers):
    # 创建一个字典，将问题按照"topic_number"存储
    question_dict = {q["topic_number"]: q["question"] for q in questions}

    result = []

    # 遍历答案数组，将答案与问题组合
    for answer in answers:
        topic_number = answer["topic_number"]
        question = question_dict.get(topic_number, "")  # 获取问题，如果没有对应的问题则为空字符串
        result.append({"topic_number": topic_number, "question": question, "answer": answer["answer"]})

    # 处理只有问题而没有答案的情况
    for question in questions:
        if question["topic_number"] not in [r["topic_number"] for r in result]:
            result.append({"topic_number": question["topic_number"], "question": question["question"], "answer": ""})

    return result

# 示例用法
questions = [{"topic_number": 1, "question": "aaa"}, {"topic_number": 2, "question": "xyz"}]
answers = [{"topic_number": 1, "answer": "bbbb"}, {"topic_number": 3, "answer": "ccc"}]

result = merge_questions_and_answers(questions, answers)
print(result)


[{'topic_number': 1, 'question': 'aaa', 'answer': 'bbbb'}, {'topic_number': 3, 'question': '', 'answer': 'ccc'}, {'topic_number': 2, 'question': 'xyz', 'answer': ''}]
