In [None]:
import os
import json

def merge_json_files(source_dir, target_json_path):
    '''
    合并文件夹下所有JSON文件到指定的JSON文件中，结果以列表形式存储
    
    参数：
    source_dir: 源文件夹路径，包含要合并的JSON文件
    target_json_path: 目标JSON文件路径，用于存储合并后的结果
    '''
    # 初始化合并后的结果列表
    merged_data = []
    
    # 遍历源文件夹中的所有文件
    for filename in os.listdir(source_dir):
        # 只处理JSON文件
        if filename.endswith('.json'):
            file_path = os.path.join(source_dir, filename)
            try:
                # 读取JSON文件内容
                with open(file_path, 'r', encoding='utf-8') as f:
                    content = json.load(f)
            
                # 如果文件内容是字典，直接添加到列表中
                merged_data.append(content)

                print(f"已成功读取并合并 {filename}")
                
            except Exception as e:
                print(f"处理文件 {filename} 时出错：{str(e)}")
    
    # 将合并后的数据写入目标JSON文件
    with open(target_json_path, 'w', encoding='utf-8') as f:
        json.dump(merged_data, f, ensure_ascii=False, indent=2)
    

In [None]:
# 使用示例
source_directory = '/Users/bytedance/Project/OmniDocBench/OursDataset/jsons'  # 替换为你的源文件夹路径
target_file = '/Users/bytedance/Project/OmniDocBench/OursDataset/OmniDocBench.json'  # 替换为你的目标文件路径

# 调用函数进行合并
merge_json_files(source_directory, target_file)

In [None]:
import os

# 读取 passed.txt 中的内容到集合
passed_files = set()
with open('/Users/bytedance/Project/OmniDocBench/OursDataset/passed.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # 去除每行的换行符等空白字符
        passed_files.add(line.strip())

# 目标文件夹路径，根据实际情况修改
folder_path = '/Users/bytedance/Project/OmniDocBench/OursDataset/jsons'  

# 遍历文件夹中的文件
for file_name in os.listdir(folder_path):
    file_path = os.path.join(folder_path, file_name)
    
    # 确保是文件且文件名不在 passed.txt 中
    if os.path.isfile(file_path) and file_name[:-5] not in passed_files:
        os.remove(file_path)
        print(f"已删除文件：{file_name}")


In [9]:
import json
with open("/Users/bytedance/Project/OmniDocBench/OursDataset/OmniDocBench.json", "r") as f:
    data = json.load(f)

for item in data:
    i = item["page_info"]["image_path"]

    parts = i.split("_")
    # 给数字部分补零到三位
    new_name = f"{int(parts[0]):03d}_{int(parts[1]):02d}.jpg"   
    # 拼接新的完整路径
    # 更新回 item
    item["page_info"]["image_path"] = new_name
    print(item["page_info"]["image_path"])

with open("/Users/bytedance/Project/OmniDocBench/OursDataset/OmniDocBench.json", "w") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

058_11.jpg
076_06.jpg
087_13.jpg
100_18.jpg
084_03.jpg
094_03.jpg
062_12.jpg
093_07.jpg
071_02.jpg
080_17.jpg
061_02.jpg
093_11.jpg
062_04.jpg
090_01.jpg
080_01.jpg
058_07.jpg
097_05.jpg
087_05.jpg
073_05.jpg
063_05.jpg
092_10.jpg
074_01.jpg
064_01.jpg
100_22.jpg
077_11.jpg
086_04.jpg
067_11.jpg
096_04.jpg
059_06.jpg
095_02.jpg
085_02.jpg
099_21.jpg
067_07.jpg
086_12.jpg
077_07.jpg
059_10.jpg
060_03.jpg
070_03.jpg
092_06.jpg
063_13.jpg
073_13.jpg
100_14.jpg
089_01.jpg
099_01.jpg
062_08.jpg
086_24.jpg
068_02.jpg
099_17.jpg
087_09.jpg
078_02.jpg
097_09.jpg
100_02.jpg
063_09.jpg
073_09.jpg
079_03.jpg
086_08.jpg
098_16.jpg
069_03.jpg
098_01.jpg
088_01.jpg
096_09.jpg
079_02.jpg
086_09.jpg
098_17.jpg
069_02.jpg
063_08.jpg
073_08.jpg
068_03.jpg
099_16.jpg
078_03.jpg
097_08.jpg
100_03.jpg
086_25.jpg
062_09.jpg
100_15.jpg
092_07.jpg
063_12.jpg
073_12.jpg
060_02.jpg
070_02.jpg
067_06.jpg
086_13.jpg
077_06.jpg
059_11.jpg
095_03.jpg
099_20.jpg
077_10.jpg
086_05.jpg
067_10.jpg
096_05.jpg
059_07.jpg

'58_11_png.jpg'

In [2]:
import re

s = r'[\[15, Theorem 1\]](#page-15-0) 其他文字 [\[4\]](#page-9-1)'

def repl(m):
    inner = m.group(1)
    # 去掉方括号前的反斜杠转义
    inner = inner.replace(r'\[', '[').replace(r'\]', ']')
    return inner

res = re.sub(r'\[(.*?)\]\(#page-\d+-\d+\)', repl, s)
print(res)
# 输出: "[15, Theorem 1] 其他文字 [4]"


[15, Theorem 1] 其他文字 [4]
