这只是一个示例, 你可能需要根据你的文件结构来重写dataloader

## mac可用

In [1]:
import csv
import os
import re
from docx import Document

def extract_law_articles(docx_path, csv_path):
    """
    将 Word 文档按照法条编号拆分为 CSV（支持 macOS）
    注意：仅适用于 .docx 格式文件
    """
    # 检查文件是否存在
    if not os.path.exists(docx_path):
        raise FileNotFoundError(f"文件未找到: '{docx_path}'")

    # 读取 Word 文档
    doc = Document(docx_path)
    
    law_articles = []
    current_article = ''
    article_num = 1
    is_article_started = False

    # 遍历文档段落
    for para in doc.paragraphs:
        text = para.text.strip()
        
        # 跳过章节标题（支持中文数字和汉字）
        if re.match(r'^第.{1,4}章', text) or re.match(r'^第.{1,4}节', text):
            continue
        
        # 匹配法条编号（更精确的正则表达式）
        match = re.match(r'^(第.*条)\s', text)
        if match:
            if is_article_started:
                # 保存当前法条
                law_articles.append((article_num, current_article.strip()))
                article_num += 1
            # 开始新法条
            current_article = text
            is_article_started = True
        elif is_article_started:
            # 拼接段落内容
            current_article += '\n' + text

    # 保存最后一个法条
    if current_article:
        law_articles.append((article_num, current_article.strip()))

    # 写入 CSV 文件
    with open(csv_path, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['law_article_num', 'law_article'])
        for article_num, original_text in law_articles:
            writer.writerow([article_num, original_text])

    print(f"提取完成，共找到 {len(law_articles)} 个法条")


In [2]:
directory_path = "law_to_ComplianceUnit/st_0_law_docx"

# 提取所有.doc文件的文件名，不包含路径
doc_filenames = [
    f for f in os.listdir(directory_path) if f.endswith('.docx') # f.endswith('.doc') # or 
]

doc_filenames

['北京证券交易所上市公司持续监管指引第2号——季度报告.docx',
 '北京证券交易所上市公司持续监管指引第7号——转板.docx',
 '北京证券交易所上市公司持续监管指引第1号——独立董事.docx',
 '北京证券交易所上市公司持续监管指引第5号——要约收购.docx',
 '北京证券交易所上市公司持续监管指引第9号——募集资金管理.docx',
 '北京证券交易所上市公司持续监管指引第6号——内幕信息知情人管理及报送.docx',
 '北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.docx',
 '北京证券交易所上市公司持续监管指引第10号——权益分派.docx',
 '北京证券交易所上市公司持续监管指引第3号——股权激励和员工持股计划.docx',
 '北京证券交易所上市公司持续监管指引第4号——股份回购.docx']

In [3]:
from tqdm import tqdm

for doc_file in tqdm(doc_filenames):

    law_articles_dir = "law_to_ComplianceUnit/st_0_law_docx"
    law_articles_csv_dir = "law_to_ComplianceUnit/st_1_law_csv"

    # 创建文件夹
    os.makedirs(law_articles_csv_dir, exist_ok=True)

    # 输入文件路径
    doc_path = os.path.join(law_articles_dir, doc_file)
    base_name = os.path.splitext(doc_file)[0]
    csv_path = os.path.join(law_articles_csv_dir, f"{base_name}.csv")

    # 提取法条并保存为CSV
    extract_law_articles(doc_path, csv_path)
    print(f"Extracted law articles have been saved to {csv_path}")


100%|██████████| 10/10 [00:00<00:00, 46.61it/s]

提取完成，共找到 16 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第2号——季度报告.csv
提取完成，共找到 21 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第7号——转板.csv
提取完成，共找到 30 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第1号——独立董事.csv
提取完成，共找到 36 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第5号——要约收购.csv
提取完成，共找到 27 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第9号——募集资金管理.csv
提取完成，共找到 25 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第6号——内幕信息知情人管理及报送.csv
提取完成，共找到 29 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.csv
提取完成，共找到 33 个法条
Extracted law articles have been saved to law_to_ComplianceUnit/st_1_law_csv/北京证券交易所上市公司持续监管指引第10号——权益分


