In [1]:
import os
import re
import hashlib
import shutil

# 设置文本目录路径
text_dir = "十國春秋"
output_dir = "十國春秋(avec ponctuation)"  # 输出目录（可修改）

# 如果输出目录不存在，则创建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 中文句读标点正则
punctuation_pattern = re.compile(r"[。！？]")

punctuated_files = []
unpunctuated_files = []
seen_hashes = set()

# 遍历文件夹
for file in os.listdir(text_dir):
    if file.endswith(".txt"):
        file_path = os.path.join(text_dir, file)
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                content = f.read().strip()
                content_hash = hashlib.md5(content.encode('utf-8')).hexdigest()
                if content_hash in seen_hashes:
                    continue
                seen_hashes.add(content_hash)

                if punctuation_pattern.search(content):
                    punctuated_files.append(file_path)
                    # 将文件复制到目标目录
                    shutil.copy(file_path, os.path.join(output_dir, file))
                else:
                    unpunctuated_files.append(file_path)
        except Exception as e:
            print(f"读取失败：{file} → {e}")

print(f"（去重后）带标点的文件数量：{len(punctuated_files)}")
print(f"（去重后）不带标点的文件数量：{len(unpunctuated_files)}")
print(f"所有带标点文件已保存至目录：{output_dir}")


（去重后）带标点的文件数量：64
（去重后）不带标点的文件数量：13
所有带标点文件已保存至目录：十國春秋(avec ponctuation)


In [2]:
import os
import re

# 文本清洗函数
import re

def clean_text(text):
    # 去除超链接
    text = re.sub(r"http[s]?://\S+", "", text)

    # 删除注释性或无关的特殊行（较保守）
    text = re.sub(r"^.*(←|→|目次|姊妹計劃).*?$", "", text, flags=re.M)


    # 删除中括号、装饰性标注
    text = re.sub(r"\[.*?\]", "", text)
    text = re.sub(r"【.*?】", "", text)

    # 删除特殊控制符（但保留汉字与正常标点）
    text = re.sub(r"[\u2000-\u206F\uFEFF\uFFF0-\uFFFF]", "", text)
    text = re.sub(r"[𦞦𤴓䤬䍧𢂽□*]", "", text)

    # 合并换行、删除空格
    text = re.sub(r"\n+", "", text)
    text = text.replace(" ", "").replace("　", "")

    return text.strip()



# 设置带标点文本目录路径
input_dir = "十國春秋(avec ponctuation)"
output_dir = "十國春秋_cleaned"  # 清洗后的文本目录

if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 遍历并清洗每个文本文件
for file_name in os.listdir(input_dir):
    if file_name.endswith(".txt"):
        input_path = os.path.join(input_dir, file_name)
        output_path = os.path.join(output_dir, file_name)

        try:
            with open(input_path, 'r', encoding='utf-8') as f:
                raw_text = f.read()
                cleaned_text = clean_text(raw_text)

            with open(output_path, 'w', encoding='utf-8') as f_out:
                f_out.write(cleaned_text)

            print(f"已清洗：{file_name}")
        except Exception as e:
            print(f"处理失败：{file_name} → {e}")

print(f"所有文件已清洗并保存至：{output_dir}")


已清洗：卷二十一.txt
已清洗：卷三十七.txt
已清洗：卷068.txt
已清洗：卷七.txt
已清洗：卷069.txt
已清洗：卷十二.txt
已清洗：卷094.txt
已清洗：卷一.txt
已清洗：卷十八.txt
已清洗：卷二十.txt
已清洗：卷084.txt
已清洗：卷086.txt
已清洗：卷十六.txt
已清洗：卷十七.txt
已清洗：卷023.txt
已清洗：卷二.txt
已清洗：卷022.txt
已清洗：卷036.txt
已清洗：凡例.txt
已清洗：卷二十八.txt
已清洗：卷十一.txt
已清洗：卷008.txt
已清洗：卷009.txt
已清洗：卷035.txt
已清洗：卷019.txt
已清洗：卷025.txt
已清洗：卷030.txt
已清洗：卷024.txt
已清洗：卷026.txt
已清洗：卷六.txt
已清洗：卷027.txt
已清洗：卷003.txt
已清洗：卷十三.txt
已清洗：卷十四.txt
已清洗：卷015.txt
已清洗：卷029.txt
已清洗：跋.txt
已清洗：卷004.txt
已清洗：卷010.txt
已清洗：提要.txt
已清洗：卷五.txt
已清洗：自序.txt
已清洗：卷075.txt
已清洗：卷061.txt
已清洗：卷101.txt
已清洗：卷100.txt
已清洗：卷060.txt
已清洗：卷074.txt
已清洗：卷062.txt
已清洗：卷076.txt
已清洗：卷102.txt
已清洗：卷103.txt
已清洗：卷077.txt
已清洗：卷067.txt
已清洗：卷073.txt
已清洗：卷113.txt
已清洗：卷072.txt
已清洗：卷058.txt
已清洗：卷070.txt
已清洗：卷104.txt
已清洗：卷111.txt
已清洗：卷105.txt
已清洗：卷071.txt
已清洗：卷059.txt
所有文件已清洗并保存至：十國春秋_cleaned
