Skip to content

v1.0.5: 改进文本优化逻辑

Choose a tag to compare

@Quantatirsk Quantatirsk released this 17 Jul 07:56
· 7 commits to main since this release

更新内容

  • 前3行不再合并,保护标题和初始内容格式
  • 添加多行换行符压缩为单行的处理逻辑
  • 优化文档文本提取质量,特别是中文和拉丁语系文档

技术改进

  • 修改 optimize_text 函数,前3行单独处理
  • 添加正则表达式处理多余换行符
  • 提升文档解析的准确性