Skip to content

New requirements of 2025-11 #34

@HaiHui886

Description

@HaiHui886

#1: 整理一下算子使用说明文档,包含算子的功能,参数意义

算子列表重点给出使用说明及参数意义:

  文档去重(MinHashLSH)
  文档去重(SimHash)
  文档去重(MD5)
  文本替换
  问答对提取
  相似去重

  以及filter的21个算子

#2: 部分算子中文名称错误
Deduplicator--多轮对话生成 (DedupAndSaveDeduplicator)
与下面算子名称错位
Mapper--相似去重 (PipelineMagpieZh) 界面参数错误

      教学评估打分 (界面参数错误)

#3: 在数据格式转换中增加

pdf:使用MinerU将pdf文件转成 md 格式数据,扫描一个dataset repo 下的所有子目录中的pdf文件。
		
 a. 把所有的转换后的.md文件放到新分支的根目录
     b. 在meta文件夹中创建一个meta文件保存转换的源文件和md文件的对应关系
     {
      "files": [
     {
       "from":"xxx",
       "to":"yyy",
       "status": success/failure
     },
     ...
     ],
     "result": {"total":xxx, "success":yy, "failuer":zzzz}
     }
   
     c. 调用MinerU的远程api来进行转换(MinerU api服务由用户提供) 
     d. 所有的格式转换任务都按此规则


word: 修改目前的功能将word文件转成md文件,扫描repo中所有的word文件,转换成md文件放到根目录下,创建一个json格式的meta文件记录原文件与目标文件的对应关系

#4: 增加Trunk工具

  trunk工具:把md文件变成jsonl格式文件,用于后续的算子处理,内容放到text字段

  1. 可以指定切分的token数量,每个trunk的token数量一样

#5: 增加Filter算子

1. 增加一个filter算子,按关键字进行数据过滤,匹配后删除该记录,包含任意关键字的删除记录,支多个关键字 (用于数据内容合规清理,后期通过对接模型服务进行处理)

#6 : 自定义pipeline中,算子节点名字可更改
优化 Pipeline 配置逻辑,支持用户自定义修改节点名称

#7: Label-Studio 国际化(中文支持)
适配 Label-Studio 中文界面、菜单、提示文本;确保所有功能模块中文显示正常

#8: 支持自定义模型选择(优化instruct、问答对提取) ,参考教学评估打分算子,配置URL,配置,模型配置,API Key相关参数

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions