New requirements of 2025-11


#1: 整理一下算子使用说明文档，包含算子的功能，参数意义

    算子列表重点给出使用说明及参数意义：

      文档去重（MinHashLSH）
      文档去重（SimHash）
      文档去重（MD5）
      文本替换
      问答对提取
      相似去重

      以及filter的21个算子

#2: 部分算子中文名称错误
          Deduplicator--多轮对话生成 （DedupAndSaveDeduplicator）
          与下面算子名称错位
         Mapper--相似去重 （PipelineMagpieZh）  界面参数错误

          教学评估打分 （界面参数错误）

#3: 在数据格式转换中增加

	pdf：使用MinerU将pdf文件转成 md 格式数据，扫描一个dataset repo 下的所有子目录中的pdf文件。
			
	 a. 把所有的转换后的.md文件放到新分支的根目录
         b. 在meta文件夹中创建一个meta文件保存转换的源文件和md文件的对应关系
         {
          "files": [
         {
           "from":"xxx",
           "to":"yyy",
           "status": success/failure
         },
         ...
         ],
         "result": {"total":xxx, "success":yy, "failuer":zzzz}
         }
       
         c. 调用MinerU的远程api来进行转换（MinerU api服务由用户提供） 
         d. 所有的格式转换任务都按此规则


    word: 修改目前的功能将word文件转成md文件，扫描repo中所有的word文件，转换成md文件放到根目录下，创建一个json格式的meta文件记录原文件与目标文件的对应关系


#4: 增加Trunk工具  

      trunk工具：把md文件变成jsonl格式文件，用于后续的算子处理，内容放到text字段

	  1. 可以指定切分的token数量，每个trunk的token数量一样

#5: 增加Filter算子

	1. 增加一个filter算子，按关键字进行数据过滤，匹配后删除该记录，包含任意关键字的删除记录，支多个关键字 （用于数据内容合规清理，后期通过对接模型服务进行处理）


#6 : 自定义pipeline中，算子节点名字可更改
     优化 Pipeline 配置逻辑，支持用户自定义修改节点名称

#7: Label-Studio 国际化（中文支持）
      适配 Label-Studio 中文界面、菜单、提示文本；确保所有功能模块中文显示正常

#8: 支持自定义模型选择(优化instruct、问答对提取) ，参考教学评估打分算子，配置URL，配置，模型配置，API Key相关参数



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

New requirements of 2025-11 #34

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

New requirements of 2025-11 #34

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions