-
Notifications
You must be signed in to change notification settings - Fork 4
Closed
Labels
Description
#1: 整理一下算子使用说明文档,包含算子的功能,参数意义
算子列表重点给出使用说明及参数意义:
文档去重(MinHashLSH)
文档去重(SimHash)
文档去重(MD5)
文本替换
问答对提取
相似去重
以及filter的21个算子
#2: 部分算子中文名称错误
Deduplicator--多轮对话生成 (DedupAndSaveDeduplicator)
与下面算子名称错位
Mapper--相似去重 (PipelineMagpieZh) 界面参数错误
教学评估打分 (界面参数错误)
#3: 在数据格式转换中增加
pdf:使用MinerU将pdf文件转成 md 格式数据,扫描一个dataset repo 下的所有子目录中的pdf文件。
a. 把所有的转换后的.md文件放到新分支的根目录
b. 在meta文件夹中创建一个meta文件保存转换的源文件和md文件的对应关系
{
"files": [
{
"from":"xxx",
"to":"yyy",
"status": success/failure
},
...
],
"result": {"total":xxx, "success":yy, "failuer":zzzz}
}
c. 调用MinerU的远程api来进行转换(MinerU api服务由用户提供)
d. 所有的格式转换任务都按此规则
word: 修改目前的功能将word文件转成md文件,扫描repo中所有的word文件,转换成md文件放到根目录下,创建一个json格式的meta文件记录原文件与目标文件的对应关系
#4: 增加Trunk工具
trunk工具:把md文件变成jsonl格式文件,用于后续的算子处理,内容放到text字段
1. 可以指定切分的token数量,每个trunk的token数量一样
#5: 增加Filter算子
1. 增加一个filter算子,按关键字进行数据过滤,匹配后删除该记录,包含任意关键字的删除记录,支多个关键字 (用于数据内容合规清理,后期通过对接模型服务进行处理)
#6 : 自定义pipeline中,算子节点名字可更改
优化 Pipeline 配置逻辑,支持用户自定义修改节点名称
#7: Label-Studio 国际化(中文支持)
适配 Label-Studio 中文界面、菜单、提示文本;确保所有功能模块中文显示正常
#8: 支持自定义模型选择(优化instruct、问答对提取) ,参考教学评估打分算子,配置URL,配置,模型配置,API Key相关参数