Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

飞书文档汇总训练数据中存在的问题 #79

Open
chg0901 opened this issue Mar 16, 2024 · 9 comments
Open

飞书文档汇总训练数据中存在的问题 #79

chg0901 opened this issue Mar 16, 2024 · 9 comments

Comments

@chg0901
Copy link
Contributor

chg0901 commented Mar 16, 2024

飞书文档汇总训练数据中存在的问题

数据集链接:150万下厨房微调数据集:提取密码8489
image

image

带点数据用例,做点规定, 大家把更多的情形填进去

解决方法暂定为: 匹配模式,分类处理

数据集分段解析遇到的问题

  1. 食谱里有一些还有表情符号之类的非中文字符,很可能测试的时候出问题

solution: 最好是先过滤,后期想加再忘里加,

简单的做法是只保留中英文字符,推荐大家试试data-juicer,阿里的, 做一些规则设定,去重和过滤

  1. 主要就是因为下厨房的菜谱是各个作者自己上传的,各式各样,五花八门

  2. 模糊性(左右,大约,少许,适量)说法解决(数据规范化, 调成结构性数据):

【书生·浦语大模型实战营】二阶段:菜谱数据集食材部分的处理(尚未完成)

https://zhuanlan.zhihu.com/p/682745169

94f7d812f521174e887f1ecfad86d05

数据集这样的数据还不少

菜谱有很多说法,比如 100+-10g

基于规则处理下, ±的去掉,100g,

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 16, 2024

image

量词多, 且不统一, 有时会缺失量词

有时会有错别字 "漠过羊肉"

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 16, 2024

颜文字表情

烤5分钟后盖锡纸哦(´-ω-`)',

直到全部完成✅

'这是我交作业的图,哈哈哈😄',

'时间到就好啦,可以出炉了👌🏻']"

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 16, 2024

input 主要是 " xxxx的做法, 会导致更换问法不能响应和搜索, 对同一个output采取不同的input问法, 来加强匹配准确度

"input": "西葫芦水晶饺的做法","

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 16, 2024

过多的语气词
image

都用红糖浆会满足强迫症处女座的内心.比如我~', '要彻底放凉再起糕哦', '因为没有一把锋利的刀.导致切的不完美!!啊啊啊啊!',

    {
        "conversation": [
            {
                "system": "你是一个专业的厨师,你会做很多菜。用户报上自己所需的菜名后,你可以把做菜所需要的原料,以及做菜的方法告诉用户",
                "input": "低糖版~椰奶千层马蹄糕的做法",
                "output": "您需要准备以下食材:\n['250克马蹄粉', '50克红片糖', '50克冰片糖', '700克水', '400克椰浆', '150克牛奶']\n按以下方法制作:\n['准备一盒最好的马蹄粉啦!广州人懂的!牛奶一盒、椰浆一罐、红片糖和冰片糖各50克。我不爱太甜,这是低糖版的,喜欢甜的自己随量加糖~', '生浆——150克马蹄粉加300克水拌匀均匀至没有颗粒状,', '过筛会更细腻 别懒~', '400克水加入红片糖、冰片糖小火煮至融化', '红糖层浆——关火!加入一大汤勺生浆,快速搅拌均匀', '搅拌至粘稠状如图', '再把剩余的生浆缓缓边搅拌边倒入红糖层浆。', '椰奶层浆——椰奶400克、牛奶150克、马蹄粉100克,搅拌均匀过筛。这样红糖层浆和椰奶层浆就准备好了', '全程最大火力,水开后,一勺红糖浆铺均匀,盖上盖子蒸3-4分钟', '一层椰奶浆,3-4分钟,梅花间竹加入红糖浆和椰奶浆,以此类推~最后一层蒸8分钟,稍微久一点。总共做多少层大家开心就好。第一层和最后一层都用红糖浆会满足强迫症处女座的内心.比如我~', '要彻底放凉再起糕哦', '因为没有一把锋利的刀.导致切的不完美!!啊啊啊啊!', '不过家人和自己吃的,就算卖相没有高分,也是美味而快乐满足的~大家元宵节快乐!']"
            }
        ]
    },

@zhanghui-china
Copy link
Collaborator

曾经上传了多本菜谱图书,好像是乐佬处理的。
不同的书里面的菜谱格式都不一样。想整合成标准格式恐怕有点难。

@miyc1996
Copy link
Contributor

miyc1996 commented Mar 17, 2024

下厨房数据集里包含一些表情符号以及dish信息以unknown作为菜名的描述,没有实现一一匹配,不利于后续提取关键信息或扩展数据集,
例如:"name": "超简单美味的番茄🍅口味火锅底料", "dish": "Unknown",
"name": "麻辣小龙虾", "dish": "Unknown",
"name": "小鸡🐥咖喱鸡腿饭",
"name": "烤面包🍞(微波炉)"……

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 18, 2024

等着可以让kimi试试处理我们的数据,好好写个prompt

https://mp.weixin.qq.com/s/agyf3rLCfWoX_7-T8_w5kQ

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 18, 2024

下厨房数据集里包含一些表情符号以及dish信息以unknown作为菜名的描述

没有实现一一匹配,不利于后续提取关键信息或扩展数据集,

例如:"name": "超简单美味的番茄🍅口味火锅底料", "dish": "Unknown",
"name": "麻辣小龙虾", "dish": "Unknown",
"name": "小鸡🐥咖喱鸡腿饭",
"name": "烤面包🍞(微波炉)"……

dish这个本来是这道菜的一个关键词一类的东西

@chg0901
Copy link
Contributor Author

chg0901 commented Mar 18, 2024

另一个数据举例
{"name": "藜麦水果沙拉", "dish": "藜麦水果沙拉", "description": "夏天来临,吃不下饭 减肥塑身,唤醒肠胃,来一份藜麦水果轻食吧", "recipeIngredient": ["80克稼祺藜麦", "8个草莓", "8个葡萄", "1个橘子", "1个猕猴桃", "1个香蕉", "3勺蜂蜜", "2勺酸奶"], "recipeInstructions": ["准备食材", "稼祺藜麦水煮15分钟捞出沥水", "水果切丁,橘子分成瓣", "摆盘浇上3勺蜂蜜,2勺酸奶", "完成", "开吃吧"], "author": "author_32521", "keywords": ["藜麦水果沙拉的做法", "藜麦水果沙拉的家常做法", "藜麦水果沙拉的详细做法", "藜麦水果沙拉怎么做", "藜麦水果沙拉的最正宗做法"]}

https://www.json.cn/

image

我在试用的时候,发现如果输入不是xx的做法,就会被告知,不会做,
keywords应该利用起来,来构造同1道菜的不同问法

{
    "name": "藜麦水果沙拉",
    "dish": "藜麦水果沙拉",
    "description": "夏天来临,吃不下饭 减肥塑身,唤醒肠胃,来一份藜麦水果轻食吧",
    "recipeIngredient": [
        "80克稼祺藜麦",
        "8个草莓",
        "8个葡萄",
        "1个橘子",
        "1个猕猴桃",
        "1个香蕉",
        "3勺蜂蜜",
        "2勺酸奶"
    ],
    "recipeInstructions": [
        "准备食材",
        "稼祺藜麦水煮15分钟捞出沥水",
        "水果切丁,橘子分成瓣",
        "摆盘浇上3勺蜂蜜,2勺酸奶",
        "完成",
        "开吃吧"
    ],
    "author": "author_32521",
    "keywords": [
        "藜麦水果沙拉的做法",
        "藜麦水果沙拉的家常做法",
        "藜麦水果沙拉的详细做法",
        "藜麦水果沙拉怎么做",
        "藜麦水果沙拉的最正宗做法"
    ]
}

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants