Skip to content

Latest commit

 

History

History
78 lines (46 loc) · 3.99 KB

README_history.md

File metadata and controls

78 lines (46 loc) · 3.99 KB

20240429 死去的项目复活了!

很多人对这个项目表示了兴趣和强烈的贡献意愿,所以这个项目复活啦,项目改名叫chat-dataset-baseline,旨在提供一个优秀的中英文训练数据的baseline,人人都可以基于这个baseline训练出一个还算可以的大模型

进展说明 202306105

我们最近微调工作比较少,最近在弄prompt的优化,所以数据集稍微弄得少一些了,后续还会开源一些prompt的工作。 感谢卢家琪同学贡献了自己的数据集~

进展说明 20230410

感谢好心人赞助了a100显卡的算力,我们得以继续开展研究。

目前我们研究的内容主要是:

1、研究基于lora解决chatglm中部分代码生成任务的“中文化”问题。(如 a[input] > b,有时候它会写成 a[输入] 大于 b )

2、无监督数据灌入模型+有监督微调,使得模型具备某个领域的专业能力的策略,该策略等我们论文发arxiv后会开源。(此研究的数据来源于中文论文,可能存在版权问题,数据集我们暂时先不公开,等我们找到了可公开的中文论文数据,再公开数据集。)

3、研究解决lora后翻译能力消失的问题

4、解决issue

chatglm微调成功 20230327

我们基于lora方案在colab上微调成功了,成功的文件已经传到本项目中了,我们发现了三点暂时性结论:

  • 我们的数据集中因为有很多企业管理+工业工程相关知识,lora后整个chatglm的语言风格向企业和单位口吻转变
  • lora后绝大部分模型能力不会影响,但模型翻译能力似乎急剧下降
  • lora后可融合数据集中的知识进模型中而不基本不会影响模型效果(除了英文能力)
  • 再增加一些英文翻译数据集也许能把模型英文能力拉回来?因为我的colab没钱了所以暂时不研究了,如果有赞助或者有其他同学成功了给我说一下哈

训练之前: 训练之前

训练之后,很不要脸的看看能不能加上自己大名: 训练之前

chatglm微调相关 20230325

我们把github上代码都试了一下,现在能看出明显变化的就是https://github.com/ssbuild/chatglm_finetuning, 我们将尝试写一段脚本,把我们的数据集变成这种对话形式数据集

chatglm微调相关 20230324

我们基于我们的数据集在colab上跑了微调代码,代码还没整理,是基于https://github.com/yuanzhoulvpi2017/zero_nlp 项目做的微调 但是目前我们发现微调后的模型和之前的几乎毫无区别,因此现在正在研究原因,也喜欢和大家一起探讨,预计在今天放出代码

看到了其他项目相关issue如mymusise/ChatGLM-Tuning#59 目前正在测试中

20230322更新

我们发现https://github.com/carbonz0/alpaca-chinese-dataset 这个项目已经通过机器翻译把alpaca数据进行了翻译,我们后续会逐条查看carbonz01的翻译数据,并人工校对将非中文化的表述跳过,并添加更多中国特色数据集。

目前数据集认领情况:

  • 刘倍铭 清华大学工工(alpaca_data-0-3252-英文)
  • 黄堃淏 电子科大软院(alpaca_data-3252-6382-英文)
  • 焦丽华 电子科大软院(alpaca_data-6382-9407-英文)
  • 何余晨 电子科大软院(alpaca_data-9407-12345-英文)
  • 张瑞钦 电子科大软院(alpaca_data-12345-15323-英文)
  • 梁渊 电子科大软院(alpaca_data-15323-18280-英文)
  • 王银杉 电子科大软院(alpaca_data-18280-21320-英文)
  • 其他数据集当前暂无人认领,等待我们之前的数据标记完或者其他小伙伴认领~~

DOING

  • 加入除了alpaca之外的其他中文聊天对话
  • 人工微调,部分并不中文化的问题,我们将重新询问chatgpt或文心一言,重新获取回答并覆盖掉alpaca的回答

其他数据集

  • chatglm问题数据集:针对chatglm中我们发现的问题,使用文心一言或chatgpt进行回答,并重新收录