20240429 死去的项目复活了！

很多人对这个项目表示了兴趣和强烈的贡献意愿，所以这个项目复活啦，项目改名叫chat-dataset-baseline，旨在提供一个优秀的中英文训练数据的baseline，人人都可以基于这个baseline训练出一个还算可以的大模型

进展说明 202306105

我们最近微调工作比较少，最近在弄prompt的优化，所以数据集稍微弄得少一些了，后续还会开源一些prompt的工作。感谢卢家琪同学贡献了自己的数据集~

进展说明 20230410

感谢好心人赞助了a100显卡的算力，我们得以继续开展研究。

目前我们研究的内容主要是：

1、研究基于lora解决chatglm中部分代码生成任务的“中文化”问题。（如 a[input] > b，有时候它会写成 a[输入] 大于 b ）

2、无监督数据灌入模型+有监督微调，使得模型具备某个领域的专业能力的策略，该策略等我们论文发arxiv后会开源。（此研究的数据来源于中文论文，可能存在版权问题，数据集我们暂时先不公开，等我们找到了可公开的中文论文数据，再公开数据集。）

3、研究解决lora后翻译能力消失的问题

4、解决issue

chatglm微调成功 20230327

我们基于lora方案在colab上微调成功了，成功的文件已经传到本项目中了，我们发现了三点暂时性结论：

我们的数据集中因为有很多企业管理+工业工程相关知识，lora后整个chatglm的语言风格向企业和单位口吻转变
lora后绝大部分模型能力不会影响，但模型翻译能力似乎急剧下降
lora后可融合数据集中的知识进模型中而不基本不会影响模型效果（除了英文能力）
再增加一些英文翻译数据集也许能把模型英文能力拉回来？因为我的colab没钱了所以暂时不研究了，如果有赞助或者有其他同学成功了给我说一下哈

训练之前：

训练之后，很不要脸的看看能不能加上自己大名：

chatglm微调相关 20230325

我们把github上代码都试了一下，现在能看出明显变化的就是https://github.com/ssbuild/chatglm_finetuning，我们将尝试写一段脚本，把我们的数据集变成这种对话形式数据集

chatglm微调相关 20230324

我们基于我们的数据集在colab上跑了微调代码，代码还没整理，是基于https://github.com/yuanzhoulvpi2017/zero_nlp 项目做的微调但是目前我们发现微调后的模型和之前的几乎毫无区别，因此现在正在研究原因，也喜欢和大家一起探讨，预计在今天放出代码

看到了其他项目相关issue如mymusise/ChatGLM-Tuning#59 目前正在测试中

20230322更新

我们发现https://github.com/carbonz0/alpaca-chinese-dataset 这个项目已经通过机器翻译把alpaca数据进行了翻译，我们后续会逐条查看carbonz01的翻译数据，并人工校对将非中文化的表述跳过，并添加更多中国特色数据集。

目前数据集认领情况：

刘倍铭清华大学工工（alpaca_data-0-3252-英文）
黄堃淏电子科大软院（alpaca_data-3252-6382-英文）
焦丽华电子科大软院（alpaca_data-6382-9407-英文）
何余晨电子科大软院（alpaca_data-9407-12345-英文）
张瑞钦电子科大软院（alpaca_data-12345-15323-英文）
梁渊电子科大软院（alpaca_data-15323-18280-英文）
王银杉电子科大软院（alpaca_data-18280-21320-英文）
其他数据集当前暂无人认领，等待我们之前的数据标记完或者其他小伙伴认领～～

DOING

加入除了alpaca之外的其他中文聊天对话
人工微调，部分并不中文化的问题，我们将重新询问chatgpt或文心一言，重新获取回答并覆盖掉alpaca的回答

其他数据集

chatglm问题数据集：针对chatglm中我们发现的问题，使用文心一言或chatgpt进行回答，并重新收录

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_history.md

README_history.md

20240429 死去的项目复活了！

进展说明 202306105

进展说明 20230410

chatglm微调成功 20230327

chatglm微调相关 20230325

chatglm微调相关 20230324

20230322更新

目前数据集认领情况：

DOING

其他数据集

Files

README_history.md

Latest commit

History

README_history.md

File metadata and controls

20240429 死去的项目复活了！

进展说明 202306105

进展说明 20230410

chatglm微调成功 20230327

chatglm微调相关 20230325

chatglm微调相关 20230324

20230322更新

目前数据集认领情况：

DOING

其他数据集