Model | 作者 | 参数量 | 训练数据量(tokens) | 训练成本 | 对中英文的支持 |
---|---|---|---|---|---|
LLaMA | Meta | 包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模 | 1.4万亿 | 2048个A100 GPU | 中英文 |
Alpaca | Stanford | 70亿 | 52k条问答指令数据,指令数据来源于OpenAI的API返回结果 | 500美元数据成本+100美元训练成本 | 中英文 |
Vicuna | UC Berkeley, CMU, Stanford, UCSD and MBZUAI | 130亿 | 70k条问答指令数据,指令数据来源于用户分享出来的对话记录 | 300美元 | 中英文 |
Koala | UC Berkeley | 130亿 | 500k条问答直录功能数据,指令数据来源于网上公开数据集 | 在公共云计算平台上,预期训练成本不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时训练完成2个epochs。 | 中英文 |
Bloom | BigScience | 1760亿 | 3660亿 | 384 80GB A100 GPUs 训练3.5个月数据来源 | |
Bloomz | 1760亿 | ||||
BLOOMChat | SambaNova and Together | 1760亿 | OIG from OpenChatKit , Dolly 2.0, and OASST1 datasets | 基于Bloom在指定数据集上做fine tune | 中英文 |
StableLM | Stability AI | 30亿、70亿、150亿和300亿 | 1.5万亿 | 未公布 | 英文 |
Dolly 2.0 | Databricks | 120亿 | 15k条问答指令数据,指令数据来源于Databricks员工 | 不到30美元 | |
ChatGLM | 清华大学KEG 实验室和智谱AI | 60亿和1300亿共2种参数规模 | 4000亿左右,中文和英文token各2000亿 | 数百万人民币 | 中英文 |
鹏程·盘古α | 鹏程实验室、华为 | 26亿、130亿和2000亿共3种参数规模 | 2500亿 | 2048 块昇腾处理器 | 中英文 |
MOSS | 复旦 | 160亿参数 | 约7000亿中英文 | 未公布。整体技术偏弱一些,暂时无法和ChatGLM相比。 | 中英文 |
MPT | Mosaic ML | 70亿参数 | 1万亿 | 20万美金,训练9.5天,详细介绍 |
- Alpaca, Vicuna, Koala都是基于LLaMA衍生而来的,LLaMA目前仅用于学术、社会公益项目,不能用于商业化项目。
- Dolly 2.0是基于15k指令数据做fine-tune,其依赖的base model是 EleutherAI’s Pythia-12b。
- MPT-7B可商用。