Skip to content

Latest commit

 

History

History
17 lines (11 loc) · 3.03 KB

RESOURCES.md

File metadata and controls

17 lines (11 loc) · 3.03 KB

模型微调框架

文章推荐

文章 简介
垂直领域大模型的思考 文章系统介绍如何做一个垂直领域的大模型,包括继续预训练,领域微调数据构建,减缓幻觉,知识召回多个方面。也会介绍整体的系统设计,并串讲一系列相关的论文和产品。
一次通过率 73%,开源代码大模型 WizardCoder 超越最新 GPT-4以外所有闭/开源模型 团队推出了基于 Code Llama 的最新版本模型 WizardCoder 34B,它利用 Evol-Instruct 进行微调而成。在 HumanEval 上的 pass@1 达到了惊人的 73.2%,超越了原始 GPT-4、ChatGPT-3.5 以及 Claude 2、Bard。
Code Llama 开源:免费商用,神秘版本接近 GPT-4 作为 Llama 2 的代码专用版本,Code Llama 基于特定的代码数据集在其上进一步微调训练而成。
最强 SQL 代码生成大模型发布:DefogAI 开源超过 gpt-3.5-turbo SQLCoder 是 Defog 团队推出的一款前沿的大语言模型,专门用于将自然语言问题转化为 SQL 查询。这是一个拥有 150 亿参数的模型, 在自然语言到 SQL 生成任务上,其性能略微超过了 gpt-3.5-turbo,并且显著地超越了所有流行的开源模型。更令人震惊的是,尽管 SQLCoder 的大小只有 text-davinci-003 的十分之一,但其性能却远超后者。
开源大模型部署及推理所需显卡成本必读:也看大模型参数与显卡大小的大致映射策略 主要介绍如何通过模型参数量粗略估算所拥有的GPU显存是否足够。