Skip to content

Latest commit

 

History

History
41 lines (35 loc) · 5.01 KB

notes.md

File metadata and controls

41 lines (35 loc) · 5.01 KB

我的笔记

第一篇笔记

这是我的第一篇笔记内容。

一、InternLM 简介

  • 研发背景
    • InternLM 是由上海人工智能实验室和商汤等机构联合研发的一种多语言基础语言模型。在大语言模型技术快速发展且领先机构技术共享愈发保守的背景下诞生,旨在为多语言处理和复杂任务提供强大的支持。
    • 其命名中的“intern”源自通过商汤和上海人工智能之间的协作开发的一般视觉模型“intern”,具有一定的技术传承和创新意义。
  • 主要特点
    • 参数规模与能力:拥有 1040 亿参数,经过大量数据训练,具有较高的知识水平和强大的推理能力,在知识理解、阅读理解、数学和编码等方面表现出色。
    • 多语言支持:基于多语言语料库训练而成,能够很好地处理多种语言任务,对中文文化的理解能力尤为突出,适合面向中文语言应用。
    • 训练系统与技术:研发了 Uniscale-LLM 训练系统,支持多种模型并行技术,如数据并行(DP)、张量并行(TP)、流水线并行(PP)和零冗余优化器(Zero)等,并且具备 checkpoint 异步写入功能和故障恢复子系统,保障了训练的高效性和稳定性。

二、技术架构与训练过程

  • 技术架构:采用类似于 GPT 系列的基于 Transformer 的仅解码器架构,具有 82 层,头数为 80,头的维度为 128,总的模型维度为 10240。
  • 训练过程
    • 数据准备:训练数据集来源广泛,包括网页、书籍、学术论文、代码等。对数据进行多阶段处理,包括语言分类、基于规则的过滤、基于模型的过滤和重复数据删除等,以确保数据的质量和多样性。基于多语言语料库使用字节对编码(BPE)推导出具有 65.5k 条目的词汇表,用于构建 tokenizer。
    • 多阶段渐进预训练:将训练过程分割成多个阶段,每个阶段的优化目标由控制各种比例的数据定义。采用不放回采样调节数据比例,使用特殊符号描述不同的句子,并将不同长度的句子打包成固定长度的序列。使用余弦学习率,最大为 2e-4,最小为 4e-5,学习率在每个阶段结束时衰减到峰值学习率的 10%。使用 AdamW 优化器,相关参数经过精心调整。
    • 对齐:通过有监督微调(SFT)使用大量的提示和响应对训练数据,包含多轮问答数据,并基于 self-instruct 方法进行扩充。训练奖励模型(RM),根据有用性、无害性和诚实性对模型响应进行评分。最后采用近端策略优化(PPO)进行强化学习训练,以降低模型输出的毒性,使模型的回答更加符合人类的期望和价值观。

三、模型性能与评估

  • 综合考试表现:在多个综合性考试评测集中表现优异,如在 MMLU、AGIEval、C-Eval 和 GaoKao-Bench 等评测集中取得了出色的成绩,部分成绩仅次于 GPT-4,且大部分超过了 ChatGPT。
  • 分项能力评测:在阅读理解、数学推理、编程能力以及多语翻译等分项能力评测中也有较好的表现。例如,在中英文的阅读理解方面领先于其他一些知名模型,在编程能力考评中得分高于其他对比模型。

四、应用与生态链工具

  • 应用场景:可应用于智能客服、文本生成、智能翻译、代码生成等多种场景,为自然语言处理相关的业务提供支持。
  • 生态链工具
    • InternEvo:一个用于大模型预训练和微调的轻量级框架。
    • XTuner:一个高效的大模型微调工具包,支持各种模型和微调算法。
    • LM Deploy:用于大模型的压缩、部署和服务的工具包。
    • LAgent:一个轻量级的基于大模型的智能体框架,可以快速将大语言模型转变为多种类型的智能体。
    • AgentLego:一个多功能工具 API 库,用于扩展和增强基于大模型的智能体,与 LAgent、LangChain 等兼容。
    • Open Compass:一个大模型评估平台,提供公平、开放和可复现的基准测试。
    • OpenAOE:一个优雅且开箱即用的聊天 UI,用于比较多个模型。

五、局限性与挑战

  • 语境窗口长度限制:受限于 2k 的语境窗口长度,与 GPT-4 的 32k 语境窗口长度相比有一定差距,在长文理解和复杂推理等方面存在一定的局限性。
  • 模型输出的可靠性:在实际对话中,仍然存在幻觉、概念混淆等问题,需要进一步提高模型输出的准确性和可靠性。
  • 数据隐私和安全:在使用大模型的过程中,数据隐私和安全是至关重要的,需要采取有效的措施来保护用户的数据和隐私。

总之,InternLM 是一个具有强大能力和广泛应用前景的大语言模型,但也面临着一些挑战和局限性。随着技术的不断发展和改进,相信 InternLM 在未来会有更好的表现和应用。