interLM/part5.md at master · WillWillWong/interLM · GitHub

InternLM模型部署策略与技术

1. 部署背景与挑战

应用场景：涉及服务器端的CPU、GPU或多卡集群，以及移动端和边缘计算设备。
面临问题：
- 高计算需求：模型参数量、层数和上下文长度直接影响计算量。
- 显存占用：KV缓存的显存需求随模型大小增加而增长。
- 内存瓶颈：大模型运行时的数据交换和batch-size调整是关键。
- 动态请求处理：需适应不稳定的请求量和生成token数量。

2. 优化部署的技术手段

模型剪枝：通过非结构化和结构化剪枝减少模型复杂度。
知识蒸馏：利用学生模型学习教师模型的知识，提升效率。
模型量化：将模型权重转换为更小的数据类型，如整数，以降低存储和计算需求。

3. LMDeploy工具的核心能力

高效推理：支持LLaMa模型结构，优化批处理和KV缓存管理。
量化压缩：实现W4A16量化技术，将FP16权重转换为INT4，并采用Weight Only量化策略。
服务化：将语言模型封装为HTTP API，兼容Triton服务化部署。