AWQ：用于LLM压缩和加速的激活感知重量量化 #78

ziwang-com · 2023-06-06T22:36:11Z

AWQ：用于LLM压缩和加速的激活感知重量量化[论文]
适用于LLM的高效准确的低比特权重量化（INT3 / 4），支持指令调谐模型和多模态LM。

overview

当前版本支持：

AWQ 搜索以实现准确的量化。
用于LLM的预先计算的AWQ模型库（LLaMA，OPT，Vicuna，LLaVA;加载以生成量化权重）。
PyTorch 中的内存效率高 4 位线性。
高效的 CUDA 内核实现，可实现快速推理（支持上下文和解码阶段）。
指令调谐模型（Vicuna）和多模态 LM （LLaVA）的 4 位推理示例。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AWQ：用于LLM压缩和加速的激活感知重量量化 #78

AWQ：用于LLM压缩和加速的激活感知重量量化 #78

ziwang-com commented Jun 6, 2023

AWQ：用于LLM压缩和加速的激活感知重量量化 #78

AWQ：用于LLM压缩和加速的激活感知重量量化 #78

Comments

ziwang-com commented Jun 6, 2023