量化后nan问题 #3

huyiming2018 · 2024-05-16T08:06:02Z

您好，非常好的工作。尝试复现论文中的指标，我的模型是llama2-7b，使用run_llama.sh脚本量化后，模型输出包含大量nan，数据集为c4，类似情况如何解决呢。谢谢！

GuoYi0 · 2024-05-16T12:38:24Z

@huyiming2018 是直接运行的 run_llama.sh那个脚本吗？

chuangzhidan · 2024-05-23T02:11:57Z

您好，非常好的工作。尝试复现论文中的指标，我的模型是llama2-7b，使用run_llama.sh脚本量化后，模型输出包含大量nan，数据集为c4，类似情况如何解决呢。谢谢！

好奇想问下，你是在跑脚本做eval的时候发现的，还是你对已有的量化模型做了加载和推理后发现的？

huyiming2018 · 2024-05-23T03:17:29Z

run_llama.sh

是的，group_size改成128或64就可以了，默认是per-channel量化

chuangzhidan · 2024-05-24T02:35:35Z

group_size改成128或64就可以了，默认是per-channel量化

很想知道怎么推理：）

Provide feedback