论文信息
标题: Learning a Generative Meta-Model of LLM Activations
作者: Grace Luo, Jiahai Feng, Trevor Darrell, Alec Radford, Jacob Steinhardt
发布时间: 2026-02-06
分类: cs.AI
PDF: Download
简介
首次训练diffusion模型学习LLM残差流激活分布,创建'元模型'。发现扩散损失与计算量和下游效用正相关,应用于引导干预可提升流畅性,神经元逐渐将概念隔离到单独单元。提供可扩展的可解释性路径
推荐理由
作者阵容强大(Trevor Darrell, Alec Radford, Jacob Steinhardt),提出用diffusion模型学习LLM激活分布的创新方法,无需强结构假设即可实现可解释性,实验规模达10亿激活,兼具理论创新和实用价值
讨论
请对这篇论文发表您的见解:
- 论文的创新点是什么?
- 方法是否合理?
- 实验结果是否可信?
- 有哪些可以改进的地方?
由 arXiv Monitor 自动创建