Hey 👋, I'm Simon AKing! 
- 👨💻 Front | Back | Left | Right | End Engineer
- ✨ Indie Hacker | Building What People Want
- 🤖 AI Enthusiast | Exploring AI-powered Products
- 👨💻 Front | Back | Left | Right | End Engineer
- ✨ Indie Hacker | Building What People Want
- 🤖 AI Enthusiast | Exploring AI-powered Products
分享一期 最近被疯狂推荐的播客 - [102。 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”](https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f?s=eyJ1IjoiNjU1ZDhiY2NlZGNlNjcxMDRhNDUyODcxIn0%3D)([文字版](https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw))。
该播客是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,其中张祥雨阐述了他近些年对 LLMs、MultiModal 领域的一些思考,我和 claude 总结了下收获比较大的点,欢迎讨论:
1. 自监督学习 在 NLP 与 CV 领域的差异
NLP 领域中 自监督训练 配合 decoder-only 架构取得了惊人成功。相比之下,CV 领域试图复制这种成功的尝试却遇到了瓶颈。无论是对比学习还是掩码图像建模(MIM),都没能展现出类似的 scaling 效果。这背后可能的深层原因:
最近刷到了一张 agent 记忆的分类图,简单概括下:
短期记忆:记住刚刚说过的话
比如你问"我女儿多大了",它记得你刚说过是5岁,就能接着聊"哦,那该上幼儿园了"
长期记忆:存储重要信息、用户偏好
今天刷到了 google 预热的 [gemini-diffusion](https://deepmind.google/models/gemini-diffusion/),进一步了解了下 llm 结合 diffusion 方向的一些工作,分享给大家:
1. 性能优势:结合 diffusion 性能上会有代际差异:常见的 decode-only 模型都是自回归的线性解码 O(n^2),而 diffusion 可以一次性生成整个序列再 T 步去噪完成(一个可以操作整个序列),所以复杂度降到了 O(Tn)。今年 2月 [Inception Labs](https://www.inceptionlabs.ai/news) 发布的 基于 diffusion 的 Mercury Coder 已达到了 1109(tokens/sec),而常规的模型只有 30 左右(比如 doubao)
2. 目标更新:不再是预测下一个 token 概率,而是通过加噪再减噪 逼近预期的答案,会缓解 常规 LLMs 没有逆向推理(一步错步步错)的效果问题,因为每次减噪都会处理整个序列,上下文相关性更强
最近的一个 learning,陪伴是精神层面,高频且会一直存在的赛道,但 AI 陪伴还有很长的路要走:
1. LLMs 的对话式形态不适合情感陪伴
2. Context 目前没有一个很强共识的技术(graphit 可能是),导致容易丢失 Memory,影响不亚于出轨,相反共同的 Context 越多,羁绊也会越强
3. 虚拟朋友需要 proactive,而不是被动回复
分享下个项目 [human-use](https://github.com/RapidataAI/human-use),一个连接 AI agents 与 人类 的 mcp 服务,能够在需要的时候自然地向人类寻求帮助。
官方给到的几种 use cases:图片评估、文本比较(如翻译质量评估)、开放式问题收集等等。
该项目已经推出了托管版本 [chat.rapidata.ai](https://chat.rapidata.ai/),提供了四个核心工具:
get_free_text_responses(自由文本回答)
get_human_image_classification(图片分类)
分享下 AutoPE 方向的一个优化策略:[Local Prompt Optimization](https://www.arxiv.org/abs/2504.20355) (LPO),由微软团队提出,用于提升 AutoPE 的效果。
该工作的思路是:现有的 AutoPE 是将整个 Prompt 视为输入与输出,优化所有 token,这会导致模型的优化空间过大,使得 LLMs 难以找到最优解,并且在实际过程中,往往只需要优化 prompt 的一部分内容。
LPO 的策略是使用特殊的 <edit> 标签标记这些需要优化的部分,让 LLMs 注意力 分配到这些被标记的部分。