SimonAKing

🍅

PRESS START

SimonAKing SimonAKing

🍅

PRESS START

Front back left right end engineer

520 followers · 85 following

/dev/tcp/127.0.0.1/443
https://simonaking.com
@simon_aking

Achievements

x3 x2

Achievements

x3 x2

Highlights

Developer Program Member

SimonAKing/README.md

Hey 👋, I'm Simon AKing!

- 👨‍💻 Front | Back | Left | Right | End Engineer

- ✨ Indie Hacker | Building What People Want

- 🤖 AI Enthusiast | Exploring AI-powered Products

Pinned Loading

多模态研究（张祥雨）播客分享 - 06/09/2025

分享一期 最近被疯狂推荐的播客 - [102。 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”](https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f?s=eyJ1IjoiNjU1ZDhiY2NlZGNlNjcxMDRhNDUyODcxIn0%3D)（[文字版](https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw)）。

该播客是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈，其中张祥雨阐述了他近些年对 LLMs、MultiModal 领域的一些思考，我和 claude 总结了下收获比较大的点，欢迎讨论：

1. 自监督学习 在 NLP 与 CV 领域的差异

  NLP 领域中 自监督训练 配合 decoder-only 架构取得了惊人成功。相比之下，CV 领域试图复制这种成功的尝试却遇到了瓶颈。无论是对比学习还是掩码图像建模（MIM），都没能展现出类似的 scaling 效果。这背后可能的深层原因：

Memory 的几种类型 - 05/25/2025

最近刷到了一张 agent 记忆的分类图，简单概括下：

短期记忆：记住刚刚说过的话

比如你问"我女儿多大了"，它记得你刚说过是5岁，就能接着聊"哦，那该上幼儿园了"

长期记忆：存储重要信息、用户偏好

llm & diffusion - 05/23/2025

今天刷到了 google 预热的 [gemini-diffusion](https://deepmind.google/models/gemini-diffusion/)，进一步了解了下 llm 结合 diffusion 方向的一些工作，分享给大家：

1. 性能优势：结合 diffusion 性能上会有代际差异：常见的 decode-only 模型都是自回归的线性解码 O(n^2)，而 diffusion 可以一次性生成整个序列再 T 步去噪完成（一个可以操作整个序列），所以复杂度降到了 O(Tn)。今年 2月 [Inception Labs](https://www.inceptionlabs.ai/news) 发布的 基于 diffusion 的 Mercury Coder 已达到了 1109(tokens/sec)，而常规的模型只有 30 左右(比如 doubao)

2. 目标更新：不再是预测下一个 token 概率，而是通过加噪再减噪 逼近预期的答案，会缓解 常规 LLMs 没有逆向推理（一步错步步错）的效果问题，因为每次减噪都会处理整个序列，上下文相关性更强

AI 陪伴 - 05/21/2025

最近的一个 learning，陪伴是精神层面，高频且会一直存在的赛道，但 AI 陪伴还有很长的路要走：

1. LLMs 的对话式形态不适合情感陪伴

2. Context 目前没有一个很强共识的技术（graphit 可能是），导致容易丢失 Memory，影响不亚于出轨，相反共同的 Context 越多，羁绊也会越强

3. 虚拟朋友需要 proactive，而不是被动回复

human-use - 05/15/2025

分享下个项目 [human-use](https://github.com/RapidataAI/human-use)，一个连接 AI agents 与 人类 的 mcp 服务，能够在需要的时候自然地向人类寻求帮助。

官方给到的几种 use cases：图片评估、文本比较（如翻译质量评估）、开放式问题收集等等。

该项目已经推出了托管版本 [chat.rapidata.ai](https://chat.rapidata.ai/)，提供了四个核心工具：

get_free_text_responses（自由文本回答）

get_human_image_classification（图片分类）

LPO - 05/12/2025

分享下 AutoPE 方向的一个优化策略：[Local Prompt Optimization](https://www.arxiv.org/abs/2504.20355) (LPO)，由微软团队提出，用于提升 AutoPE 的效果。

该工作的思路是：现有的 AutoPE 是将整个 Prompt 视为输入与输出，优化所有 token，这会导致模型的优化空间过大，使得 LLMs 难以找到最优解，并且在实际过程中，往往只需要优化 prompt 的一部分内容。

LPO 的策略是使用特殊的 <edit> 标签标记这些需要优化的部分，让 LLMs 注意力 分配到这些被标记的部分。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SimonAKing SimonAKing

Achievements

Achievements

Highlights

Block or report SimonAKing

Hey 👋, I'm Simon AKing!

Pinned Loading

Uh oh!