Skip to content
View SimonAKing's full-sized avatar
🍅
PRESS START
🍅
PRESS START

Block or report SimonAKing

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
SimonAKing/README.md

Hey 👋, I'm Simon AKing!

- 👨‍💻 Front | Back | Left | Right | End Engineer

- ✨ Indie Hacker | Building What People Want

- 🤖 AI Enthusiast | Exploring AI-powered Products

Pinned Loading

  1. 多模态研究(张祥雨)播客分享 - 06/09/2025 多模态研究(张祥雨)播客分享 - 06/09/2025
    1
    分享一期 最近被疯狂推荐的播客 - [102。 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”](https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f?s=eyJ1IjoiNjU1ZDhiY2NlZGNlNjcxMDRhNDUyODcxIn0%3D)[文字版](https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw))。
    2
    该播客是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,其中张祥雨阐述了他近些年对 LLMs、MultiModal 领域的一些思考,我和 claude 总结了下收获比较大的点,欢迎讨论:
    3
    
                  
    4
    1. 自监督学习 在 NLP 与 CV 领域的差异
    5
      NLP 领域中 自监督训练 配合 decoder-only 架构取得了惊人成功。相比之下,CV 领域试图复制这种成功的尝试却遇到了瓶颈。无论是对比学习还是掩码图像建模(MIM),都没能展现出类似的 scaling 效果。这背后可能的深层原因:
  2. Memory 的几种类型 - 05/25/2025 Memory 的几种类型 - 05/25/2025
    1
    最近刷到了一张 agent 记忆的分类图,简单概括下:
    2
    短期记忆:记住刚刚说过的话
    3
    比如你问"我女儿多大了",它记得你刚说过是5岁,就能接着聊"哦,那该上幼儿园了"
    4
    
                  
    5
    长期记忆:存储重要信息、用户偏好
  3. llm & diffusion - 05/23/2025 llm & diffusion - 05/23/2025
    1
    今天刷到了 google 预热的 [gemini-diffusion](https://deepmind.google/models/gemini-diffusion/),进一步了解了下 llm 结合 diffusion 方向的一些工作,分享给大家:
    2
    
                  
    3
    1. 性能优势:结合 diffusion 性能上会有代际差异:常见的 decode-only 模型都是自回归的线性解码 O(n^2),而 diffusion 可以一次性生成整个序列再 T 步去噪完成(一个可以操作整个序列),所以复杂度降到了 O(Tn)。今年 2月 [Inception Labs](https://www.inceptionlabs.ai/news) 发布的 基于 diffusion 的 Mercury Coder 已达到了 1109(tokens/sec),而常规的模型只有 30 左右(比如 doubao)
    4
    
                  
    5
    2. 目标更新:不再是预测下一个 token 概率,而是通过加噪再减噪 逼近预期的答案,会缓解 常规 LLMs 没有逆向推理(一步错步步错)的效果问题,因为每次减噪都会处理整个序列,上下文相关性更强
  4. AI 陪伴 - 05/21/2025 AI 陪伴 - 05/21/2025
    1
    最近的一个 learning,陪伴是精神层面,高频且会一直存在的赛道,但 AI 陪伴还有很长的路要走:
    2
    
                  
    3
    1. LLMs 的对话式形态不适合情感陪伴
    4
    2. Context 目前没有一个很强共识的技术(graphit 可能是),导致容易丢失 Memory,影响不亚于出轨,相反共同的 Context 越多,羁绊也会越强
    5
    3. 虚拟朋友需要 proactive,而不是被动回复
  5. human-use - 05/15/2025 human-use - 05/15/2025
    1
    分享下个项目 [human-use](https://github.com/RapidataAI/human-use),一个连接 AI agents 与 人类 的 mcp 服务,能够在需要的时候自然地向人类寻求帮助。
    2
    官方给到的几种 use cases:图片评估、文本比较(如翻译质量评估)、开放式问题收集等等。
    3
    该项目已经推出了托管版本 [chat.rapidata.ai](https://chat.rapidata.ai/),提供了四个核心工具:
    4
    get_free_text_responses(自由文本回答)
    5
    get_human_image_classification(图片分类)
  6. LPO - 05/12/2025 LPO - 05/12/2025
    1
    分享下 AutoPE 方向的一个优化策略:[Local Prompt Optimization](https://www.arxiv.org/abs/2504.20355) (LPO),由微软团队提出,用于提升 AutoPE 的效果。
    2
    
                  
    3
    该工作的思路是:现有的 AutoPE 是将整个 Prompt 视为输入与输出,优化所有 token,这会导致模型的优化空间过大,使得 LLMs 难以找到最优解,并且在实际过程中,往往只需要优化 prompt 的一部分内容。
    4
    
                  
    5
    LPO 的策略是使用特殊的 <edit> 标签标记这些需要优化的部分,让 LLMs 注意力 分配到这些被标记的部分。