SimonAKing

🍅

PRESS START

SimonAKing SimonAKing

🍅

PRESS START

Front back left right end engineer

497 followers · 84 following

/dev/tcp/127.0.0.1/443
https://simonaking.com
@simon_aking

Achievements

x3 x2

Achievements

x3 x2

Highlights

Developer Program Member

SimonAKing/README.md

Hey 👋, I'm Simon AKing!

- 👨‍💻 Front | Back | Left | Right | End Engineer

- ✨ Indie Hacker | Building What People Want

- 🤖 AI Enthusiast | Exploring AI-powered Products

Pinned Loading

plexe - 05/08/2025

分享下 [plexe](https://github.com/plexe-ai/plexe)，一个基于 Multi Agent 的自动机器学习工程框架。它能够根据自然语言自动构建、训练和部署机器学习模型。官方给到的典型用例包括：房价预测、分类任务、回归分析等机器学习任务。

一个简单的用例：

```python

import plexe

# Define the model

browser use - 05/06/2025

分享下 [browser-use](https://github.com/browser-use/browser-use/)，一个基于 LLMs + headless browser 自动完成用户需求的 Agent 框架。官方给到的几种 use cases：电商购物、数据收集、找工作、学术研究等等。

> 该项目在发布后，github stars 增长迅猛，已经突破了 5w stars，并且作为 Y Combinator W25 的一员，已经获得了 1700 万美元的种子轮融资，在 WebVoyager 中取得了 sota 成功率（超过 operator、computer use）。 上个月比较火的 manus 也使用 browser use 作为了底层 tool 之一，正如 browser use 的联合创始人 Gregor Zunic 表示：“我们想打造一个基础层，让所有浏览器代理都基于我们的工具构建，在我们看来，到今年底，网页上的 Agent 数量将超过人类。”。

以下是核心技术揭秘：

Browser-use 的策略是基于常见商业的 LLMs，没有 UI 理解的专属模型，在执行任务时，会在浏览器中注入 js，将页面转换为转换成 dom tree 对象 并 分析每个节点（是否可交互、是否可见）以及最终在页面上生成标注框，该技术的巧妙之处是为了让模型更好的“看懂”网页。

LLMs & 商业 - 05/02/2025

https://www.wired.com/story/openai-adds-shopping-to-chatgpt/

> OpenAI is launching a shopping experience inside of ChatGPT, complete with product picks and buy buttons. WIRED spoke with Adam Fry, the company’s search product lead, to ask how it all works.

看到文章有感，想到一些技术与商业结合的可能性，部分来自 hackernews 的讨论：

1. RAG 结合广告服务（实时插入）

2. 训练集时的 seo 策略（按照分布输出）

prompt 最佳实践 - 04/22/2025

分享一篇 openai 在 4.1 模型发布后的 [prompt 手册](https://cookbook.openai.com/examples/gpt4-1_prompting_guide)，其中有很多建议 值得一线同学看看，整理了 8 点：

1. Agent 不调用 tool？不解决问题选择偷懒？官方直接下场给了两个 instruction，在 swe benchmark 上分数提升 20%

2. 不推荐 System prompt 有 tool 的介绍，直接使用 tool 参数声明 tool 即可（在模型处理时也会拼在一起），能够符合数据分布，有 2% 提升

3. 显示 COT （不是 thinking model）仍有 4% 的提升，LLMs 的“微分”特性，不要让 LLMs 在某个 token 位置面对的问题太困难，而是要尽量限制生成的所有 token 中的“最大难度”，把一个困难的 token 拆分成多个相对容易的 token 来生成，参考：[从算法视角谈Prompt的优化【2024Q2】](https://zhuanlan.zhihu.com/p/696605356)

MCP - 04/14/2025

想和大家聊聊最近比较火热的 MCP，实施的理想态应该是什么样的？

恰好之前做过相关的场景，LLMs 直接调用飞书开放平台的常见接口 ，完成常见任务：比如定日程、约会议室等。下面是一个典型的一方 skill，用户可以说：给我和 xx 定个明天的日程 聊聊 yy。

最初觉得做出了另一款 microsoft 的 [task matrix](https://arxiv.org/abs/2303.16434)，将整个飞书 mcp 化了，但实际用起来 bad case 非常多。

<img width="464" alt="Image" src="https://github.com/user-attachments/assets/e287556c-16db-45e7-a2bb-3a789d9b1b00" />

llms+rpa - 04/14/2025

分享一篇微软最近发布的 paper：[API Agents vs. GUI Agents: Divergence and Convergence](https://arxiv.org/pdf/2503.11069)，从多个维度介绍了 API Agent 与 GUI Agent 的各自的优势。

API Agent 等价于 MCP 结合 agentic 的流程，代表工作 task weaver，流转的是 text-token；GUI Agent 则依靠 UI 理解模型去操作屏幕，代表工作 computer use、字节的 UI-Tras。

这两种范式有个共同的场景都适合于 rpa，最近 github 新上榜 autoMate 工作是一个典型代表，基于 Omniparser 去操作屏幕，能够实现简单的重复工作。

<img width="1275" alt="Image" src="https://github.com/user-attachments/assets/714fa239-f2f2-4949-b2a9-1375c9660191" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SimonAKing SimonAKing

Achievements

Achievements

Highlights

Block or report SimonAKing

Hey 👋, I'm Simon AKing!

Pinned Loading