清华大学计算机科学与技术系毕业,研究方向为大规模语言模型推理优化与分布式系统。目前专注于将 AI 技术落地到真实业务场景中,解决实际工程问题。
从本科阶段就开始接触自然语言处理和深度学习,在清华的几年里系统学习了编译原理、分布式计算、高性能计算和机器学习理论。这些底层功底让我在后来做 AI 应用时,不只是调 API,而是能深入到模型推理层面去做优化。
毕业后在几家公司做过基础设施和 AI 平台相关的工作,涉及模型部署、推理加速、成本优化、缓存架构等方向。逐渐发现一个被忽视的问题:大部分团队在使用大模型时,token 消耗比理论值高出 3-5 倍,根本原因在于对缓存机制的理解不足。
这直接催生了 Cache 项目。
一个专注于大模型 Token 缓存优化的开源项目。从 Transformer 的 KV Cache 原理出发,逆向分析 Claude Code 源码中的缓存工程,提炼出一套可执行的优化策略。
核心发现:
- Claude Code 的系统提示词占每轮输入的 60-80%,通过前缀缓存可以将这部分成本降低 90%
- 多轮对话场景下,正确的缓存策略可以将 10 轮对话的总成本从 255K tokens 降到 60K tokens
- 四类"缓存杀手"(切换模型、修改 CLAUDE.md、注入时间戳、随机工具路径)会导致 12 倍的成本惩罚
- Sub-agent 与主线程的缓存完全独立,每次启动等于一次"迷你冷启动"
项目正在通过 BNB Chain 实现自我可持续发展,将 Token 优化的经济价值直接回馈给社区贡献者。
同样的 Max 套餐,操作习惯不同,实际可用量差距在 3~5 倍。
大模型推理优化
├── KV Cache 机制研究
├── 前缀匹配缓存策略
├── Token 消耗分析与优化
└── 推理成本建模
分布式系统
├── 高可用架构设计
├── 缓存一致性协议
├── 分布式缓存集群
└── 边缘计算部署
AI 应用工程
├── Claude Code 源码分析
├── Agent 编排与优化
├── 提示词工程
└── 多模型协同调度
在清华期间参与了多个与大规模模型推理相关的研究项目:
- KV Cache 压缩与量化 -- 研究如何在不损失推理精度的前提下,将 KV 缓存的内存占用降低 40-60%。对比了 GQA (Grouped Query Attention)、MQA (Multi-Query Attention) 和标准 MHA 在不同模型规模下的缓存效率
- Speculative Decoding -- 研究使用小模型预测草稿、大模型验证的方式加速推理。在 7B/70B 模型对上实现了 2.3x 的推理加速
- Prompt Caching 策略 -- 系统分析了前缀匹配缓存在多租户场景下的命中率、失效模式和成本模型。这项工作直接启发了 Cache 项目
大模型的算力成本是一个被严重低估的问题。
大部分开发者和团队在使用 Claude、GPT 等模型时,关注的是"能不能用",而不是"怎么用得省"。但当你把 AI 集成到生产系统中,token 消耗就变成了一个真实的成本项——每月数千到数万美元,完全取决于你对缓存机制的理解程度。
我做 Cache 项目的动机很简单:让同样的钱,做更多的事。
这不是理论研究。这是一个可以立即执行、立即见效的工程方案。9 条实战策略,每一条都有源码级别的依据,每一条都可以量化节省效果。
语言 TypeScript / Python / Rust / Go
模型 Claude / GPT / Gemma / Qwen / DeepSeek
框架 Next.js / FastAPI / Actix
推理引擎 Ollama / vLLM / TensorRT-LLM
缓存 Redis / Memcached / 自研 KV Store
基础设施 Docker / Kubernetes / Terraform
链上 BNB Chain / Solidity / Hardhat
除了 Cache 项目,我也在积极参与其他 AI 工具链的开源工作:
- 对 Claude Code 缓存断裂检测机制的源码分析,帮助社区理解
promptCacheBreakDetection.ts的工作原理 - 为多个 AI Agent 框架提交了缓存优化相关的 PR
- 翻译和本地化 AI 编程工具文档,降低中文开发者的使用门槛
| 平台 | 链接 |
|---|---|
| GitHub | MinLiBuilds |
| X / Twitter | @MinLiBuilds |
| 项目 | Cache / 缓存优化引擎 |
Cache 项目不是一个人做的。感谢以下伙伴的持续贡献:
| 成员 | 方向 |
|---|---|
| icebear0828 | 核心研究员,Token 计费机制分析 |
| donglixp | 算法工程师,KV Cache 压缩研究 |
| zdaxie | 系统架构师,分布式缓存设计 |
| Scalsol | 推理优化,Speculative Decoding |
| addf400 | 前端工程,监控面板开发 |
| deepseek-ai | 模型对接与基准测试 |
清华大学 CS / AI 应用工程师 / Cache 项目发起人
让同样的钱,做更多的事。


