"你们搞大模型的就是码奸,你们已经害死前端兄弟了,还要害死后端兄弟……" ——某位对未来充满警惕的工程师
那好,既然如此,就让大模型把你们写的那些没人看的技术文档,读懂、蒸馏、讲清楚。
你们公司的技术积累都在文档里,但没人读?
新人入职,三周还在问"我们的推荐架构是啥"?
技术评审会上,PPT 永远在最后一天凌晨才写完?
你的知识库里躺着几百篇文档,但精华只在那三个核心工程师的脑子里?
提供你的文档来源(wiki、内部知识库、URL、本地文件),选择你关注的技术方向
生成一份 真正体现技术细节的蒸馏报告
覆盖架构设计、核心算法、关键接口、性能指标、技术决策……全部提炼成结构化输出
支持的数据来源 · 安装 · 使用 · 效果示例 · 功能特性
| 来源 | 支持方式 | 备注 |
|---|---|---|
| 任意 URL / Wiki | ✅ 自动抓取 | web_fetch,支持分页 |
| 本地 Markdown / TXT | ✅ 直接读取 | 上传或指定路径 |
| 本地 PDF | ✅ 文本提取 | 手动上传 |
| 飞书文档 / Wiki | ✅ API | 需安装对应平台 skill |
| 内部知识库 | ✅ API | 需安装对应平台 skill |
| 内部搜索系统 | ✅ API | 需安装对应平台 skill |
| 直接粘贴文字 | ✅ 手动输入 | 口述或复制粘贴 |
| 其他 API / 知识库 | skill 覆盖不到时手动配置 |
重要:Claude Code 从 git 仓库根目录 的
.claude/skills/查找 skill,请在正确位置执行。
# 安装到当前项目(在 git 仓库根目录执行)
mkdir -p .claude/skills
git clone <this-repo-url> .claude/skills/tech-distiller
# 或安装到全局(所有项目都能用)
git clone <this-repo-url> ~/.claude/skills/tech-distillergit clone <this-repo-url> ~/.openclaw/workspace/skills/tech-distillerpip3 install -r requirements.txt在 Claude Code / OpenClaw 中说:
帮我蒸馏一下我们搜索方向的技术文档
或者更直接:
/tech-distiller
按提示输入文档来源、技术方向、输出格式和目标受众。所有字段均可跳过,仅凭 URL 也能生成。
| 命令 | 说明 |
|---|---|
帮我蒸馏 [方向] 的技术文档 |
生成新报告 |
追加这些文档 |
增量 merge 进已有报告 |
这里不对,实际上是 XXX |
纠正报告内容(写入 Correction 层) |
深入展开第 N 节 |
对某章节生成子报告 |
回滚到上一版 |
恢复历史版本 |
导出成 Word / PPT |
触发 docx / pptx skill 输出文件 |
输入:
我们搜索方向的所有 wiki,新员工视角,详细版
场景一:新人入职
用户 ❯ 帮我把搜索这边的架构文档蒸馏一下,我刚来不知道从哪看起
tech-distiller ❯ 好,我看了 12 篇文档,帮你提炼了核心架构:
召回层用的是双塔模型 + ANN 检索,索引构建走 K8s Job,
粗排用 LightGBM,精排是 Transformer 结构,线上 P99 < 50ms。
设计上有个关键取舍:为什么没用 BM25?
文档里写了:中文语义依赖强,关键词召回太稀疏,
2022 年做了 A/B,向量召回 +18% NDCG,之后切换。
场景二:技术评审
用户 ❯ 下午要做基础架构方向的技术分享,帮我把这几个链接的内容整成报告
tech-distiller ❯ 处理了 8 份文档,生成详细技术报告:
核心发现:
- 服务网格用 Istio,但 sidecar 开销在高 QPS 下明显,
正在评估 eBPF 方案
- 存储层:热数据 Redis Cluster,冷数据 HDFS,
分层策略按访问频次自动迁移
- 已知问题:跨 AZ 延迟抖动,根因定位困难,
正在建设全链路追踪
场景三:追加文档进化
用户 ❯ 我找到两篇新的设计文档,追加进去
tech-distiller ❯ 分析增量内容……发现以下新信息:
- 第 3 节"接口契约"有更新:新增了 gRPC streaming 方案
- 第 6 节"技术决策"补充了为什么放弃 Kafka 用 Pulsar 的历史背景
📌 本次更新:merge 了 2 份新文档,更新了第 3、6 节,版本 v2 已存档。
每份技术蒸馏报告包含:
| 章节 | 内容 |
|---|---|
| 技术全景概述 | 高层次技术图景,一段话能说清楚的那种 |
| 核心架构 | 系统组件、数据流、依赖关系 |
| 关键算法与模型 | 核心技术手段、框架、训练/推理方式 |
| 接口与数据契约 | 关键 API、Schema、数据格式 |
| 性能与规模 | 延迟、QPS、数据量、SLA |
| 技术决策与权衡 | 为什么这样做,放弃了什么,代价是什么 |
| 技术栈速览 | 语言、框架、中间件、基础设施 |
| 已知问题与演进方向 | 当前短板、Roadmap、开放问题 |
内置 8 个方向的过滤规则(详见 references/filtering-guide.md):
搜索 · 推荐 · 后端服务 · 基础架构 · 数据平台 · ML/AI · 客户端 · 前端
自定义方向:提供关键词描述即可,自动提取过滤信号。
- 追加文档 → 自动分析增量 → merge 进对应章节,保留已有结论
- 对话纠正 → "这里不对" → 写入 Correction 层,标记
⚠️ 已纠正 - 版本管理 → 每次更新自动存档 → 支持回滚到任意历史版本
- 深挖模式 → "展开第3节" → 生成子报告 → 可 merge 回主报告
- Markdown — 直接在对话中输出(默认)
- Word (.docx) — 联动
docxskill - PowerPoint (.pptx) — 联动
pptxskill
本项目遵循 AgentSkills 开放标准,整个 repo 即一个 skill 目录:
tech-distiller/
├── SKILL.md # skill 入口(官方 frontmatter)
├── scripts/
│ └── render_report.py # JSON → Markdown 报告渲染器(含版本管理)
├── references/
│ └── filtering-guide.md # 各技术方向的内容过滤规则
├── reports/ # 生成的报告(gitignored)
├── README.md
├── requirements.txt
└── LICENSE
本项目仅适用于已获授权的公开文档或用户本人有权访问的内部文档。
- 请勿将本工具用于抓取、处理或传播任何未经授权的保密资料、商业机密或受版权保护的内容
- 请勿将生成的报告用于任何可能损害所在公司、组织或第三方利益的用途
- 用户需自行确保所提供的文档来源合法合规,并承担相应的法律责任
- 因使用本工具违反公司规定、保密协议或相关法律法规所产生的一切后果,与本项目无关
简单说:你只能蒸馏你有权读的文档。 工具本身是中立的,怎么用是你的责任。
- 文档质量决定报告质量:设计文档 + ADR > Wiki 页面 > 会议纪要 > 口述描述
- 建议优先提供:架构设计文档 > 技术决策记录(ADR) > 接口文档 > 复盘总结
- 报告内容不含保密、仅限内部权限或个人隐私信息,如有疑问自动标注并跳过
- 这是一个辅助工具,请结合原始文档和团队成员交叉验证
本项目的设计灵感来源于:
- 同事.skill(by @titanwings)— 首创"把人蒸馏成 AI Skill"的双层架构与进化机制
- 前任.skill(by @therealXiaomanChu)— 验证了蒸馏模式在职场之外的普适性
它们证明了一件事:一切值得被记住的东西,都可以被蒸馏。
同事可以被蒸馏,前任可以被蒸馏,那公司的技术积累,凭什么只能烂在文档系统里?
本项目遵循 AgentSkills 开放标准,兼容 Claude Code 和 OpenClaw。
MIT License