一个面向数据工程师的 AI 智能助手,基于 Next.js 构建,专注于 Spark 作业诊断、数仓资产管理与 SQL 降本优化。
- 自动解析 Spark Application ID,拉取 Stage 级物理指标(耗时、数据量、Task 分布)
- 识别 7 大倾斜场景:JOIN 热点 Key、大小表 JOIN、NULL 值倾斜、GROUP BY 聚合倾斜、窗口函数 OOM、Count Distinct 长尾、小文件过载
- 内置诊断引擎,结合日志/SQL 输入与 mock 指标,自动推断最高优先级场景
- 给出可落地的加盐改写 SQL、AQE 参数配置建议
- 口径答疑:快速查找字段定义与业务口径
- 数据链路探查:梳理上下游依赖关系
- 基于知识图谱(Graph Refine)召回相关表,精准压缩上下文
- 分析 SQL 计算资源消耗
- 给出可执行的优化建议,降低集群成本
- 框架:Next.js 14 (App Router)
- 语言:TypeScript
- 样式:Tailwind CSS
- AI 接入:Streaming Chat API(
/api/chat) - 知识库:本地 JSON / Markdown 文件(
public/knowledge/)
# 安装依赖
npm install
# 启动开发服务器
npm run dev访问 http://localhost:3000 即可使用。
├── app/
│ ├── api/chat/ # Streaming Chat API
│ ├── page.tsx # 主界面(技能选择 + 对话)
│ └── layout.tsx
├── components/
│ └── spark/ # Spark 诊断面板组件
├── hooks/
│ └── useChatHistory # 会话历史管理
├── lib/
│ ├── spark/ # 诊断引擎、场景匹配、日志解析
│ ├── mcp-engine.ts # MCP 上下文引擎
│ ├── security-shield.ts
│ └── sql-sandbox.ts
└── public/knowledge/ # 本地知识库(SOP、参数预设、案例库)