图表分析智能体 #3134

goodplayersoga · 2026-05-30T15:53:30Z

goodplayersoga
May 30, 2026

图表分析智能体 — 基于 PaddleOCR + VLM 的多技能图表处理 Agent

项目定位

这是一个跑在 Nexent 平台上的端到端图表分析 Agent，以 PaddleOCR MCP Server 提供本地 OCR 能力，以 4 个 Skill 编排图表处理管道。用户上传任意图表图片后，经 OCR 识别 → 视觉对齐 → 结构化提取 → 代码生成 四步，即可获得可执行的 matplotlib Python 代码；或经 SUBSTEP 问题拆解 → 子代理原子查询 → 结果合成 三步，获得关于该图表的精确答案。

两条管道共享 OCR 和对齐的中间结果，可串联使用——先生成代码，再对同一张图提问，不重复分析。

架构设计：主 Agent 编排 + 子代理执行 + 本地 MCP

所有大模型推理由 Nexent 平台提供，OCR 文字识别由本地 PaddleOCR MCP Server 完成，图表视觉分析由 Nexent 内置 VLM 工具完成。

层	职责	运行位置
主 Agent（deepseek-v4-pro）	管道编排、Skill 调度、结果合成	Nexent 推理面
子代理 ×3（deepseek-v4-flash）	原子事实查询、数值提取、存在性判断	Nexent 推理面
VLM（analyze_image）	图表视觉对齐、颜色匹配、空间关联	Nexent 工具层
PaddleOCR MCP Server	图表文字提取（含坐标和置信度）	本地 Python

管道 A：图表转代码

[Skill 1: 视觉对齐] → [Skill 2: 结构化提取] → [Skill 3: 代码生成]
       │                      │
   OCR(MCP) + VLM          严格 JSON          matplotlib 代码 + 执行

管道 B：图表问答

[Skill 4: SUBSTEP 拆解] → [子代理 4: 事实查询]
                         → [子代理 5: 数值提取]
                         → [子代理 6: 是/否判断]
                         → 结果合成 → 最终答案

文件结构

nexent_integration/
├── README.md
├── agent-config.md                    # Agent 完整配置（duty/constraint/示例）
├── chart_analysis.json                # Agent 导出文件（含主Agent+3子代理+MCP连接）
├── paddleocr_mcp/
│   └── server.py                      # PaddleOCR MCP Server
└── skills/
    ├── chart-vision-alignment.SKILL.md     # Skill 1: OCR + VLM 十字交叉/空间关联/颜色匹配
    ├── chart-structure-extract.SKILL.md    # Skill 2: 对齐结果 → 严格 JSON 中间语言
    ├── chart-code-generate.SKILL.md        # Skill 3: JSON → matplotlib 代码生成与执行
    └── chart-qa-understanding.SKILL.md     # Skill 4: SUBSTEP 拆解 + 子代理并行查询

关键设计决策

1. OCR 作为 MCP Server，其余作为 Skill

OCR 需要真正执行 PaddleOCR 代码，LLM 无法直接完成，所以独立为 MCP Server。视觉对齐、JSON 提取、代码生成本质是"指导 LLM 如何思考和输出"，SKILL.md 中的 prompt 就足够，无需封装为 Python Tool。

2. 管道步骤拆分为独立 Skill

每次 Skill 调用在 Nexent 对话中显式可见——用户能看到 Agent 正在执行 chart-vision-alignment → chart-structure-extract → chart-code-generate，中间产物（对齐报告、JSON）可检查和修正。对比单一黑盒 Skill，出问题时只需定位和修改出问题的那个。

3. 严格 JSON 中间语言

Skill 2 输出的是固定 schema 的 JSON（chart_type、x_axis、y_axis、series、legends），而非自由格式。这保证 Skill 3 不需要猜测数据结构，直接解析即可生成代码。同时 JSON 可被管道 B 复用，避免重复分析。

4. SUBSTEP 问题拆解 + 子代理并行查询

复杂图表问题不直接丢给一个 VLM 调用，而是先拆解为原子子问题（每个只查一个值），再委派 3 个专用子代理并行查询。子代理用 flash 模型（更便宜），返回结果由主 Agent 按伪代码逻辑合成。这解决了单次 VLM 调用对复杂问题的幻觉和遗漏问题。

5. 两条管道共享中间结果

管道 A 和管道 B 不是两个独立的 Agent，而是同一 Agent 的两条路径。generated_code.py 执行完毕后，chart-structure-extract 输出的 JSON 仍在上下文中，用户可以立刻对同一张图提问，Agent 直接复用 JSON 做计算，无需重新 OCR 和对齐。

使用的工具与技能

MCP 工具

ocr_chart_image
  → 对图表图片执行 OCR，返回所有文字内容、位置边界框（四点坐标+中心坐标）和置信度
  → 适用场景：图表标题、坐标轴刻度标签、数据标签、图例文字的精确提取

Nexent 内置工具

analyze_image
  → VLM 图表视觉分析：十字交叉定位、空间邻近关联、颜色/语义匹配

技能

技能	输入	输出
`chart-vision-alignment`	图表图片 + OCR 结果	对齐报告（数据点三元组、图例映射、坐标轴信息）
`chart-structure-extract`	对齐报告	严格 JSON（chart_type, x_axis, y_axis, series, legends）
`chart-code-generate`	严格 JSON	可执行 matplotlib Python 代码 + render.png
`chart-qa-understanding`	图表图片 + 用户问题	SUBSTEP 伪代码 + 各子代理结果 + 最终答案

适用场景

数据可视化工作者：看到一张图表需要复现 → 上传直接生成 matplotlib 代码，无需手动量坐标、取色、写图例
数据分析师：需要对图表做数据提取和比较 → 上传后提问"最大值和最小值差多少""哪个系列增长最快"
科研/论文写作：需要将他人论文中的图表转为可编辑代码并修改 → 生成代码后自行调整参数
Nexent 平台开发者：作为"Skill 编排 + MCP 集成 + 子代理协作"的参考架构，展示如何将确定性管道映射到 LLM 驱动的 Agent 平台
图表 OCR 场景参考：PaddleOCR MCP Server 可被任何需要图表文字提取的 Agent 复用

快速体验

1. 部署 PaddleOCR MCP Server

conda create -n paddleocr_mcp python=3.10 -y
conda activate paddleocr_mcp
$env:CL = "/utf-8"; chcp 65001
pip install paddlepaddle==3.0.0 paddleocr fastmcp -i https://pypi.tuna.tsinghua.edu.cn/simple

cd paddleocr_mcp
python server.py
# → 监听 http://0.0.0.0:5016/mcp

2. 注册 MCP Server 到 Nexent

curl -X POST "http://localhost:3000/api/mcp/add?mcp_url=http://host.docker.internal:5016/mcp&service_name=paddleocr-chart"
curl "http://localhost:3000/api/tool/scan_tool"

3. 导入 Agent 和 Skill

在 Nexent → Agent 管理 → 导入 chart_analysis.json
在 Agent 编辑页 → Skill Management → 依次创建 4 个 Skill，粘贴 skills/ 下对应内容
勾选全部 Skill 并保存

4. 开始使用

上传图表图片后：

# 管道 A
"帮我生成这张图的 matplotlib 代码"

# 管道 B
"图表中哪个省份 GDP 最高？"
"泰国和马来西亚哪国男性复读率更高？"
"线上销售额占总体的百分比是多少？"

项目亮点

Skill 显式调用：管道步骤不是黑盒，每次切换 Skill 在对话中可见，中间产物可检查
本地 OCR 精确提取：PaddleOCR 提供像素级文字位置（四点坐标 + 中心坐标），VLM 仅做对齐，不做识别
严格中间语言：对齐结果先转为固定 schema JSON，再生成代码——数据可溯源，不确定处如实标注
SUBSTEP 拆解 + 子代理并行：复杂问答不走单次 VLM 调用，拆解后并行查询，结果可追溯每个数值来源
两条管道独立可串联：生成代码和回答问题可在同一对话中连续使用，共享中间结果

配置文件

chart_analysis.json
chart-code-generate.SKILL.md
chart-qa-understanding.SKILL.md
chart-structure-extract.SKILL.md
chart-vision-alignment.SKILL.md
chart_atomic_fact_assistant.json
chart_value_query_assistant.json
chart_yes_no_assistant.json
server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

图表分析智能体 #3134

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Uh oh!

图表分析智能体 #3134

Uh oh!

Uh oh!

goodplayersoga May 30, 2026

图表分析智能体 — 基于 PaddleOCR + VLM 的多技能图表处理 Agent

项目定位

架构设计：主 Agent 编排 + 子代理执行 + 本地 MCP

文件结构

关键设计决策

1. OCR 作为 MCP Server，其余作为 Skill

2. 管道步骤拆分为独立 Skill

3. 严格 JSON 中间语言

4. SUBSTEP 问题拆解 + 子代理并行查询

5. 两条管道共享中间结果

使用的工具与技能

MCP 工具

Nexent 内置工具

技能

适用场景

快速体验

1. 部署 PaddleOCR MCP Server

2. 注册 MCP Server 到 Nexent

3. 导入 Agent 和 Skill

4. 开始使用

项目亮点

配置文件

Replies: 0 comments

goodplayersoga
May 30, 2026