基于阿里云百炼 Qwen-VL 视觉大模型的飞书多维表格 OCR 插件,支持从图片中智能识别结构化信息并写入多维表格。
- AI 视觉识别:调用 Qwen-VL 大模型,精准提取图片中的文字和结构化信息
- 场景管理:内置发票、销售出库单、身份证等常见场景,支持自定义场景
- 自定义提示词:每个场景可独立配置提示词模板,灵活控制识别行为
- 字段映射:自动在多维表格中创建缺失字段,识别结果可编辑后再写入
- 多种上传方式:支持点击上传、拖拽、粘贴图片
| 场景 | 识别字段 |
|---|---|
| 发票识别 | 发票代码、发票号码、开票日期、购买方/销售方信息、金额等 |
| 销售出库单 | 单据编号、出库日期、客户名称、商品信息、数量、金额等 |
| 身份证识别 | 姓名、性别、民族、出生日期、住址、身份证号码 |
- 阿里云百炼 API Key(获取地址)
- 飞书多维表格
# 安装依赖
npm install
# 启动开发服务器
npm run dev
# 构建生产版本
npm run build- 在飞书多维表格中,进入 扩展脚本 > 自定义插件
- 将构建后的
dist目录部署到可访问的 URL - 在多维表格中添加该插件的 URL
- 打开插件后,先在 设置 中配置百炼 API Key
- 选择场景 > 上传图片 > 开始识别 > 确认写入
- 点击导航栏的场景管理图标
- 点击 + 新建场景
- 填写场景名称、描述
- 添加需要识别的字段(支持文本、数字、金额、日期类型)
- 编辑提示词模板(使用
{fields_placeholder}作为字段列表占位符) - 保存后即可在首页选择使用
提示词中的 {fields_placeholder} 会在运行时被替换为当前场景的字段 JSON 结构。例如:
请识别图片中的信息,以 JSON 格式返回:
{fields_placeholder}
会被替换为:
请识别图片中的信息,以 JSON 格式返回:
{
"发票代码": "",
"发票号码": "",
...
}
- React + TypeScript + Vite
- @lark-base-open/js-sdk(飞书多维表格 SDK)
- OpenAI SDK(兼容百炼 API)
| 模型 | 说明 |
|---|---|
| qwen3-vl-plus | Qwen3-VL 系列最强模型 |
| qwen3-vl-flash | 速度快、成本低 |
| qwen-vl-max | Qwen2.5-VL 效果最佳 |
| qwen-vl-plus | Qwen2.5-VL 均衡选择 |