Skip to content

Selenium39/onyx-ocr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Onyx OCR - 飞书多维表格 OCR 插件

基于阿里云百炼 Qwen-VL 视觉大模型的飞书多维表格 OCR 插件,支持从图片中智能识别结构化信息并写入多维表格。

功能特性

  • AI 视觉识别:调用 Qwen-VL 大模型,精准提取图片中的文字和结构化信息
  • 场景管理:内置发票、销售出库单、身份证等常见场景,支持自定义场景
  • 自定义提示词:每个场景可独立配置提示词模板,灵活控制识别行为
  • 字段映射:自动在多维表格中创建缺失字段,识别结果可编辑后再写入
  • 多种上传方式:支持点击上传、拖拽、粘贴图片

内置场景

场景 识别字段
发票识别 发票代码、发票号码、开票日期、购买方/销售方信息、金额等
销售出库单 单据编号、出库日期、客户名称、商品信息、数量、金额等
身份证识别 姓名、性别、民族、出生日期、住址、身份证号码

前置条件

  1. 阿里云百炼 API Key(获取地址
  2. 飞书多维表格

开发

# 安装依赖
npm install

# 启动开发服务器
npm run dev

# 构建生产版本
npm run build

在飞书多维表格中使用

  1. 在飞书多维表格中,进入 扩展脚本 > 自定义插件
  2. 将构建后的 dist 目录部署到可访问的 URL
  3. 在多维表格中添加该插件的 URL
  4. 打开插件后,先在 设置 中配置百炼 API Key
  5. 选择场景 > 上传图片 > 开始识别 > 确认写入

自定义场景

  1. 点击导航栏的场景管理图标
  2. 点击 + 新建场景
  3. 填写场景名称、描述
  4. 添加需要识别的字段(支持文本、数字、金额、日期类型)
  5. 编辑提示词模板(使用 {fields_placeholder} 作为字段列表占位符)
  6. 保存后即可在首页选择使用

提示词模板说明

提示词中的 {fields_placeholder} 会在运行时被替换为当前场景的字段 JSON 结构。例如:

请识别图片中的信息,以 JSON 格式返回:
{fields_placeholder}

会被替换为:

请识别图片中的信息,以 JSON 格式返回:
{
  "发票代码": "",
  "发票号码": "",
  ...
}

技术栈

  • React + TypeScript + Vite
  • @lark-base-open/js-sdk(飞书多维表格 SDK)
  • OpenAI SDK(兼容百炼 API)

支持的模型

模型 说明
qwen3-vl-plus Qwen3-VL 系列最强模型
qwen3-vl-flash 速度快、成本低
qwen-vl-max Qwen2.5-VL 效果最佳
qwen-vl-plus Qwen2.5-VL 均衡选择

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors