Skip to content

nicekate/qwen2.5-vl-demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Qwen2.5 VL 图像分析演示

基于通义千问 Qwen2.5 VL(视觉语言)模型的图像分析演示项目。提供 Web 界面和本地 Gradio 界面两种使用方式。

功能特点

Web 版本 (app.py)

  • 批量上传分析多张图片
  • 自定义提示词引导分析
  • 实时图片预览
  • Markdown 格式结果展示
  • 支持下载分析结果
  • 响应式界面设计

本地版本 (local-qwen.py)

  • 适用 Mac M 芯片
  • Gradio 简洁界面
  • 本地模型推理
  • 中英双语支持
  • 可调节生成参数

使用方法

Web 版本

  1. 安装依赖
pip install flask openai
  1. 配置 API
  1. 运行服务
python app.py
  1. 访问 http://localhost:5000

本地版本

  1. 安装依赖
pip install gradio mlx-vlm
  1. 运行
python local-qwen.py
  1. 打开浏览器访问 Gradio 界面

注意事项

  1. Web 版本需要有效的魔搭平台 API Token
  2. 本地版本需要足够的计算资源来运行模型
  3. 上传图片大小和格式可能有限制
  4. 分析结果的生成可能需要一定时间,请耐心等待

高级功能演示

克隆 https://github.com/QwenLM/Qwen2.5-VL 到本地,将 computer_use.py 和 spatial_understanding_boat.py 放到 cookbooks 文件夹。

界面交互分析 (computer_use.py)

功能:

  • 界面元素定位和交互指令理解
  • 可视化点击位置和交互建议
  • GUI 自动化测试支持
  • 自定义颜色标注

使用:

# 设置 API Key (从 https://bailian.console.aliyun.com/ 获取)
api_key="your key"

python computer_use.py

空间理解分析 (spatial_understanding_boat.py)

功能:

  • 多目标检测和定位
  • 自动边界框绘制标注
  • 智能图像尺寸调整
  • 自定义检测提示词
  • 多色标注支持

使用:

# 配置 API Key (从 https://bailian.console.aliyun.com/ 获取)
api_key="your key"

python spatial_understanding_boat.py

注意事项

  • Web 版本需要魔搭平台 API Token
  • 本地版本需要足够计算资源
  • 图片大小和格式可能受限
  • 分析结果生成需要一定时间

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages