本项目实现了一个基于多模态大模型(Doubao-Seed-1.6-vision)的安卓手机 GUI 自动化 Agent。Agent 接收用户指令和当前手机截图,通过大模型理解界面内容,输出标准化的操作动作(点击、输入、滑动、打开应用、完成任务),驱动手机完成自动化任务。
GUI/
├── src/
│ ├── agent.py
│ ├── agent_base.py
│ ├── requirements.txt
│ └── utils/
│ ├── __init__.py
│ ├── image_utils.py
│ └── visualize_ref.py
├── doc/
│ └── 算法设计说明文档.md
├── test_data/
│ └── offline/
├── test_runner.py
└── README.md
用户指令 + 当前截图
↓
[System Prompt + 历史上下文]
↓
多模态模型推理(Doubao-Seed-1.6-vision)
↓
多级动作解析(正则 → JSON → 宽松兜底 → 坐标恢复)
↓
后处理优化(COMPLETE 覆盖 + 应用名修正)
↓
标准化输出(action + parameters)
Agent 继承自 BaseAgent,重写了 generate_messages() 和 act() 方法。核心设计原则是信任模型判断,通过充分的 Prompt 引导让模型自主决策,仅在模型有系统性偏差时使用后处理修正。
| 动作 | 参数 | 说明 |
|---|---|---|
| CLICK | point: [x, y] |
点击界面元素,坐标归一化到 [0, 1000] |
| TYPE | text: str |
输入文字 |
| SCROLL | start_point, end_point |
滑动屏幕 |
| OPEN | app_name: str |
打开应用 |
| COMPLETE | 无 | 任务完成 |