GUI Agent - 基于多模态大模型的安卓手机自动化操作

项目概述

本项目实现了一个基于多模态大模型（Doubao-Seed-1.6-vision）的安卓手机 GUI 自动化 Agent。Agent 接收用户指令和当前手机截图，通过大模型理解界面内容，输出标准化的操作动作（点击、输入、滑动、打开应用、完成任务），驱动手机完成自动化任务。

项目结构

GUI/
├── src/
│   ├── agent.py  
│   ├── agent_base.py   
│   ├── requirements.txt   
│   └── utils/
│       ├── __init__.py
│       ├── image_utils.py  
│       └── visualize_ref.py  
├── doc/
│   └── 算法设计说明文档.md   
├── test_data/
│   └── offline/      
├── test_runner.py       
└── README.md

核心架构

整体流程

用户指令 + 当前截图
    ↓
[System Prompt + 历史上下文]
    ↓
多模态模型推理（Doubao-Seed-1.6-vision）
    ↓
多级动作解析（正则 → JSON → 宽松兜底 → 坐标恢复）
    ↓
后处理优化（COMPLETE 覆盖 + 应用名修正）
    ↓
标准化输出（action + parameters）

Agent 继承自 BaseAgent，重写了 generate_messages() 和 act() 方法。核心设计原则是信任模型判断，通过充分的 Prompt 引导让模型自主决策，仅在模型有系统性偏差时使用后处理修正。

支持的动作类型

动作	参数	说明
CLICK	`point: [x, y]`	点击界面元素，坐标归一化到 [0, 1000]
TYPE	`text: str`	输入文字
SCROLL	`start_point, end_point`	滑动屏幕
OPEN	`app_name: str`	打开应用
COMPLETE	无	任务完成

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
src		src
test_data/offline		test_data/offline
README.md		README.md
test_runner.py		test_runner.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GUI Agent - 基于多模态大模型的安卓手机自动化操作

项目概述

项目结构

核心架构

整体流程

支持的动作类型

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

GUI Agent - 基于多模态大模型的安卓手机自动化操作

项目概述

项目结构

核心架构

整体流程

支持的动作类型

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages