Skip to content

nothingnewuf/GUI-Agent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

GUI Agent - 基于多模态大模型的安卓手机自动化操作

项目概述

本项目实现了一个基于多模态大模型(Doubao-Seed-1.6-vision)的安卓手机 GUI 自动化 Agent。Agent 接收用户指令和当前手机截图,通过大模型理解界面内容,输出标准化的操作动作(点击、输入、滑动、打开应用、完成任务),驱动手机完成自动化任务。

项目结构

GUI/
├── src/
│   ├── agent.py  
│   ├── agent_base.py   
│   ├── requirements.txt   
│   └── utils/
│       ├── __init__.py
│       ├── image_utils.py  
│       └── visualize_ref.py  
├── doc/
│   └── 算法设计说明文档.md   
├── test_data/
│   └── offline/      
├── test_runner.py       
└── README.md             

核心架构

整体流程

用户指令 + 当前截图
    ↓
[System Prompt + 历史上下文]
    ↓
多模态模型推理(Doubao-Seed-1.6-vision)
    ↓
多级动作解析(正则 → JSON → 宽松兜底 → 坐标恢复)
    ↓
后处理优化(COMPLETE 覆盖 + 应用名修正)
    ↓
标准化输出(action + parameters)

Agent 继承自 BaseAgent,重写了 generate_messages()act() 方法。核心设计原则是信任模型判断,通过充分的 Prompt 引导让模型自主决策,仅在模型有系统性偏差时使用后处理修正。

支持的动作类型

动作 参数 说明
CLICK point: [x, y] 点击界面元素,坐标归一化到 [0, 1000]
TYPE text: str 输入文字
SCROLL start_point, end_point 滑动屏幕
OPEN app_name: str 打开应用
COMPLETE 任务完成

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages