詳細については、論文を参照してください。
3.10.mp4
詳細については、プロジェクトのホームページを参照してください。
YouTube
Bilibili
Chrome and DingTalk
Search.NBA.FMVP.and.send.to.friend.mp4
Word
Write.an.introduction.of.Alibaba.in.Word.mp4
Mobile-Agent-v2.mp4
Mobile-Agent.mp4
- 🔥🔥[2.21.25] PC-Agent の更新バージョンをリリースしました。詳細については論文を確認してください。コードは近日中に更新される予定です。
- 🔥🔥[1.20.25] 私たちは、過去の経験を通じて自己進化し、複雑なマルチアプリタスクでより強力なパフォーマンスを実現できる階層型マルチエージェントフレームワークである Mobile-Agent-Eを提案します。
- 🔥🔥[9.26] Mobile-Agent-v2 は The Thirty-eighth Annual Conference on Neural Information Processing Systems (NeurIPS 2024) によって承認されました。
- 🔥[8.23] MacとWindowsプラットフォームに対応したPC操作アシスタント「PC-Agent」をリリースしました。
- 🔥[7.29] Mobile-Agent、計算言語学に関する第23回中国全国会議(CCL 2024)でベストデモ賞を受賞しました。 CCL 2024では、今後のMobile-Agent-V3を示しました。メモリオーバーヘッド(8 GB)が小さく、推論速度が高く(操作あたり10S-15S)、すべてオープンソースモデルを使用しています。ビデオデモ、セクション📺Demoを参照してください。
- [6.27] Hugging FaceとModelScopeで、Mobile-Agent-v2のデモを公開しました。携帯電話のスクリーンショットをアップロードして体験できます。モデルやデバイスの設定は不要です。
- [6. 4] Modelscope-Agentは、Android Adb Envに基づいてMobile-Agent-V2をサポートしています。詳細はアプリケーションをご覧ください。
- [6. 4] 新世代のモバイルデバイス操作アシスタント Mobile-Agent-v2を発表しました。マルチエージェント協力により効果的なナビゲーションを実現します。
- [3.10] Mobile-AgentはICLR 2024 Workshop on Large Language Model (LLM) Agentsに採択されました。
- PC-Agent - PC 上の複雑なタスクを自動化するための階層型マルチエージェント コラボレーション フレームワーク
- Mobile-Agent-E - 自己進化機能により、複雑で長期にわたる推論集中型のタスクのパフォーマンスを強化
- Mobile-Agent-v3
- Mobile-Agent-v2 - マルチエージェント協力による効果的なナビゲーションを実現するモバイルデバイス操作アシスタント
- Mobile-Agent - 視覚認識を備えた自律型マルチモーダルモバイルデバイスエージェント
Mobile-Agentが研究やアプリケーションに役立つ場合は、次のBibTeXを使用して引用してください:
@article{liu2025pc,
title={PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC},
author={Liu, Haowei and Zhang, Xi and Xu, Haiyang and Wanyan, Yuyang and Wang, Junyang and Yan, Ming and Zhang, Ji and Yuan, Chunfeng and Xu, Changsheng and Hu, Weiming and Huang, Fei},
journal={arXiv preprint arXiv:2502.14282},
year={2025}
}
@article{wang2025mobile,
title={Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks},
author={Wang, Zhenhailong and Xu, Haiyang and Wang, Junyang and Zhang, Xi and Yan, Ming and Zhang, Ji and Huang, Fei and Ji, Heng},
journal={arXiv preprint arXiv:2501.11733},
year={2025}
}
@article{wang2024mobile2,
title={Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration},
author={Wang, Junyang and Xu, Haiyang and Jia, Haitao and Zhang, Xi and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2406.01014},
year={2024}
}
@article{wang2024mobile,
title={Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception},
author={Wang, Junyang and Xu, Haiyang and Ye, Jiabo and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao},
journal={arXiv preprint arXiv:2401.16158},
year={2024}
}
- AppAgent: Multimodal Agents as Smartphone Users
- mPLUG-Owl & mPLUG-Owl2: Modularized Multimodal Large Language Model
- Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- GroundingDINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
- CLIP: Contrastive Language-Image Pretraining