🤖 SyberAgent 2.0 - 增强多智能体AI助手系统

🚀 从PC本地自动化到云端AI协作的全面升级
基于LangGraph的新一代多智能体系统，支持文档、图像、音频等全方位多媒体AI处理能力

🇺🇸 English | 🇨🇳 中文文档

📖 目录

🆚 版本对比
✨ 核心特性
🚀 快速开始
📦 安装指南
⚙️ 配置说明
💻 使用示例
🧪 测试
📚 API文档
🔧 迁移指南
🤝 贡献指南
📄 许可证

✨ 核心特性

🆕 2.0 版本新增特性

🎯 多媒体AI处理引擎

📄 智能文档处理: PDF/Word/Excel/PPT全格式支持 + 双引擎OCR
🖼️ 计算机视觉分析: OpenCV + Pillow图像处理 + 智能识别
🎵 音频智能分析: Whisper语音识别 + librosa音频特征提取
🔄 格式转换中心: 支持50+文件格式互相转换

🤖 智能体协作矩阵

🧠 监督智能体: LangGraph工作流编排 + 任务智能分解
💬 对话智能体: 上下文记忆 + 多轮对话管理
🔍 搜索智能体: Tavily实时搜索 + 信息智能筛选
📊 分析智能体: pandas数据处理 + matplotlib可视化
📄 文件智能体: 全格式文档解析 + 内容智能提取 ⭐ 新增
🖼️ 图像智能体: 多引擎视觉分析 + 智能增强 ⭐ 新增
🎵 音频智能体: 多语言识别 + 音频特征分析 ⭐ 新增

🔧 技术架构升级

LangGraph: 智能体工作流编排引擎
FastAPI: 高性能异步API框架
WebSocket: 实时通信支持
多模型支持: DeepSeek/OpenAI/Claude/Gemini
异步处理: 高并发任务处理

🧠 智能体架构 (继承 1.0 + 全面增强)

监督智能体: 任务分析、路由决策、协调执行
对话智能体: 自然语言交互、上下文管理
网络搜索智能体: 实时信息检索、网页分析
数据分析智能体: 数据处理、可视化分析
文件处理智能体: 文档解析、OCR识别 ⭐ 2.0 新增
图像处理智能体: 计算机视觉、图像增强 ⭐ 2.0 新增
音频处理智能体: 语音识别、音频分析 ⭐ 2.0 新增

📋 增强功能

📄 文档处理能力

支持格式: PDF, Word (.docx), Excel (.xlsx), PowerPoint (.pptx), 文本文件
核心功能:
- 文档内容提取和分析
- OCR 文字识别 (pytesseract + easyocr)
- 文档格式转换
- 表格数据分析
- 文档摘要生成

🖼️ 图像处理能力

支持格式: JPG, PNG, GIF, BMP, TIFF, WebP
核心功能:
- 计算机视觉分析 (OpenCV)
- 图像增强和滤镜
- OCR 文字识别 (多引擎)
- 图像格式转换
- 颜色分析和统计

🎵 音频处理能力

支持格式: WAV, MP3, FLAC, OGG, M4A, AAC
核心功能:
- 语音转文字 (Whisper + SpeechRecognition)
- 音频特征分析 (librosa)
- 音频格式转换
- 音频质量增强
- 多语言语音识别

🔧 技术栈

核心框架: LangGraph, LangChain
AI模型: DeepSeek, OpenAI GPT, Claude, Gemini
文档处理: python-docx, PyPDF2, openpyxl, python-pptx
图像处理: OpenCV, Pillow, pytesseract, easyocr
音频处理: librosa, soundfile, pydub, whisper, SpeechRecognition
数据分析: pandas, numpy, matplotlib, seaborn
Web框架: FastAPI, uvicorn

🚀 快速开始

前置要求

Python 3.8+
pip 包管理器

安装步骤

克隆仓库

git clone https://github.com/your-username/syberagent.git
cd syberagent

创建虚拟环境

python -m venv .venv
# Windows
.venv\Scripts\Activate.ps1
# Linux/Mac  
source .venv/bin/activate

安装依赖

# 基础依赖
pip install -r requirements.txt

# 可选：开发依赖
pip install -r requirements-dev.txt

配置环境

# 复制环境配置模板
cp .env.example .env

# 编辑 .env 文件，配置API密钥
# API_KEY=your_api_key_here
# TAVILY_API_KEY=your_tavily_key_here

运行系统

python main.py

📖 使用指南

基础对话

💬 您: 你好，请介绍一下你的能力

🤖 SyberAgent: 我是一个多智能体AI助手，具备以下能力：
- 自然语言对话和问答
- 实时网络搜索和信息检索  
- 数据分析和可视化
- 文档处理和OCR识别
- 图像分析和处理
- 音频处理和语音识别

文档处理示例

💬 您: 分析这个PDF文件：./documents/report.pdf

🤖 SyberAgent: 📄 正在分析PDF文档...
✅ 文档解析完成
📊 共提取 15 页内容，包含 3 个表格和 8 张图片
📝 文档摘要：这是一份关于...的报告

图像分析示例

💬 您: 识别这张图片中的文字：./images/screenshot.png

🤖 SyberAgent: 🖼️ 正在进行OCR识别...
✅ 文字识别完成
📝 识别结果：[提取的文字内容]
🎨 图像信息：1920x1080, RGB格式

音频处理示例

💬 您: 转录这段语音：./audio/meeting.wav

🤖 SyberAgent: 🎵 正在进行语音识别...
✅ 语音转录完成
🎤 Whisper识别结果 (语言: zh):
[转录的文字内容]

🛠️ 系统架构

SyberAgent/
├── 🧠 监督智能体 (SupervisorAgent)
│   ├── 任务分析与路由
│   ├── 智能体协调
│   └── 结果整合
├── 💬 专业智能体团队
│   ├── 对话智能体 (ConversationalAgent)
│   ├── 搜索智能体 (WebSearchAgent)  
│   ├── 分析智能体 (DataAnalysisAgent)
│   ├── 文件智能体 (FileProcessingAgent) ⭐
│   ├── 图像智能体 (ImageProcessingAgent) ⭐
│   └── 音频智能体 (AudioProcessingAgent) ⭐
└── ⚙️ 基础架构
    ├── LangGraph 工作流引擎
    ├── 状态管理系统
    └── 配置管理系统

🔧 技术栈

核心框架

LangGraph: 智能体工作流编排
LangChain: LLM 应用开发框架
AsyncIO: 异步处理架构

AI 模型集成

DeepSeek: 主要语言模型
Whisper: 语音识别模型
EasyOCR + Tesseract: OCR识别引擎

多媒体处理

文档处理: python-docx, PyPDF2, pypdf, python-pptx
图像处理: opencv-python, Pillow, scikit-image
音频处理: librosa, soundfile, pydub

数据分析

pandas: 数据处理
matplotlib: 数据可视化
numpy: 数值计算

📁 项目结构

syberagent/
├── agents/                    # 智能体模块
│   ├── base_agent.py         # 基础智能体接口
│   ├── conversational.py     # 对话智能体
│   ├── web_search.py         # 网络搜索智能体
│   ├── data_analysis.py      # 数据分析智能体
│   ├── file_processing.py    # 文件处理智能体 ⭐
│   ├── image_processing.py   # 图像处理智能体 ⭐
│   └── audio_processing.py   # 音频处理智能体 ⭐
├── core/                     # 核心系统
│   ├── config.py            # 配置管理
│   ├── supervisor.py        # 监督智能体
│   ├── workflow_engine.py   # 工作流引擎
│   └── state_manager.py     # 状态管理
├── tools/                    # 工具模块
├── examples/                 # 使用示例
├── main.py                   # 主程序入口
├── requirements.txt          # 依赖列表
└── README.md                # 项目文档

🎯 使用场景

办公自动化

📄 批量文档处理和分析
📊 数据报表生成
🔍 信息检索和整理

内容处理

🖼️ 图片批量OCR识别
🎵 音频内容转录
📝 多媒体内容分析

智能助手

💬 自然语言交互
🧠 复杂任务规划
🔄 多模态内容处理

⚙️ 配置说明

环境变量配置

# AI 模型配置
API_KEY=your_api_key
BASE_URL=https://api.deepseek.com/v1
MODEL=deepseek-chat

# 搜索功能配置  
TAVILY_API_KEY=your_tavily_api_key

# 系统配置
LOG_LEVEL=INFO
MAX_FILE_SIZE=100MB

模型配置

# core/config.py
WHISPER_MODEL_SIZE = "base"  # tiny, base, small, medium, large
OCR_ENGINES = ["easyocr", "tesseract"]
IMAGE_MAX_SIZE = (2048, 2048)
AUDIO_MAX_DURATION = 3600  # 秒

🔍 性能优化

内存优化

大文件分块处理
模型延迟加载
缓存机制优化

处理速度

异步并发处理
GPU 加速支持 (CUDA)
批量处理优化

🤝 贡献指南

欢迎贡献代码！请遵循以下步骤：

Fork 项目
创建功能分支 (git checkout -b feature/AmazingFeature)
提交更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
打开 Pull Request

详细贡献指南请参考 CONTRIBUTING.md

📄 许可证

本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。

🙏 致谢

🏆 SyberAgent 发展历程

SyberAgent 1.0 - PC本地自动化先驱 (原项目)
SyberAgent 2.0 - 多智能体AI系统革新 (当前版本)

🤝 开源社区支持

LangChain - LLM 应用开发框架
LangGraph - 智能体工作流编排
OpenAI Whisper - 语音识别技术
EasyOCR - OCR 识别引擎
OpenCV - 计算机视觉库
FastAPI - 现代Web框架

💡 特别鸣谢

@cyberzhang1 - SyberAgent 1.0原作者，为项目奠定了坚实基础
开源社区贡献者 - 感谢所有提交Issue、PR和建议的开发者
Beta测试用户 - 感谢早期用户的反馈和测试

🌟 社区与支持

加入我们的社区

⭐ GitHub Star - 支持项目发展
🍴 Fork项目 - 参与开发
💬 讨论区 - 交流想法
🐛 问题反馈 - 报告Bug

版本规划

v2.1 - 增强GUI界面、批量处理优化
v2.2 - 插件系统、自定义智能体
v3.0 - 分布式部署、企业级功能

🚀 SyberAgent 2.0 - 让AI智能体协作触手可及！

⭐ 如果这个项目对您有帮助，请给个星标支持！我们的目标是构建最强大的开源多智能体AI系统。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
agent_configs		agent_configs
agents		agents
config		config
core		core
docs		docs
examples		examples
scripts		scripts
services		services
tools		tools
.env.example		.env.example
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
GITHUB_UPLOAD_GUIDE.md		GITHUB_UPLOAD_GUIDE.md
INSTALL.md		INSTALL.md
LICENSE		LICENSE
MIGRATION.md		MIGRATION.md
README.md		README.md
TROUBLESHOOTING.md		TROUBLESHOOTING.md
USAGE.md		USAGE.md
main.py		main.py
pyproject.toml		pyproject.toml
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt
upload_github.ps1		upload_github.ps1
upload_github.sh		upload_github.sh

License

cyberzhang1/SyberAgent

Folders and files

Latest commit

History

Repository files navigation

🤖 SyberAgent 2.0 - 增强多智能体AI助手系统

📖 目录

✨ 核心特性

🆕 2.0 版本新增特性

🎯 多媒体AI处理引擎

🤖 智能体协作矩阵

🔧 技术架构升级

🧠 智能体架构 (继承 1.0 + 全面增强)

📋 增强功能

📄 文档处理能力

🖼️ 图像处理能力

🎵 音频处理能力

🔧 技术栈

🚀 快速开始

前置要求

安装步骤

📖 使用指南

基础对话

文档处理示例

图像分析示例

音频处理示例

🛠️ 系统架构

🔧 技术栈

核心框架

AI 模型集成

多媒体处理

数据分析

📁 项目结构

🎯 使用场景

办公自动化

内容处理

智能助手

⚙️ 配置说明

环境变量配置

模型配置

🔍 性能优化

内存优化

处理速度

🤝 贡献指南

📄 许可证

🙏 致谢

🏆 SyberAgent 发展历程

🤝 开源社区支持

💡 特别鸣谢

🌟 社区与支持

加入我们的社区

版本规划

About

Topics

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages