🚀 从PC本地自动化到云端AI协作的全面升级
基于LangGraph的新一代多智能体系统,支持文档、图像、音频等全方位多媒体AI处理能力
- 📄 智能文档处理: PDF/Word/Excel/PPT全格式支持 + 双引擎OCR
- 🖼️ 计算机视觉分析: OpenCV + Pillow图像处理 + 智能识别
- 🎵 音频智能分析: Whisper语音识别 + librosa音频特征提取
- 🔄 格式转换中心: 支持50+文件格式互相转换
- 🧠 监督智能体: LangGraph工作流编排 + 任务智能分解
- 💬 对话智能体: 上下文记忆 + 多轮对话管理
- 🔍 搜索智能体: Tavily实时搜索 + 信息智能筛选
- 📊 分析智能体: pandas数据处理 + matplotlib可视化
- 📄 文件智能体: 全格式文档解析 + 内容智能提取 ⭐ 新增
- 🖼️ 图像智能体: 多引擎视觉分析 + 智能增强 ⭐ 新增
- 🎵 音频智能体: 多语言识别 + 音频特征分析 ⭐ 新增
- LangGraph: 智能体工作流编排引擎
- FastAPI: 高性能异步API框架
- WebSocket: 实时通信支持
- 多模型支持: DeepSeek/OpenAI/Claude/Gemini
- 异步处理: 高并发任务处理
- 监督智能体: 任务分析、路由决策、协调执行
- 对话智能体: 自然语言交互、上下文管理
- 网络搜索智能体: 实时信息检索、网页分析
- 数据分析智能体: 数据处理、可视化分析
- 文件处理智能体: 文档解析、OCR识别 ⭐ 2.0 新增
- 图像处理智能体: 计算机视觉、图像增强 ⭐ 2.0 新增
- 音频处理智能体: 语音识别、音频分析 ⭐ 2.0 新增
- 支持格式: PDF, Word (.docx), Excel (.xlsx), PowerPoint (.pptx), 文本文件
- 核心功能:
- 文档内容提取和分析
- OCR 文字识别 (pytesseract + easyocr)
- 文档格式转换
- 表格数据分析
- 文档摘要生成
- 支持格式: JPG, PNG, GIF, BMP, TIFF, WebP
- 核心功能:
- 计算机视觉分析 (OpenCV)
- 图像增强和滤镜
- OCR 文字识别 (多引擎)
- 图像格式转换
- 颜色分析和统计
- 支持格式: WAV, MP3, FLAC, OGG, M4A, AAC
- 核心功能:
- 语音转文字 (Whisper + SpeechRecognition)
- 音频特征分析 (librosa)
- 音频格式转换
- 音频质量增强
- 多语言语音识别
- 核心框架: LangGraph, LangChain
- AI模型: DeepSeek, OpenAI GPT, Claude, Gemini
- 文档处理: python-docx, PyPDF2, openpyxl, python-pptx
- 图像处理: OpenCV, Pillow, pytesseract, easyocr
- 音频处理: librosa, soundfile, pydub, whisper, SpeechRecognition
- 数据分析: pandas, numpy, matplotlib, seaborn
- Web框架: FastAPI, uvicorn
- Python 3.8+
- pip 包管理器
- 克隆仓库
git clone https://github.com/your-username/syberagent.git
cd syberagent- 创建虚拟环境
python -m venv .venv
# Windows
.venv\Scripts\Activate.ps1
# Linux/Mac
source .venv/bin/activate- 安装依赖
# 基础依赖
pip install -r requirements.txt
# 可选:开发依赖
pip install -r requirements-dev.txt- 配置环境
# 复制环境配置模板
cp .env.example .env
# 编辑 .env 文件,配置API密钥
# API_KEY=your_api_key_here
# TAVILY_API_KEY=your_tavily_key_here- 运行系统
python main.py💬 您: 你好,请介绍一下你的能力
🤖 SyberAgent: 我是一个多智能体AI助手,具备以下能力:
- 自然语言对话和问答
- 实时网络搜索和信息检索
- 数据分析和可视化
- 文档处理和OCR识别
- 图像分析和处理
- 音频处理和语音识别
💬 您: 分析这个PDF文件:./documents/report.pdf
🤖 SyberAgent: 📄 正在分析PDF文档...
✅ 文档解析完成
📊 共提取 15 页内容,包含 3 个表格和 8 张图片
📝 文档摘要:这是一份关于...的报告
💬 您: 识别这张图片中的文字:./images/screenshot.png
🤖 SyberAgent: 🖼️ 正在进行OCR识别...
✅ 文字识别完成
📝 识别结果:[提取的文字内容]
🎨 图像信息:1920x1080, RGB格式
💬 您: 转录这段语音:./audio/meeting.wav
🤖 SyberAgent: 🎵 正在进行语音识别...
✅ 语音转录完成
🎤 Whisper识别结果 (语言: zh):
[转录的文字内容]
SyberAgent/
├── 🧠 监督智能体 (SupervisorAgent)
│ ├── 任务分析与路由
│ ├── 智能体协调
│ └── 结果整合
├── 💬 专业智能体团队
│ ├── 对话智能体 (ConversationalAgent)
│ ├── 搜索智能体 (WebSearchAgent)
│ ├── 分析智能体 (DataAnalysisAgent)
│ ├── 文件智能体 (FileProcessingAgent) ⭐
│ ├── 图像智能体 (ImageProcessingAgent) ⭐
│ └── 音频智能体 (AudioProcessingAgent) ⭐
└── ⚙️ 基础架构
├── LangGraph 工作流引擎
├── 状态管理系统
└── 配置管理系统
- LangGraph: 智能体工作流编排
- LangChain: LLM 应用开发框架
- AsyncIO: 异步处理架构
- DeepSeek: 主要语言模型
- Whisper: 语音识别模型
- EasyOCR + Tesseract: OCR识别引擎
- 文档处理:
python-docx,PyPDF2,pypdf,python-pptx - 图像处理:
opencv-python,Pillow,scikit-image - 音频处理:
librosa,soundfile,pydub
- pandas: 数据处理
- matplotlib: 数据可视化
- numpy: 数值计算
syberagent/
├── agents/ # 智能体模块
│ ├── base_agent.py # 基础智能体接口
│ ├── conversational.py # 对话智能体
│ ├── web_search.py # 网络搜索智能体
│ ├── data_analysis.py # 数据分析智能体
│ ├── file_processing.py # 文件处理智能体 ⭐
│ ├── image_processing.py # 图像处理智能体 ⭐
│ └── audio_processing.py # 音频处理智能体 ⭐
├── core/ # 核心系统
│ ├── config.py # 配置管理
│ ├── supervisor.py # 监督智能体
│ ├── workflow_engine.py # 工作流引擎
│ └── state_manager.py # 状态管理
├── tools/ # 工具模块
├── examples/ # 使用示例
├── main.py # 主程序入口
├── requirements.txt # 依赖列表
└── README.md # 项目文档
- 📄 批量文档处理和分析
- 📊 数据报表生成
- 🔍 信息检索和整理
- 🖼️ 图片批量OCR识别
- 🎵 音频内容转录
- 📝 多媒体内容分析
- 💬 自然语言交互
- 🧠 复杂任务规划
- 🔄 多模态内容处理
# AI 模型配置
API_KEY=your_api_key
BASE_URL=https://api.deepseek.com/v1
MODEL=deepseek-chat
# 搜索功能配置
TAVILY_API_KEY=your_tavily_api_key
# 系统配置
LOG_LEVEL=INFO
MAX_FILE_SIZE=100MB# core/config.py
WHISPER_MODEL_SIZE = "base" # tiny, base, small, medium, large
OCR_ENGINES = ["easyocr", "tesseract"]
IMAGE_MAX_SIZE = (2048, 2048)
AUDIO_MAX_DURATION = 3600 # 秒- 大文件分块处理
- 模型延迟加载
- 缓存机制优化
- 异步并发处理
- GPU 加速支持 (CUDA)
- 批量处理优化
欢迎贡献代码!请遵循以下步骤:
- Fork 项目
- 创建功能分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 打开 Pull Request
详细贡献指南请参考 CONTRIBUTING.md
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。
- SyberAgent 1.0 - PC本地自动化先驱 (原项目)
- SyberAgent 2.0 - 多智能体AI系统革新 (当前版本)
- LangChain - LLM 应用开发框架
- LangGraph - 智能体工作流编排
- OpenAI Whisper - 语音识别技术
- EasyOCR - OCR 识别引擎
- OpenCV - 计算机视觉库
- FastAPI - 现代Web框架
- @cyberzhang1 - SyberAgent 1.0原作者,为项目奠定了坚实基础
- 开源社区贡献者 - 感谢所有提交Issue、PR和建议的开发者
- Beta测试用户 - 感谢早期用户的反馈和测试
- ⭐ GitHub Star - 支持项目发展
- 🍴 Fork项目 - 参与开发
- 💬 讨论区 - 交流想法
- 🐛 问题反馈 - 报告Bug
- v2.1 - 增强GUI界面、批量处理优化
- v2.2 - 插件系统、自定义智能体
- v3.0 - 分布式部署、企业级功能
🚀 SyberAgent 2.0 - 让AI智能体协作触手可及!
⭐ 如果这个项目对您有帮助,请给个星标支持!我们的目标是构建最强大的开源多智能体AI系统。