Skip to content

cyberzhang1/SyberAgent

Repository files navigation

🤖 SyberAgent 2.0 - 增强多智能体AI助手系统

Python License AI LangGraph Version Stars

🚀 从PC本地自动化到云端AI协作的全面升级
基于LangGraph的新一代多智能体系统,支持文档、图像、音频等全方位多媒体AI处理能力

🇺🇸 English | 🇨🇳 中文文档

📖 目录

✨ 核心特性

🆕 2.0 版本新增特性

🎯 多媒体AI处理引擎

  • 📄 智能文档处理: PDF/Word/Excel/PPT全格式支持 + 双引擎OCR
  • 🖼️ 计算机视觉分析: OpenCV + Pillow图像处理 + 智能识别
  • 🎵 音频智能分析: Whisper语音识别 + librosa音频特征提取
  • 🔄 格式转换中心: 支持50+文件格式互相转换

🤖 智能体协作矩阵

  • 🧠 监督智能体: LangGraph工作流编排 + 任务智能分解
  • 💬 对话智能体: 上下文记忆 + 多轮对话管理
  • 🔍 搜索智能体: Tavily实时搜索 + 信息智能筛选
  • 📊 分析智能体: pandas数据处理 + matplotlib可视化
  • 📄 文件智能体: 全格式文档解析 + 内容智能提取 ⭐ 新增
  • 🖼️ 图像智能体: 多引擎视觉分析 + 智能增强 ⭐ 新增
  • 🎵 音频智能体: 多语言识别 + 音频特征分析 ⭐ 新增

🔧 技术架构升级

  • LangGraph: 智能体工作流编排引擎
  • FastAPI: 高性能异步API框架
  • WebSocket: 实时通信支持
  • 多模型支持: DeepSeek/OpenAI/Claude/Gemini
  • 异步处理: 高并发任务处理

🧠 智能体架构 (继承 1.0 + 全面增强)

  • 监督智能体: 任务分析、路由决策、协调执行
  • 对话智能体: 自然语言交互、上下文管理
  • 网络搜索智能体: 实时信息检索、网页分析
  • 数据分析智能体: 数据处理、可视化分析
  • 文件处理智能体: 文档解析、OCR识别 ⭐ 2.0 新增
  • 图像处理智能体: 计算机视觉、图像增强 ⭐ 2.0 新增
  • 音频处理智能体: 语音识别、音频分析 ⭐ 2.0 新增

📋 增强功能

📄 文档处理能力

  • 支持格式: PDF, Word (.docx), Excel (.xlsx), PowerPoint (.pptx), 文本文件
  • 核心功能:
    • 文档内容提取和分析
    • OCR 文字识别 (pytesseract + easyocr)
    • 文档格式转换
    • 表格数据分析
    • 文档摘要生成

🖼️ 图像处理能力

  • 支持格式: JPG, PNG, GIF, BMP, TIFF, WebP
  • 核心功能:
    • 计算机视觉分析 (OpenCV)
    • 图像增强和滤镜
    • OCR 文字识别 (多引擎)
    • 图像格式转换
    • 颜色分析和统计

🎵 音频处理能力

  • 支持格式: WAV, MP3, FLAC, OGG, M4A, AAC
  • 核心功能:
    • 语音转文字 (Whisper + SpeechRecognition)
    • 音频特征分析 (librosa)
    • 音频格式转换
    • 音频质量增强
    • 多语言语音识别

🔧 技术栈

  • 核心框架: LangGraph, LangChain
  • AI模型: DeepSeek, OpenAI GPT, Claude, Gemini
  • 文档处理: python-docx, PyPDF2, openpyxl, python-pptx
  • 图像处理: OpenCV, Pillow, pytesseract, easyocr
  • 音频处理: librosa, soundfile, pydub, whisper, SpeechRecognition
  • 数据分析: pandas, numpy, matplotlib, seaborn
  • Web框架: FastAPI, uvicorn

🚀 快速开始

前置要求

  • Python 3.8+
  • pip 包管理器

安装步骤

  1. 克隆仓库
git clone https://github.com/your-username/syberagent.git
cd syberagent
  1. 创建虚拟环境
python -m venv .venv
# Windows
.venv\Scripts\Activate.ps1
# Linux/Mac  
source .venv/bin/activate
  1. 安装依赖
# 基础依赖
pip install -r requirements.txt

# 可选:开发依赖
pip install -r requirements-dev.txt
  1. 配置环境
# 复制环境配置模板
cp .env.example .env

# 编辑 .env 文件,配置API密钥
# API_KEY=your_api_key_here
# TAVILY_API_KEY=your_tavily_key_here
  1. 运行系统
python main.py

📖 使用指南

基础对话

💬 您: 你好,请介绍一下你的能力

🤖 SyberAgent: 我是一个多智能体AI助手,具备以下能力:
- 自然语言对话和问答
- 实时网络搜索和信息检索  
- 数据分析和可视化
- 文档处理和OCR识别
- 图像分析和处理
- 音频处理和语音识别

文档处理示例

💬 您: 分析这个PDF文件:./documents/report.pdf

🤖 SyberAgent: 📄 正在分析PDF文档...
✅ 文档解析完成
📊 共提取 15 页内容,包含 3 个表格和 8 张图片
📝 文档摘要:这是一份关于...的报告

图像分析示例

💬 您: 识别这张图片中的文字:./images/screenshot.png

🤖 SyberAgent: 🖼️ 正在进行OCR识别...
✅ 文字识别完成
📝 识别结果:[提取的文字内容]
🎨 图像信息:1920x1080, RGB格式

音频处理示例

💬 您: 转录这段语音:./audio/meeting.wav

🤖 SyberAgent: 🎵 正在进行语音识别...
✅ 语音转录完成
🎤 Whisper识别结果 (语言: zh):
[转录的文字内容]

🛠️ 系统架构

SyberAgent/
├── 🧠 监督智能体 (SupervisorAgent)
│   ├── 任务分析与路由
│   ├── 智能体协调
│   └── 结果整合
├── 💬 专业智能体团队
│   ├── 对话智能体 (ConversationalAgent)
│   ├── 搜索智能体 (WebSearchAgent)  
│   ├── 分析智能体 (DataAnalysisAgent)
│   ├── 文件智能体 (FileProcessingAgent) ⭐
│   ├── 图像智能体 (ImageProcessingAgent) ⭐
│   └── 音频智能体 (AudioProcessingAgent) ⭐
└── ⚙️ 基础架构
    ├── LangGraph 工作流引擎
    ├── 状态管理系统
    └── 配置管理系统

🔧 技术栈

核心框架

  • LangGraph: 智能体工作流编排
  • LangChain: LLM 应用开发框架
  • AsyncIO: 异步处理架构

AI 模型集成

  • DeepSeek: 主要语言模型
  • Whisper: 语音识别模型
  • EasyOCR + Tesseract: OCR识别引擎

多媒体处理

  • 文档处理: python-docx, PyPDF2, pypdf, python-pptx
  • 图像处理: opencv-python, Pillow, scikit-image
  • 音频处理: librosa, soundfile, pydub

数据分析

  • pandas: 数据处理
  • matplotlib: 数据可视化
  • numpy: 数值计算

📁 项目结构

syberagent/
├── agents/                    # 智能体模块
│   ├── base_agent.py         # 基础智能体接口
│   ├── conversational.py     # 对话智能体
│   ├── web_search.py         # 网络搜索智能体
│   ├── data_analysis.py      # 数据分析智能体
│   ├── file_processing.py    # 文件处理智能体 ⭐
│   ├── image_processing.py   # 图像处理智能体 ⭐
│   └── audio_processing.py   # 音频处理智能体 ⭐
├── core/                     # 核心系统
│   ├── config.py            # 配置管理
│   ├── supervisor.py        # 监督智能体
│   ├── workflow_engine.py   # 工作流引擎
│   └── state_manager.py     # 状态管理
├── tools/                    # 工具模块
├── examples/                 # 使用示例
├── main.py                   # 主程序入口
├── requirements.txt          # 依赖列表
└── README.md                # 项目文档

🎯 使用场景

办公自动化

  • 📄 批量文档处理和分析
  • 📊 数据报表生成
  • 🔍 信息检索和整理

内容处理

  • 🖼️ 图片批量OCR识别
  • 🎵 音频内容转录
  • 📝 多媒体内容分析

智能助手

  • 💬 自然语言交互
  • 🧠 复杂任务规划
  • 🔄 多模态内容处理

⚙️ 配置说明

环境变量配置

# AI 模型配置
API_KEY=your_api_key
BASE_URL=https://api.deepseek.com/v1
MODEL=deepseek-chat

# 搜索功能配置  
TAVILY_API_KEY=your_tavily_api_key

# 系统配置
LOG_LEVEL=INFO
MAX_FILE_SIZE=100MB

模型配置

# core/config.py
WHISPER_MODEL_SIZE = "base"  # tiny, base, small, medium, large
OCR_ENGINES = ["easyocr", "tesseract"]
IMAGE_MAX_SIZE = (2048, 2048)
AUDIO_MAX_DURATION = 3600  # 秒

🔍 性能优化

内存优化

  • 大文件分块处理
  • 模型延迟加载
  • 缓存机制优化

处理速度

  • 异步并发处理
  • GPU 加速支持 (CUDA)
  • 批量处理优化

🤝 贡献指南

欢迎贡献代码!请遵循以下步骤:

  1. Fork 项目
  2. 创建功能分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 打开 Pull Request

详细贡献指南请参考 CONTRIBUTING.md

📄 许可证

本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。

🙏 致谢

🏆 SyberAgent 发展历程

  • SyberAgent 1.0 - PC本地自动化先驱 (原项目)
  • SyberAgent 2.0 - 多智能体AI系统革新 (当前版本)

🤝 开源社区支持

💡 特别鸣谢

  • @cyberzhang1 - SyberAgent 1.0原作者,为项目奠定了坚实基础
  • 开源社区贡献者 - 感谢所有提交Issue、PR和建议的开发者
  • Beta测试用户 - 感谢早期用户的反馈和测试

🌟 社区与支持

加入我们的社区

版本规划

  • v2.1 - 增强GUI界面、批量处理优化
  • v2.2 - 插件系统、自定义智能体
  • v3.0 - 分布式部署、企业级功能

🚀 SyberAgent 2.0 - 让AI智能体协作触手可及!

⭐ 如果这个项目对您有帮助,请给个星标支持!我们的目标是构建最强大的开源多智能体AI系统。

About

下一代PC本地自动化多智能体框架

Topics

Resources

License

Contributing

Stars

Watchers

Forks

Packages

No packages published

Languages