Skip to content

guinea-cat/BUSINESS

Repository files navigation

2.3记:这些叫-=等特殊符号的commit记录对代码架构几乎没有改动,仅有个别几行代码的改动,主要是提示词等内容改动。=版本:把md里会输出not found,not mentioned的东西隐藏了,注释掉了

🚀 SAGE 商业潜力 AI 评测系统

这是一款专为商业计划书(BP)设计的全自动深度分析系统。基于 DeepSeek(文本推理)与 Qwen-VL(视觉理解),结合 Serper.dev 实时联网搜索,为投资人及创业者提供 VC 级的深度研报生成能力。


🛠️ 核心工作流程

整个分析系统通过精心设计的并发流水线,实现了从原始文件到深度报告的闭环处理:

  1. PDF 解析与内容提取
    • 利用 PyMuPDF (fitz) 高效解析 PDF。
    • 双路提取:同步提取全文文本与高清图片,确保文字信息与视觉图表(如架构图、财务报表)均被捕获。
  2. 图片智能预处理
    • 精准过滤:自动剔除小于 5KB 的图标及异常长宽比(如页眉页脚线)的干扰图片。
    • 优化排序:根据文件体积降序排列,优先分析信息量更大的复杂图表(上限 50 张)。
    • 规范化处理:自动缩放(最大宽度 1024px)并压缩为 JPEG 格式,平衡分析质量与 API 传输效率。
  3. 视觉并发分析 (Vision Logic)
    • 拼图策略:支持 2x2 或 3x3 拼图优化,将多张 BP 图片合并为单张大图,大幅减少 API 请求次数,降低 70%+ 的视觉分析成本。
    • 并发理解:使用 ThreadPoolExecutor 并发调用 Qwen-VL 模型,深度理解图表、趋势及产品原型。
  4. 赛道识别与关键词生成
    • 复合推理:单次 LLM 调用同时完成细分赛道识别与 10 个中英文精准关键词的提取,减少网络往返延迟。
  5. 并发联网搜索
    • 多线程检索:基于 Serper.dev 并发执行 10 组搜索任务,获取全球市场规模、政策动态、竞品情报及融资趋势。
  6. Map-Reduce 并发 JSON 生成
    • 任务拆分:将庞大的分析任务拆分为 多个并行子任务(基础信息组、外部情报组、估值模型组、风险评估组)。
    • 结果合并:多线程并行生成各模块 JSON 数据,最后自动汇总并执行 JSON 语法修复与字段补齐。
  7. 最终报告合成与格式化
    • 自动合成为结构清晰的 Markdown 研报,支持上标引用(如 [S1])追溯原始搜索证据。

🚀 运行指南

1. 环境准备

确保系统已安装 Python 3.9+。执行以下命令安装核心依赖集:

pip install -r requirements.txt

2. 环境变量配置

在项目根目录下新建 .env 文件,并配置以下密钥:

# 阿里云 DashScope API Key (用于 Qwen-Plus 和 Qwen-VL-Plus)
DASHSCOPE_API_KEY=你的阿里云密钥

# Serper.dev API Key (用于 Google 搜索)
SERPER_API_KEY=你的Serper密钥

3. 阿里云 DashScope 接入

本项目已适配阿里云 DashScope 的 OpenAI 兼容端点:

  • 文本模型:默认使用 qwen-plus(逻辑推理能力强)。
  • 视觉模型:默认使用 qwen-vl-plus(视觉理解精度高)。
  • 端点地址https://dashscope.aliyuncs.com/compatible-mode/v1

4. 代码结构说明

  • app.py: Gradio Web 界面入口,负责 UI 交互与实时进度展示。
  • agent.py: 核心大脑,实现 BusinessResearcher 类及多线程分析流水线。
  • utils.py: 工具箱,包含 PDF/图片处理、JSON 修复、搜索封装等底层逻辑。
  • config.py: 集中管理 API 密钥、模型参数及系统级 Prompts。

5. 启动与使用

执行启动命令:

python app.py

程序启动后,通过浏览器访问 http://localhost:8081。上传 PDF 文件,点击“开始全自动分析”,约 45-60 秒后即可获得完整研报。

终止程序运行可用:

taskkill /IM python.exe /F

✨ 性能优化特性

  • 极速分析:通过 4 路并发 Map-Reduce 与并发搜索,将原本繁琐的串行流程大幅压缩。
  • 视觉成本优化:拼图策略显著降低了多模态模型的 Token 消耗和调用频率。
  • 鲁棒性机制:内置自动 JSON 修复器(Repairer),能处理 LLM 偶发的截断或格式异常,确保流程不中断。
  • 增强文本融合:将视觉描述插入文本上下文,使 AI 能够“看图说话”,识别出纯文本无法解析的财务曲线或架构细节。

⚠️ 注意事项

  • 请确保您的阿里云账户已开通模型服务权限并有足够余额。
  • Serper.dev 提供免费额度(约 2500 次搜索),建议根据需求合理使用。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages