Skip to content

D11223/Cortex-Flow

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Cortex-Flow

AI 驱动的产品趋势分析与深度竞品研究工具。自动搜索、抓取、分析科技产品信息,生成结构化的竞品分析报告。

功能特性

  • 多策略智能搜索: 自动搜索 CES 新品、高价值产品、已知明星产品
  • 深度信息提取: 使用 LLM 从网页内容中提取产品技术方案、商业价值、目标受众等详细信息
  • 多源印证: 从多个来源交叉验证产品信息,提高数据可信度
  • 社交媒体分析: 自动分析 YouTube、B站、小红书、微信公众号、抖音、知乎、Twitter 上的产品讨论和情感倾向
  • 🆕 中文科技媒体挖掘: 自动搜索36氪、虎嗅、雷锋网、爱范儿、极客公园、少数派等高质量科技媒体
  • 产品图片分析: 使用 Gemini 视觉能力分析产品外观特征
  • 智能缓存系统: 缓存搜索结果和网页内容,大幅减少重复 API 调用
  • 自动生成报告: 输出 Markdown 格式的专业竞品分析报告
  • 🆕 PPT 自动生成: 将品类分析报告自动转换为专业 PowerPoint 演示文稿,支持图片、表格、图表等丰富元素

系统架构

┌─────────────────────────────────────────────────────────────────┐
│                         Cortex-Flow                              │
├─────────────────────────────────────────────────────────────────┤
│  main.py                    - 主程序入口和流程控制                │
│  search_agent.py            - 多平台搜索代理                      │
│  processor.py               - LLM 内容处理器                      │
│  gemini_client.py           - Google Gemini API 客户端           │
│  ppt_generator.py           - PPT 报告生成器                      │
│  cache_manager.py           - 智能缓存管理                        │
│  models.py                  - Pydantic 数据模型                   │
│  model_config.py            - 多模型配置                          │
│  high_value_products.py     - 高价值产品数据库                    │
└─────────────────────────────────────────────────────────────────┘

工作流程

程序运行分为 4 个阶段:

阶段 1: 多策略产品搜索(增强版)

  • CES/产品新闻搜索(中英文双语)
  • 高价值产品搜索(畅销、获奖、高价)
  • 中文科技媒体深度搜索(36氪、虎嗅、雷锋网、爱范儿、极客公园、少数派、什么值得买等)
  • 知乎高质量讨论挖掘
  • 已知高价值产品定向搜索

阶段 2: 内容抓取与信息提取

  • 评估搜索结果相关性
  • 抓取网页完整内容
  • LLM 提取结构化产品信息
  • 多源信息合并去重

阶段 3: 深度分析(可选)

  • 对每个产品进行额外搜索
  • 多源交叉印证
  • 提升信息可信度等级

阶段 4: 社交媒体分析 & 报告生成(增强版)

  • 全平台搜索:YouTube、B站、小红书、微信公众号、抖音、知乎、Twitter
  • 深度内容抓取:对高相关性页面进行完整内容爬取
  • 智能情感分析:基于平台特性定制分析策略
  • 搜索产品图片并用 AI 分析
  • 生成综合分析报告(Markdown + PPT)

快速开始

1. 安装依赖

# 使用 pip
pip install -r requirements.txt

# 或使用 uv
uv sync

2. 配置环境变量

复制示例配置文件并填写 API Key:

cp env.example .env

编辑 .env 文件,配置以下必需的 API Key:

# 核心 API(必需)
ZHIPU_API_KEY=your_zhipu_api_key            # 智谱搜索+网页读取(主用)
# 智谱搜索方式:mcp = 官方 webSearchPrime(套餐余量);不设 = chat 接口(如 web-search-pro)
# ZHIPU_SEARCH_BACKEND=mcp
APIFY_API_TOKEN=your_apify_api_token        # 社交媒体数据(可选)

# 备用搜索(可选,额度更新后可启用 ENABLE_TAVILY_FIRECRAWL=true)
# FIRECRAWL_API_KEY=your_firecrawl_api_key  # 网页抓取
# TAVILY_API_KEY=your_tavily_api_key        # 智能搜索

# LLM 配置 - 通过 OpenRouter(必需)
OPENAI_API_KEY=your_openrouter_api_key
OPENAI_BASE_URL=https://openrouter.ai/api/v1
OPENAI_MODEL_NAME=openai/gpt-4o-mini        # 或其他模型

# Google Gemini(推荐,用于图片分析)
GOOGLE_API_KEY=your_google_api_key

3. 运行分析

# 基本使用 - 分析某个品类
python main.py "AI陪伴玩具"

# 深度分析模式 - 对每个产品进行多源印证
python main.py "智能眼镜" --deep

# 禁用缓存 - 强制重新调用 API
python main.py "机器人" --no-cache

# 清除缓存后运行
python main.py "智能家居" --clear-cache

# 分析完成后自动生成 PPT
python main.py "智能眼镜" --deep --ppt

# 仅生成 PPT(使用已有的分析报告)
python main.py "智能眼镜" --ppt-only

命令行参数

参数 说明
keyword 产品关键词(必需),如 "AI陪伴玩具"、"智能眼镜"
--deep 启用深度分析模式,对每个产品进行多源印证
--no-cache 禁用缓存,强制重新调用所有 API
--clear-cache 运行前清除所有缓存
--ppt 分析完成后自动生成品类分析 PPT
--ppt-only 仅生成 PPT(跳过分析,使用已有报告)

输出结果

报告目录结构

reports/
└── AI陪伴玩具/
    ├── report_LOVOT.md
    ├── report_Sony_Aibo.md
    ├── report_Moflin.md
    └── AI陪伴玩具_分析报告_20260130_143000.pptx  # 生成的PPT

报告内容结构

每个产品报告包含以下章节:

  1. 产品形态: 外观设计、尺寸重量、交互方式、核心亮点
  2. 技术方案: 传感器、AI模型、算力架构、连接方式
  3. 目标受众: 用户画像、使用场景、重点市场
  4. 商业价值: 价格、销量、营收估算、融资情况、市场地位
  5. 社交媒体热度: 各平台情感分析、KOL提及
  6. 综合分析: 产品定位、市场机会、技术壁垒
  7. 投资/创业建议: 赛道评估、机会与风险

PPT 报告功能

系统支持将品类分析报告自动转换为专业的 PowerPoint 演示文稿。

PPT 包含以下内容:

  1. 封面页 - 品类名称、分析日期
  2. 目录页 - 完整的报告结构导航
  3. 执行摘要 - 市场概况、关键趋势、投资机会与风险
  4. 市场概况 - 竞争格局、技术趋势、目标市场、未来展望
  5. 产品矩阵对比 - 所有产品的横向对比表格
  6. 产品详情页 - 每个产品的详细分析(含图片、技术方案、社交热度)
  7. 社交媒体热度分析 - 各平台热度对比
  8. 竞争格局分析 - 产品定位矩阵
  9. 投资洞察与建议 - 机会、风险、战略建议
  10. 总结与展望 - 品类发展趋势总结

使用方式:

# 方式一:分析完成后自动生成
python main.py "智能眼镜" --ppt

# 方式二:基于已有报告单独生成
python main.py "智能眼镜" --ppt-only

# 方式三:直接调用生成器
python ppt_generator.py "智能眼镜"

# 方式四:自然语言描述调研需求
uv run python main.py "帮我查一下AI智能语音硬件相关的产品,尤其 注重对标苹果AirTAG2那种规划销量也很高的高价值产品" --deep --ppt

特点:

  • 自动使用 AI 汇总多个产品报告,生成综合洞察
  • 支持产品图片展示
  • 专业商务风格配色
  • 16:9 宽屏格式,适合演示

历史数据

程序会在 products_data.json 中保存所有已分析的产品信息,避免重复处理。

API 服务说明

搜索与内容获取(按优先级排序)

服务 用途 优先级 获取地址
智谱 AI 联网搜索 + 网页读取 主用(默认唯一) https://open.bigmodel.cn
Tavily 智能搜索 API 可选备用(ENABLE_TAVILY_FIRECRAWL=true https://tavily.com
Firecrawl 网页内容抓取 可选备用(ENABLE_TAVILY_FIRECRAWL=true https://firecrawl.dev

其他服务

服务 用途 获取地址
Apify 社交媒体数据采集 https://apify.com
OpenRouter 统一 LLM 接入 https://openrouter.ai
Google Gemini 图片分析、交叉验证 https://aistudio.google.com

API 调用策略

默认(ENABLE_TAVILY_FIRECRAWL=false):
  搜索:仅智谱 web_search
  内容:智谱 web_reader -> 简单HTTP

启用备用后(ENABLE_TAVILY_FIRECRAWL=true):
  搜索:智谱 web_search -> Tavily
  内容:智谱 web_reader -> 简单HTTP -> Firecrawl
  • 默认仅用智谱,Tavily/Firecrawl 不参与(适合额度用完时)
  • 额度更新后,在 .env 设置 ENABLE_TAVILY_FIRECRAWL=true 可恢复备用能力
  • 在分析结束时显示各 API 的调用统计

🆕 平台高价值密度优化

基于实际数据分析,系统按平台"高价值信息密度"(同时包含价格和销量信息的比例)智能分配搜索资源:

梯队 密度 平台示例 搜索策略
⭐⭐⭐ 第一梯队 ≥60% 东方财富研报、京东、什么值得买 优先搜索,分配更多结果
⭐⭐ 第二梯队 40-60% YouTube、TechCrunch、IT之家 正常搜索
⭐ 第三梯队 25-40% 知乎、36氪、腾讯新闻 限制结果数,仅用于口碑
❌ 第四梯队 <25% CES官网、PCMag、澎湃新闻 跳过,节省API额度

优化效果

  • 金融研报和电商平台搜索可获取完整的价格、销量、市场规模数据
  • 低效平台(如新闻聚合站)结果数被限制,节省API调用
  • 知乎等社交平台仅用于口碑分析,不作为商业数据来源

支持的 LLM 模型

通过 OpenRouter 支持多种模型:

模型 特点
openai/gpt-4o 高质量,支持图像
openai/gpt-4o-mini 性价比高(默认)
anthropic/claude-3.5-sonnet 高质量
google/gemini-pro-1.5 Google 高质量
google/gemini-flash-1.5 Google 快速
deepseek/deepseek-chat 国产性价比

缓存配置

系统默认启用三级缓存,可通过环境变量配置过期时间:

SEARCH_CACHE_EXPIRY_HOURS=24   # 搜索结果缓存(默认24小时)
CONTENT_CACHE_EXPIRY_HOURS=72  # 网页内容缓存(默认72小时)
SOCIAL_CACHE_EXPIRY_HOURS=12   # 社交媒体缓存(默认12小时)

缓存文件存储在 cache/ 目录下。

高价值产品数据库

high_value_products.py 中预配置了多个品类的明星产品,确保不遗漏重要竞品:

  • AI 陪伴类: LOVOT, Aibo, Moflin, Vector, Cozmo 等
  • 智能眼镜类: Ray-Ban Meta, Apple Vision Pro, XREAL Air 等
  • 智能家居类: Echo Show, Google Nest Hub, 小度, 天猫精灵 等
  • 智能穿戴类: Apple Watch, Oura Ring 等
  • 机器人类: Spot, Atlas, Optimus, Figure 01 等

可根据需要扩展产品数据库。

高级配置

启用 Tavily/Firecrawl 备用

当 Tavily/Firecrawl API 额度充足时,可在 .env 中设置:

ENABLE_TAVILY_FIRECRAWL=true

启用后,智谱失败或结果不足时会自动降级到 Tavily 搜索、Firecrawl 抓取。

启用多模型交叉验证

.env 中设置:

ENABLE_CROSS_VALIDATION=true

启用后,关键信息(如产品名称)会使用多个模型验证,提高准确性,但会增加 API 调用次数。

自定义 Gemini 模型

# 可选模型: gemini-2.0-flash, gemini-1.5-pro, gemini-1.5-flash
# 在代码中通过 GeminiClient(model_name="...") 指定

项目依赖

firecrawl-py      # 网页抓取
tavily-python     # 智能搜索
pydantic          # 数据模型
openai            # OpenRouter 客户端
python-dotenv     # 环境变量
pandas            # 数据处理
youtube-transcript-api  # YouTube 字幕
apify-client      # Apify 社交数据
google-genai      # Google Gemini API
pillow            # 图像处理
python-pptx       # PPT 生成

运行示例

$ python main.py "AI陪伴玩具" --deep

============================================================
🔍 开始分析: AI陪伴玩具
   模式: 深度分析(多源印证)
============================================================

📦 缓存状态: 搜索=15, 内容=42, 社交=8

📡 阶段 1: 多策略产品搜索...
   - CES/产品新闻搜索: 12 条结果
   - 高价值产品搜索: 8 条结果
   - 已知高价值产品: 8 个
      🔍 搜索: LOVOT (Groove X)
      🔍 搜索: Moflin (Vanguard Industries)
      ...
   ✅ 总计去重后: 25 条待处理

📝 阶段 2: 内容抓取与信息提取...
   [1/25] 🔎 评估: LOVOT: The Cute Robot That Wants Your Love...
              ✅ 相关性高,抓取中...
              ✨ 发现新产品: LOVOT
   ...
   ✅ 共发现 6 个产品

🔬 阶段 3: 深度分析(多源印证)...
   [LOVOT] 搜索更多信息来源...
      + 补充来源: https://...
   ...

📊 阶段 4: 社交媒体分析 & 报告生成...
   [LOVOT] 分析社交媒体 (YouTube/B站/小红书/微信/Twitter)...
   [LOVOT] 搜索产品图片...
      找到 4 张图片
   [LOVOT] 使用 Gemini 分析产品图片...
   [LOVOT] 生成报告...
   [LOVOT] ✅ 保存到: reports/AI陪伴玩具/report_LOVOT.md

========== 缓存统计 ==========
搜索缓存: 命中 18 / 未命中 7
内容缓存: 命中 12 / 未命中 13
社交缓存: 命中 3 / 未命中 3
总命中率: 58.9% (33/56)
================================

============================================================
✅ 分析完成!
   - 发现产品: 6 个
   - 报告目录: reports/AI陪伴玩具
============================================================

License

MIT

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages