量化因子研究自动化 Pipeline,每日抓取学术论文与量化博客,用 Claude API 提炼结构化因子 idea 并生成 Python 实现代码,结果存入本地 SQLite 知识库,并输出每日 Markdown 摘要。
- 每日定时抓取:arXiv / SSRN、英文量化博客 RSS、雪球社区、券商研报 PDF
- 因子解析:Claude API 从文章中提炼结构化因子 idea(名称 / 逻辑 / 数据需求 / 计算方式 / 适用范围)
- 代码生成:Claude API 为每个因子生成 Python 实现代码
- 知识库:本地 SQLite 存储所有因子与来源文章
- 每日摘要:输出 Markdown 摘要,可选发送 Email
factor-research/
├── scrapers/ 各来源爬虫
│ ├── arxiv_scraper.py
│ ├── rss_scraper.py
│ ├── xueqiu_scraper.py
│ └── pdf_scraper.py
├── parser/ Claude API 解析文章 → 结构化因子
│ └── factor_parser.py
├── knowledge_base/ SQLite 存储
│ └── db.py
├── generator/ Claude API 代码生成
│ └── code_generator.py
├── digest/ Markdown + Email 摘要
│ └── digest_generator.py
├── scheduler/ 定时任务
│ └── runner.py
├── data/
│ ├── raw/pdf_inbox/ 券商研报 PDF 收件箱(手动放入)
│ ├── factors/ SQLite 数据库
│ └── digests/ 每日摘要输出
├── config.example.py 配置模板
├── config.py 本地配置(不提交)
├── main.py 手动触发入口
└── requirements.txt
# 1. 安装依赖
pip install -r requirements.txt
# 2. 配置
cp config.example.py config.py
# 编辑 config.py,填入 ANTHROPIC_API_KEY 等配置
# 3. 手动运行一次完整 pipeline
python main.py
# 4. 启动定时任务(每日 07:00 自动运行)
python scheduler/runner.py| 模块 | 文件 | 说明 |
|---|---|---|
| 知识库 | knowledge_base/db.py |
SQLite CRUD,articles + factors 两张表 |
| 爬虫 | scrapers/ |
各来源独立爬虫,返回统一 Article 格式 |
| 解析器 | parser/factor_parser.py |
调用 Claude API 提炼因子 idea |
| 代码生成 | generator/code_generator.py |
调用 Claude API 生成 Python 实现 |
| 摘要 | digest/digest_generator.py |
生成 Markdown 摘要,可选发邮件 |
| 调度器 | scheduler/runner.py |
每日定时运行完整 pipeline |