Skip to content

DanielCai402/Factor-Research

Repository files navigation

factor-research

量化因子研究自动化 Pipeline,每日抓取学术论文与量化博客,用 Claude API 提炼结构化因子 idea 并生成 Python 实现代码,结果存入本地 SQLite 知识库,并输出每日 Markdown 摘要。

功能

  1. 每日定时抓取:arXiv / SSRN、英文量化博客 RSS、雪球社区、券商研报 PDF
  2. 因子解析:Claude API 从文章中提炼结构化因子 idea(名称 / 逻辑 / 数据需求 / 计算方式 / 适用范围)
  3. 代码生成:Claude API 为每个因子生成 Python 实现代码
  4. 知识库:本地 SQLite 存储所有因子与来源文章
  5. 每日摘要:输出 Markdown 摘要,可选发送 Email

项目结构

factor-research/
├── scrapers/           各来源爬虫
│   ├── arxiv_scraper.py
│   ├── rss_scraper.py
│   ├── xueqiu_scraper.py
│   └── pdf_scraper.py
├── parser/             Claude API 解析文章 → 结构化因子
│   └── factor_parser.py
├── knowledge_base/     SQLite 存储
│   └── db.py
├── generator/          Claude API 代码生成
│   └── code_generator.py
├── digest/             Markdown + Email 摘要
│   └── digest_generator.py
├── scheduler/          定时任务
│   └── runner.py
├── data/
│   ├── raw/pdf_inbox/  券商研报 PDF 收件箱(手动放入)
│   ├── factors/        SQLite 数据库
│   └── digests/        每日摘要输出
├── config.example.py   配置模板
├── config.py           本地配置(不提交)
├── main.py             手动触发入口
└── requirements.txt

快速开始

# 1. 安装依赖
pip install -r requirements.txt

# 2. 配置
cp config.example.py config.py
# 编辑 config.py,填入 ANTHROPIC_API_KEY 等配置

# 3. 手动运行一次完整 pipeline
python main.py

# 4. 启动定时任务(每日 07:00 自动运行)
python scheduler/runner.py

模块说明

模块 文件 说明
知识库 knowledge_base/db.py SQLite CRUD,articles + factors 两张表
爬虫 scrapers/ 各来源独立爬虫,返回统一 Article 格式
解析器 parser/factor_parser.py 调用 Claude API 提炼因子 idea
代码生成 generator/code_generator.py 调用 Claude API 生成 Python 实现
摘要 digest/digest_generator.py 生成 Markdown 摘要,可选发邮件
调度器 scheduler/runner.py 每日定时运行完整 pipeline

About

Daily factor retrieval

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages