版本说明:中文版是当前 2026 Springer 出版主线,结构冻结为 14 篇、51 章、15 个实战项目与 7 个附录(A–G)。英文版和日文版仍在跟进翻译,站点中会保留翻译状态说明页。
"Data is the new oil, but only if you know how to refine it."
在大模型时代,数据质量决定模型上限。然而,市面上关于 LLM 数据工程的系统性资料极为稀缺——大多数团队仍在"摸着石头过河"。
本书正是为解决这一痛点而生。我们系统性地梳理了从预训练数据清洗到多模态对齐、从 RAG 检索增强到合成数据生成,再到 DataOps 平台建设与隐私合规治理的完整技术体系,涵盖:
- 🧹 预训练数据工程:如何从 Common Crawl 等海量噪声数据中提炼出高质量语料
- 🖼️ 多模态数据处理:图文对、视频、音频数据的采集、清洗与对齐
- 🎯 对齐数据构造:SFT 指令数据、RLHF 偏好数据、CoT 推理数据的自动化生成
- 🤖 推理与 Agent 数据:思维链、Tool-Use、多轮交互与记忆数据工程
- 🔍 RAG 数据流水线:企业级文档解析、语义切片与多模态检索
- ⚙️ DataOps 与平台建设:团队组织、数据版本管理、平台可观测性
- 🧾 数据资产与数据产品:资产目录、数据契约、价值评估与共享治理
- 🧠 智能化数据工程:Data Engineering Agent、自动化采集清洗、评测与 DataOps 自治
- 🔒 隐私合规与安全:数据治理框架、联邦学习与隐私保护技术
- 📊 专项数据集与评测实践:文档、表格、图表、医学 VQA、语音控制与推理数据工程案例
本书不仅有深入的理论讲解,更包含 15 个端到端项目案例研究,提供可运行代码、架构设计与工程复盘,让你能够把数据工程方法落到真实场景中。
在线阅读: https://datascale-ai.github.io/data_engineering_book/
从原始数据到端到端应用的完整数据工程流水线
📖 全书十四篇,51章 + 15个实战项目 + 7个附录(A–G)
│
├── 第一篇:总论与基础设施(第1-3章)
├── 第二篇:文本预训练数据工程(第4-7章)
├── 第三篇:多模态数据工程(第8-11章)
├── 第四篇:指令微调与偏好数据(第12-14章)
├── 第五篇:合成数据工程(第15-17章)
├── 第六篇:推理与 Agent 数据工程(第18-20章)
├── 第七篇:应用级数据工程(第21-23章)
├── 第八篇:数据运营与平台建设(第24-26章)
├── 第九篇:数据资产、数据产品与数据契约(第27-30章)
├── 第十篇:智能化数据工程与 Data Engineering Agent(第31-35章)
├── 第十一篇:隐私合规与数据安全(第36-37章)
├── 第十二篇:专项数据集与数据工程实践(第38-46章)
├── 第十三篇:开源大模型数据工程配方与范式(第47-51章)
└── 第十四篇:项目案例研究(P01-P15)
- Data-Centric AI 理念贯穿全书
- 覆盖 LLM 数据全生命周期:预训练 → 微调 → RLHF → RAG → DataOps
- 深入讲解 Scaling Laws、数据质量评估、多模态对齐、隐私合规等前沿话题
| 领域 | 技术选型 |
|---|---|
| 分布式计算 | Ray Data, Spark, Dask |
| 数据存储 | Parquet, WebDataset, 向量数据库 (Milvus/Qdrant) |
| 文本处理 | Trafilatura, KenLM, MinHash LSH, fastText 质量评分 |
| 多模态 | CLIP, ColPali, img2dataset |
| 数据版本 | DVC, LakeFS, MLflow |
| 平台可观测 | Great Expectations, Evidently AI, Apache Airflow |
| 隐私保护 | 联邦学习, 差分隐私, 安全多方计算 |
| 项目 | 核心技术 | 输出 |
|---|---|---|
| Mini-C4 预训练集 | Trafilatura + Ray + MinHash | 高质量文本语料库 |
| 法律专家 SFT | Self-Instruct + CoT | 领域指令数据集 |
| LLaVA 多模态指令 | Bbox 对齐 + 多图交错 | 视觉指令数据集 |
| 合成数学教材 | Evol-Instruct + 沙箱验证 | PoT 推理数据集 |
| 财报 RAG | ColPali + Qwen-VL | 多模态问答系统 |
| CoT 推理 + PRM | 过程奖励模型 | 推理过程数据集 |
| Agent Tool-Use | 工具调用链 + 轨迹标注 | Agent 训练数据集 |
| DataOps 平台 | Airflow + DVC + 质量监控 | 企业级数据运营体系 |
| 隐私保护流水线 | 联邦学习 + 差分隐私 | 合规训练数据流水线 |
| LLM 数据飞轮 | 在线反馈 + 持续迭代 | 端到端闭环系统 |
| Mini-DeepSeek 复现 | 多源混合 + 跨源去重 + Tokenizer | 开源预训练数据配方复现 |
| R1 推理飞轮 | 多路采样 + verifier + 拒绝采样 | 推理数据闭环 |
| 多模态指令工厂 | VLM 生成 + Judge 过滤 + 多语言扩展 | 多模态 SFT 数据集 |
| 视频生成数据集 | 镜头切分 + 运动过滤 + 多帧 Caption | T2V 训练数据流水线 |
| DataAgent 语义问数助手 | 语义层 + Text-to-SQL + 权限审计 | 企业级问数 Agent 案例研究 |
- Python 3.8+
- MkDocs Material
- mkdocs-static-i18n(多语言支持)
# 克隆仓库
git clone https://github.com/datascale-ai/data_engineering_book.git
cd data_engineering_book
# 安装依赖
pip install mkdocs-material mkdocs-glightbox pymdown-extensions "mkdocs-static-i18n[material]"
# 本地预览
mkdocs serve访问 http://127.0.0.1:8000 即可预览书籍(支持中/英/日切换)。
mkdocs build生成的静态文件位于 site/ 目录。
导出脚本需要本机可用 tectonic;使用 --split --compile 合并分篇 PDF 时还需要 pdfunite。图片完整性校验依赖 Pillow。
# 生成完整中文书稿 LaTeX,不立即编译 PDF
python scripts/export_zh_book_latex.py
# 按篇编译并合并 16K 审校 PDF(推荐)
python scripts/export_zh_book_latex.py --split --compile输出文件位于 output/pdf/。若只需抽样验证,可使用 --limit 3 --compile 或 --only part1/ --split --compile。
# 严格构建站点,检查导航、断链和多语言配置
mkdocs build --strict --clean
# 检查站点图片体积预算
python scripts/check_image_sizes.py
# 运行 P01-P14 的统一 smoke test,并生成 smoke_reports/
# P15 当前为文稿案例研究章,暂无独立代码目录
python scripts/run_all_project_smoke_tests.pydata_engineering_book/
├── docs/
│ ├── zh/ # 中文内容
│ │ ├── index.md # 中文首页
│ │ └── part1/ ~ part14/ # 各章节
│ ├── en/ # 英文内容
│ ├── ja/ # 日文内容
│ ├── images/ # 图片资源(中英共享)
│ ├── stylesheets/ # 自定义样式
│ └── javascripts/ # JavaScript (MathJax等)
├── .github/workflows/ # GitHub Actions 自动部署
├── images/ # 项目图片资源
├── mkdocs.yml # MkDocs 配置文件
├── LICENSE # 开源协议
├── README.md # 中文说明(本文件)
├── README_en.md # English README
└── README_ja.md # 日本語 README
- 大模型研发工程师
- 数据工程师 / MLOps / DataOps 工程师
- AI 产品经理(技术向)
- 对 LLM 数据流水线感兴趣的研究人员
於俊教授团队
实验室信息:
中国科学技术大学-语音及语言信息处理国家工程研究中心;中国科学技术大学-自动化系-多媒体计算及智能机器人研究中心;中国科学技术大学-自动化系-多模态智能体联合研究中心
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 提交 Pull Request
本项目采用 MIT 许可证 - 详见 LICENSE 文件。
- GitHub Issues: 提交问题
- 在线阅读: https://datascale-ai.github.io/data_engineering_book/
如果这本书对你有帮助,欢迎 Star 支持! ⭐
