AIInfraGuide（内容持续更新中）

从零开始深入理解 AI Infra 的核心全栈技术

在线浏览：https://caomaolufei.github.io/AIInfraGuide/

AI Infra 正在成为大模型时代最关键的工程能力之一。本项目系统梳理从 GPU 硬件到分布式训练、从 CUDA 编程到推理优化的完整技术栈，帮助工程师构建扎实的 AI 基础设施知识体系。同时提供了面试宝典模块（共收录 180+ 场面试真题，覆盖 40+ 家公司）。

🚀 为什么需要 AIInfraGuide

大模型时代，AI 基础设施（AI Infra）已经成为支撑训练、推理和服务的核心技术底座。然而，这个领域有一个显著的矛盾——技术迭代极快，但系统化的中文学习资料却严重匮乏。

很多工程师在学习 AI Infra 时面临相似的困境：

CUDA 编程的入门资料散落各处，缺乏从基础到算子优化的完整路径
分布式训练涉及 DDP、FSDP、3D 并行等众多概念，不知道该从哪里开始
推理优化技术（PagedAttention、量化、Speculative Decoding）发展迅猛，难以跟上节奏
性能分析工具（Nsight Systems、Nsight Compute）功能强大，但上手门槛不低

AIInfraGuide 正是为了解决这些问题而创建的——一个开源、系统、面向实践的 AI Infra 知识库，帮助工程师构建从硬件到软件、从训练到推理的完整知识体系。

📖 AIInfraGuide 内容体系

知识库围绕 4 大学习模块 + 2 个辅助板块 + 面试宝典，覆盖 AI Infra 工程师需要掌握的关键技术栈：

板块	涵盖内容
AIInfra 学习路线	系统化的学习路径、知识图谱、推荐资源
模块一：前置知识	编程语言基础、数学基础、Transformer 架构、PyTorch 框架、GPU 硬件概论、集合通信基础
模块二：CUDA 编程与算子优化	CUDA 编程入门、性能优化基础、Reduce/GEMM/Softmax/Attention 经典算子实现、AI 编译器、性能分析工具链
模块三：分布式训练	分布式训练总论、数据并行(DP/DDP/FSDP)、ZeRO 系列、张量并行与序列并行、流水线并行、3D 并行、训练框架实战
模块四：推理优化	LLM 推理基础、推理引擎核心技术、主流推理框架(vLLM 等)、量化、Speculative Decoding、PD 解耦架构、性能分析与 Benchmark
性能分析	Nsight Systems/Compute、Roofline 模型、Profiling 实战
面试宝典	目前共收录 180+ 场面试真题，覆盖 40+ 家公司，按梯队分类组织，助你高效备战拿下心仪 Offer

每篇文章都遵循「先白话后术语」的写作原则——先用通俗的语言解释"是什么、为什么需要"，再给出严谨的技术细节，确保读者既看得懂也学得对。

🗺️ AIInfra 学习路线

序号	文章	说明
0	从零理解 AI Infra	AI Infra 的定义、技术栈全貌与核心组件
1	AI Infra 学习路线	系统化的学习路径与知识图谱

📚 模块一：前置知识

涵盖 GPU 架构、编程语言基础、数学基础、Transformer 架构、PyTorch 框架和集合通信等核心前置知识，为后续深入 AI Infra 打好坚实基础。

章节	主要内容
第 1 章编程语言基础	Python 进阶、C/C++ 核心、Linux 与开发环境
第 2 章数学基础	线性代数、概率论与统计、微积分
第 3 章 Transformer 架构详解	Self-Attention、前馈网络、位置编码、归一化层、模型架构变种
第 4 章 PyTorch 框架	Tensor 与自动微分、Module 与训练流程、调试与性能分析
第 5 章 GPU 硬件概论	GPU 架构总览、存储层次、主流 GPU 规格对比、互联拓扑
第 6 章集合通信基础	通信原语、通信算法、NCCL

已更新文章：

序号	文章	说明
1	GPU 基础知识：从硬件架构到 AI 计算	CPU vs GPU、SM 架构、显存层级、Tensor Core
2	NVIDIA GPU 架构演进：从 Volta 到 Blackwell	V100 → A100 → H100 → B200 架构演进
3	Transformer 架构：快速入门篇	Encoder-Decoder 结构、Self-Attention 机制入门
4	AI Infra 工程师为什么必须懂 Transformer	从 Infra 视角理解 Transformer 的计算与显存特性
5	Transformer 全貌及代码实现	完整 Transformer 架构拆解与 PyTorch 实现

⚡ 模块二：CUDA 编程与算子优化

从 CUDA 编程入门到经典算子实现（Reduce、GEMM、Softmax、Attention），再到 AI 编译器和性能分析工具链，系统掌握 GPU 编程与算子优化技术。

章节	主要内容
第 1 章 CUDA 编程入门	开发环境搭建、编程模型、内存模型、第一个实用 Kernel
第 2 章 CUDA 性能优化基础	Warp 与执行模型、内存访问优化、Occupancy 与资源分配、同步与原子操作
第 3 章经典算子实现 - Reduce	朴素实现、共享内存+树形归约、Warp Shuffle 优化、多级归约
第 4 章经典算子实现 - GEMM	矩阵乘法基础、Shared Memory Tiling、进一步优化、与 cuBLAS 对比
第 5 章经典算子实现 - Softmax 与算子融合	Softmax 数值稳定实现、Online Softmax、算子融合
第 6 章 Attention 算子	FlashAttention V1/V2/V3、Decode 阶段加速、PagedAttention CUDA 实现
第 7 章 AI 编译器	Triton、torch.compile、TVM/XLA 概述
第 8 章性能分析工具链	Nsight Systems/Compute、PyTorch Profiler

已更新文章：

序号	文章	说明
1	CUDA 编程入门指南	CUDA 编程模型、线程层级、内存模型与 Kernel 编写

🌐 模块三：分布式训练

从分布式训练总论出发，深入数据并行、ZeRO 系列、张量并行、流水线并行、3D 并行策略，最终通过训练框架实战串联全部知识。

章节	主要内容
第 1 章分布式训练总论	为什么需要分布式训练、训练状态显存分析、并行策略全景
第 2 章数据并行	DataParallel、DistributedDataParallel、FSDP
第 3 章 ZeRO 系列	ZeRO 核心思想、ZeRO-1/2/3、ZeRO-Offload、选型指南
第 4 章张量并行与序列并行	张量并行原理、序列并行、GQA/MQA 下的 TP 切分
第 5 章流水线并行	GPipe、PipeDream、1F1B 调度、气泡率分析
第 6 章 3D 并行与混合训练策略	3D 并行组合、混合精度训练、梯度累积、Activation Checkpointing
第 7 章训练框架实战	Megatron-LM、DeepSpeed、实战配置

已更新文章：

序号	文章	说明
1	PyTorch 分布式训练：从原理到实战	DDP、FSDP、ZeRO、通信原语、torchrun 多机训练

🚀 模块四：推理优化

覆盖 LLM 推理基础、推理引擎核心技术、主流推理框架、量化、Speculative Decoding、PD 解耦架构，以及性能分析与端到端实战。

章节	主要内容
第 1 章 LLM 推理基础	Prefill/Decode 两阶段、KV Cache、推理性能指标
第 2 章推理引擎核心技术	PagedAttention、Continuous Batching、调度策略
第 3 章主流推理框架	vLLM、SGLang、TensorRT-LLM 等
第 4 章量化	INT8/INT4 量化、GPTQ、AWQ、SmoothQuant
第 5 章 Speculative Decoding	投机解码原理、Draft Model、验证策略
第 6 章 PD 解耦架构	Prefill-Decode 解耦部署、异构推理
第 7 章性能分析与 Benchmark	推理性能评估、延迟/吞吐量分析
第 8 章推理优化选型与端到端实战	方案选型、部署实战、生产环境最佳实践

已更新文章：

序号	文章	说明
1	vLLM 快速入门	从安装到部署你的第一个 LLM 推理服务

📊 性能分析

🚧 施工中，敬请期待...

🎯 面试宝典

共收录 180+ 场面试真题，覆盖 40+ 家公司，按梯队分类组织。在线浏览 →

涵盖公司包括字节跳动、阿里巴巴、腾讯、百度、快手、美团、蚂蚁、英伟达、MiniMax、蔚来、小鹏、理想等。

投递总览：

梯队	公司	主要 AI Infra 岗位
T0 大厂	字节跳动、阿里巴巴、腾讯、百度	AI Infra 工程师、高性能计算研发、推理优化工程师、分布式训练框架
T1 大厂/独角兽	快手、拼多多、美团、蚂蚁、OPPO、华为、蔚来	AI Infra、高性能计算、大模型推理优化、AI 平台开发
T2 AI 独角兽	MiniMax、阶跃星辰、智谱AI、面壁智能、月之暗面	AI Infra、大模型算法 (偏 Infra)、推理系统开发、Agent Infra
T3 芯片/硬件厂商	英伟达、摩尔线程、海光、寒武纪、壁仞科技、飞腾	算子开发、CUDA 优化、GPU 软件工程师、AI 编译器、高性能计算
T4 自动驾驶/车企	小鹏汽车、蔚来、理想、卓驭(大疆车载)、小马智行、元戎启行	AI Infra、高性能计算、大模型推理优化、AI 平台
T5 其他	科大讯飞、网易、海康威视、联想、猿辅导、好未来等	AI Infra、高性能计算、推理引擎开发、大模型算法

注：分布式训练相关的岗位特别少，一般只有搞大模型的大厂才有，所有大家在准备的求职的过程中，可以重点关注算子优化、推理优化、推理框架这类岗位，训练相关的技术点了解即可，不用深钻。

各梯队面试侧重点

梯队	考察侧重
T0 大厂（字节/阿里/腾讯/百度）	结构化面试 2-3 轮，项目深挖 + 模型架构 + 推理/训练优化 + C++ 八股 + LeetCode Medium
T1 大厂/独角兽（快手/美团/蚂蚁等）	与 T0 类似，推理优化问得多，部分公司重视系统设计
T2 AI 独角兽（MiniMax/阶跃/智谱）	偏研究导向，深挖 MoE 路由优化、RLHF 细节、前沿 paper，传统八股较少
T3 芯片/硬件（英伟达/壁仞/寒武纪）	重 GPU 架构、CUDA 编程、HPC 基础，手写 kernel 频率最高
T4 车企/自动驾驶（蔚来/大疆车载/小鹏）	重 C++ 功底、推理部署（TensorRT/TVM/量化）、边缘实时性能，LLM 问得少
T5 其他（海康/科大讯飞等）	难度适中，C++ 和推理部署为主

投递时间线：

时间段	投递策略
3-4月	暑期实习提前批（字节、阿里、腾讯、快手）
5-6月	暑期实习正式批 + 日常实习（美团、拼多多、中小厂）
7-8月	秋招提前批（字节 AML、百度、华为）
9-10月	秋招正式批（全面投递）
11-12月	秋招补录 + 春招准备
次年2-4月	春招（HC 较少，竞争激烈）

🤝 欢迎参与贡献

AIInfraGuide 是一个开源项目，欢迎通过以下方式参与共建：

提交 Issue：发现错误、提出建议，或者告诉我们你希望看到的主题
贡献 PR：分享你的实践经验、补充技术细节、改进现有内容
Star & Share：如果觉得有帮助，请在 GitHub 上给个 Star，让更多人发现这个项目

💡 提示：如果你不确定从哪里开始，推荐先阅读知识库中的「AIInfra 学习路线」，它会帮你梳理一条清晰的学习路径。

让我们一起构建 AI Infra 社区的知识基础设施。

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.claude/skills		.claude/skills
.github/workflows		.github/workflows
docs		docs
public		public
scripts		scripts
src		src
.gitignore		.gitignore
README.md		README.md
astro.config.mjs		astro.config.mjs
package-lock.json		package-lock.json
package.json		package.json
tailwind.config.mjs		tailwind.config.mjs
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AIInfraGuide（内容持续更新中）

🚀 为什么需要 AIInfraGuide

📖 AIInfraGuide 内容体系

🗺️ AIInfra 学习路线

📚 模块一：前置知识

⚡ 模块二：CUDA 编程与算子优化

🌐 模块三：分布式训练

🚀 模块四：推理优化

📊 性能分析

🎯 面试宝典

各梯队面试侧重点

🤝 欢迎参与贡献

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

AIInfraGuide（内容持续更新中）

🚀 为什么需要 AIInfraGuide

📖 AIInfraGuide 内容体系

🗺️ AIInfra 学习路线

📚 模块一：前置知识

⚡ 模块二：CUDA 编程与算子优化

🌐 模块三：分布式训练

🚀 模块四：推理优化

📊 性能分析

🎯 面试宝典

各梯队面试侧重点

🤝 欢迎参与贡献

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages