Skip to content

OpenRaiser/Gewu

Repository files navigation

格物 · 大模型卷

格物 —— 取自「格物致知」:探究事物本质,以获得真知。 一套面向纯小白 / 在校学生的动手学习系列,核心理念:看懂原理 → 亲手从零实现。 不堆论文、不堆公式,每一个概念都配一段你能立刻运行的代码。

本卷是「大模型卷」,带你从零亲手实现一个 GPT。(格物是可扩展的总品牌,未来还会有更多学科卷)


这门教程适合谁

  • 会一点 Python(知道变量、函数、循环就行),但没接触过深度学习
  • 想真正搞懂 ChatGPT 这类大模型"底层到底在干什么"
  • 喜欢动手:看一遍不如跑一遍,跑一遍不如改一遍

如果你连 Python 都还不熟,也没关系,ch00 会带你把环境装好,后面的代码都有逐行解释。


你将收获什么

学完整套教程,你会:

  1. 理解大模型的本质 —— 它其实只是在反复"猜下一个字"
  2. 亲手从零写出注意力机制、Transformer、一个完整的 GPT
  3. 训练出一个能生成文本的小模型(普通笔记本就能跑)
  4. 搞懂微调(LoRA)、对齐(RLHF/DPO)这些"黑话"到底是什么
  5. 对推理优化、RAG、Agent 等应用方向有清晰的全局认知

章节地图

第一部分 · 启程

章节 内容
ch00 环境准备 装好 Python / PyTorch,教程怎么用
ch01 数学直觉 向量、矩阵、概率、梯度 —— 用代码代替公式
ch02 PyTorch 入门 Tensor、自动求导、训练第一个最小网络

第二部分 · 语言模型是什么

章节 内容
ch03 语言模型的本质 猜下一个字:动手做一个统计版模型
ch04 Tokenization 文字如何变成数字
ch05 Embedding 让每个词带上"含义"

第三部分 · Transformer 与 GPT(核心)

章节 内容
ch06 注意力机制 从零手写 self-attention
ch07 Transformer Block 多头注意力 + 位置编码 + 残差 + LayerNorm
ch08 搭出完整 GPT 把零件拼成一个 GPT
ch09 训练你的 GPT 训练并生成文本

第四部分 · 让模型变好用

章节 内容
ch10 采样与生成 temperature / top-k / top-p
ch11 微调 预训练 vs 微调,动手做 LoRA
ch12 对齐入门 RLHF / DPO 概念

第五部分 · 走向应用(概览)

章节 内容
ch13 推理优化 量化、KV cache
ch14 应用范式 RAG、Agent 入门
附录 学习资源地图 + 常见报错排查

如何使用

  1. 按顺序学:章节之间有依赖,尤其第三部分是层层递进的。
  2. 每章先读 README.md,再跑 code/ 里的代码,然后试着改参数、看结果怎么变。
  3. 卡住了看附录的常见报错排查,或回到前一章复习。

学习是螺旋上升的,第一遍没全懂很正常。先把代码跑起来,有了直觉再回头看原理,会清晰很多。


开始吧 → ch00 环境准备

About

格物

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors