# 描述
实现一个最小可运行的 GPT‑style 自回归语言模型，涵盖 Embedding、位置编码、Masked 自注意力（Self‑Attention）、前馈网络（FFN）和输出层。

## 参考文献
- [完全从零写一个小模型](https://github.com/bbruceyuan/LLMs-Zero-to-Hero/blob/master/src/video/build_gpt.ipynb)
- [karpathy/minGPT](https://github.com/karpathy/minGPT)
- [karpathy/nanoGPT](https://github.com/karpathy/nanoGPT)

In [1]:
# part 1: 导入相关的 package
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from dataclasses import dataclass

import math

torch.manual_seed(1024)

<torch._C.Generator at 0x128a10ed0>

In [2]:
@dataclass
class GPTConfig:
    block_size: int = 512   # 这里其实应该是文本的最大长度（ max_seq_len）
    batch_size: int = 12
    n_layer: int = 6
    n_head: int = 12
    n_embd: int = 768    # n_embd 也叫 hidden_dim, hiden_size, 这里我同时设置了和 embed_dim 一样
    head_size: int = n_embd // n_head
    dropout: float = 0.1
    # # tiktoken 使用的是 GPT-2 的词表，大约有 50257 个token
    vocab_size: int = 50257