# 准备数据集

我们将《三国演义》的原文作为数据集, 来训练一个字符级别的语言模型. 也就是将原文中的汉字以及标点符号等等映射成整型(`int`).

In [36]:
# 导入需要的包
import pickle
import numpy as np

In [37]:
# 打开《三国演义》的文本文件`input.txt`
# 然后读取
with open('input.txt', 'r') as f:
    data = f.read()

# 打印《三国演义》中的字符数量
print(f"字符数据集的长度: {len(data):,}")

字符数据集的长度: 605,548


In [38]:
# 计算《三国演义》中有多少个不同的字符

# set去重 --> list转换成列表 --> 排序
chars = sorted(list(set(data)))
# 不同字符的数量
vocab_size = len(chars)

print("所有不同的字符:", ''.join(chars))
print(f"不同字符数量: {vocab_size:,}")

所有不同的字符: 
 <>[]—‘’“”…□　、。《》【】一丁七万丈三上下不与丐丑专且丕世丘丙业丛东丝丞丢两严丧个中丰临丸丹为主丽举乂乃久么义之乌乎乏乐乔乖乘乙九乞也习乡书买乱乳乾了予争事二于亏云互五井亘亚些亟亡亢交亥亦产亨亩享京亭亮亲亵亹人什仁仅仆仇今介仍从仓仔仕他仗付仙仞代令以仪们仰仲件价任仿伉伊伍伎伏伐休众优伙会伞伟传伤伦伪伯伴伷伸伺似但位低住佐佑体何佗余佛作佞你佣佥佩佯佳佻使侄侈例侍供依侠侥侧侪侮侯侵便促俄俊俎俗俘保俞俟信俦俨俭修俯俱俸俺俾倅倍倏倒倘候倚借倡倥倦值倾偃假偎偏偕做停健偬偶偷偿傅傍傕储催傲像僚僧僭僮僵僻儁儒儿兀允元兄充兆先光克免兔兖党兜兢入全八公六兮兰共关兴兵其具典兹养兼兽冀内冈册再冒冓冕冗写军农冠冢冤冥冬冯冰冲决况冶冷冻净凄准凉凋凌减凑凛凝几凡凤凭凯凰凳凶凹出击函凿刀刁刃分切刈刎刑划刖列刘则刚创初判利别刮到制刺刻刽剁剂削前剐剑剔剖剜剥剧剩剪副割剽剿劈力劝办功加务劣动助努劫劬劭励劲劳劾势勃勇勉勋勑勒勖勘募勤勺勾勿匄包匆匍匐化北匙匝匠匡匣匪匮匹区医匿十千升午半华协卑卒卓单卖南博卜卞占卢卣卤卦卧卫卯印危即却卵卷卸卿厄厅历厉压厌厔厕厘厚原厢厥厦厨厮去县参又叉及友双反发叔取受变叙叛叟叠口古句另叨叩只叫召叮可台叱史右叵叶号司叹吁吃各合吉吊同名后吏吐向吓吕君吝吞吟吠否含听启吴吸吹吻吼吾呀呆呈告呐呕员呜呦周味呵呻呼命咆和咎咏咐咒咛咥咨咫咬咸咽哀品哂哄哉响哑哙哥哨哩哭哮哲哺哽唆唇唐唤唬唯唱唾唿商啕啖啜啸啼喂喃善喈喉喊喏喘喜喝喟喧喨喷喻嗓嗔嗜嗟嗣嗤嘉嘏嘤嘱嘴嘶嘹噀噎噤器噪噫噬嚎嚷嚼囊囚四回因团囧园困围囷固国图圃圆圈土圣在圭地场坂均坊坌坎坏坐坑块坚坛坞坟坠坡坤坦垂垒垓垕垛垠垢垣垦垫埃埋城域基堂堆堑堕堤堪堰堵塌塑塔塘塞填墀境墉墓墙增墟墨墩墵壁壎壑壕壤士壬壮声壳壶处备复夏夔夕外夙多夜够夤夥大天太夫夭央失头夷夸夹夺奁奂奄奇奈奉奋奎奏契奔奕奖套奚奠奢奥女奴奸好如妃妄妆妇妒妓妖妙妥妨妫妹妻妾姊始姐姑姓委姚姜姬姻姿威娄娇娘娥娩娱娴娶娼婆婉婚婢婴婿媒媚嫁嫂嫉嫌嫔嫡嫩嬉嬖嬴子孑孔孕字存孙孚孝孟季孤孥学孩孰孱孺孽宁宄宅宇守安宋完宏宓宕宗官宙定宛宜宝实宠审客宣室宥宦宪宫宰害宴宵家容宽宾宿寂寄寅密寇富寐寒寓寔寝寞察寡寤寨寮寰寸对寺寻导寿封射将尉尊小少尔尖尘尚尝尤尧尪就尸尹尺尼尽尾局层居屈屋屏屑展属屠屡履屦屯山岁岂岌岐岑岖岗岘岛岩岭岱岳岷岸峙峡峨峪峭峰峻崇崎崔崖崤崦崩嵋嵌嵩嵯嶲嶷巅巍川州巡

In [39]:
# 创建从字符到整数的映射

# 从字符到整数的映射字典
stoi = { ch:i for i,ch in enumerate(chars) }

# 从整数到字符的映射字典
itos = { i:ch for i,ch in enumerate(chars) }

# 例如我们可以看一下`鼻`这个字对应的整数
print(stoi['鼻'])

3934


In [40]:
# 给定一个字符串`s`, 输入字符串中每个字对应的整数组成的列表
def encode(s):
    return [stoi[c] for c in s]

# 给定一个整数列表, 返回列表中每个整数对应的字符所组成的字符串
def decode(l):
    return ''.join([itos[i] for i in l])

# 测试一下
print(encode('滚滚长江东逝水'))
print(decode([2066, 2066, 3623, 1903, 62, 3452, 1893]))

[2044, 2044, 3600, 1881, 40, 3429, 1871]
潼潼阊没之遣沆


In [41]:
# 切分数据集
# 将《三国演义》前90%的文字作为训练数据集
n = len(data)
train_data = data[:int(n*0.9)]
# 将《三国演义》后10%的文字作为验证数据集
val_data = data[int(n*0.9):]

In [42]:
# 分别将训练数据集中的字符和验证数据集中的字符编码成整数
train_ids = encode(train_data)
val_ids = encode(val_data)

print(f"训练数据集中有 {len(train_ids):,} 个字符(token)")
print(f"验证数据集中有 {len(val_ids):,} 个字符(token)")

训练数据集中有 544,993 个字符(token)
验证数据集中有 60,555 个字符(token)


In [43]:
# 将训练数据集和验证数据集分别保存成二进制文件
train_ids = np.array(train_ids, dtype=np.uint16)
val_ids = np.array(val_ids, dtype=np.uint16)
train_ids.tofile('train.bin')
val_ids.tofile('val.bin')

In [44]:
# 将元数据保存成pickle格式的文件, 供我们后面在encode或者decode时使用
meta = {
    'vocab_size': vocab_size,
    'itos': itos,
    'stoi': stoi,
}
with open('meta.pkl', 'wb') as f:
    pickle.dump(meta, f)

我们数据准备的工作就完成了.

# 编写GPT模型

接下来我们开始编写模型代码

In [45]:
# 首先导入需要的一些包
import math
import inspect
from dataclasses import dataclass

import torch
import torch.nn as nn
from torch.nn import functional as F

In [46]:
# 定义GELU激活函数, 具体论文参见:
# https://arxiv.org/abs/1606.08415
def new_gelu(x):
    return 0.5 * x * (1.0 + torch.tanh(math.sqrt(2.0 / math.pi) * (x + 0.044715 * torch.pow(x, 3.0))))

In [47]:
# 定义层归一化模块
class LayerNorm(nn.Module):
    def __init__(self, ndim, bias):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(ndim))
        self.bias = nn.Parameter(torch.zeros(ndim)) if bias else None
    
    def forward(self, input):
        return F.layer_norm(input, self.weight.shape, self.weight, self.bias, 1e-5)