#### 数据集可以选择市面上容易得到的数据集，例如维基百科中文文档，中文悟道开源的数据集，这个可以根据个人选择。

&emsp;&emsp;在大模型训练的过程中，预训练阶段是至关重要的一步。**预训练**（Pre-training）是指在大规模无监督数据上进行初步模型训练，使模型能够学习到通用的语言模式、知识表征和统计特征。这一阶段不依赖于特定任务，而是通过在大规模、多样化的数据集上进行广泛的学习，帮助模型建立基础的语言理解能力。通过预训练，模型可以在后续的特定任务上（如分类、生成、翻译等）以更快的速度和更高的准确性进行微调（Fine-tuning）。

&emsp;&emsp;预训练的目标是使模型能够有效捕捉数据中的规律，学会高效的特征表示，从而为后续的任务奠定基础。这一阶段通常涉及训练深度神经网络，如Transformer架构，通过处理大规模文本数据，模型能够学会上下文依赖关系、词汇语义关系等复杂的语言特征。

&emsp;&emsp;而在选择预训练数据集时，需要特别关注以下几个关键因素：

1. **数据规模**  
   预训练数据集的规模对模型的性能具有直接影响。大模型通常需要数百亿甚至上千亿个参数，这要求使用海量数据来支持模型训练。在数据量较少的情况下，模型可能无法充分学习复杂的语义关系，进而影响预训练的效果。因此，数据集的规模应足够大，以便涵盖广泛的语言模式和知识。

2. **数据多样性**  
   数据集的多样性同样至关重要。预训练过程中，模型需要接触各种类型的文本内容，包括新闻、书籍、博客、技术文档等，以确保其能够广泛适应不同语言风格、领域知识和应用场景。如果数据过于单一，模型在后续应用于其他任务时，可能会表现出偏差或局限性。因此，选取多样化的数据源有助于提升模型的泛化能力。

3. **数据质量**  
   数据质量直接影响模型预训练的有效性和稳定性。高质量的数据应具有较少的噪声、语法错误和不完整的句子。若数据质量较差，模型可能会学习到错误的模式或产生不合理的输出。因此，需对数据集进行预处理和清洗，以剔除错误、冗余或低质量的部分。

4. **领域相关性**  
   尽管预训练通常是在通用数据集上进行，但在某些情况下，特定领域的数据可能更为重要。例如，若大模型的目标是用于医学或法律领域的应用，预训练数据集中应包含该领域的相关内容，以帮助模型建立更为准确的领域知识。这种数据的领域适配性可以在后续任务中显著提高模型的表现。

综上所述，预训练阶段的数据集选取是大模型成功的关键环节之一，良好的数据规模、质量、多样性及领域适配性有助于提高模型的泛化能力和应用效果。同时，数据的合规性与道德责任也不容忽视。通过精心选择和处理数据集，可以为后续的任务微调提供坚实的基础。

#### 当然，你也可以自己构建数据集

&emsp;&emsp;在大模型的开发中，构建高质量的预训练数据集是至关重要的一环。如果现有的公开数据集无法完全满足特定需求，研究人员或开发团队可能会选择自构预训练数据集，以便更好地适配模型的任务或领域。在构建过程中，不仅需要考虑数据的收集和处理，还应确保遵循数据的伦理、质量和多样性原则。

**构建预训练数据集的步骤**

1. **确定数据来源**  
   数据集的质量和多样性主要取决于数据来源的选择。常见的数据来源包括：
   - **公开数据集**：如维基百科、Common Crawl等大型通用文本数据集。这类数据资源庞大且容易获取。
   - **领域特定数据**：从技术文献库、领域文献、研究论文或行业报告中收集数据，适用于特定领域（如医学、法律、金融等）模型的预训练。
   - **网络抓取**：通过网络爬虫工具从特定网站抓取数据，尤其适合于需要最新或领域特定信息的场景。需要注意遵守网站的隐私政策及数据使用协议。
   - **自有数据**：如企业内部的技术文档、客户服务记录等，这些数据能够使模型专门针对企业应用场景进行优化。

2. **数据清洗与预处理**  
   收集到的原始数据往往包含很多噪声和冗余信息，如广告、格式错误、拼写错误、重复内容等。为了提高预训练的有效性，必须对数据进行清洗和预处理，主要包括：
   - **去重处理**：消除重复的文本片段，以避免模型过度学习某些特定模式。
   - **去除噪声**：如无意义的文本、HTML标签、标点符号过度堆积等。这些信息会干扰模型的训练，降低训练效果。
   - **文本规范化**：标准化文本格式，如统一的编码格式、消除特殊符号、处理数字或单位等。
   - **句子分割与标注**：确保文本中的句子分割合理，特别是对于连续文本段落的处理。根据需要，也可以对文本进行标注（如词性、句法等），以增加模型训练的多样性和丰富性。

3. **数据分布与多样性检查**  
   数据集的多样性和分布平衡性是影响模型泛化能力的重要因素。应尽量确保不同领域、不同风格、不同语言或不同语境下的数据均有适当的比例，以避免模型在某些特定领域或语言风格上产生偏见。可以通过统计分析工具对数据进行分布检查，确保数据涵盖广泛的上下文和主题。

4. **数据格式化与存储**  
   预训练数据通常需要转换为模型能够直接使用的格式，如标准化的纯文本文件（.txt）、序列化数据（JSON、CSV等），或者特定的分词和标注格式。确保数据的文件组织结构清晰，便于在训练时进行高效加载。  
   此外，预训练数据集往往非常庞大，因此需要合理的存储策略。常见的存储方式包括分片存储、大数据存储系统（如HDFS）、云存储等，以确保在大规模训练时的数据读取速度。

5. **数据增强（可选）**  
   在某些情况下，数据增强技术可以进一步提高数据集的多样性和丰富性，尤其是在数据规模不足的情况下。常见的数据增强技术包括：
   - **同义词替换**：在不改变语义的前提下，用同义词替换句子中的部分词汇。
   - **句子顺序打乱**：对文本中的句子顺序进行随机调整，增加训练数据的复杂性。
   - **生成式增强**：利用已有模型生成新的语料，通过多种生成方式扩展训练数据的规模。

**注意事项**

1. **合法性与伦理合规**  
   在数据收集的过程中，必须遵守相关法律法规，特别是数据隐私保护和版权问题。未经授权采集的数据可能涉及法律风险，尤其是涉及个人隐私信息或受版权保护的内容时，必须确保有合法使用许可。此外，数据集中应避免包含有害或偏见性的内容，如种族、性别、文化等方面的歧视性语言。

2. **数据平衡与去偏**  
   数据集中的偏见可能会导致模型输出中的偏差，例如如果训练数据集中某类文本（如某一性别、民族或职业）过度代表，模型可能会倾向于此类文本。为减少这种偏差，数据集的构建应尽量平衡不同类型的内容，确保模型学习到的知识更加中立和广泛。

3. **数据质量控制**  
   数据的质量直接决定了模型预训练的效果。低质量的数据（如拼写错误、语法错误、不完整的句子等）会导致模型学习到不可靠的模式，因此需要在数据清洗阶段严格控制数据质量。此外，数据标注的准确性也是模型表现的关键，特别是在需要监督信号或标注信息时，必须确保标注的一致性和正确性。

4. **数据规模与计算资源匹配**  
   自构数据集时需要考虑数据集的规模与计算资源的匹配问题。大规模的数据集需要与之匹配的计算资源，如多GPU/TPU架构、高速存储系统等。若计算资源有限，建议采取渐进式预训练策略，逐步扩大数据集规模或降低模型复杂度，以提高计算效率。

## step 1. 预训练数据集清洗与二进制转化

In [1]:
## 倒入需要的库
import itertools
import re
import json
import jsonlines
import psutil
import ujson
import numpy as np
import pandas as pd
from transformers import AutoTokenizer
from datasets import load_dataset
import os
from tqdm import tqdm

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
## 定义BOS和EOS标记，并加载分词器
bos_token = "<s>"
eos_token = "</s>"

tokenizer = AutoTokenizer.from_pretrained('../models/tokenizer_model/', use_fast = False)
print(f"加载的tokenizer词表大小：{len(tokenizer)}")

加载的tokenizer词表大小：6400


In [3]:
## 读取数据部分
def preview_dataset(file_path, num_lines=5):
    """
    读取并展示数据集的前 num_lines 行
    """
    # 检查文件是否存在
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"{file_path} 文件不存在，请检查路径！")

    # 逐行读取并展示前 num_lines 行
    with jsonlines.open(file_path) as reader:
        for idx, obj in enumerate(reader):
            print(f"第 {idx + 1} 行数据：{obj}")
            if idx + 1 >= num_lines:
                break

# 指定文件路径和需要展示的行数
file_path = "../data/raw/rank_1241.jsonl"
preview_dataset(file_path)

第 1 行数据：{'text': '祝贺信是为了祝贺生意上的朋友高升或得奖,庆祝收信者在某方面取得的成功而发出的信.可以是写给个人的,也可以是写给团体的.\n获悉你会经过充分筹备,现已正式成立了.这是我市会计界的一件大喜事.我们谨向你会致以衷心的祝贺!\nXX会计学会的成立,标志着我市财会战线在社会主义市场经济中起到了推动作用.敬祝你会在今后对提高我市会计科学研究水平,促进与西方会计接轨诸项工作做出更多的贡献.\n值中技国际招标公司成立10周年之际,谨表示热烈的祝贺.10年来,贵公司在我局利用世界银行及亚洲开发银行贷款项目的招标采购工作中,给予了大力支持与协助.特别在签约及执行合同过程中,坚持信守合同,维护我方用户利益,使项目单位尽快产生效益.借此机会,我们', 'alnum_ratio': 0.9198717949, 'avg_line_length': 78.0, 'char_rep_ratio': 0.0, 'flagged_words_ratio': 0.0, 'industry_type': '金融', 'lang': 'zh', 'lang_score': 0.9711192846, 'max_line_length': 124, 'num_words': 92, 'perplexity': 959.6, 'special_char_ratio': 0.0993589744, 'word_rep_ratio': 0.0, 'id': 5609227288576}
第 2 行数据：{'text': '2019年版20元,秀强10元纸币采用光变镂空开窗安全线,与2015年版100元纸币类似,改变钞票观察角度,安全线颜色在红色和绿色之间变化.\n股份图片来自央行网站2.在现行第五套人民币纸币(2005年版50元,营收亿元20元,营收亿元10元纸币,1999年版1元纸币)防伪技术基础上,50元,20元,10元纸币增加光彩光变面额数字,光变镂空开窗安全线,磁性全埋安全线,竖号码等防伪特征,取消全息磁性开窗安全线和凹印手感线,50元纸币取消光变油墨面额数字,1元纸币增加磁性全埋安全线和白水印.\n1元硬币规格调整后,秀强直径缩小11%,便于公众携带使用.股份将2005年公告发行的第五套人民币1角硬币称为2005年版第五套人民币1角硬币.公告日后,营收亿元中国人民银行

In [4]:
## 统计与清理数据
def get_total_lines(file_path):
    """
    获取 JSONL 文件的总行数，不忽略错误，保证能够全面统计
    """
    with open(file_path, 'rb') as f:   ## 使用二进制模式避免编码问题
        return sum(1 for _ in f)

In [5]:
def check_jsonl_format(file_path):
    """
    检查 JSONL 文件中的每一行是否是有效的 JSON 格式，带进度显示，并统计所有问题的行
    """
    total_lines = get_total_lines(file_path)
    valid_lines = 0
    invalid_lines = 0
    invalid_loc_line = []

    # 使用逐行读取，捕获 JSON 和编码错误
    with open(file_path, 'rb') as f:  ## 使用二进制读取避免编码问题
        # 使用 tqdm 进度条显示检查进度
        for idx, line in tqdm(enumerate(f), total=total_lines, desc="Checking JSONL format"):
            try:
                # 先尝试将每一行数据解码为 UTF-8
                decoded_line = line.decode('utf-8')
                # 然后检查是否是有效的 JSON 格式
                obj = jsonlines.Reader([decoded_line]).read()
                valid_lines += 1
            except UnicodeDecodeError as e:
                print(f"Encoding error at line {idx + 1}: {e}")
                invalid_lines += 1
                invalid_loc_line.append(idx + 1)
            except jsonlines.InvalidLineError as e:
                print(f"Invalid JSON at line {idx + 1}: {e}")
                invalid_lines += 1
                invalid_loc_line.append(idx + 1)

    print(f"检查完成，文件中共有 {valid_lines} 行有效 JSON 数据，{invalid_lines} 行无效的 JSON 数据。")
    print(f"无效数据行：{invalid_loc_line}")
    return valid_lines, invalid_lines, invalid_loc_line

In [6]:
valid_lines, invalid_lines, invalid_loc_line = check_jsonl_format(file_path)

Checking JSONL format: 100%|█████████| 594705/594705 [00:15<00:00, 38951.02it/s]

检查完成，文件中共有 594705 行有效 JSON 数据，0 行无效的 JSON 数据。
无效数据行：[]





In [7]:
def remove_invalid_line(file_path, output_path, invalid_line_num):
    """
    读取文件，跳过指定的无效行，并将结果写入新文件
    """
    with open(file_path, 'rb') as infile, open(output_path, 'wb') as outfile:
        for idx, line in enumerate(infile):
            if idx + 1 != invalid_line_num:  ## 跳过无效行
                outfile.write(line)

# 因为没有无效行，使用该函数删除第 总行数+1 行，保存为新文件
remove_invalid_line("../data/raw/rank_1241.jsonl", "../data/processed/rank_1241_cleaned.jsonl", 
                    invalid_line_num=get_total_lines("../data/raw/rank_1241.jsonl")+1)

In [8]:
def process_pretrain_data(chunk_size=5000):
    """
    逐块读取 mobvoi_seq_monkey_general_open_corpus.jsonl 文件，
    对文本进行分词，并将分词结果保存为二进制文件，支持跳过无效行，并显示处理进度。
    """
    doc_ids = []
    chunk_idx = 0
    total_lines = 0

    # 先计算总行数以便显示进度
    with open('../data/processed/rank_1241_cleaned.jsonl', 'r', encoding='utf-8') as f:
        total_lines = sum(1 for _ in f)

    # 打开jsonlines文件逐行读取
    with jsonlines.open('../data/processed/rank_1241_cleaned.jsonl') as reader:
        # 使用 tqdm 进度条显示进度
        with tqdm(total=total_lines, desc="Processing lines") as pbar:
            while True:
                try:
                    # 使用 itertools.islice 按块读取文件，每次读取 chunk_size 行数据
                    chunk = list(itertools.islice(reader, chunk_size))
                except jsonlines.InvalidLineError as e:
                    print(f"Skipping invalid chunk at chunk {chunk_idx}: {e}")
                    continue

                if not chunk:  # 如果读取到文件末尾，则停止
                    break

                # 遍历块中的每一行数据
                # 逐行对数据进行编码（按token进行编码）
                for idx, obj in enumerate(chunk):
                    try:
                        # 从每一行数据中提取'text'字段（即文本内容）
                        content = obj.get('text', '')
                        
                        # 跳过长度超过512的文本
                        if len(content) > 512:
                            continue

                        # 对文本进行分词，将其转为 token ids 序列，并加上BOS和EOS标记
                        text_id = tokenizer(f'{bos_token}{content}{eos_token}').data['input_ids']
                        
                        # 将分词结果添加到 doc_ids 列表中
                        doc_ids += text_id

                    except UnicodeDecodeError as e:
                        # 如果遇到编码错误，跳过该行，并打印错误信息
                        print(f"Skipping invalid line {chunk_idx * chunk_size + idx + 1}: {e}")
                        continue

                # 每处理完一块数据，更新 chunk_idx 并打印进度信息
                chunk_idx += 1
                pbar.update(len(chunk))  # 更新进度条

                # 如果累积的 token ids 超过 1,000,000 个，保存到文件中
                if len(doc_ids) > 1000000:
                    arr = np.array(doc_ids, dtype=np.uint16)
                    with open(f'../data/processed/clean_rank_1241.bin', 'wb') as f:
                        f.write(arr.tobytes())
                    doc_ids = []

    # 如果处理完所有数据后 doc_ids 中还有未保存的内容，最后再保存一次
    if doc_ids:
        arr = np.array(doc_ids, dtype=np.uint16)
        with open(f'../data/processed/clean_rank_1241.bin', 'wb') as f:
            f.write(arr.tobytes())

In [9]:
def pretain_process():
    """
    函数的作用是调用 process_pretrain_data() 函数生成数据，
    然后整合所有生成的二进制文件，并将其合并保存为一个总的预训练数据文件。
    """
    # 调用 process_pretrain_data 函数处理数据
    process_pretrain_data()

    # 数据文件路径列表，目前只处理 rank_1241_cleaned.bin 文件
    data_path_list = [
        "../data/processed/clean_rank_1241.bin"
    ]

    data_lst = []

    # 读取生成的二进制文件
    for data_path in data_path_list:
        with open(data_path, 'rb') as f:
            # 将二进制文件中的内容加载到 numpy 数组中
            data = np.fromfile(f, dtype=np.uint16)
            data_lst.append(data)

    # 将所有读取到的数据合并为一个大数组
    arr = np.concatenate(data_lst)
    print(f"合并后的数据大小：{arr.shape}")

    # 后的数据保存为最终的预训练数据文件
    with open("../data/processed/pretrain_data.bin", 'wb') as f:
        f.write(arr.tobytes())
        

In [10]:
# 运行处理文件
pretain_process()

Processing lines: 100%|███████████████| 594705/594705 [01:24<00:00, 7054.57it/s]

合并后的数据大小：(838063,)





- **为什么要将数据转换为二进制文件**：

1. **高效存储和读取**：二进制文件相比文本文件具有更高的存储和读取效率，尤其是对于大规模的数据集。由于二进制文件是以原始的机器可读格式存储的，不需要进行字符编码转换，因此读取速度更快。对于预训练阶段通常需要处理大量数据，二进制文件可以显著减少读取时间。

2. **减少文件大小**：二进制格式的数据比常规的文本格式更紧凑，占用的磁盘空间更少。这对存储大数据集尤其重要，能够显著节省存储资源。

3. **与深度学习框架兼容**：深度学习框架（如 PyTorch、TensorFlow 等）在训练时往往需要数据以某种高效的格式加载到内存中。将数据保存为二进制格式有助于快速载入到 NumPy 数组或直接作为模型输入，避免了每次都需要重新转换。

4. **跨平台一致性**：二进制文件可以跨平台使用而不丢失精度和数据信息，适合在不同的硬件和操作系统环境中使用。

- 这个函数的具体作用：
> - `process_pretrain_data()` 函数负责处理原始数据并生成单个或多个二进制文件。
> - 然后这些生成的二进制文件通过 `np.fromfile` 读取并存入 NumPy 数组，所有的二进制数据都会被拼接到一起。
> - 最后，通过 `np.concatenate` 合并所有的 NumPy 数组，生成一个总的数据数组，并将其存储为一个大的二进制文件 (`pretrain_data.bin`)，供后续的模型预训练使用。

总结来说，这种处理方式主要是为了提高效率，方便在大规模预训练任务中快速加载数据并减少磁盘和内存的占用。

### 到这里，预训练的数据已经准备好了，接下来就可以开启大模型的预训练过程，此次采用Llama 3架构的文本大模型，之后会尝试GPT架构的，尽情期待

#### Llama 3架构的模型代码放在`/models/`文件夹中的`model_llama.py`文件中

&emsp;&emsp;以下是Llama 3模型架构的具体说明：

##### 1. **RMSNorm（均方根标准化层）**
&emsp;&emsp;RMSNorm层在该架构中用于对输入进行规范化处理。它通过对每个输入向量的均方根（RMS）进行标准化来减少梯度爆炸或消失的问题。公式为：
$[ \text{RMS}(x) = x / \sqrt{\text{mean}(x^2) + \epsilon} ]$
其中`x`是输入，`eps`是防止分母为零的小常数。最后，规范化后的结果会乘以一个可学习的参数`weight`，以实现进一步的尺度调节。

##### 2. **预计算位置编码（precompute_pos_cis）**
&emsp;&emsp;为了让模型拥有位置感知能力，该函数使用了旋转位置编码（rotary positional embedding），这是一种高效的编码方式。它首先计算一组频率，再通过极坐标生成复数形式的旋转编码。位置编码的核心思想是将序列中的位置信息嵌入到查询（query）和键（key）向量中，从而允许模型捕捉序列的相对位置信息。

##### 3. **旋转嵌入（apply_rotary_emb）**
&emsp;&emsp;该函数通过将查询和键向量转换为复数，并与预先计算的旋转位置编码进行相乘，来增强模型的相对位置感知能力。最终，它将复数嵌入恢复为实数形式并返回。这种方法减少了位置编码带来的冗余计算，提升了计算效率。

##### 4. **多头自注意力机制（Attention）**
&emsp;&emsp;多头注意力机制是该模型的核心部分，它允许模型同时关注序列的不同部分。该实现中注意力模块的流程如下：
   - **查询、键、值向量的生成**：通过线性变换将输入`x`映射到查询（Q）、键（K）和值（V）空间。
   - **旋转嵌入**：将查询和键向量通过旋转位置编码处理。
   - **键-值缓存机制（kv_cache）**：在推理过程中，为了加速计算，可以使用缓存的键值对，从而避免重复计算。该机制会在序列长度为1的情况下缓存上次计算的键值对，并将其与新计算的键值对进行拼接，达到加速的效果。
   - **注意力权重的计算**：查询和键向量点积后，通过`softmax`得到注意力分数，进而与值向量相乘以获得加权结果。
   - **输出处理**：通过线性变换将多头注意力的输出映射回原始维度。

&emsp;&emsp;如果环境支持PyTorch 2.0及以上版本，则该注意力模块会优先使用更加高效的闪存注意力（Flash Attention）机制。

##### 5. **前馈神经网络（FeedForward）**
&emsp;&emsp;前馈神经网络（FFN）是Transformer中的另一重要组件。每个注意力层后都会有一个前馈网络，用于对注意力机制的输出进行非线性变换。在此实现中，FFN首先将输入通过两层线性层并结合`SiLU`激活函数进行非线性处理，然后通过Dropout层引入正则化，防止过拟合。

##### 6. **专家选择机制（MoEGate）与专家网络（MOEFeedForward）**
&emsp;&emsp;该模型还实现了一个稀疏专家网络（Mixture of Experts, MoE），用于在前馈网络中引入更多的计算能力。稀疏专家机制的关键在于：
   - **门控机制**：每个输入会通过门控机制选择最合适的若干个专家来进行处理，专家通过得分函数（如`softmax`）进行选择，模型根据得分选择最合适的`top-k`个专家执行计算。
   - **专家执行与权重计算**：被选择的专家根据门控机制的权重对输入进行处理。为了提高计算效率，推理阶段只选择最优的专家，而在训练阶段会重复输入并进行并行计算。
   - **辅助损失**：在训练过程中，通过辅助损失（auxiliary loss）来保证专家的均衡使用，避免某些专家被过度利用而另一些专家闲置。

这种设计能够提升模型的计算能力和灵活性，尤其适合处理大规模数据和复杂任务。

##### 7. **Transformer Block（Transformer块）**
&emsp;&emsp;每个Transformer块包含一个注意力层和一个前馈网络，并分别对其输入进行处理。每个块的运行流程如下：
   - 输入首先通过`RMSNorm`进行标准化。
   - 然后进入注意力层，生成上下文相关的表示。
   - 最后，前馈网络处理这些表示，输出结果。

如果配置中启用了MoE（稀疏专家），则会使用专家网络进行前馈处理；否则，使用常规的前馈神经网络。

##### 8. **Transformer模型的整体架构**
&emsp;&emsp;整个Transformer模型由多个Transformer块堆叠而成，模型流程如下：
   - **嵌入层**：首先通过嵌入层将输入的token转换为对应的向量表示。
   - **位置编码**：通过旋转位置编码为每个输入向量添加位置信息。
   - **层堆叠**：输入经过一系列的Transformer块，每一层块都会对输入进行注意力和前馈处理，并逐层传递上下文信息。
   - **归一化与输出层**：最后，经过归一化层和线性输出层，将模型的隐藏状态映射为词汇表大小的向量表示，得到最终的预测分布。

##### 9. **推理与生成（generate）**
&emsp;&emsp;模型的推理流程通过`generate`函数实现，它支持流式生成并可以自适应地选择终止符号（`eos`）结束生成过程。推理时，模型会逐步生成新的token，并根据设定的`温度`、`top-k`策略对输出分布进行控制，从而生成流畅的文本序列。

#### 同时，需要编写一个配置文件，也放在`/models/`中，取名叫`LMConfig.py`

其中`LMConfig` 类及其参数详解如下：

`LMConfig` 类用于定义和控制模型架构中的一系列关键参数。它继承自`PretrainedConfig`，允许用户通过配置参数来灵活地调整模型的结构和行为。以下是对`LMConfig`中非MOE相关参数的解释，以及这些参数如何影响原始模型架构和运行流程。

##### 1. **`dim`（模型的隐藏维度）**
   - **默认值**：`512`
   - **含义**：这是Transformer模型中每个token的表示向量的维度。`dim`决定了输入和输出的向量大小，也是注意力机制和前馈网络中的主维度。较大的`dim`可以让模型捕捉更多的特征，但也会增加计算和内存开销。
   - **影响**：`dim`影响模型中的线性层、注意力机制和前馈神经网络的参数量。在代码中，查询（Q）、键（K）、值（V）等向量的维度均与此参数相关联。如果`dim`增加，则这些向量的维度和计算量也会增加。

##### 2. **`n_layers`（Transformer层数）**
   - **默认值**：`8`
   - **含义**：这是模型中堆叠的Transformer层的数量。每一层由一个多头注意力机制和一个前馈神经网络组成。更多的层数意味着模型能够处理更复杂的特征和模式，但同时也会增加模型的训练时间和推理时间。
   - **影响**：`n_layers`直接决定了模型的深度。在`Transformer`类的构造函数中，通过一个循环来堆叠多个`TransformerBlock`，层数越多，模型就会变得越深，能够处理的语义信息更加丰富。

##### 3. **`n_heads`（注意力头的数量）**
   - **默认值**：`16`
   - **含义**：这是多头注意力机制中头的数量。注意力头是指将输入向量拆分成多个子空间，并在每个子空间中分别进行注意力计算，最后将这些子空间的结果拼接起来。更多的头可以让模型关注到输入序列的不同部分和不同特征。
   - **影响**：`n_heads`影响每个注意力头中分配的维度大小。在代码中，通过线性变换将输入映射为多个头，每个头的维度为`dim / n_heads`。增加头的数量可以让模型在更多的子空间中平行地处理信息，但计算复杂度也会增加。

##### 4. **`n_kv_heads`（键值头的数量）**
   - **默认值**：`8`
   - **含义**：在多头注意力机制中，键（Key）和值（Value）向量的头数。`n_kv_heads`表示键值向量会分配到的头数。默认情况下，键值头的数量等于查询头的数量（即`n_heads`），但可以通过该参数将其分开设置。
   - **影响**：该参数决定了键和值在注意力机制中的分配方式。如果`n_kv_heads`与`n_heads`不同，模型会按照`n_kv_heads`的数量来处理键值向量，可能会影响模型处理长序列时的记忆能力。

##### 5. **`vocab_size`（词汇表大小）**
   - **默认值**：`6400`
   - **含义**：这是模型可以处理的词汇表的大小。词汇表是模型可以输入的词或token的集合。`vocab_size`决定了输入嵌入层和输出层的大小，它对应于模型的输入token和输出词预测的范围。
   - **影响**：`vocab_size`影响嵌入层的大小。在`Transformer`模型中，`tok_embeddings`和`output`层的维度是由`vocab_size`决定的。如果词汇表大小增加，模型处理的token种类也会增加，但也会增加计算和存储的需求。

##### 6. **`hidden_dim`（前馈网络隐藏层的维度）**
   - **默认值**：`None`
   - **含义**：这是前馈神经网络（FeedForward Network, FFN）中隐藏层的维度。默认情况下，该值为`4 * dim`，即每个Transformer块中的前馈网络的隐藏层维度是模型维度的4倍。该参数允许用户手动指定前馈网络的隐藏层维度。
   - **影响**：`hidden_dim`影响FFN的计算复杂度和模型的表示能力。如果该值过小，模型可能无法捕捉足够复杂的特征；如果过大，计算量和参数量将显著增加。

##### 7. **`multiple_of`（前馈网络维度的倍数）**
   - **默认值**：`64`
   - **含义**：该参数确保前馈网络中隐藏层的维度是某个整数的倍数。这是为了提高计算效率，尤其是在并行计算中，这种对齐操作能够优化内存访问和计算性能。
   - **影响**：`multiple_of`与`hidden_dim`一起影响前馈网络的维度。在代码中，通过将`hidden_dim`调整为`multiple_of`的倍数，确保其符合硬件加速的要求。

##### 8. **`norm_eps`（归一化层中的epsilon）**
   - **默认值**：`1e-5`
   - **含义**：这是用于归一化层中的一个小常数，以防止分母为零。通常用于`RMSNorm`和其他标准化操作中，确保在数值计算时不会出现除以零的情况。
   - **影响**：`norm_eps`直接影响`RMSNorm`操作的稳定性。较小的`eps`可以提高精度，但也容易引发数值不稳定。合理设置`eps`值可以在数值稳定性和计算精度之间取得平衡。

##### 9. **`max_seq_len`（最大序列长度）**
   - **默认值**：`512`
   - **含义**：这是模型能够处理的最大输入序列长度。`max_seq_len`决定了位置编码和注意力矩阵的最大尺寸。超过这个长度的输入将被截断，或者需要通过分块处理长序列。
   - **影响**：`max_seq_len`影响模型处理长序列时的能力和效率。如果该值设置较大，模型能够处理更长的上下文信息，但会增加注意力矩阵的计算开销和内存需求。

##### 10. **`dropout`**
   - **默认值**：`0.0`
   - **含义**：这是在训练过程中防止过拟合的一种正则化技术。在模型的各个层中，会以一定的概率随机将一些神经元的输出置为零，以防止模型对训练数据过度拟合。`dropout`的值表示丢弃神经元的概率。
   - **影响**：`dropout`值越高，模型的正则化效果越强，但过高的`dropout`值可能会导致模型难以学习复杂的模式。如果设置为`0.0`，则表示不使用Dropout层。

##### 11. **`flash_attn`**
   - **默认值**：`True`
   - **含义**：这是一个布尔参数，用于指定是否使用闪存注意力机制（Flash Attention）。闪存注意力是一种更高效的注意力计算方法，特别适用于长序列和大模型的场景中，可以显著降低内存使用并加速计算。
   - **影响**：如果设置为`True`，模型将尝试使用更快的注意力实现，前提是当前环境支持（例如需要PyTorch >= 2.0）。这将提高计算效率，特别是在处理长序列时。如果设置为`False`，则使用标准的注意力计算方式，速度较慢但兼容性更高。

##### 参数的整体影响
&emsp;&emsp;这些非MOE相关的参数决定了模型的基础架构，影响了模型的深度、宽度、注意力机制、前馈网络的复杂性以及模型的正则化方式。通过调整这些参数，用户可以定制模型的计算资源需求、精度和效率。例如，增加`dim`和`n_layers`可以提高模型的表达能力，但也会增加计算复杂度和内存需求；而`dropout`和`norm_eps`等参数则帮助模型在训练中更稳定地学习并避免过拟合。

#### 数据读取和脚本

我们在`/models/`文件夹内创建一个名为`dataset.py`的脚本，用于在训练时读取数据

## 到了这一步就正式可以预训练了，首先编写预训练脚本

&emsp;&emsp;在准备好了模型架构和参数代码之后，接下来我们就可以开始编写模型的预训练脚本了，该脚本的核心功能是将数据带入模型，并且根据模型参数来完成模型的预训练过程。这里还是一样，我们首先需要在`项目顶层目录`下创建一个预训练脚本文件`pretrain.py`:

&emsp;&emsp;`Pretain.py`这段脚本用于启动语言模型的预训练过程，结合了`PyTorch`的多GPU并行训练（`DistributedDataParallel`）、梯度累积、学习率调度等功能，以优化大规模的训练任务。脚本的主要功能包括模型初始化、数据加载、分布式训练支持以及训练日志记录。下面详细解释代码中的核心功能和参数设置。

##### 脚本功能解释如下

1. **分布式训练支持 (`DistributedDataParallel`)**
   - 脚本可以通过分布式训练模式来加速模型训练。在分布式模式下，模型会通过多GPU并行计算实现数据并行。`init_distributed_mode`函数负责初始化分布式环境，使用`NCCL`后端进行通信。
   - 使用`torch.distributed`模块的`DistributedSampler`确保数据在不同GPU之间合理分配，避免数据重叠。

2. **模型初始化 (`init_model`)**
   - 该函数初始化模型，并打印模型的参数数量。在配置文件`LMConfig`中设置的参数（如`dim`、`n_layers`等）将被用于初始化`Transformer`模型。参数的设置将影响模型的规模和计算量。
   - 如果启用了`MOE`（专家模型），则会根据配置初始化`MOE`相关的组件。
   - 该模型支持在PyTorch 2.0及以上版本中通过`torch.compile`进一步优化模型的推理性能。

3. **学习率调度 (`get_lr`)**
   - 学习率调度器采用了余弦退火（Cosine Annealing）的方式来逐步降低学习率。在训练的早期阶段进行学习率预热（warm-up），然后逐步减小学习率，最终在训练结束时接近于零。这个策略可以在训练初期加快收敛速度，并在后期稳定地进行微调。
   - 学习率由`get_lr`函数动态计算，在每一步训练中通过迭代更新学习率。

4. **训练过程 (`train_epoch`)**
   - 每个`epoch`的训练过程包括以下步骤：
     - 将训练数据加载到设备上。
     - 动态调整学习率。
     - 使用`torch.cuda.amp.autocast()`自动进行混合精度训练，减少显存使用，提高计算效率。
     - 梯度累积：模型在每`accumulation_steps`步之后更新参数，以减少显存开销，适用于大模型和小批次训练。
     - 梯度裁剪：为了防止梯度爆炸，通过`torch.nn.utils.clip_grad_norm_`对梯度进行裁剪。
     - 训练日志记录：定期记录训练过程中的损失、学习率和时间，并将结果输出到控制台。

5. **模型保存**
   - 在每`save_interval`步后保存模型的状态字典。保存时，根据配置选择是否包括`MOE`专家模型的参数。
   - 如果是在分布式训练模式下（`DistributedDataParallel`），则会保存主进程模型的参数。

6. **梯度放大与更新 (`GradScaler`)**
   - 通过`torch.cuda.amp.GradScaler`来缩放梯度，进一步减少数值不稳定的风险并提高混合精度训练的效果。

#### 脚本参数解释如下：

1. **`--out_dir`**
   - **默认值**：`"out"`
   - **含义**：模型保存的输出目录。预训练过程中生成的模型权重会保存在该目录下。

2. **`--epochs`**
   - **默认值**：`20`
   - **含义**：训练的总轮数。每个轮次将使用整个训练数据集进行一次完整的模型更新。

3. **`--batch_size`**
   - **默认值**：`32`
   - **含义**：训练时使用的批次大小。较大的批次可以提高模型的泛化性能，但也需要更多的计算资源。

4. **`--learning_rate`**
   - **默认值**：`2e-4`
   - **含义**：初始学习率，控制模型的权重更新速度。余弦退火调度器将会逐步减少该值。

5. **`--device`**
   - **默认值**：`"cuda:0"`（如果有GPU），否则为`"cpu"`
   - **含义**：训练设备。可以是`CPU`或`GPU`，通常在大规模训练中使用GPU。

6. **`--dtype`**
   - **默认值**：`"bfloat16"`
   - **含义**：指定数据类型（如`float16`或`bfloat16`）以启用混合精度训练。`bfloat16`通常在GPU上使用，因为它可以提高训练速度并减少显存占用。

7. **`--use_wandb`**
   - **默认值**：`False`
   - **含义**：是否使用`Weights & Biases`（WandB）工具来跟踪实验进度和记录训练指标。WandB 是一种实验跟踪和可视化工具。

8. **`--wandb_project`**
   - **默认值**：`"MateConv-Pretrain"`
   - **含义**：如果使用WandB，这是用于实验的项目名称。

9. **`--num_workers`**
   - **默认值**：`8`
   - **含义**：用于数据加载的工作进程数量。更多的`num_workers`可以加速数据加载，但会占用更多的CPU资源。

10. **`--data_path`**
    - **默认值**：`"./dataset/pretrain_data.bin"`
    - **含义**：训练数据集的路径。该数据集应该是预处理后的二进制文件，用于模型预训练。

11. **`--ddp`**
    - **默认值**：`False`
    - **含义**：是否启用分布式数据并行（DistributedDataParallel）训练。如果启用，模型将分布到多个GPU上进行并行计算。

12. **`--accumulation_steps`**
    - **默认值**：`8`
    - **含义**：梯度累积步数。通过累积多个批次的梯度，再进行一次参数更新，以减少显存压力并提高训练稳定性。

13. **`--grad_clip`**
    - **默认值**：`1.0`
    - **含义**：梯度裁剪的阈值，用于限制梯度的最大范数，防止梯度爆炸。

14. **`--warmup_iters`**
    - **默认值**：`0`
    - **含义**：学习率预热的迭代次数。在预热阶段，学习率从零逐渐增加到设定值。

15. **`--log_interval`**
    - **默认值**：`100`
    - **含义**：日志记录的间隔步数。每经过`log_interval`步会在控制台输出一次损失和学习率等信息。

16. **`--save_interval`**
    - **默认值**：`1000`
    - **含义**：模型保存的间隔步数。每经过`save_interval`步，模型的当前状态将被保存到指定的输出目录中。

17. **`--local_rank`**
    - **默认值**：`-1`