**Table of contents**<a id='toc0_'></a>    
- 1. [什么是Transformer](#toc1_)    
- 2. [科学huggingface](#toc2_)    
  - 2.1. [通过huggingface-cli下载模型和数据集](#toc2_1_)    
  - 2.2. [非侵入式下载 (推荐)](#toc2_2_)    
  - 2.3. [利用hf-mirror的镜像下载模型和数据集](#toc2_3_)    
- 3. [Hugging Face 概述](#toc3_)    
  - 3.1. [安装 Hugging Face 库](#toc3_1_)    
- 4. [快速pipeline](#toc4_)    
  - 4.1. [Transformers 和 Diffusion的pipeline](#toc4_1_)    
  - 4.2. [情感分析](#toc4_2_)    
  - 4.3. [总结-Summary](#toc4_3_)    
  - 4.4. [问答-QA](#toc4_4_)    
  - 4.5. [命名实体](#toc4_5_)    
  - 4.6. [Text-to-3D](#toc4_6_)    
  - 4.7. [tts](#toc4_7_)    
  - 4.8. [esm](#toc4_8_)    
- 5. [pipeline背后的逻辑](#toc5_)    
  - 5.1. [Preprocessing with a tokenizer](#toc5_1_)    
  - 5.2. [Going through the model](#toc5_2_)    
  - 5.3. [Postprocessing the output](#toc5_3_)    
- 6. [专题](#toc6_)    
  - 6.1. [模型配置](#toc6_1_)    
    - 6.1.1. [model config](#toc6_1_1_)    
      - 6.1.1.1. [随机权重](#toc6_1_1_1_)    
      - 6.1.1.2. [pre-trained](#toc6_1_1_2_)    
  - 6.2. [Dataset](#toc6_2_)    
    - 6.2.1. [比较](#toc6_2_1_)    
    - 6.2.2. [转换](#toc6_2_2_)    
  - 6.3. [Tokenizer](#toc6_3_)    
    - 6.3.1. [训练tokenizer](#toc6_3_1_)    
    - 6.3.2. [封装为PreTrainedTokenizerFast](#toc6_3_2_)    
    - 6.3.3. [加载tokenizer](#toc6_3_3_)    
    - 6.3.4. [encode](#toc6_3_4_)    
    - 6.3.5. [decode](#toc6_3_5_)    
    - 6.3.6. [补充](#toc6_3_6_)    
  - 6.4. [快速分词器](#toc6_4_)    
  - 6.5. [Trainer](#toc6_5_)    
    - 6.5.1. [TrainingArguments](#toc6_5_1_)    
    - 6.5.2. [Trainer](#toc6_5_2_)    
- 7. [训练八股](#toc7_)    
  - 7.1. [下载模型和配置文件](#toc7_1_)    
  - 7.2. [下载数据集](#toc7_2_)    
    - 7.2.1. [下载 IMDB 数据集](#toc7_2_1_)    
    - 7.2.2. [准备数据加载器](#toc7_2_2_)    
  - 7.3. [训练](#toc7_3_)    
- 8. [翻译任务](#toc8_)    
- 9. [文本摘要任务](#toc9_)    
  - 9.1. [构建数据集](#toc9_1_)    
- 10. [问答](#toc10_)    
  - 10.1. [构建数据集](#toc10_1_)    
  - 10.2. [数据预处理](#toc10_2_)    
  - 10.3. [训练模型](#toc10_3_)    
- 11. [Prompting 情感分析](#toc11_)    
- 12. [大语言模型](#toc12_)    
  - 12.1. [简介](#toc12_1_)    
  - 12.2. [大语言模型的构建过程](#toc12_2_)    
    - 12.2.1. [大规模预训练](#toc12_2_1_)    
    - 12.2.2. [指令微调与人类对齐](#toc12_2_2_)    
    - 12.2.3. [常用的预训练数据集](#toc12_2_3_)    
    - 12.2.4. [常用微调数据集](#toc12_2_4_)    
  - 12.3. [开发大语言模型](#toc12_3_)    
    - 12.3.1. [ DeepSpeed 库](#toc12_3_1_)    
    - 12.3.2. [Megatron-LM 库](#toc12_3_2_)    
  - 12.4. [小结](#toc12_4_)    
- 13. [预训练大语言模型](#toc13_)    
- 14. [使用大语言模型](#toc14_)    
  - 14.1. [指令微调](#toc14_1_)    
    - 14.1.1. [指令数据的构建](#toc14_1_1_)    
    - 14.1.2. [参数高效微调方法 LoRA](#toc14_1_2_)    
  - 14.2. [人类对齐](#toc14_2_)    
    - 14.2.1. [基于人类反馈的强化学习](#toc14_2_1_)    
    - 14.2.2. [非强化学习的对齐方法](#toc14_2_2_)    
  - 14.3. [SFT 和 RLHF 的进一步讨论](#toc14_3_)    
  - 14.4. [使用大语言模型](#toc14_4_)    
    - 14.4.1. [解码加速算法](#toc14_4_1_)    
      - 14.4.1.1. [系统级优化](#toc14_4_1_1_)    
      - 14.4.1.2. [解码策略优化](#toc14_4_1_2_)    
    - 14.4.2. [低资源部署策略](#toc14_4_2_)    
      - 14.4.2.1. [模型蒸馏和模型剪枝](#toc14_4_2_1_)    
      - 14.4.2.2. [提示学习](#toc14_4_2_2_)    
    - 14.4.3. [大模型应用](#toc14_4_3_)    
- 15. [转格式](#toc15_)    

<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# 1. <a id='toc1_'></a>[什么是Transformer](#toc0_)

2017年Google发表文章《Attention is all you need》，首次提出Transformer架构的神经网络模型。而基于Transformer架构的模型大致可分为以下三种：
- Encoder，自编码Transformer模型：BERT等；注意力层都可以访问到原始输入句子中的所有词语，即具有“双向 (Bi-directional)”注意力。纯 Encoder 模型通常通过破坏给定的句子（例如随机遮盖其中的词语），然后让模型进行重构来进行预训练，最适合处理那些需要理解整个句子语义的任务，例如句子分类、命名实体识别（词语分类）、抽取式问答。

- Decoder，自回归Transformer模型：GPT；纯 Decoder 模型的预训练通常围绕着预测句子中下一个单词展开。纯 Decoder 模型适合处理那些只涉及文本生成的任务。对 Transformer Decoder 模型的探索在在很大程度上是由 OpenAI 带头进行的，通过使用更大的数据集进行预训练，以及将模型的规模扩大，纯 Decoder 模型的性能也在不断提高。

- Encoder-Decoder模型：BAET，T5等；适合处理那些需要根据给定输入来生成新文本的任务，例如自动摘要、翻译、生成式问答。

语言模型常用的与训练任务：
- 基于句子的前n个词来预测下一个词，因为输出依赖于过去和当前的输入，因此该任务被称为`因果语言建模` (causal language modeling)
- 基于上下文（周围的词语）来预测句子中被遮盖掉的词语 (masked word)，因此该任务被称为`遮盖语言建模` (masked language modeling)

大预言模型与碳排放问题：
- 基于Transformer架构的大预言模型，相信大力出奇迹，导致模型参数居多，运算所需算力消耗大量资源。

迁移学习：
- 为了高效利用预训练的模型，使用微调的方式进行后续任务的开展。

# 2. <a id='toc2_'></a>[科学huggingface](#toc0_)

## 2.1. <a id='toc2_1_'></a>[通过huggingface-cli下载模型和数据集](#toc0_)


In [3]:
# # %%bash
# # Download the huggingface-hub package
# conda install huggingface-hub -c conda-forge -y

# # Set the HF_ENDPOINT environment variable
# export HF_ENDPOINT="https://hf-mirror.com"

# # Download the model
# huggingface-cli download --resume-download --repo-type model --repo-id bert-base-uncased

# # 下载模型
# huggingface-cli download --repo-type dataset --repo-id bert-base-uncased


## 2.2. <a id='toc2_2_'></a>[非侵入式下载 (推荐)](#toc0_)

In [1]:
import os 


os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

## 2.3. <a id='toc2_3_'></a>[利用hf-mirror的镜像下载模型和数据集](#toc0_)
```bash 
wget https://hf-mirror.com/hfd/hfd.sh
chmod +x hfd.sh
export HF_ENDPOINT="https://hf-mirror.com"
./hfd.sh --help
```

In [2]:
%%bash
export HF_ENDPOINT="https://hf-mirror.com"

# # For help
# bash ~/ProgramFiles/hf/hfd.sh --hellp

# # 下载模型
# bash hfd.sh bert-base-uncased --tool aria2c -x 10 

# # 下载数据集
# bash hfd.sh wikitext --dataset --tool aria2c -x 10 


# 3. <a id='toc3_'></a>[Hugging Face 概述](#toc0_)
Hugging Face 是一个聚焦于自然语言处理（NLP）的平台，提供了一整套工具来支持机器学习和深度学习模型的开发。Hugging Face 包含以下几个主要组成部分：
- Transformers 库：提供了大量的预训练模型，支持文本生成、分类、翻译、情感分析等任务。
- Datasets 库：提供了各种 NLP 任务的数据集，帮助开发者快速加载和处理数据。
- Tokenizers 库：提供高效的文本标记化工具。
- Hugging Face Hub：允许用户上传、分享和下载机器学习模型和数据集。

核心库:
- transformers：核心库，提供了大量的预训练模型，支持多种 NLP 任务。
- datasets：包含了各种公开数据集，方便快速加载和使用。
- tokenizers：用于高效地标记化文本数据，支持自定义和批处理。
- accelerate：用于加速模型训练和推理，支持多种硬件加速（GPU/TPU）。


教程：[https://transformers.run/c1/transformer/](https://transformers.run/c1/transformer/)

## 3.1. <a id='toc3_1_'></a>[安装 Hugging Face 库](#toc0_)
Download transformer and datasets packages.

In [None]:
# %%bash
# pip install transformers datasets diffusers 

# 4. <a id='toc4_'></a>[快速pipeline](#toc0_)

常用的Pipeline任务：[https://huggingface.co/tasks](https://huggingface.co/tasks)

Pipeline是高层封装的 API，用于快速执行 NLP 任务，如:
- 获得文本的向量化表示 (feature-extraction)
- 零训练样本分类 (zero-shot-classification)
- 文本分类 (text-classification)
- 命名实体识别 (ner)
- 文本生成 (text-generation)
- 文本摘要 (summarization)
- 翻译 (translation)
- 问答 (question-answering)
- 文本填空 (fill-mask)
- 情感分析 (sentiment-analysis)
- 文本相似度（支持的版本中）
- 语音识别 (automatic-speech-recognition)
- 多模态任务（例如图像描述生成）

它封装了模型加载、输入处理、输出处理等细节，用户可以通过简单的 API 调用来完成各种任务。


基于Transformer架构的模型和适用的任务：

|Model	|Examples	|Tasks|type|
|-|-|-|-|
|Encoder	|ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	|Sentence classification, named entity recognition, extractive question answering| 自编码|
|Decoder	|CTRL, GPT, GPT-2, Transformer XL	|Text generation| 自回归|
|Encoder-decoder	|BART, T5, Marian, mBART	|Summarization, translation, generative question answering| 序列到序列|

## 4.1. <a id='toc4_1_'></a>[Transformers 和 Diffusion的pipeline](#toc0_)

- Transformers:

    ```python
    from transformers import pipeline


    pipeline(task: str, model: str = None, tokenizer: str = None, framework: str = None, device: int = -1, **kwargs)
    '''
    参数解释：
        task: 你希望执行的任务类型（如 "sentiment-analysis"、"text-generation"、"translation_en_to_fr"、"ner"等）。task是必须的，Hugging Face 提供了多种预定义的任务类型。

        model: 你要加载的预训练模型的名称或者模型的路径。默认情况下，如果不指定，pipeline 会自动选择一个任务相关的默认模型。

        tokenizer: 模型对应的 tokenizer 的名称。如果不指定，pipeline 会使用与模型匹配的默认 tokenizer。

        framework: 选择使用的深度学习框架，可以是 "pt"（PyTorch）或 "tf"（TensorFlow）。如果没有指定，peline 会自动根据模型推断使用哪个框架。

        device: 如果你想将模型加载到特定的设备上，可以通过指定 device 参数来实现。比如：device=-1：表示使用 CPU。

        device=0：表示使用 GPU（假设你有可用的 GPU）。
        
        kwargs: 其他任务特定的参数。例如在文本生成任务中，max_length（生成文本的最大长度）就是一个常见的额外参数。
    '''
    ```

- Diffusion:

    ```python

    ```

## 4.2. <a id='toc4_2_'></a>[情感分析](#toc0_)

In [6]:
from transformers import pipeline 


classifier = pipeline(task = "sentiment-analysis")

result = classifier(inputs = "I've been waiting for a HuggingFace course my whole life.")

print(result)

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://hf-mirror.com/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'label': 'POSITIVE', 'score': 0.9598050713539124}]


In [10]:
inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!", 
    "Who are you?"
]

results = classifier(inputs = inputs)

results

[{'label': 'POSITIVE', 'score': 0.9598050713539124},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455},
 {'label': 'NEGATIVE', 'score': 0.9952167272567749}]

## 4.3. <a id='toc4_3_'></a>[总结-Summary](#toc0_)

In [2]:
from transformers import pipeline 


summarizer = pipeline('summarization')

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://hf-mirror.com/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [4]:
text = """
Bacillus subtilis has been widely used as a biological control agent in agricultural production. Environmental strains of B. subtilis are an important source of biological control agents. However, due to its low genetic transformation efficiency, the genetic manipulation of the environmental and nondomesticated strains is challenging. In this study, the impact of competent cell preparation, pulse electroporation, and recovery culture on the electroporation efficiency of B. subtilis GLB191 was assessed utilizing response surface methodology. Results indicated that the concentration of glycine, DL-threonine, and Tween 80 used in a cell wall weakening solution during competent cell preparation, and the voltage applied during pulse electroporation were the primary factors affecting electroporation efficiency. Optimization of these factors led to nearly a three-fold increase (reaching 74.00 ± 5.10 CFU/µg DNA) in electroporation efficiency. The elimination of dam and dcm modifications to mitigate the influence of host restriction-modification systems was integrated to further increase the electroporation efficacy. An electroporation efficiency for replicative plasmids of 1.96 ± 0.05 × 106 CFU/µg DNA was achieved using the optimized strategy. Utilizing this improved methodology, the temperature-sensitive plasmid pJOE8899 was efficiently transformed into B. subtilis GLB191, resulting in a markerless knockout of pdeH. The optimized transformation strategy significantly enhances the efficiency of markerless genome editing of nondomesticated B. subtilis, offering the potential for future interpretation of their modes of action, which is critical for the development of the nondomesticated B. subtilis strains.
"""

summary = summarizer(text)

print(summary)

[{'summary_text': ' Environmental strains of B. subtilis are an important source of biological control agents . However, due to its low genetic transformation efficiency, the genetic manipulation of the environmental and nondomesticated strains is challenging . Optimization of these factors led to nearly a three-fold increase in electroporation efficiency . The elimination of dam and dcm modifications to mitigate the influence of host restriction-modification systems was integrated .'}]


## 4.4. <a id='toc4_4_'></a>[问答-QA](#toc0_)

In [10]:
from transformers import pipeline


qa_pipeline = pipeline("question-answering")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://hf-mirror.com/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.
Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [11]:
context = """
Bacillus subtilis has been widely used as a biological control agent in agricultural production. Environmental strains of B. subtilis are an important source of biological control agents. However, due to its low genetic transformation efficiency, the genetic manipulation of the environmental and nondomesticated strains is challenging. In this study, the impact of competent cell preparation, pulse electroporation, and recovery culture on the electroporation efficiency of B. subtilis GLB191 was assessed utilizing response surface methodology. Results indicated that the concentration of glycine, DL-threonine, and Tween 80 used in a cell wall weakening solution during competent cell preparation, and the voltage applied during pulse electroporation were the primary factors affecting electroporation efficiency. Optimization of these factors led to nearly a three-fold increase (reaching 74.00 ± 5.10 CFU/µg DNA) in electroporation efficiency. The elimination of dam and dcm modifications to mitigate the influence of host restriction-modification systems was integrated to further increase the electroporation efficacy. An electroporation efficiency for replicative plasmids of 1.96 ± 0.05 × 106 CFU/µg DNA was achieved using the optimized strategy. Utilizing this improved methodology, the temperature-sensitive plasmid pJOE8899 was efficiently transformed into B. subtilis GLB191, resulting in a markerless knockout of pdeH. The optimized transformation strategy significantly enhances the efficiency of markerless genome editing of nondomesticated B. subtilis, offering the potential for future interpretation of their modes of action, which is critical for the development of the nondomesticated B. subtilis strains.
"""

question = '''
What is optimzed methodology ? 
'''
result = qa_pipeline(question=question, context=context)

print(result)

{'score': 0.13663625717163086, 'start': 518, 'end': 534, 'answer': 'response surface'}


## 4.5. <a id='toc4_5_'></a>[命名实体](#toc0_)

In [16]:
from transformers import pipeline


ner_tagger = pipeline(task="ner")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://hf-mirror.com/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Hardware accelerator e.g. GPU is 

In [17]:
result = ner_tagger("Hugging Face was founded by Clément Delangue in 2016.")

print(result)

[{'entity': 'I-ORG', 'score': 0.985292, 'index': 1, 'word': 'Hu', 'start': 0, 'end': 2}, {'entity': 'I-ORG', 'score': 0.89767945, 'index': 2, 'word': '##gging', 'start': 2, 'end': 7}, {'entity': 'I-ORG', 'score': 0.97496337, 'index': 3, 'word': 'Face', 'start': 8, 'end': 12}, {'entity': 'I-PER', 'score': 0.9997079, 'index': 7, 'word': 'C', 'start': 28, 'end': 29}, {'entity': 'I-PER', 'score': 0.993594, 'index': 8, 'word': '##lé', 'start': 29, 'end': 31}, {'entity': 'I-PER', 'score': 0.99950135, 'index': 9, 'word': '##ment', 'start': 31, 'end': 35}, {'entity': 'I-PER', 'score': 0.9986619, 'index': 10, 'word': 'Del', 'start': 36, 'end': 39}, {'entity': 'I-PER', 'score': 0.9856529, 'index': 11, 'word': '##ang', 'start': 39, 'end': 42}, {'entity': 'I-PER', 'score': 0.99015653, 'index': 12, 'word': '##ue', 'start': 42, 'end': 44}]


## 4.6. <a id='toc4_6_'></a>[Text-to-3D](#toc0_)

In [None]:
import torch
import requests
import numpy as np
from io import BytesIO
from diffusers import DiffusionPipeline
from PIL import Image


pipeline = DiffusionPipeline.from_pretrained(
    "dylanebert/LGM-full",
    custom_pipeline="dylanebert/LGM-full",
    torch_dtype=torch.float16,
    trust_remote_code=True,
).to("cuda")


In [None]:
input_prompt = "a cat statue"

result = pipeline(input_prompt, None)

result_path = "cache/output.ply"

pipeline.save_ply(result, result_path)

## 4.7. <a id='toc4_7_'></a>[tts](#toc0_)

In [12]:
from transformers import pipeline


synthesizer = pipeline("text-to-speech", "suno/bark")

  self.register_buffer("padding_total", torch.tensor(kernel_size - stride, dtype=torch.int64), persistent=False)
Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [13]:
text = '''
Optimization of production medium is required to maximize the metabolite yield. This can be achieved by using a wide range of techniques from classical “one-factor-at-a-time” to modern statistical and mathematical techniques, viz. artificial neural network (ANN), genetic algorithm (GA) etc. Every technique comes with its own advantages and disadvantages, and despite drawbacks some techniques are applied to obtain best results. Use of various optimization techniques in combination also provides the desirable results. In this article an attempt has been made to review the currently used media optimization techniques applied during fermentation process of metabolite production. Comparative analysis of the merits and demerits of various conventional as well as modern optimization techniques have been done and logical selection basis for the designing of fermentation medium has been given in the present review. Overall, this review will provide the rationale for the selection of suitable optimization technique for media designing employed during the fermentation process of metabolite production.
'''
# audio = synthesizer("Look I am generating speech in three lines of code!")
audio = synthesizer(text)

audio

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


{'audio': array([[ 0.00234471,  0.0016649 ,  0.00155421, ...,  0.00092074,
          0.00047274, -0.00016963]], dtype=float32),
 'sampling_rate': 24000}

In [14]:
from IPython.display import display, Audio


display(Audio(audio['audio'], rate=audio['sampling_rate']))

## 4.8. <a id='toc4_8_'></a>[esm](#toc0_)

In [41]:
# Use a pipeline as a high-level helper
from transformers import pipeline


pipe = pipeline("fill-mask", model="facebook/esm2_t33_650M_UR50D")

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [42]:
pipe(inputs="M<mask>MMMMMMMMM")

[{'score': 0.9154838919639587,
  'token': 20,
  'token_str': 'M',
  'sequence': 'M M M M M M M M M M M'},
 {'score': 0.021532787010073662,
  'token': 12,
  'token_str': 'I',
  'sequence': 'M I M M M M M M M M M'},
 {'score': 0.0165445227175951,
  'token': 11,
  'token_str': 'T',
  'sequence': 'M T M M M M M M M M M'},
 {'score': 0.013955787755548954,
  'token': 4,
  'token_str': 'L',
  'sequence': 'M L M M M M M M M M M'},
 {'score': 0.011024301871657372,
  'token': 7,
  'token_str': 'V',
  'sequence': 'M V M M M M M M M M M'}]

# 5. <a id='toc5_'></a>[pipeline背后的逻辑](#toc0_)

- Tokenizer
  - AutoTokenizer
  - ...
  - BertTokenizer
  - ...


- Model:
  - AutoModel
  - AutoModelForSequenceClassification
  - ...
  - BertModel
  - ...

## 5.1. <a id='toc5_1_'></a>[Preprocessing with a tokenizer](#toc0_)

In [5]:
from transformers import AutoTokenizer


checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)

In [6]:
raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]

inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")

print(inputs)

{'input_ids': tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,
             0,     0,     0,     0,     0,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]])}


## 5.2. <a id='toc5_2_'></a>[Going through the model](#toc0_)

![image.png](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/transformer_and_head-dark.svg)


Transformers 库封装了很多不同的结构，常见的有：

Head: 
- *Model (retrieve the hidden states)   （返回 hidden states）
- *ForCausalLM                          （用于条件语言模型）
- *ForMaskedLM                          （用于遮盖语言模型）
- *ForMultipleChoice                    （用于多选任务）
- *ForQuestionAnswering                 （用于自动问答任务）
- *ForSequenceClassification            （用于文本分类任务）
- *ForTokenClassification               （用于 token 分类任务，例如 NER）
- and others 🤗

In [7]:
from transformers import AutoModel


checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

model = AutoModel.from_pretrained(checkpoint)

Transformer 模块的输出是一个维度为 (Batch size, Sequence length, Hidden size) 的三维张量，其中 Batch size 表示每次输入的样本（文本序列）数量，即每次输入多少个句子。

In [8]:
outputs = model(**inputs)

print(outputs.last_hidden_state.shape)

torch.Size([2, 16, 768])


## 5.3. <a id='toc5_3_'></a>[Postprocessing the output](#toc0_)

In [9]:
import torch


predictions = torch.nn.functional.softmax(outputs.last_hidden_state, dim=-1)

predictions, torch.argmax(predictions, dim=-1)

(tensor([[[0.0010, 0.0015, 0.0023,  ..., 0.0009, 0.0020, 0.0014],
          [0.0016, 0.0023, 0.0016,  ..., 0.0011, 0.0020, 0.0014],
          [0.0029, 0.0013, 0.0016,  ..., 0.0017, 0.0010, 0.0006],
          ...,
          [0.0014, 0.0021, 0.0016,  ..., 0.0008, 0.0020, 0.0011],
          [0.0025, 0.0012, 0.0014,  ..., 0.0019, 0.0012, 0.0006],
          [0.0012, 0.0016, 0.0019,  ..., 0.0016, 0.0021, 0.0008]],
 
         [[0.0008, 0.0023, 0.0010,  ..., 0.0010, 0.0004, 0.0011],
          [0.0009, 0.0028, 0.0010,  ..., 0.0008, 0.0006, 0.0014],
          [0.0009, 0.0027, 0.0010,  ..., 0.0009, 0.0005, 0.0012],
          ...,
          [0.0008, 0.0027, 0.0011,  ..., 0.0010, 0.0005, 0.0010],
          [0.0008, 0.0029, 0.0010,  ..., 0.0009, 0.0005, 0.0010],
          [0.0008, 0.0027, 0.0011,  ..., 0.0010, 0.0005, 0.0010]]],
        grad_fn=<SoftmaxBackward0>),
 tensor([[401,  23, 555, 401,  23, 483, 483, 483, 483, 401, 401,  23,  23,  23,
          555, 401],
         [592, 592, 592, 415,  44, 

有了Head之后，可以直接输出为task结果。

In [10]:
from transformers import AutoModelForSequenceClassification


checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)

print("logits: ", outputs)

logits:  SequenceClassifierOutput(loss=None, logits=tensor([[-1.5607,  1.6123],
        [ 4.1692, -3.3464]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)


In [11]:
outputs.logits

tensor([[-1.5607,  1.6123],
        [ 4.1692, -3.3464]], grad_fn=<AddmmBackward0>)

In [12]:
torch.nn.functional.softmax(outputs.logits, dim = -1).argmax(dim = -1)

tensor([1, 0])

# 6. <a id='toc6_'></a>[专题](#toc0_)

## 6.1. <a id='toc6_1_'></a>[模型配置](#toc0_)

### 6.1.1. <a id='toc6_1_1_'></a>[model config](#toc0_)

#### 6.1.1.1. <a id='toc6_1_1_1_'></a>[随机权重](#toc0_)

In [15]:
from transformers import BertConfig, BertModel


# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

config, model

(BertConfig {
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "transformers_version": "4.43.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522
 },
 BertModel(
   (embeddings): BertEmbeddings(
     (word_embeddings): Embedding(30522, 768, padding_idx=0)
     (position_embeddings): Embedding(512, 768)
     (token_type_embeddings): Embedding(2, 768)
     (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
     (dropout): Dropout(p=0.1, inplace=False)
   )
   (encoder): BertEncoder(
     (layer): ModuleList(
       (0-11): 12 x BertLayer(
         (attention): BertAttention(
         

#### 6.1.1.2. <a id='toc6_1_1_2_'></a>[pre-trained](#toc0_)

In [None]:
from transformers import BertModel 


model = BertModel.from_pretrained('bert-base-cased')

## 6.2. <a id='toc6_2_'></a>[Dataset](#toc0_)

In [17]:
import datasets


# 加载 GLUE 数据集中的 MRPC（Microsoft Research Paraphrase Corpus）
dataset = datasets.load_dataset(path='glue', name='mrpc')

In [19]:
dataset

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

In [20]:
# 保存数据集到本地磁盘
dataset.save_to_disk('data/huggingface/datasets/mrpc')

Saving the dataset (0/1 shards):   0%|          | 0/3668 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/408 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/1725 [00:00<?, ? examples/s]

In [21]:
# 从本地磁盘加载数据集
dataset = datasets.load_from_disk('data/huggingface/datasets/mrpc')

dataset

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

### 6.2.1. <a id='toc6_2_1_'></a>[比较](#toc0_)

|特性	|PyTorch Dataset	|Hugging Face Dataset|
|-|-|-|
|继承关系	|继承自torch.utils.data.Dataset	|继承自datasets.Dataset
|数据格式	|通常是图片、文本等形式，需要用户手动处理	|支持多种格式，如文本、CSV、JSON、Parquet
|内存管理	|手动加载数据（支持懒加载）	|自动内存映射和懒加载（支持大规模数据集）
|数据处理	|需要手动实现数据加载和处理逻辑	|提供内建的数据处理方法（如map()、filter()等）
|分割数据	|通常用户自己管理训练集、验证集和测试集	|自动提供分割（如train, test, validation）
|并行化/分布式处理	|支持使用DataLoader进行并行化加载	|内建支持分布式数据加载和高效的多线程加载
|适用场景	|适用于各种深度学习任务，如图像分类、目标检测等	|适用于NLP任务和大规模数据集加载，尤其是文本数据处理


### 6.2.2. <a id='toc6_2_2_'></a>[转换](#toc0_)

- torch to huggingface

In [15]:
import torch
from torch.utils.data import Dataset
from datasets import Dataset as HFDataset


# 创建一个简单的PyTorch Dataset
class CustomDataset(Dataset):
    def __init__(self):
        self.data = [
            {"text": "Hello world", "label": 0},
            {"text": "Goodbye world", "label": 1},
            {"text": "PyTorch is awesome", "label": 1},
        ]

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]


# 创建PyTorch Dataset实例
torch_dataset = CustomDataset()

# 将PyTorch Dataset的数据提取出来，并转换为Hugging Face Dataset格式
def torch_to_huggingface(torch_dataset):
    data = {"text": [], "label": []}
    for item in torch_dataset:
        data["text"].append(item["text"])
        data["label"].append(item["label"])
    
    return HFDataset.from_dict(data)

# 转换为Hugging Face Dataset
hf_dataset = torch_to_huggingface(torch_dataset)

# 查看转换后的Hugging Face Dataset
print(hf_dataset)

Dataset({
    features: ['text', 'label'],
    num_rows: 3
})


- huggingface to torch

In [16]:
from datasets import load_dataset
import torch
from torch.utils.data import Dataset


# 加载一个Hugging Face数据集
hf_dataset = load_dataset("imdb", split="train")

# 创建一个PyTorch Dataset类
class HFToPyTorchDataset(Dataset):
    def __init__(self, hf_dataset):
        self.dataset = hf_dataset
    
    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        # 返回对应索引的数据
        item = self.dataset[idx]
        return torch.tensor(item["label"]), item["text"]

# 将Hugging Face Dataset转换为PyTorch Dataset
torch_dataset = HFToPyTorchDataset(hf_dataset)


# 查看转换后的PyTorch Dataset
for label, text in torch_dataset:
    print(label, text)
    break  # 打印第一个样本

tensor(0) I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

## 6.3. <a id='toc6_3_'></a>[Tokenizer](#toc0_)
Tokenizer 是 tokenizers 库中的核心类，负责管理标记化过程中的多个步骤（例如，预处理、标记化、后处理、编码等）。这个类的主要功能是处理文本的标记化、编码和解码。

Hugging Face tokenizers 库为 NLP 提供了高效的标记化工具，并允许用户根据需求自定义标记化过程。关键参数包括：
- Tokenizer 类型（如 BPE、WordPiece、Unigram）决定了如何分割文本。
- Pre-tokenizers（如空格分词、正则表达式分词）决定了文本的初步拆分方式。
- Post-processors（如 ByteLevel、Template）用来调整标记化后的输出。
- Trainer 类型（如 BpeTrainer、WordPieceTrainer）控制标记化器的训练过程。

### 6.3.1. <a id='toc6_3_1_'></a>[训练tokenizer](#toc0_)
- tokenizers.pre_tokenizers：用于预处理文本，如空格分词、正则表达式分词等，以便更好地分割文本。
  - Whitespace()：按空白字符分割文本。
  - ByteLevel()：按字节级别分割文本，适用于处理多语言文本。
  - Metaspace(replacement="_", add_prefix_space=True)：将空白字符替换为指定的符号，然后再进行分割。
  - CharDelimiterSplit(delimiter=",")：按指定的字符分割文本。

- tokenizers.models包含多种模型，如：
  - BPE
  - WordPiece
  - Unigram

- tokenizer.trainers与之对应的包含多种训练器，如：
  - BpeTrainer
  - WordPieceTrainer
  - UnigramTrainer

- tokenizers.processors包含多种后处理器，如：
  - TemplateProcessing：允许使用模板来定义如何处理标记序列。
    - single：处理单个句子的模板。
    - pair：处理句子对的模板。
    - special_tokens：特殊标记列表。
  - ByteLevelProcessing：用于字节级别的处理，通常与ByteLevelBPETokenizer一起使用。
    - add_prefix_space：是否在每个标记前添加空格。
  - BertProcessing：用于BERT模型，添加[CLS]和[SEP]标记。
  - RobertaProcessing：用于RoBERTa模型，添加<s>和</s>标记。
    - cls_token：表示<s>标记及其ID的元组。
    - sep_token：表示</s>标记及其ID的元组

In [22]:
from tokenizers import Tokenizer
from tokenizers import models 
from tokenizers import trainers


model = models.BPE(un_token='[UNK]')

# Init a tokenizer
tokenizer = Tokenizer(model=model)

Ignored unknown kwarg option un_token


In [None]:
trainer = trainers.BpeTrainer(
    special_tokens = ["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"], 
    min_frequency = 1
)

# train the tokenizer
tokenizer.train(files=['data/huggingface/dna_1g.txt'], trainer=trainer)

# save the tokenizer 
tokenizer.save("data/huggingface/demo.json")

### 6.3.2. <a id='toc6_3_2_'></a>[封装为PreTrainedTokenizerFast](#toc0_)
为了让 Hugging Face 接受这个 Tokenizer，必须将其转换为 PreTrainedTokenizerFast 格式。PreTrainedTokenizerFast 是 Hugging Face 的快速 Tokenizer 类，它与 Tokenizer 对象兼容，并提供与 Hugging Face 模型的兼容性。

这段代码会将 custom_tokenizer.json 文件加载到 Hugging Face 的 PreTrainedTokenizerFast 中，然后将其保存为 Hugging Face 兼容的格式。

在你保存 Tokenizer 时，save_pretrained() 方法会自动生成两个文件：
- tokenizer.json：包含了 Tokenizer 的词汇表和模型参数。
- tokenizer_config.json：包含了 Tokenizer 配置的 JSON 文件。


PreTrainedTokenizerFast是transformers库中的一个类，用于快速分词。它是基于tokenizers库的Rust实现，具有更高的性能和更快的分词速度。PreTrainedTokenizerFast类通常与预训练的模型一起使用，提供了与PreTrainedTokenizer相同的接口，但速度更快。

主要功能
- 快速分词：使用Rust实现的分词器，速度更快。
- 与预训练模型兼容：可以加载和使用预训练模型的分词器。
- 支持多种语言：支持多种语言的分词。
- 丰富的功能：支持编码、解码、添加特殊标记、处理批量数据等功能。

In [None]:
from transformers import PreTrainedTokenizerFast


# # 使用从 `tokenizers` 中保存的自定义 Tokenizer
tokenizer = PreTrainedTokenizerFast(tokenizer_file="custom_tokenizer.json")

# # 保存为 Hugging Face 兼容格式
tokenizer.save_pretrained("path_to_save_directory")

In [None]:
from transformers import AutoTokenizer


# 加载保存的自定义 Tokenizer
tokenizer = AutoTokenizer.from_pretrained("path_to_save_directory")

# 测试 Tokenizer
text = "Hello, Hugging Face!"
encoded = tokenizer.encode(text)

print(f"Tokens: {encoded}")
print(f"IDs: {encoded.ids}")


### 6.3.3. <a id='toc6_3_3_'></a>[加载tokenizer](#toc0_)

- 功能：从文件加载训练好的 Tokenizer。
- 参数：
  - path_to_tokenizer.json：是标记化器的保存路径，该文件包含标记化器的结构和配置。

In [27]:
from tokenizers import Tokenizer 


# load from file 
tokenizer = Tokenizer.from_file("data/huggingface/demo.json")

# load from pretrained
## 从预训练模型中加载tokenizer, PreTrainedTokenizerFast类
# Tokenizer.from_pretrained("bert-base-uncased")

# load
# Tokenizer.load()

### 6.3.4. <a id='toc6_3_4_'></a>[encode](#toc0_)

- 功能：将输入文本转换为标记 ID 或 tokens。
- 参数：
  - text：待标记化的文本（字符串）。
  - batch_texts：多个待标记化的文本组成的列表（batch）。

In [28]:
# encode per sample
output = tokenizer.encode("atgatgatgtaa".upper())

# encode batch
batch_output = tokenizer.encode_batch(["ATGTAA", "TGATAA"])

output, output.tokens, output.ids, batch_output, batch_output[0].tokens, batch_output[0].ids

(Encoding(num_tokens=3, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing]),
 ['A', 'TGATGATG', 'TAA'],
 [6, 6321, 21],
 [Encoding(num_tokens=2, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing]),
  Encoding(num_tokens=1, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])],
 ['ATG', 'TAA'],
 [3244, 21])

- 功能：将标记的 ID 转换回文本。
- 参数：
  - ids：标记的 ID 列表。

### 6.3.5. <a id='toc6_3_5_'></a>[decode](#toc0_)

In [29]:
# 功能：将标记的 ID 转换回文本。
tokenizer.decode(output.ids)

'A TGATGATG TAA'

### 6.3.6. <a id='toc6_3_6_'></a>[补充](#toc0_)

In [34]:
# 获取词汇表大小
tokenizer.get_vocab_size()

30000

In [35]:
# 获取词汇表
tokenizer.get_vocab()

{'GCGACC': 2579,
 'TCCTGCTTA': 29064,
 'TCTATGAAA': 9806,
 'TCTTGATTCCAGCTT': 24896,
 'GTTGGCCAA': 22425,
 'TAAACAGCA': 13914,
 'CGCATTTG': 20756,
 'TGAATGGA': 5746,
 'TCCAGGAGAA': 25518,
 'TAAAAGCATT': 22668,
 'GGAAGAAAAA': 15663,
 'TATTCTTTG': 17217,
 'GCCCATA': 6334,
 'GCCAAGGAA': 19537,
 'CACTCTT': 2742,
 'CCTAGAAAA': 12811,
 'CTTCTCTA': 19896,
 'GAATTGGAA': 23063,
 'CTGGACTT': 10613,
 'CTATAGA': 3454,
 'CCTCC': 209,
 'GGAAATGGA': 28925,
 'TATAGTCA': 8334,
 'TAACTATT': 7337,
 'CGAGTGA': 8877,
 'GGT\n': 10231,
 'TCTAAGTG': 27060,
 'TGCCCAAA': 15473,
 'CTTTGTTAA': 19875,
 'CTTTTGAAAA': 18422,
 'CACAGACCA': 21096,
 'CTTCTGAAA': 14247,
 'TAGACAGG': 10235,
 'GCATATGAA': 28116,
 'TCAGTG': 545,
 'CTCACGTT': 27987,
 'TGTGCACCA': 16408,
 'TTTTGCTT': 8314,
 'CCCACAA': 3165,
 'GGAGATCTG': 28500,
 'CCAGGCTT': 6705,
 'GGGAGTTA': 12435,
 'GGATTA': 433,
 'GCATGTTTG': 24519,
 'TGGAGCCA': 27185,
 'CCTGCACCA': 12558,
 'CTAAGCA': 4708,
 'TGTTGTCA': 6470,
 'CGACCAAA': 24452,
 'TCAGTAAAA': 14662,
 'CGG

In [46]:
# 添加新词汇
tokenizer.add_tokens(tokens=['spo0A', 'spo0B', 'pdeH'])

2

In [49]:
# 添加特殊分词
tokenizer.add_special_tokens(tokens=['[UNK]', '[CLS]', '[SEP]', '[PAD]', '[MASK]'])

5

In [50]:
tokenizer.get_vocab()

{'GCGACC': 2579,
 'TCCTGCTTA': 29064,
 'TCTATGAAA': 9806,
 'TCTTGATTCCAGCTT': 24896,
 'GTTGGCCAA': 22425,
 'TAAACAGCA': 13914,
 'CGCATTTG': 20756,
 'TGAATGGA': 5746,
 'TCCAGGAGAA': 25518,
 'TAAAAGCATT': 22668,
 'GGAAGAAAAA': 15663,
 'TATTCTTTG': 17217,
 'GCCCATA': 6334,
 'GCCAAGGAA': 19537,
 'CACTCTT': 2742,
 'CCTAGAAAA': 12811,
 'CTTCTCTA': 19896,
 'GAATTGGAA': 23063,
 'CTGGACTT': 10613,
 'CTATAGA': 3454,
 'CCTCC': 209,
 'GGAAATGGA': 28925,
 'TATAGTCA': 8334,
 'TAACTATT': 7337,
 'CGAGTGA': 8877,
 'GGT\n': 10231,
 'TCTAAGTG': 27060,
 'TGCCCAAA': 15473,
 'CTTTGTTAA': 19875,
 'CTTTTGAAAA': 18422,
 'CACAGACCA': 21096,
 'CTTCTGAAA': 14247,
 'TAGACAGG': 10235,
 'GCATATGAA': 28116,
 'TCAGTG': 545,
 'CTCACGTT': 27987,
 'TGTGCACCA': 16408,
 'TTTTGCTT': 8314,
 'CCCACAA': 3165,
 'GGAGATCTG': 28500,
 'CCAGGCTT': 6705,
 'GGGAGTTA': 12435,
 'GGATTA': 433,
 'GCATGTTTG': 24519,
 'TGGAGCCA': 27185,
 'CCTGCACCA': 12558,
 'CTAAGCA': 4708,
 'TGTTGTCA': 6470,
 'CGACCAAA': 24452,
 'TCAGTAAAA': 14662,
 'CGG

## 6.4. <a id='toc6_4_'></a>[快速分词器](#toc0_)

实际上，Hugging Face 共提供了两种分分词器：

- 慢速分词器：Transformers 库自带，使用 Python 编写；

- 快速分词器：Tokenizers 库提供，使用 Rust 编写。
  - 特别地，快速分词器除了能进行编码和解码之外，还能够追踪原文到 token 之间的映射，这对于处理序列标注、自动问答等任务非常重要。
  - 快速分词器只有在并行处理大量文本时才能发挥出速度优势，在处理单个句子时甚至可能慢于慢速分词器。

## 6.5. <a id='toc6_5_'></a>[Trainer](#toc0_)

### 6.5.1. <a id='toc6_5_1_'></a>[TrainingArguments](#toc0_)
TrainingArguments是transformers库中的一个类，用于配置训练过程中的各种参数。它提供了许多选项来控制训练的行为，如输出目录、批次大小、学习率、日志记录等。以下是TrainingArguments类的详细说明及其常用参数：

常用参数
- output_dir：保存模型和检查点的输出目录。
- overwrite_output_dir：是否覆盖输出目录中的内容。默认为False。
- do_train：是否执行训练。默认为False。
- do_eval：是否执行评估。默认为False。
- evaluation_strategy：评估策略。可以是"no"（不评估）、"steps"（每隔一定步数评估一次）或"epoch"（每个epoch评估一次）。
- per_device_train_batch_size：每个设备的训练批次大小。
- per_device_eval_batch_size：每个设备的评估批次大小。
- learning_rate：初始学习率。
- weight_decay：权重衰减（L2正则化）。
- num_train_epochs：训练的总epoch数。
- logging_dir：日志目录。
- logging_steps：日志记录的步数间隔。
- save_steps：保存检查点的步数间隔。
- save_total_limit：要保留的检查点数量。如果超过此数量，旧的检查点将被删除。
- seed：随机种子。
- fp16：是否使用16位浮点数精度（混合精度训练）。
- warmup_steps：学习率预热的步数。
- gradient_accumulation_steps：梯度累积的步数。

In [None]:
from transformers import TrainingArguments


training_args = TrainingArguments(
    output_dir='./results',                   # 保存模型和检查点的输出目录
    overwrite_output_dir=True,                # 是否覆盖输出目录中的内容
    evaluation_strategy='epoch',              # 每个epoch评估一次
    learning_rate=2e-5,                       # 初始学习率
    per_device_train_batch_size=8,            # 每个设备的训练批次大小
    per_device_eval_batch_size=8,             # 每个设备的评估批次大小
    num_train_epochs=3,                       # 训练的总epoch数
    weight_decay=0.01,                        # 权重衰减（L2正则化）
    logging_dir='./logs',                     # 日志目录
    logging_steps=10,                         # 日志记录的步数间隔
    save_steps=100,                           # 保存检查点的步数间隔
    save_total_limit=2,                       # 要保留的检查点数量
    seed=42,                                  # 随机种子
    fp16=True,                                # 是否使用16位浮点数精度（混合精度训练）
    warmup_steps=500,                         # 学习率预热的步数
    gradient_accumulation_steps=2             # 梯度累积的步数
)

### 6.5.2. <a id='toc6_5_2_'></a>[Trainer](#toc0_)
Hugging Face的transformers库中的Trainer类是一个用于训练和评估模型的高级API。它简化了训练循环的实现，并提供了许多有用的功能，如自动保存检查点、日志记录、评估等。

主要功能
- 训练：执行模型的训练过程。
- 评估：在验证集上评估模型性能。
- 预测：在测试集上进行预测。
- 保存和加载：自动保存和加载模型检查点。

常用参数    
- model：要训练的模型。
- args：训练参数，使用TrainingArguments类定义。
- train_dataset：训练数据集。
- eval_dataset：评估数据集。
- tokenizer：分词器（可选）。
- data_collator：数据整理器，用于将数据整理成模型所需的格式（可选）。
- compute_metrics：计算评估指标的函数（可选）。

data_collator是transformers库中的一个组件，用于在训练和评估过程中整理和处理批次数据。它的主要作用是将单个样本整理成批次，并进行必要的填充、掩码等操作，以便模型能够正确处理输入数据。transformers库提供了多种data_collator类，以下是一些常用的：
- DataCollatorForLanguageModeling：用于语言模型训练的数据整理器，支持掩码语言模型（MLM）和自回归语言模型（CLM）。
  - tokenizer：分词器实例。
  - mlm：是否使用掩码语言模型。默认为True。
  - mlm_probability：掩码的概率。仅在mlm=True时使用。默认为0.15。
- DataCollatorWithPadding：自动对批次中的输入进行填充，使其具有相同的长度。
  - tokenizer：分词器实例。
  - padding：填充策略，可以是True、False、"longest"或"max_length"。
- DataCollatorForTokenClassification：用于标记分类任务的数据整理器。
- DataCollatorForSeq2Seq：用于序列到序列任务的数据整理器。
  - tokenizer：分词器实例。
  - model：模型实例。
  - padding：填充策略，可以是True、False、"longest"或"max_length"。
  - label_pad_token_id：标签填充标记的ID。
  - pad_to_multiple_of：将输入序列填充到指定的倍数长度。

In [None]:
from transformers import Trainer


# 初始化Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics ,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=3)],
    optimizers=(optimizer, scheduler)
)

# 训练模型
trainer.train()

# 评估模型
trainer.evaluate()

# 7. <a id='toc7_'></a>[训练八股](#toc0_)

## 7.1. <a id='toc7_1_'></a>[下载模型和配置文件](#toc0_)
save_pretrained 会将模型的权重文件、配置文件和 Tokenizer 文件保存在本地目录。

In [24]:
from transformers import BertForSequenceClassification, BertTokenizer, BertConfig


# 指定模型名称
model_name = "bert-base-uncased"

# 下载模型和配置文件
model = BertForSequenceClassification.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)
config = BertConfig.from_pretrained(model_name)

# 将模型保存到本地目录
model.save_pretrained("cache/my_model")
tokenizer.save_pretrained("cache/my_model")
config.save_pretrained("cache/my_model")

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


[2025-02-27 09:23:04,373] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)


## 7.2. <a id='toc7_2_'></a>[下载数据集](#toc0_)
使用 datasets 库可以方便地下载 Hugging Face Hub 上的数据集。你可以选择一个你感兴趣的任务（如文本分类、生成等）。

### 7.2.1. <a id='toc7_2_1_'></a>[下载 IMDB 数据集](#toc0_)

In [25]:
from datasets import load_dataset


# 下载IMDB情感分析数据集
dataset = load_dataset("imdb")


# 预处理数据集：tokenize文本数据
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length")


# 对数据集进行批处理tokenize
tokenized_datasets = dataset.map(preprocess_function, batched=True)

# 获取训练集和测试集
train_dataset = tokenized_datasets["train"]
test_dataset = tokenized_datasets["test"]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

### 7.2.2. <a id='toc7_2_2_'></a>[准备数据加载器](#toc0_)
PyTorch 中通常使用 DataLoader 来加载数据。你可以直接使用 train_dataset 和 test_dataset，并通过 DataLoader 对数据进行批处理。

In [26]:
from torch.utils.data import DataLoader


# 将Hugging Face Dataset 转换为 PyTorch DataLoader
train_dataloader = DataLoader(train_dataset, batch_size=8)
test_dataloader = DataLoader(test_dataset, batch_size=8)

In [27]:
for batch in train_dataloader:
    print(batch)
    break

{'text': ['I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far b

## 7.3. <a id='toc7_3_'></a>[训练](#toc0_)

In [28]:
import torch
from torch import nn
from torch.optim import AdamW
from transformers import get_linear_schedule_with_warmup


# 设置优化器和损失函数
optimizer = AdamW(model.parameters(), lr=2e-5)

# 设置损失函数（BERT模型已经自带了交叉熵损失）
criterion = nn.CrossEntropyLoss()

# 设置学习率调度器
num_training_steps = len(train_dataloader) * 3  # 假设训练3个epoch
lr_scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=num_training_steps)

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 训练模型
for epoch in range(3):  # 假设训练3个epoch
    model.train()  # 设置模型为训练模式
    total_loss = 0

    for batch in train_dataloader:
        # 将数据移到设备（GPU/CPU）
        # inputs = {key: value.to(device) for key, value in batch.items()}
        # inputs = {key: [v.to(device) for v in value] for key, value in batch.items()}
        inputs = batch

        # 前向传播
        outputs = model(**inputs)
        loss = outputs.loss
        logits = outputs.logits

        # 计算梯度并更新模型
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        lr_scheduler.step()

        total_loss += loss.item()

    # 输出每个epoch的损失
    print(f"Epoch {epoch+1}, Loss: {total_loss / len(train_dataloader)}")
    
    # 评估模型
    model.eval()  # 设置模型为评估模式
    total_eval_loss = 0
    total_eval_accuracy = 0

    for batch in test_dataloader:
        # inputs = {key: [v.to(device) for v in value] for key, value in batch.items()}
        inputs = batch
        with torch.no_grad():  # 评估时不需要计算梯度
            outputs = model(**inputs)
        logits = outputs.logits
        loss = criterion(logits, inputs["labels"])

        total_eval_loss += loss.item()

        # 计算准确率
        preds = torch.argmax(logits, dim=-1)
        accuracy = (preds == inputs["labels"]).sum().item()
        total_eval_accuracy += accuracy

    print(f"Validation Loss: {total_eval_loss / len(test_dataloader)}")
    print(f"Validation Accuracy: {total_eval_accuracy / len(test_dataloader.dataset)}")


In [55]:
model.save_pretrained("cache/final_model")
tokenizer.save_pretrained("cache/final_model")

('cache/final_model/tokenizer_config.json',
 'cache/final_model/special_tokens_map.json',
 'cache/final_model/vocab.txt',
 'cache/final_model/added_tokens.json')

# 8. <a id='toc8_'></a>[翻译任务](#toc0_)


# 9. <a id='toc9_'></a>[文本摘要任务](#toc0_)
本文将运用 Transformers 库来完成文本摘要任务。与我们上一章进行的翻译任务一样，文本摘要同样是一个 Seq2Seq 任务，旨在尽可能保留文本语义的情况下将长文本压缩为短文本。

虽然Hugging Face 已经提供了很多文本摘要模型，但是它们大部分只能处理英文，因此本文将微调一个多语言文本摘要模型用于完成中文摘要：为新浪微博短新闻生成摘要。

文本摘要可以看作是将长文本“翻译”为捕获关键信息的短文本，因此大部分文本摘要模型同样采用 Encoder-Decoder 框架。当然，也有一些非 Encoder-Decoder 框架的摘要模型，例如 GPT 家族也可以通过小样本学习 (few-shot) 进行文本摘要。

目前流行的可用于文本摘要的模型：

- GPT-2：虽然是自回归 (auto-regressive) 语言模型，但是可以通过在输入文本的末尾添加 TL;DR 来使 GPT-2 生成摘要；
PEGASUS：与大部分语言模型通过预测被遮掩掉的词语来进行训练不同，PEGASUS 通过预测被遮掩掉的句子来进行训练。由于预训练目标与摘要任务接近，因此 PEGASUS 在摘要任务上的表现很好；
- T5：将各种 NLP 任务都转换到 text-to-text 框架来完成的通用 Transformer 架构，要进行摘要任务只需在输入文本前添加 summarize: 前缀；
- mT5：T5 的多语言版本，在多语言通用爬虫语料库 mC4 上预训练，覆盖 101 种语言；
- BART：包含一个 Encoder 和一个 Decoder stack 的 Transformer 架构，训练目标是重构损坏的输入，同时还结合了 BERT 和 - GPT-2 的预训练方案；
- mBART-50：BART 的多语言版本，在 50 种语言上进行了预训练。

T5 模型通过模板前缀 (prompt prefix) 将各种 NLP 任务都转换到 text-to-text 框架进行预训练，例如摘要任务的前缀就是 summarize:，模型以前缀作为条件生成符合模板的文本，这使得一个模型就可以完成多种 NLP 任务：

![alt text](./Pytorch_Pictures/T5/T5.png)

在本文中，我们将专注于微调多语言 mT5 模型用于中文摘要任务，mT5 模型不使用前缀，但是具备 T5 模型大部分的多功能性。



## 9.1. <a id='toc9_1_'></a>[构建数据集](#toc0_)
与之前一样，我们首先编写继承自 Dataset 类的自定义数据集用于组织样本和标签。考虑到使用 LCSTS 两百多万条样本进行训练耗时过长，这里我们只抽取训练集中的前 20 万条数据：

In [None]:
from torch.utils.data import Dataset


max_dataset_size = 200000

class LCSTS(Dataset):
    def __init__(self, data_file):
        self.data = self.load_data(data_file)
    
    def load_data(self, data_file):
        Data = {}
        with open(data_file, 'rt', encoding='utf-8') as f:
            for idx, line in enumerate(f):
                if idx >= max_dataset_size:
                    break
                items = line.strip().split('!=!')
                assert len(items) == 2
                Data[idx] = {
                    'title': items[0],
                    'content': items[1]
                }
        return Data
    
    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]


# start
train_data = LCSTS('data/lcsts_tsv/data1.tsv')
valid_data = LCSTS('data/lcsts_tsv/data2.tsv')
test_data = LCSTS('data/lcsts_tsv/data3.tsv')

# 10. <a id='toc10_'></a>[问答](#toc0_)
问答QA是经典的NLP任务，需要模型基于上下文问题。

根据回答方式可以分为：

- 抽取式 (extractive) 问答：从上下文中截取片段作为回答，类似于我们前面介绍的序列标注任务；

- 生成式 (generative) 问答：生成一个文本片段作为回答，类似于我们前面介绍的翻译和摘要任务。

抽取式问答模型通常采用纯 Encoder 框架（例如 BERT），它更适用于处理事实性问题，例如“谁发明了 Transformer 架构？”，这些问题的答案通常就包含在上下文中；而生成式问答模型则通常采用 Encoder-Decoder 框架（例如 T5、BART），它更适用于处理开放式问题，例如“天空为什么是蓝色的？”，这些问题的答案通常需要结合上下文语义再进行抽象表达。

本文我们将微调一个 BERT 模型来完成抽取式问答任务：对于给定的问题，从上下文中抽取出概率最大的文本片段作为答案。



## 10.1. <a id='toc10_1_'></a>[构建数据集](#toc0_)

我们选择由哈工大讯飞联合实验室构建的中文阅读理解语料库 CMRC 2018 作为数据集，该语料是一个类似于 SQuAD 的抽取式数据集，对于每个问题都从原文中截取片段 (span) 作为答案，可以从 Github 下载。

其中 cmrc2018_train.json、cmrc2018_dev.json 和 cmrc2018_trial.json 分别对应训练集、验证集和测试集。对于每篇文章，CMRC 2018 都标注了一些问题以及对应的答案（包括答案的文本和位置），例如：

```json
{
 "context": "《战国无双3》（）是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴，分别是以武田信玄等人为主的《关东三国志》，织田信长等人为主的《战国三杰》，石田三成等人为主的《关原的年轻武者》，丰富游戏内的剧情。此部份专门介绍角色，欲知武器情报、奥义字或擅长攻击类型等，请至战国无双系列1.由于乡里大辅先生因故去世，不得不寻找其他声优接手。从猛将传 and Z开始。2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。...", 
 "qas": [{
     "question": "《战国无双3》是由哪两个公司合作开发的？", 
     "id": "DEV_0_QUERY_0", 
     "answers": [{
         "text": "光荣和ω-force", 
         "answer_start": 11
     }, {
         "text": "光荣和ω-force", 
         "answer_start": 11
     }, {
         "text": "光荣和ω-force", 
         "answer_start": 11
     }]
 }, {
     "question": "男女主角亦有专属声优这一模式是由谁改编的？", 
     "id": "DEV_0_QUERY_1", 
     "answers": [{
         "text": "村雨城", 
         "answer_start": 226
     }, {
         "text": "村雨城", 
         "answer_start": 226
     }, {
         "text": "任天堂游戏谜之村雨城", 
         "answer_start": 219
     }]
 }, ...
 ]
}
```

一个问题可能对应有多个参考答案，在训练时我们任意选择其中一个作为标签，在验证/测试时，我们则将预测答案和所有参考答案都送入打分函数来评估模型的性能。

与之前一样，我们首先编写继承自 Dataset 类的自定义数据集用于组织样本和标签。原始数据集中一个样本对应一个上下文，这里我们将它调整为一个问题一个样本，参考答案则处理为包含 text 和 answer_start 字段的字典，分别存储答案文本和位置：

In [4]:
import torch 
from torch.utils import data
import json


class CMRC2018(data.Dataset):

    def __init__(self, data_file):
        self.data = self.load_data(data_file)
    
    def load_data(self, data_file):
        Data = {}
        with open(data_file, 'r', encoding='utf-8') as f:
            json_data = json.load(f)
            idx = 0
            for article in json_data['data']:
                title = article['title']
                context = article['paragraphs'][0]['context']
                for question in article['paragraphs'][0]['qas']:
                    q_id = question['id']
                    ques = question['question']
                    text = [ans['text'] for ans in question['answers']]
                    answer_start = [ans['answer_start'] for ans in question['answers']]
                    Data[idx] = {
                        'id': q_id,
                        'title': title,
                        'context': context, 
                        'question': ques,
                        'answers': {
                            'text': text,
                            'answer_start': answer_start
                        }
                    }
                    idx += 1
        return Data
    
    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]


# start
train_data = CMRC2018('data/cmrc2018/cmrc2018_train.json')
valid_data = CMRC2018('data/cmrc2018/cmrc2018_dev.json')
test_data = CMRC2018('data/cmrc2018/cmrc2018_trial.json')

train_data.__len__(), valid_data.__len__(), test_data.__len__()

(10142, 3219, 1002)

In [5]:
train_data[0]

{'id': 'TRAIN_186_QUERY_0',
 'title': '范廷颂',
 'context': '范廷颂枢机（，），圣名保禄·若瑟（），是越南罗马天主教枢机。1963年被任为主教；1990年被擢升为天主教河内总教区宗座署理；1994年被擢升为总主教，同年年底被擢升为枢机；2009年2月离世。范廷颂于1919年6月15日在越南宁平省天主教发艳教区出生；童年时接受良好教育后，被一位越南神父带到河内继续其学业。范廷颂于1940年在河内大修道院完成神学学业。范廷颂于1949年6月6日在河内的主教座堂晋铎；及后被派到圣女小德兰孤儿院服务。1950年代，范廷颂在河内堂区创建移民接待中心以收容到河内避战的难民。1954年，法越战争结束，越南民主共和国建都河内，当时很多天主教神职人员逃至越南的南方，但范廷颂仍然留在河内。翌年管理圣若望小修院；惟在1960年因捍卫修院的自由、自治及拒绝政府在修院设政治课的要求而被捕。1963年4月5日，教宗任命范廷颂为天主教北宁教区主教，同年8月15日就任；其牧铭为「我信天主的爱」。由于范廷颂被越南政府软禁差不多30年，因此他无法到所属堂区进行牧灵工作而专注研读等工作。范廷颂除了面对战争、贫困、被当局迫害天主教会等问题外，也秘密恢复修院、创建女修会团体等。1990年，教宗若望保禄二世在同年6月18日擢升范廷颂为天主教河内总教区宗座署理以填补该教区总主教的空缺。1994年3月23日，范廷颂被教宗若望保禄二世擢升为天主教河内总教区总主教并兼天主教谅山教区宗座署理；同年11月26日，若望保禄二世擢升范廷颂为枢机。范廷颂在1995年至2001年期间出任天主教越南主教团主席。2003年4月26日，教宗若望保禄二世任命天主教谅山教区兼天主教高平教区吴光杰主教为天主教河内总教区署理主教；及至2005年2月19日，范廷颂因获批辞去总主教职务而荣休；吴光杰同日真除天主教河内总教区总主教职务。范廷颂于2009年2月22日清晨在河内离世，享年89岁；其葬礼于同月26日上午在天主教河内总教区总主教座堂举行。',
 'question': '范廷颂是什么时候被任为主教的？',
 'answers': {'text': ['1963年'], 'answer_start': [30]}}

## 10.2. <a id='toc10_2_'></a>[数据预处理](#toc0_)

接下来，我们就需要通过 DataLoader 库按 batch 加载数据，将文本转换为模型可以接受的 token IDs，并且构建对应的标签，标记答案在上下文中起始和结束位置。本文使用 BERT 模型来完成任务，因此我们首先加载对应的分词器：

In [6]:
from transformers import AutoTokenizer


checkpoint = 'bert-base-chinese'
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

对于抽取式问答任务，我们会将问题和上下文编码为下面的形式：

```python
[CLS] question [SEP] context [SEP]
```

标签是答案在上下文中起始/结束 token 的索引，模型的任务就是预测每个 token 为答案片段的起始/结束的概率，即为每个 token 预测一个起始 logit 值和结束 logit 值。例如对于下面的文本，理想标签为：

![alt text](./Pytorch_Pictures/QA/image.png)

由于问题与上下文拼接后的 token 序列可能超过模型的最大输入长度，因此我们可以将上下文切分为短文本块 (chunk) 来处理，同时为了避免答案被截断，我们使用滑窗使得切分出的文本块之间有重叠。

下面我们尝试编码第一个训练样本，将拼接后的最大序列长度设为 300，滑窗大小设为 50，只需要给分词器传递以下参数：

```python
# max_length：                      # 设置编码后的最大序列长度（这里设为 300）；
# truncation="only_second"：        # 只截断第二个输入，这里上下文是第二个输入；
# stride：                          # 两个相邻文本块之间的重合 token 数量（这里设为 50）；
# return_overflowing_tokens=True：  # 允许分词器返回重叠 token。
```

In [7]:
context = train_data[0]["context"]
question = train_data[0]["question"]

inputs = tokenizer(
    question,
    context,
    max_length = 300,
    truncation = "only_second",
    stride = 50,
    return_overflowing_tokens = True,
)

print(inputs.keys())
print("="*30)

for k, v in inputs.items():
    print(k, v)
print("="*30)

for ids in inputs["input_ids"]:
    # print(ids)
    print(tokenizer.decode(ids))


dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'overflow_to_sample_mapping'])
input_ids [[101, 5745, 2455, 7563, 3221, 784, 720, 3198, 952, 6158, 818, 711, 712, 3136, 4638, 8043, 102, 5745, 2455, 7563, 3364, 3322, 8020, 8024, 8021, 8024, 1760, 1399, 924, 4882, 185, 5735, 4449, 8020, 8021, 8024, 3221, 6632, 1298, 5384, 7716, 1921, 712, 3136, 3364, 3322, 511, 9155, 2399, 6158, 818, 711, 712, 3136, 8039, 8431, 2399, 6158, 3091, 1285, 711, 1921, 712, 3136, 3777, 1079, 2600, 3136, 1277, 2134, 2429, 5392, 4415, 8039, 8447, 2399, 6158, 3091, 1285, 711, 2600, 712, 3136, 8024, 1398, 2399, 2399, 2419, 6158, 3091, 1285, 711, 3364, 3322, 8039, 8170, 2399, 123, 3299, 4895, 686, 511, 5745, 2455, 7563, 754, 9915, 2399, 127, 3299, 8115, 3189, 1762, 6632, 1298, 2123, 2398, 4689, 1921, 712, 3136, 1355, 5683, 3136, 1277, 1139, 4495, 8039, 4997, 2399, 3198, 2970, 1358, 5679, 1962, 3136, 5509, 1400, 8024, 6158, 671, 855, 6632, 1298, 4868, 4266, 2372, 1168, 3777, 1079, 5326, 5330, 1071, 2110, 6

可以看到，对上下文的分块使得这个样本被切分为了 4 个新样本。

对于包含答案的样本，标签就是起始和结束 token 的索引；对于不包含答案或只有部分答案的样本，对应的标签都为start_position = end_position = 0（即 [CLS]）。因此我们还需要设置分词器参数 return_offsets_mapping = True，这样就可以运用快速分词器提供的 offset mapping 映射得到对应的 token 索引。

例如我们处理前 4 个训练样本：

In [8]:
contexts = [train_data[idx]["context"] for idx in range(4)]
questions = [train_data[idx]["question"] for idx in range(4)]

inputs = tokenizer(
    questions,
    contexts,
    max_length = 300,
    truncation = "only_second",
    stride = 50,
    return_overflowing_tokens = True,
    return_offsets_mapping = True
)

print(inputs.keys())
print("="*30)

for k, v in inputs.items():
    print(k, v)

print("="*30)

print(f"The 4 examples gave {len(inputs['input_ids'])} features.")
print(f"Here is where each comes from: {inputs['overflow_to_sample_mapping']}.")

dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'offset_mapping', 'overflow_to_sample_mapping'])
input_ids [[101, 5745, 2455, 7563, 3221, 784, 720, 3198, 952, 6158, 818, 711, 712, 3136, 4638, 8043, 102, 5745, 2455, 7563, 3364, 3322, 8020, 8024, 8021, 8024, 1760, 1399, 924, 4882, 185, 5735, 4449, 8020, 8021, 8024, 3221, 6632, 1298, 5384, 7716, 1921, 712, 3136, 3364, 3322, 511, 9155, 2399, 6158, 818, 711, 712, 3136, 8039, 8431, 2399, 6158, 3091, 1285, 711, 1921, 712, 3136, 3777, 1079, 2600, 3136, 1277, 2134, 2429, 5392, 4415, 8039, 8447, 2399, 6158, 3091, 1285, 711, 2600, 712, 3136, 8024, 1398, 2399, 2399, 2419, 6158, 3091, 1285, 711, 3364, 3322, 8039, 8170, 2399, 123, 3299, 4895, 686, 511, 5745, 2455, 7563, 754, 9915, 2399, 127, 3299, 8115, 3189, 1762, 6632, 1298, 2123, 2398, 4689, 1921, 712, 3136, 1355, 5683, 3136, 1277, 1139, 4495, 8039, 4997, 2399, 3198, 2970, 1358, 5679, 1962, 3136, 5509, 1400, 8024, 6158, 671, 855, 6632, 1298, 4868, 4266, 2372, 1168, 3777, 1079, 5326, 5

由于我们设置 return_overflowing_tokens 和 return_offsets_mapping，因此编码结果中除了 input IDs、token type IDs 和 attention mask 以外，还返回了记录 token 到原文映射的 offset_mapping，以及记录分块样本到原始样本映射的 overflow_to_sample_mapping。这里 4 个样本共被分块成了 14 个新样本，其中前 4 个新样本来自于原始样本 0，接着 3 个新样本来自于样本 1 …等等。

获得这两个映射之后，我们就可以方便地将答案文本的在原文中的起始/结束位置映射到每个块的 token 索引，以构建答案标签 start_positions 和 end_positions。这里我们简单地选择答案列表中的第一个作为参考答案：

In [9]:
answers = [train_data[idx]["answers"] for idx in range(4)]
start_positions = []
end_positions = []

for i, offset in enumerate(inputs["offset_mapping"]):
    sample_idx = inputs["overflow_to_sample_mapping"][i]
    answer = answers[sample_idx]
    start_char = answer["answer_start"][0]
    end_char = answer["answer_start"][0] + len(answer["text"][0])
    sequence_ids = inputs.sequence_ids(i)

    # Find the start and end of the context
    idx = 0
    while sequence_ids[idx] != 1:
        idx += 1
    context_start = idx
    while sequence_ids[idx] == 1:
        idx += 1
    context_end = idx - 1

    # If the answer is not fully inside the context, label is (0, 0)
    if offset[context_start][0] > start_char or offset[context_end][1] < end_char:
        start_positions.append(0)
        end_positions.append(0)
    else:
        # Otherwise it's the start and end token positions
        idx = context_start
        while idx <= context_end and offset[idx][0] <= start_char:
            idx += 1
        start_positions.append(idx - 1)

        idx = context_end
        while idx >= context_start and offset[idx][1] >= end_char:
            idx -= 1
        end_positions.append(idx + 1)

print(start_positions)
print(end_positions)

[47, 0, 0, 0, 53, 0, 0, 100, 0, 0, 0, 0, 61, 0]
[48, 0, 0, 0, 70, 0, 0, 124, 0, 0, 0, 0, 106, 0]


`注意：为了找到 token 序列中上下文的索引范围，我们可以直接使用 token type IDs，但是一些模型（例如 DistilBERT）的分词器并不会输出该项，因此这里使用快速分词器返回 BatchEncoding 自带的 sequence_ids() 函数。`

下面我们做个简单的验证，例如对于第一个新样本，可以看到处理后的答案标签为 (47, 48)，我们将对应的 token 解码并与标注答案进行对比：

In [10]:
idx = 0
sample_idx = inputs["overflow_to_sample_mapping"][idx]
answer = answers[sample_idx]["text"][0]

start = start_positions[idx]
end = end_positions[idx]
labeled_answer = tokenizer.decode(inputs["input_ids"][idx][start : end + 1])

print(f"Theoretical answer: {answer}, labels give: {labeled_answer}")

Theoretical answer: 1963年, labels give: 1963 年


`注意：如果使用 XLNet 等模型，padding 操作会在序列左侧进行，并且问题和上下文也会调换，[CLS] 也可能不在 0 位置。`

`训练批处理函数`

最后，我们合并上面的这些操作，编写对应于训练集的批处理函数。由于分块后大部分的样本长度都差不多，因此没必要再进行动态 padding，这里我们简单地将所有新样本都填充到设置的最大长度:

In [11]:
from torch.utils import data


max_length = 384
stride = 128

def train_collote_fn(batch_samples):
    batch_question, batch_context, batch_answers = [], [], []
    for sample in batch_samples:
        batch_question.append(sample['question'])
        batch_context.append(sample['context'])
        batch_answers.append(sample['answers'])
    batch_data = tokenizer(
        batch_question,
        batch_context,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding='max_length',
        return_tensors="pt"
    )
    
    offset_mapping = batch_data.pop('offset_mapping')
    sample_mapping = batch_data.pop('overflow_to_sample_mapping')

    start_positions = []
    end_positions = []
    
    for i, offset in enumerate(offset_mapping):
        sample_idx = sample_mapping[i]
        answer = batch_answers[sample_idx]
        start_char = answer['answer_start'][0]
        end_char = answer['answer_start'][0] + len(answer['text'][0])
        sequence_ids = batch_data.sequence_ids(i)

        # Find the start and end of the context
        idx = 0
        while sequence_ids[idx] != 1:
            idx += 1
        context_start = idx
        while sequence_ids[idx] == 1:
            idx += 1
        context_end = idx - 1

        # If the answer is not fully inside the context, label is (0, 0)
        if offset[context_start][0] > start_char or offset[context_end][1] < end_char:
            start_positions.append(0)
            end_positions.append(0)
        else:
            # Otherwise it's the start and end token positions
            idx = context_start
            while idx <= context_end and offset[idx][0] <= start_char:
                idx += 1
            start_positions.append(idx - 1)

            idx = context_end
            while idx >= context_start and offset[idx][1] >= end_char:
                idx -= 1
            end_positions.append(idx + 1)
    return batch_data, torch.tensor(start_positions), torch.tensor(end_positions)
 

# test
train_dataloader = data.DataLoader(train_data, batch_size=4, shuffle=True, collate_fn=train_collote_fn)


我们尝试打印出一个 batch 的数据，以验证是否处理正确，并且计算分块后新数据集的大小：

In [12]:
import torch


batch_X, batch_Start, batch_End = next(iter(train_dataloader))
print('batch_X shape:', {k: v.shape for k, v in batch_X.items()})
print('batch_Start shape:', batch_Start.shape)
print('batch_End shape:', batch_End.shape)
print(batch_X)
print(batch_Start)
print(batch_End)

print('train set size: ', )
print(len(train_data), '->', sum([batch_data['input_ids'].shape[0] for batch_data, _, _ in train_dataloader]))

batch_X shape: {'input_ids': torch.Size([6, 384]), 'token_type_ids': torch.Size([6, 384]), 'attention_mask': torch.Size([6, 384])}
batch_Start shape: torch.Size([6])
batch_End shape: torch.Size([6])
{'input_ids': tensor([[ 101,  711,  784,  ...,    0,    0,    0],
        [ 101, 2785, 2548,  ...,  511, 7770,  102],
        [ 101, 2785, 2548,  ...,    0,    0,    0],
        [ 101,  800, 4638,  ...,    0,    0,    0],
        [ 101, 6821, 6956,  ..., 2399, 5905,  102],
        [ 101, 6821, 6956,  ...,    0,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 1, 1, 1],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 1, 1, 1],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0]])}
tensor([129, 121,   0, 14

可以看到，DataLoader 按照我们设置的 batch_size=4 对样本进行编码，并且成功生成了分别对应答案起始/结束索引的答案标签 start_positions 和 end_positions 。经过分块操作后，4 个原始样本被切分成了 8 个新样本，整个训练集的大小从 10142 增长到了 18960。

分块操作使得每一个 batch 处理后的大小参差不齐，每次送入模型的样本数并不一致，这虽然可以正常训练，但可能会影响模型最终的精度。更好地方式是为分块后的新样本重新建立一个 Dataset，然后按批加载新的数据集：
```python
from transformers import default_data_collator

train_dataloader = DataLoader(
    
    new_train_dataset,
    shuffle=True,
    collate_fn=default_data_collator,
    batch_size=8,
)
```

`验证/测试批处理函数`

对于验证/测试集，我们关注的不是预测出的标签序列，而是最终的答案文本，这就需要：

- 记录每个原始样本被分块成了哪几个新样本，从而合并对应的预测结果；
- 在 offset mapping 中标记问题的对应 token，从而在后处理阶段可以区分哪些位置的 token 来自于上下文。

因此，对应于验证集/测试集的批处理函数为：

In [13]:
def test_collote_fn(batch_samples):
    batch_id, batch_question, batch_context = [], [], []
    for sample in batch_samples:
        batch_id.append(sample['id'])
        batch_question.append(sample['question'])
        batch_context.append(sample['context'])
    batch_data = tokenizer(
        batch_question,
        batch_context,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length", 
        return_tensors="pt"
    )
    
    offset_mapping = batch_data.pop('offset_mapping').numpy().tolist()
    sample_mapping = batch_data.pop('overflow_to_sample_mapping')
    example_ids = []

    for i in range(len(batch_data['input_ids'])):
        sample_idx = sample_mapping[i]
        example_ids.append(batch_id[sample_idx])

        sequence_ids = batch_data.sequence_ids(i)
        offset = offset_mapping[i]
        offset_mapping[i] = [
            o if sequence_ids[k] == 1 else None for k, o in enumerate(offset)
        ]
    return batch_data, offset_mapping, example_ids


# test
valid_dataloader = data.DataLoader(valid_data, batch_size=8, shuffle=False, collate_fn=test_collote_fn)

同样地，我们打印出一个 batch 编码后的数据，并且计算分块后新数据集的大小：

In [14]:
batch_X, offset_mapping, example_ids = next(iter(valid_dataloader))
print('batch_X shape:', {k: v.shape for k, v in batch_X.items()})
print(example_ids)

print('valid set size: ')
print(len(valid_data), '->', sum([batch_data['input_ids'].shape[0] for batch_data, _, _ in valid_dataloader]))


batch_X shape: {'input_ids': torch.Size([16, 384]), 'token_type_ids': torch.Size([16, 384]), 'attention_mask': torch.Size([16, 384])}
['DEV_0_QUERY_0', 'DEV_0_QUERY_0', 'DEV_0_QUERY_1', 'DEV_0_QUERY_1', 'DEV_0_QUERY_2', 'DEV_0_QUERY_2', 'DEV_1_QUERY_0', 'DEV_1_QUERY_0', 'DEV_1_QUERY_1', 'DEV_1_QUERY_1', 'DEV_1_QUERY_2', 'DEV_1_QUERY_2', 'DEV_1_QUERY_3', 'DEV_1_QUERY_3', 'DEV_2_QUERY_0', 'DEV_2_QUERY_0']
valid set size: 
3219 -> 6254


可以看到，我们成功构建了记录每个分块对应样本 ID 的 example_id。经过分块操作后，整个测试集的样本数量从 3219 增长到了 6254。

至此，数据预处理部分就全部完成了！

## 10.3. <a id='toc10_3_'></a>[训练模型](#toc0_)

对于抽取式问答任务，可以直接使用 Transformers 库自带的 AutoModelForQuestionAnswering 函数来构建模型。考虑到这种方式不够灵活，因此与序列标注任务一样，本文采用继承 Transformers 库预训练模型的方式来手工构建模型：

In [15]:
from torch import nn
from transformers import AutoConfig
from transformers import BertPreTrainedModel, BertModel


device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f'Using {device} device')


class BertForExtractiveQA(BertPreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.num_labels = config.num_labels
        self.bert = BertModel(config, add_pooling_layer=False)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
        self.post_init()
    
    def forward(self, x):
        bert_output = self.bert(**x)
        sequence_output = bert_output.last_hidden_state
        sequence_output = self.dropout(sequence_output)
        logits = self.classifier(sequence_output)

        start_logits, end_logits = logits.split(1, dim=-1)
        start_logits = start_logits.squeeze(-1).contiguous()
        end_logits = end_logits.squeeze(-1).contiguous()

        return start_logits, end_logits
    

# test
config = AutoConfig.from_pretrained(checkpoint)

config.num_labels = 2

model = BertForExtractiveQA.from_pretrained(checkpoint, config=config).to(device)

print(model)

Using cuda device


model.safetensors:   0%|          | 0.00/412M [00:00<?, ?B/s]

Error while downloading from https://cdn-lfs.hf-mirror.com/bert-base-chinese/3404a1ffd8da507042e8161013ba2a4fc49858b4e3f8fbf5ce5724f94883aec3?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model.safetensors%3B+filename%3D%22model.safetensors%22%3B&Expires=1740646853&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc0MDY0Njg1M319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5oZi5jby9iZXJ0LWJhc2UtY2hpbmVzZS8zNDA0YTFmZmQ4ZGE1MDcwNDJlODE2MTAxM2JhMmE0ZmM0OTg1OGI0ZTNmOGZiZjVjZTU3MjRmOTQ4ODNhZWMzP3Jlc3BvbnNlLWNvbnRlbnQtZGlzcG9zaXRpb249KiJ9XX0_&Signature=tv7hzR6qGmcAug-X6dbXxfYPOly1J3VmUWJMLqUau0QiPNtDmzSesvlAXkHSqE8U52aYUjchEIpz3gnhS7L9qkDzpERFMWT4tdU8PNq%7EPtudFpnMFfa%7ELTEmLNv17acwfg5yZZysRMXqtoHjOhCvH1xouSdWP9G9h1KCr8K1qfdOmF6A7F9XpZAyKpKS9ZPwoNKnOv5F4kx%7ELHG4qNUVLi6Z3ogtGxeQofgPr%7E3VYmogkvq47gfRnmP-RHVWCxsnKk2c81sKkR9%7ECLWe5tgBJRA9iDEC8RfIfy6PXu%7E0BuAndgV9sfwix6L6A9xp72Q-pEvtWraMLo%7EjIecnFESbqQ__&Key-Pair-Id=K3RPWS32NSSJCE: HTTPSConnecti

model.safetensors:  94%|#########4| 388M/412M [00:00<?, ?B/s]

Some weights of BertForExtractiveQA were not initialized from the model checkpoint at bert-base-chinese and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


BertForExtractiveQA(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, eleme

可以看到，我们构建的模型首先运用 BERT 模型将每一个 token 都编码为语义向量，然后将输出序列送入到一个包含 2 个神经元的线性全连接层中，分别表示每个 token 为答案起始、结束位置的分数，最后我们通过 tensor.split() 函数把输出拆分为起始、结束位置的预测值。

为了测试模型的操作是否符合预期，我们尝试将一个 batch 的数据送入模型：

In [18]:
train_dataloader = data.DataLoader(train_data, batch_size=4, shuffle=True, collate_fn=train_collote_fn)

batch_X, _, _ = next(iter(train_dataloader))
start_outputs, end_outputs = model(batch_X.to(device))
print('batch_X shape:', {k: v.shape for k, v in batch_X.items()})
print('start_outputs shape', start_outputs.shape)
print('end_outputs shape', end_outputs.shape)

batch_X shape: {'input_ids': torch.Size([10, 384]), 'token_type_ids': torch.Size([10, 384]), 'attention_mask': torch.Size([10, 384])}
start_outputs shape torch.Size([10, 384])
end_outputs shape torch.Size([10, 384])


对于 batch 内 8 个都被填充到长度为 384 的文本块，模型对每个 token 都应该输出 1 个 logits 值，对应该 token 为答案起始/结束位置的分数，因此这里模型的起始/结束输出尺寸,完全符合预期。

# 11. <a id='toc11_'></a>[Prompting 情感分析](#toc0_)

本文我们将运用 Transformers 库来完成情感分析任务，并且使用当前流行的 Prompting 方法。Prompting 方法的核心思想就是借助模板将问题转换为与预训练任务类似的形式来处理。


例如要判断标题“American Duo Wins Opening Beach Volleyball Match”的新闻类别，就可以应用模板“This is a News: x”将其转换为“This is a [MASK] News: American Duo Wins Opening Beach Volleyball Match”，然后送入到包含 MLM (Mask Language Modeling) 预训练任务的模型中预测 [MASK] 对应的词，最后将词映射到新闻类别（比如“Sports”对应“体育”类）。

对 Prompting 概念不是很清楚，强烈建议先阅读一下[《Prompt方法简介》](https://xiaosheng.blog/2022/09/10/what-is-prompt)

下面我们以情感分析任务为例，运用 Transformers 库手工构建一个基于 Prompt 的模型来完成任务。


# 12. <a id='toc12_'></a>[大语言模型](#toc0_)

## 12.1. <a id='toc12_1_'></a>[简介](#toc0_)

[https://transformers.run/c4/c14_intro_to_llms/](https://transformers.run/c4/c14_intro_to_llms/)

在规模扩展定律（Scaling Laws）被证明对语言模型有效之后，研究者构建出了许多大语言模型。尤其是 2022 年底面向普通消费者的 ChatGPT 模型的出现，正式标志着自然语言处理进入大语言模型时代。

大语言模型能够取得成功主要依赖以下几项关键技术：

`规模扩展`：只有规模达到一定程度模型才会展现出上下文学习、思维链推理等小规模模型不具备的能力。早期的研究主要关注参数规模，例如 OpenAI、Google 等公司提出了一系列分析参数、数据、算力等因素对性能影响的扩展定律（Scaling Laws），并且通过 GPT、PaLM 等模型进行了验证。考虑到使用超大规模数据（如 2T 或 3T 词元）训练十亿级别的模型（如 2B 或 7B）仍然无法达到模型的最大数据容量，最近的工作专注于加大对高质量数据的规模扩展。

`数据工程`：大语言模型的训练方式实际上非常简单，即通过在海量文本上进行下一个词预测的优化，使得模型学习到丰富的语义知识，进而通过文本补全的方式解决各种下游任务，因此模型能力本质上来源于所见过的训练数据。目前数据工程主要关注三个方面：（1）拓宽数据来源；（2）数据清洗；（3）设计有效的数据配比与数据课程，加强对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。

`高效预训练`：由于参数规模巨大，大语言模型需要使用各种并行策略以及效率优化方法进行训练，包括 3D 并行（数据并行、流水线并行、张量并行）、ZeRO 内存冗余消除技术等，代表性的分布式训练软件包括 DeepSpeed [4] 和 Megatron-LM [5]，它们能够有效支持千卡甚至万卡的联合训练。此外，在正式训练前通常会开展基于小模型的沙盒测试实验以确定最终的训练策略，并且还需要关注优化技巧以提升训练稳定性和优化效率，如混合精度训练。

`能力激发`：为了提升模型的任务求解能力，需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面，可以使用自然语言表达的任务描述以及期望的任务输出对模型进行微调，从而增强模型的通用任务求解能力，提升在未见任务上的泛化能力。在提示学习方面，需要设计合适的提示策略去诱导大语言模型生成正确的问题答案，例如上下文学习、思维链推理等。

```python
相关：
现有的研究大多认为指令微调无法向大语言模型注入新的知识，而是训练大语言模型学会利用自身所掌握的知识与信息进行任务的求解。
```

`人类对齐`：由于大语言模型可能会生成有偏见、泄露隐私甚至对有害的内容，在实践应用中需要保证大语言模型能够较好地符合人类的价值观。代表性的做法是 OpenAI 公司提出的基于人类反馈的强化学习算法 RLHF（Reinforcement Learning from Human Feedback），将人类偏好引入到大模型的对齐过程中。但是由于强化学习算法的优化过程较为复杂，最近提出了许多监督微调的对齐方式，例如 DPO 算法。最近，OpenAI 公司还发布了“超级对齐”（Super-alignment）项目，研究如何监管具有强人工智能的算法。

```python
相关:
基于人类反馈的强化学习算法（RLHF）的具体做法是：首先训练能够区分模型输出质量好坏的奖励模型，进而使用强化学习算法来指导语言模型对输出行为进行调整，让大语言模型能够生成符合人类预期的输出。
```

`工具使用`：由于大语言模型在非自然语言形式任务上的能力较为有限，因此可以让模型学会使用各种工具的调用方式，利用合适的工具去实现特定的功能需求，例如可以利用计算器进行精确的数值计算、利用搜索引擎检索最新的时效信息等。在技术路径上，工具调用能力主要是通过指令微调以及提示学习两种途径实现。

## 12.2. <a id='toc12_2_'></a>[大语言模型的构建过程](#toc0_)

### 12.2.1. <a id='toc12_2_1_'></a>[大规模预训练](#toc0_)

在 BERT 等传统预训练模型中采用的模型架构以及训练任务还比较多样。随着 GPT 模型的成功，“解码器架构 + 预测下一个词”的有效性得到了充分验证，已经成为当前主要的技术路径。

预训练大语言模型需要准备大规模的文本数据，并且进行严格的清洗。由于大语言模型的能力基础主要来源于预训练数据，因此数据的收集（高质量、多源化）与清洗对于模型性能具有重要影响。目前的开源模型大多采用 2∼3T 规模的词元进行预训练，并且正在进一步扩大规模。

预训练过程对于算力的需求量极高，百亿规模的模型一般需要百卡规模的算力集群（如 A100-80G）联合训练数月时间，而千亿模型则需要千卡甚至万卡规模的算力集群。此外，实施过程中涉及到大量经验性技术，如数据如何配比、如何调整学习率、如何及早发现模型的异常行为等，这些细节很多并没有公开发表的经验可循，因此需要研发人员具有丰富的训练经验和异常处理能力。

### 12.2.2. <a id='toc12_2_2_'></a>[指令微调与人类对齐](#toc0_)

由于预训练任务形式所限，预训练后的大语言模型更擅长进行`文本补全`，`并不适合直接解决具体的任务`，因此通常还需要对大语言模型进行`微调与对齐`，使之具备更好的任务求解能力。

目前广泛使用的微调技术是`指令微调（Instruction Tuning），又称监督微调（Supervised Fine-tuning, SFT）`，即通过使用任务输入与输出的配对数据进行训练， 使得语言模型掌握通过问答形式进行任务求解的能力。一般来说，指令微调很难教会大语言模型预训练阶段没有学习到的知识与能力，它主要起到了对于模型能力的激发作用。

与预训练相比，指令微调需要的指令数据规模要小的多，通常数十万到百万规模的指令微调数据就能够有效地激发语言模型的通用任务求解能力，部分工作甚至认为数千条或者数万条高质量指令数据也能达到不错的微调效果。因此，若干台单机八卡（A100-80G）的服务器就能在一天或数天的时间内完成百亿模型的指令微调。这个过程还可以加入多轮次的对话数据来增强模型的人机对话能力。

除了提升任务的解决能力外，还需要将大语言模型与人类的期望、需求以及`价值观对齐（Alignment）`。代表性方法是 OpenAI 公司提出的`基于人类反馈的强化学习对齐方法 RLHF`，在指令微调后使用强化学习加强模型的对齐能力。RLHF 算法需要训练一个符合人类价值观的奖励模型（Reward Model），为此需要标注人员针对大语言模型所生成的多条输出进行偏好排序，然后使用偏好数据训练奖励模型。由于强化学习需要维护多个辅助模型进行训练，计算资源消耗通常会多于指令微调， 但是也远小于预训练。目前还有很多工作试图简化对齐过程，通过去除奖励模型或其他使用 SFT 方式来达到与 RLHF 相似的效果。

### 12.2.3. <a id='toc12_2_3_'></a>[常用的预训练数据集](#toc0_)

常用的预训练语料库可以划分为网页、书籍、维基百科、代码以及混合型数据集。

### 12.2.4. <a id='toc12_2_4_'></a>[常用微调数据集](#toc0_)

微调主要涉及指令微调（有监督微调）和对齐微调，下面将列举一些可用于微调的数据集。

`指令微调数据集`：按照指令实例的构建方法可以将指令微调数据集分为自然语言处理任务数据集、日常对话数据集和合成数据集。（1）自然语言处理任务数据集一般是在有监督的多任务训练数据集（包含多个自然语言处理任务实例）上通过人工编写任务描述来构建；（2）日常对话数据集则是基于真实用户对话构建，其中查询主要由真实用户提出、回复则由人类标注或者语言模型生成，对话类型通常包括开放式生成、问答、头脑风暴和聊天；（3）合成数据集则通常是使用大语言模型基于预定义的规则或方法进行构建。一些具有代表性的指令微调数据集如表 14-2 所示。常用的指令微调数据集有：

- P3（Public Pool of Prompts）：BigScience 构建，由超过 270 个自然语言处理任务数据集和 2000 多种提示整合而成（每个任务可能不止一种提示），全面涵盖多选问答、提取式问答、情感分类、文本摘要、自然语言推断等任务。其子集被用来训练 T0 模型。

- FLAN：Google 构建，v2 版本主要由 Muffin、NIV2、T0-SF 和 CoT 四个子集构成。其中 Muffin 由 v1 版本的 62 个任务和新加入的 26 个任务组成（包括对话数据和代码合成数据）；T0-SF 则是从 T0 模型的数据中抽取出来，同时确保与 Muffin 不重叠；NIV2 指的是数据集 Natural-Instructions v2；CoT 则是为了增强模型的推理能力而加入的九种不同推理任务的组合。FLAN-v2 对每项任务都设置了最大上限，防止某些任务在采样中占主导地位。FLAN 论文显示使用 52% Muffin、15% T0-SF、3% CoT 以及 30% NIV2 这一混合比例通常能够使得模型具有较好表现。

- ShareGPT：TechCrunch 发布的对话数据集，数据来源于开源平台 ShareGPT，语种主要为英语和其他西方语言，其中查询来自于用户的真实提问或指令，回复则是 ChatGPT 对此生成的回答。

- OpenAssistant：LAION-AI 人工构建的多语言对话语料库，共有 91,829 条用户提示，69,614 条回复，包含 35 种语言并且附有人工标注的质量评级（例如回复的有用性、无害性等）。

- Dolly：Databricks 构建的对话数据集，包含 15000 个人类生成的数据实例，主题涉及 InstructGPT 论文中提到的 7 个领域，包括头脑风暴、分类、封闭/开放式质量保证、生成、信息提取等。

- Self-Instruct-52K：University of Washington 使用 Self-Instruct 方法生成的英语指令数据集，包含 52K 条指令以及 82K 个实例输入和输出。最初由人工收集创建了 175 个种子任务，每个任务包括 1 个指令和 1 个包含输入输出的实例。然后，每次随机抽取 8 个指令作为示例，引导 GPT-3 模型生成新的指令以及对应的输入和输出，经过滤后添加到数据集中。迭代上述过程，最终获得了 52K 条指令和 82K 个实例数据。

- Alpaca-52K：同样基于 Self-Instruct 方法进行构建的，在 Self-Instruct-52K 的 175 个种子任务上利用 OpenAI 的 text-davinci-003 模型获得了 52K 个不重复的指令，并根据指令和输入生成输出，每条指令仅对应于一个输入输出实例（输入可选，最终数据中只有 40% 具有输入）。

`人类对齐数据集`：对齐目标一般聚焦于有用性、诚实性和无害性三个方面，下面将介绍几个代表性的对齐微调数据集，它们各自针对上 述对齐目标进行了标注。

- HH-RLHF：Anthropic 构建，关注大语言模型的有用性和无害性。包含约 169K 个开放式对话，涉及人类向智能助手寻求帮助、建议或请求完成任务等情景。信息助手将为每个查询提供两个回复，一个回复被选择而另一个被拒绝。有用性相关数据中，被认为更有用的回复将被选择；而无害性相关数据中，被认为更有害的回复将被选择。

- SHP：Standfordnlp 构建，关注模型的有用性。包含 385K 个数据实例，对从烹饪到法律建议等 18 个不同主题领域中问题/指令的人类偏好进行标注，每个实例都基于寻求帮助的 Reddit 帖子构建的，包含问题以及帖子下两个排名较高的评论，其中一个被 Reddit 用户认为更有用，另一个被认为不太有帮助。

- Stack Exchange Preferences：HuggingFace 构建，关注模型的有用性。涵盖来自编程问答社区 Stack Overflow 的约 10M 个问题和答案，每个实例均包含一个问题以及不少于两个候选答案，每个答案都附有一个根据投票数计算出的分数并附带是否被选中的标签。

- Sandbox Alignment Data：Google 构建，致力于运用模型自身的反馈机制标注数据，关注模型的有用性、诚实性、无害性。数据源自模拟人类社交互动场景的 SANDBOX 虚拟环境，在该环境中，多个大语言模型根据问题给出回复然后互相“交流”，并根据彼此的反馈来不断修正和完善自己的回复。该数据集涵盖 169K 个实例，每个实例均包含一个查询、多个回复选项以及由其他模型给出的相应评分。

## 12.3. <a id='toc12_3_'></a>[开发大语言模型](#toc0_)

开发大语言模型是一项复杂的工程，涉及到包括并行策略以及效率优化方法在内的各种工程技巧，因此一些公司以及研究机构推出了专用于开发大语言模型的代码库以推动该领域的发展。下面将介绍具有代表性的两个代码库。

### 12.3.1. <a id='toc12_3_1_'></a>[ DeepSpeed 库](#toc0_)

DeepSpeed 由微软公司开发，是一个旨在加速模型训练的高性能库，被广泛用于大语言模型的分布式训练。

DeepSpeed 为分布式训练提供了各种优化技术支持，如内存优化（ZeRO 技术、梯度检查点）、数据并行、混合精度训练等，使得整个训练过程变得更加高效和稳定。为了更适配用户需求，DeepSpeed 针对模型生成和强化学习分别开发了特制的优化框架：DeepSpeed-MII 和 DeepSpeed-Chat。

`DeepSpeed-MII`：通过提高吞吐量、降低延迟等方式来降低大模型解码生成的运行成本。DeepSpeed-MII 首先实现了块状键值缓存和连续批处理技术加速文本生成过程，然后又提出了 SplitFuse 技术将提示和生成结果进行动态分解以进一步改善连续批处理和系统吞吐量。目前已支持包括 LLaMA 、Mistral 、Falcon、 Mixtral 和 Qwen 在内的多个模型。

`DeepSpeed-Chat`：用于训练类 ChatGPT 模型的开发工具，完整集成了包括基于人类反馈的强化学习（RLHF）算法在内的训练过程。它具有三个主要功能：（1）简化了类 ChatGPT 模型的训练和生成过程，用户可以用简单的脚本实现多个训练步骤，并且提供了用于测试对话式交互的 API；（2）复现了 InstructGPT 的训练过程，包括有监督微调、奖励模型训练和基于人类反馈的强化学习，还提供了数据抽象和混合功能；（3）将训练和生成集成到了统一框架中，实现了在 RLHF 中训练和生成模式之间的无缝切换。

### 12.3.2. <a id='toc12_3_2_'></a>[Megatron-LM 库](#toc0_)

Megatron-LM 是由 NVIDIA 公司开发的一款专门为训练大语言模型而设计的代码库，旨在解决大型模型训练过程中所遇到的一系列技术挑战，包括显存限制、 计算效率以及不同的并行策略带来的通信问题。

Megatron-LM 引入了一系列分布式训练的优化技巧，支持多种并行策略，包括（1）数据并行，通过在每个工作节点复制模型，并将输入数据切分多份分配给多个节点，定期同步所有梯度来提升 GPU 的使用效率；（2）模型并行，包括张量并行和流水线并行，通过在多个工作节点上分配模型和计算来克服单个 GPU 容量限制的问题。此外，Megatron-LM 还支持混合精度训练和 FlashAttention 功能。这些优 化技术可以在很大程度上提高训练效率和速度，实现跨 GPU 的高效分布式训练。

## 12.4. <a id='toc12_4_'></a>[小结](#toc0_)

本章简要介绍了大语言模型的技术要点以及构建过程，并且列举了可用于预训练以及微调模型的常用数据集，最后还介绍了目前开发大语言模型常用的代码库。

# 13. <a id='toc13_'></a>[预训练大语言模型](#toc0_)

大语言模型的构建过程可以分为预训练和微调两个阶段。通过在大规模语料上进行预训练，大语言模型可以获得通用的语言理解与生成能力，并且学习到较为广泛的世界知识。

本章将按顺序依次介绍预训练中的各个步骤，包含原始数据的收集、数据预处理、分词、以及预训练过程中的数据调度方法。

# 14. <a id='toc14_'></a>[使用大语言模型](#toc0_)

在上一章中我们讨论了预训练阶段的技术细节，本章将关注大语言模型构建过程的第二个阶段——`微调`（包括`指令微调`与`人类对齐`），以及最终的实际使用方法。

## 14.1. <a id='toc14_1_'></a>[指令微调](#toc0_)

指令微调首先收集或构建自然语言形式的指令实例，然后通过有监督的方式对大语言模型的参数进行微调，因此又被称为有监督微调（Supervised Fine-tuning, SFT）或多任务提示训练（Multitask Prompted Training）。指令微调后的大语言模型能够具有较强的指令遵循能力，从而可以通过零样本学习的方式解决多种下游任务。

本节将首先介绍指令数据的构建方法和相应的训练策略，然后介绍低资源场景下的参数高效微调方法。

### 14.1.1. <a id='toc14_1_1_'></a>[指令数据的构建](#toc0_)

指令格式化的数据实例一般包括任务描述（也称为指令）、任务输入-任务输出以及可选的示例。下面将介绍三种构建格式化指令数据的方法。

- `基于现有的 NLP 任务数据集构建`: 已有的 NLP 任务数据集是非常重要的数据资源，可以用于构造指令数据集。这些集合中的数据一般包括输入和输出两个部分，例如在中英翻译任务中，输入是“大语言模型…”、输出则是“Large language models…”。因此，生成指令化数据的关键步骤就是为“输入-输出”添加任务描述信息（指令），用于指导模型理解任务目标。例如对于前面的翻译任务，就可以添加指令“请把这个中文句子翻译成英文”。

- `基于日常对话数据构建`: 指令格式化已有的 NLP 数据集虽然能够获得大量实例，但是数据多样性比较小而且也不能很好匹配人类的真实需求。因此另一种方式是使用用户在日常对话中的实际需求作为任务描述，例如 InstructGPT 将用户提交给 OpenAI API 的查询作为任务描述。最近研究者开源了一些由人工精心标注的日常对话指令集，例如 Dolly 和 OpenAssistant。此外，研究者还尝试通过自行构建的开放平台收集大量的用户对话请求作为输入数据，并使用 ChatGPT 或 GPT-4 生成回复作为输出，ShareGPT 数据集便是一个代表。

- `基于合成数据构建`: 为了减轻人工收集与标注数据的负担，研究者进一步提出半自动化的数据合成方法，将已有的高质量指令数据作为上下文学习示例输入大语言模型， 然后生成大量多样化的任务描述和输入-输出数据，如图 16-2 所示。代表性方法 Self-Instruct 仅需要使用 100 多个人工撰写的实例作为初始任务池，然后随机选择数据作为示例，就可以通过大语言模型生成新的指令微调数据。

### 14.1.2. <a id='toc14_1_2_'></a>[参数高效微调方法 LoRA](#toc0_)

通过指令微调，大语言模型能够更好地遵循和执行人类指令。但是，由于大语言模型的参数量巨大，进行全参数微调需要较多的算力资源。因此研究者提出了参数高效微调（Parameter-efficient Fine-tuning），也称为轻量化微调（Lightweight Fine-tuning），在减少训练参数量的同时使得模型性能能够与全量微调相媲美。

其中，低秩适配（Low-Rank Adaptation, LoRA）是大语言模型最常用的参数高效微调方法，其通过在模型的参数矩阵上添加低秩分解矩阵来近似每层的参数更新，如图:

![alt text](./Pytorch_Pictures/LoRA/image.png)

LoRA 微调方法还存在一些变种。例如 AdaLoRA 引入了动态低秩适应技术，在训练过程中动态调整每个参数矩阵需要训练的秩同时控制训练的参数总量。QLoRA 将原始的参数矩阵量化为 4 比特，而低秩参数部分仍使用 16 比特进行训练，在保持微调效果的同时进一步节省了显存开销。

## 14.2. <a id='toc14_2_'></a>[人类对齐](#toc0_)

经过预训练和指令微调后，大语言模型具备了解决各种任务的通用能力和指令遵循能力，但是受到数据质量、数据来源以及具体创作者等多方面的影响，也可能生成有偏见的、冒犯的以及事实错误的文本内容。因此，如何确保大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致成为了一个重要问题，称为人类对齐（Human Alignment）。

### 14.2.1. <a id='toc14_2_1_'></a>[基于人类反馈的强化学习](#toc0_)

由于有用性（Helpfulness）、诚实性（Honesty）和无害性（Harmlessness）等对齐标准难以通过形式化的优化目标进行建模，因此研究者提出了基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF），引入人类反馈对大语言模型的行为进行指导。

`RLHF `首先使用收集到的人类偏好数据训练奖励模型，最后基于奖励模型使用强化学习算法（例如 Proximal Policy Optimization, PPO）微调大语言模型。RLHF 的完整工作流程可以分为监督微调、奖励模型训练、强化学习微调三个阶段，如图:

![alt text](./Pytorch_Pictures/RLHF/image.png)

### 14.2.2. <a id='toc14_2_2_'></a>[非强化学习的对齐方法](#toc0_)

尽管 RLHF 是一种有效的对齐技术，但是它也存在一 些局限性：首先，RLHF 训练过程中需要同时维护和更新多个模型，包括策略模型、奖励模型、参考模型以及评价模型，不仅会占用大量的内存，而且算法的执行过程也相对复杂；其次，RLHF 中常用的 PPO 算法在优化过程中稳定性不佳，对超参数的取值较为敏感，进一步增加了模型训练的难度和不确定性。

为此，研究人员提出了一系列直接基于监督微调的对齐方法，以避免复杂的强化学习算法所带来的种种问题。

非强化学习的对齐方法旨在利用高质量的对齐数据集，通过特定的监督学习算法对大语言模型进行微调。这类方法需要建立精心构造的高质量对齐数据集，利用其中蕴含的人类价值观信息来指导模型正确地响应人类指令或规避生成不安全内容。与指令微调方法不同，基于监督微调的对齐方法需要在优化过程中使得模型能够区分对齐的数据和未对齐的数据（或者对齐质量的高低），进而直接从这些数据中学习到人类期望的行为模式。

对齐数据的收集

为了构建有效的对齐数据集，一些方法尝试利用训练好的奖励模型对众多候选输出进行打分或者排序，筛选出最符合人类偏好的数据；其他方法则利用经过对齐的大语言模型（例如 ChatGPT）来构造训练数据。

代表性监督对齐算法 `DPO`

直接偏好优化（Direct Preference Optimization, DPO）是一种不需要强化学习的对齐算法，其主要思想是建立决策函数与奖励函数之间的关系，以规避奖励建模的过程。这样，大语言模型就能够通过与强化学习等价的形式学习到人类的价值观和偏好。

## 14.3. <a id='toc14_3_'></a>[SFT 和 RLHF 的进一步讨论](#toc0_)

指令微调是一种基于格式化的指令示例数据（即任务描述与期望输出相配对的数据）对大语言模型进行训练的过程，也被称为监督微调（Supervised Fine-Tuning, SFT），而 RLHF 算法的第一个步骤就是监督微调（SFT）。本节将深入探讨这两者之间的联系与差异。

`学习方式`

在学习方式方面，RLHF 首先学习一个奖励模型，然后利用该奖励模型通过强化学习算法（如 PPO）来改进大语言模型。而 SFT 则采用了 Teacher-Forcing 的方法，直接优化模型对实例输出的预测概率。从本质上说，SFT 这种词元级别的训练方式是一种“行为克隆”，它利用教师的行为数据（即每个步骤的目标词元）作为监督标签，来直接训练大语言模型模仿教师的行为。

`SFT 的优缺点`

SFT 在实现上简单、灵活、可拓展性较强，还可以用于构建很多特定功能，例如帮助大语言模型建立聊天机器人的身份。但是其作用在于“解锁”大语言模型的能力，而非向大语言模型“注入”新能力。因此，试图通过 SFT 激发大语言模型的非内生能力时，可能会出现一些负面问题。当待学习的标注指令数据超出了大语言模型的知识或能力范围，例如训练大语言模型回答关于模型未知事实的问题时，可能会加重模型的幻觉（Hallucination）行为。此外，作为一种基于行为克隆的学习方法，SFT 旨在模仿构建标注数据的教师的行为，而无法在这一过程中进行有效的行为探索。因此，高质量的指令数据（而非数量）是影响大语言模型训练的主要因素。

`RLHF 的优缺点`

在数据标注阶段，RLHF 相比 SFT 具有两项潜在优势：首先，RLHF 算法的标注员主要为训练过程提供偏好标注数据，而不是直接生成示例数据，因此它可以减少标注员之间的不一致；其次，与编写示例数据相比，偏好标注更为简单易行，标注员甚至可以评估超出自己创作水平模型的输出质量，使得模型能够探索标注员能力之外的状态空间，而不用受限于给定的教师示例。

在模型学习阶段，RLHF 通过对比模型的输出数据（区分“好”输出与“坏” 输出）来指导大语言模型学习正确的生成策略，它不再强迫大语言模型模仿教师的示例数据，因此可以缓解 SFT 所导致的幻觉问题。然而，RLHF 也继承了经典强化学习算法的缺点，如样本学习效率低和训练过程不稳定等问题。 因此，RLHF 需要依赖经过 SFT 的模型作为策略模型的初始模型，从而快速达到较好的表现。此外，RLHF 的过程通常会持续多轮，其中涉及了很多重要细节的设定（例如提示选择、奖励模型训练、PPO 的超参数设置以及训练过程中对超参数的调整），都会影响整个模型的性能，对于复现提出了较大挑战。

总的来说，SFT 特别适合预训练后增强模型的性能，具有实现简单、快速高效等优点；而 RLHF 可在此基础上规避可能的有害行为并进一步提高模型性能，但是实现较为困难，不易进行高效优化。

## 14.4. <a id='toc14_4_'></a>[使用大语言模型](#toc0_)

### 14.4.1. <a id='toc14_4_1_'></a>[解码加速算法](#toc0_)
大语言模型是通过文本生成的方式进行工作的。在自回归架构中，模型针对输入内容 （即提示文本）逐个单词生成输出内容的文本，这个过程被称为解码。需要束搜索、Top-K 采样、Top-p 采样等解码策略来生成输出内容。但是由于自回归算法的序列化生成的特点，解码算法存在效率较低的问题。目前一般通过系统级优化方法以及解码策略优化方法来缓解这一问题。

#### 14.4.1.1. <a id='toc14_4_1_1_'></a>[系统级优化](#toc0_)

一些研究工作提出了系统级优化方法来实现减少访存量的目的。

- `FlashAttention`：一种针对原始注意力模块的优化方案，可以大幅减少注意力计算中的访存量，其核心思路是尽可能减少对于中间结果的保存，进而直接得到最终结果。FlashAttention 通过矩阵分块和算子融合等方法，将中间结果一直保留在缓存中，直到获得最终结果后再写回显存中，从而减少了显存读写量。FlashAttention 有效地减少了访存量，同时也降低了峰值显存的占用量。使用了 FlashAttention 的 LLaMA-2 (7B) 在序列长度为 2048、批次大小为 8 的情况下，注意力操作的时间仅需传统注意力的十分之一。

- `PagedAttention`：针对键值缓存拼接和注意力计算的优化方案，能够有效降低这两个运算部分的访存量。在键值缓存拼接方面，PagedAttention 引入了操作系统中显存分页管理的方法，预先将显存划分成若干块给之后的键值缓存“预留空间”，从而显著减少了拼接时反复分配显存的操作。在注意力计算方面，PagedAttention 使用算子融合的方法将查询向量与多个分页的键值缓存并行地进行计算，从而减少其访存量。

- `批次管理优化`：一个代表性的方法连续批处理（Continuous Batching）技术，通过启发式算法选择部分请求进行全量解码操作，或者选择一些请求进行单步增量解码操作，从而在一步操作中能够容纳更多的请求（相当于提高批次大小）。此外，DeepSpeed-MII 提出了动态分割技术，将全量解码部分进一步拆分为多个子操作，可以在一次计算中选择一些请求同时进行全量解码和增量解码操作，进而获得更大的批次和更高的解码吞吐量。通过批次管理优化技术细粒度地分割不同请求的处理阶段，使得不同请求的处理过程可以同时进行，从而实现更为高效的线上服务。


#### 14.4.1.2. <a id='toc14_4_1_2_'></a>[解码策略优化](#toc0_)

还有许多研究工作提出了针对自回归解码策略的改进方法以提高解码效率。

- 推测解码：首先使用相对较小但解码更为高效的模型（例如 元统计模型或者小型预训练模型）自回归地生成若干个词元，然后再由大模型对这个片段进行一次验证（大模型一次验证与一次解码的时间消耗相当）来判断是否每个词元都是当前步骤概率最高的输出，随后大小模型持续迭代此过程直到解码结束。推测解码不会降低大模型解码的质量， 实验测试表明能够带来约两倍左右的解码加速，是目前使用较多的解码策略优化方案。

- 级联解码：使用不同规模的模型来处理难易度不同的请求。引入一系列效率从高到低的模型，然后将请求依次给这些模型进行生成，再由一个专门训练的二分类模型来判断生成结果是否符合要求，如果结果可靠就不需要再给之后的模型进行生成。

- 非自回归解码：机器翻译领域的研究人员提出了非自回归解码机制，可以基于输入并行地一次性生成所有的词元。但是这种方法的生成质量往往与自回归方法有一定差距，因此有研究工作提出了半自回归解码，每一次生成一组词元（例如 3 至 10 个），再以这些词元作为输入继续生成下一组。

然而，现有的大模型都是预测下一个词进行预训练的， 无法直接进行非（半）自回归生成。为此，Medusa 在 Vicuna 模型的基础上，额外训练了两个预测头来分别预测第二个词和第三个词，因此可以一次生成三个词元。注意,尽管非（半）自回归策略在效率上有所提升，但仍然不能达到自回归解码的效果，因此其很少单独使用。通常用于推测解码中生成候选片段。

### 14.4.2. <a id='toc14_4_2_'></a>[低资源部署策略](#toc0_)

由于大模型参数量巨大，在解码阶段需要占用大量的显存资源，因而在实际应用中的部署代价非常高。为此，研究者提出了`模型量化（Model Quantization）技术`来减少大模型的显存占用。

量化是指从浮点数到整数的映射过程，比较常用的是 8 比特整数量化，即 INT8 量化。神经网络模型通常有两种类型的数据需要进行量化，分别为权重量化（也称模型参数量化）和激活值量化。量化的过程可以表示为一个函数，该函数将连续的输入映射到离散的输出集合。一般来说，这个过程涉及到四舍五入或截断等近似操作。作为上述变换的逆过程，反量化（Dequantization）对应地从量化值中恢复原始值。

大语言模型相关的量化方法大致上可以分为两大类：量化感知训练（Quantization-Aware Training, QAT）和训练后量化（Post-Training Quantization, PTQ）。其中量化感知训练方法需要更新权重进而完成模型量化，而训练后量化方法则无需更新模型权重。一般来说，训练后量化方法需要更少的算力开销，实践中应用更为广泛。

针对大语言模型的量化研究受到了学术界的广泛关注，涌现了一批经验性的研究工作。下面针对目前的研究结论进行简要汇总：

`INT8 权重量化通常对于大语言模型性能的影响较小，更低精度权重量化的效果取决于具体的量化方法`。在大多数情况下，INT8 权重量化可以有效地减小显存占用而不显著影响模型性能。对于 INT4（或 INT3）权重量化，现有的方法通常使用不同策略（例如激活感知缩放）来减少性能下降。

低比特权重量化对于大语言模型的影响通常较小。因此，在相同显存开销的情况下，建议优先使用参数规模较大的语言模型，而不是表示精度较高的语言模型。例如量化精度为 4 比特的 60GB 语言模型在性能上往往会优于量化精度 8 比特的 30GB 语言模型。

`轻量化微调方法可以用于补偿量化大语言模型的性能损失`。大语言模型在超低比特权重量化时（如 2 比特量化），可能会出现预测精度的大幅下 降，此时可以通过轻量化微调（如 LoRA ）的方式来进行性能补偿。具体来说，对不微调的模型权重进行低比特量化，而对于微调的适配器参数则使用 16 比特浮点数表示并使用 LoRA 算法进行微调。在推理时，量化部分的模型权重会先反量化为 16 比特浮点数，再与适配器权重相加进行融合使用。此外，QLoRA 更为针对性地设计了面向量化模型的性能补偿方法，在轻量化微调的同时还考虑了显存优化。实验表明，QLoRA 在基于 4 比特量化模型的微调后，能够获得与 16 比特模型全参数微调以及 LoRA 微调相似的效果。

#### 14.4.2.1. <a id='toc14_4_2_1_'></a>[模型蒸馏和模型剪枝](#toc0_)

除了模型量化之外，模型蒸馏和模型剪枝也是常用的模型压缩方法，它们通过直接精简模型结构以减少参数数量。

`模型蒸馏（Model Distillation）`的目标是将复杂模型（称为教师模型）包含的知识迁移到简单模型（称为学生模型）中。以分类问题 为例，模型蒸馏的核心思想是引入额外的损失函数（称为蒸馏损失函数），训练学生模型的输出尽可能接近教师模型的输出。在实际应用中，蒸馏损失函数通常与分类损失函数（交叉熵损失函数）联合用于训练学生模型。

传统的模型蒸馏方法包括两种：基于反馈的知识蒸馏方法和基于特征的知识蒸馏方法。

`模型剪枝（Model Pruning）`的目标是在尽可能不损失模型性能的情况下，努力消减模型的参数数量。

传统模型剪枝方法一般可以被分为结构化剪枝和非结构化剪枝。结构化剪枝（Structured Pruning）旨在去除对于性能影响较小的模型组件，可以删除神经元、通道甚至中间层。其核心思想是在尽量保持模型预测精度的条件下，去除那些对于结果影响不大的结构单元，如注意力机制中的注意力头、前馈层权重中的特定维度等。而非结构化剪枝（Unstructured Pruning） 则主要关注去除模型权重矩阵中不重要的数值（不修改模型结构）。一般来说，非结构化剪枝会创建一个包含 0/1 的掩码矩阵，并将其与原始的权重相乘，其中 0 所在位置的权重则不会在模型的计算中产生作用。当剪枝完成后，那些被剪枝掉的位置只会存储数值 0，从而节省存储空间。延伸，在实际应用中，非结构化剪枝一般可以实现更高的剪枝比率，但是不会显著加速模型的计算过程，因为被掩码的部分可能仍然需要参与计算。而结构化剪枝通过去除结构单元，可以显著减少所需的矩阵乘法次数，实现模型的压缩和加速。

与传统的模型剪枝类似，大语言模型的剪枝方法分为结构化和非结构化剪枝两类。其中，非结构化剪枝一般容易获得更高的压缩率，典型工作包括 SparseGPT，其可以实现 60% 模型参数的剪枝并较好保持困惑度。大模型结构化剪枝的研究也取得了较好的模型压缩效果，例如 LLM-prune 在 LLaMA (7B) 上剪枝了 20% 的参数并保持 93.6% 的预测精度、Sheared LLaMA 则将 LLaMA-2 (7B) 剪枝到 2.7B 参数规模并保持 87.8% 的预测精度。

#### 14.4.2.2. <a id='toc14_4_2_2_'></a>[提示学习](#toc0_)

使用大语言模型解决实际任务常用的方法是设计合适的提示（Prompting），通过自然语言接口与大模型进行交互。目前，提示的设计主要依靠人工设计和自动优化两种策略来实现。为了更好地解决未见过的任务，一种典型的提示方法是`上下文学习（In-context Learning, ICL）`，它将任务描述与示例以自然语言文本形式加入到提示中。此外，`思维链提示（Chain-of-Thought, CoT）`作为一种增强技术，将一系列中间推理步骤加入 到提示中，以增强复杂推理任务的解决效果。

### 14.4.3. <a id='toc14_4_3_'></a>[大模型应用](#toc0_)

本节将围绕具有代表性的`自然语言处理`和`信息检索`领域介绍大模型的应用。

# 15. <a id='toc15_'></a>[转格式](#toc0_)

In [4]:
%%bash
# ipynb to html
jupyter nbconvert \
    --to html huggingface.ipynb \
    --output-dir=./Format/huggingface \
    # --NbConvertApp.log_level=ERROR

cp -rf Pytorch_Pictures ./Format/huggingface
# browse translate html to pdf

[NbConvertApp] Making directory ./Format/huggingface
[NbConvertApp] Converting notebook huggingface.ipynb to html
[NbConvertApp] Writing 1685484 bytes to Format/huggingface/huggingface.html


In [5]:
# ipynb to markdown
!jupyter nbconvert --to markdown huggingface.ipynb --output-dir=./Format/huggingface

[NbConvertApp] Converting notebook huggingface.ipynb to markdown
[NbConvertApp] Writing 1218548 bytes to Format/huggingface/huggingface.md
