**Table of contents**<a id='toc0_'></a>    
- 1. [Hugging Face 概述](#toc1_)    
- 2. [安装 Hugging Face 库](#toc2_)    
- 3. [加载预训练模型和分词器](#toc3_)    
- 4. [文本标记化（Tokenization）](#toc4_)    
- 5. [推理（Inference）](#toc5_)    
- 6. [后处理结果（例如分类）](#toc6_)    
- 7. [微调（Fine-tuning）](#toc7_)    
  - 7.1. [准备训练数据](#toc7_1_)    
  - 7.2. [微调模型](#toc7_2_)    
  - 7.3. [模型评估与推理](#toc7_3_)    

<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# 1. <a id='toc1_'></a>[Hugging Face 概述](#toc0_)
Hugging Face 是一个聚焦于自然语言处理（NLP）的平台，提供了一整套工具来支持机器学习和深度学习模型的开发。Hugging Face 包含以下几个主要组成部分：
- Transformers 库：提供了大量的预训练模型，支持文本生成、分类、翻译、情感分析等任务。
- Datasets 库：提供了各种 NLP 任务的数据集，帮助开发者快速加载和处理数据。
- Tokenizers 库：提供高效的文本标记化工具。
- Hugging Face Hub：允许用户上传、分享和下载机器学习模型和数据集。

核心库:
- transformers：核心库，提供了大量的预训练模型，支持多种 NLP 任务。
- datasets：包含了各种公开数据集，方便快速加载和使用。
- tokenizers：用于高效地标记化文本数据，支持自定义和批处理。
- accelerate：用于加速模型训练和推理，支持多种硬件加速（GPU/TPU）。


# 2. <a id='toc2_'></a>[安装 Hugging Face 库](#toc0_)
Download transformer and datasets packages.

In [17]:
!pip install transformers[torch] datasets

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting transformers
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/f2/3a/8bdab26e09c5a242182b7ba9152e216d5ab4ae2d78c4298eb4872549cd35/transformers-4.47.1-py3-none-any.whl (10.1 MB)
     ---------------------------------------- 0.0/10.1 MB ? eta -:--:--
     ------------------------ --------------- 6.3/10.1 MB 32.2 MB/s eta 0:00:01
     --------------------------------------- 10.1/10.1 MB 30.1 MB/s eta 0:00:00
Collecting datasets
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/d7/84/0df6c5981f5fc722381662ff8cfbdf8aad64bec875f75d80b55bfef394ce/datasets-3.2.0-py3-none-any.whl (480 kB)
Collecting huggingface-hub<1.0,>=0.24.0 (from transformers)
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/6c/3f/50f6b25fafdcfb1c089187a328c95081abf882309afd86f4053951507cd1/huggingface_hub-0.27.1-py3-none-any.whl (450 kB)
Collecting regex!=2019.12.17 (from transformers)
  Downloading https://pypi.tuna.tsinghua.edu.

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torch 2.5.1 requires sympy==1.13.1; python_version >= "3.9", but you have sympy 1.13.3 which is incompatible.


# 3. <a id='toc3_'></a>[加载预训练模型和分词器](#toc0_)
Hugging Face 提供了大量的预训练模型，支持多种语言和任务。我们以加载一个 BERT 模型为例：
- from_pretrained('bert-base-uncased')：此方法从 Hugging Face Hub 下载预训练的 BERT 模型及其对应的分词器。

In [1]:
from transformers import BertTokenizer, BertForSequenceClassification

# 加载预训练的 BERT 模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

  from .autonotebook import tqdm as notebook_tqdm
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# 4. <a id='toc4_'></a>[文本标记化（Tokenization）](#toc0_)
在使用模型进行推理之前，我们需要将文本转化为模型能够理解的数字格式。这通过标记化过程来完成：
- return_tensors='pt'：返回 PyTorch 张量格式（如果使用 TensorFlow，则改为 'tf'）。
- padding=True：如果文本太短，使用填充来对齐所有文本长度。
- truncation=True：如果文本太长，进行截断。

In [2]:
# 输入文本
text = "Hugging Face is creating amazing things!"

# 将文本转化为模型的输入格式
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True)


# 5. <a id='toc5_'></a>[推理（Inference）](#toc0_)
将标记化后的输入传入模型进行推理，得到模型的输出结果：
- outputs.logits：返回模型的输出分数，通常需要通过后处理（如 Softmax）转换为具体的标签或概率。

In [3]:
# 模型推理
outputs = model(**inputs)

# 获取 logits（模型的预测分数）
logits = outputs.logits


# 6. <a id='toc6_'></a>[后处理结果（例如分类）](#toc0_)
对于分类任务，我们通常会对输出进行后处理，得到最终的标签预测：
- 

In [4]:
import torch

# 获取预测的标签
predictions = torch.argmax(logits, dim=-1)

# 打印预测的标签
print(predictions)


tensor([1])


# 7. <a id='toc7_'></a>[微调（Fine-tuning）](#toc0_)
微调是对预训练模型进行任务特定的训练。以下是微调的核心步骤：
## 7.1. <a id='toc7_1_'></a>[准备训练数据](#toc0_)
首先，我们需要加载数据集并对其进行标记化处理。Hugging Face 提供了 Datasets 库，允许你快速加载各种标准数据集。

In [5]:
from datasets import load_dataset

# 加载 GLUE 数据集中的 MRPC（Microsoft Research Paraphrase Corpus）
dataset = load_dataset('glue', 'mrpc')


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


## 7.2. <a id='toc7_2_'></a>[微调模型](#toc0_)
接下来，我们可以使用 Trainer 类进行模型微调：
- Trainer 类是 Hugging Face 提供的一个高层 API，简化了训练过程。
- TrainingArguments 用于设置训练过程中的各种参数（例如学习率、训练批次大小等）。

In [8]:
from transformers import Trainer, TrainingArguments

# 训练参数
training_args = TrainingArguments(
    output_dir='./results',          # 输出目录
    evaluation_strategy="epoch",     # 每个epoch进行评估
    learning_rate=2e-5,              # 学习率
    per_device_train_batch_size=8,   # 每个设备的训练批量
    per_device_eval_batch_size=8,    # 每个设备的评估批量
    num_train_epochs=3,              # 训练轮数
    weight_decay=0.01,               # 权重衰减
)

# 创建 Trainer
trainer = Trainer(
    model=model,                         # 预训练模型
    args=training_args,                  # 训练参数
    train_dataset=dataset['train'],      # 训练数据集
    eval_dataset=dataset['validation'],  # 验证数据集
)

# 开始训练
trainer.train()



ValueError: You have to specify either input_ids or inputs_embeds

## 7.3. <a id='toc7_3_'></a>[模型评估与推理](#toc0_)
在微调模型后，我们可以进行模型评估和推理，以验证模型的性能。

In [7]:
# 评估模型
trainer.evaluate()

# 对新文本进行预测
new_text = "Hugging Face makes machine learning easy!"
inputs = tokenizer(new_text, return_tensors='pt')
outputs = model(**inputs)
predictions = torch.argmax(outputs.logits, dim=-1)
print(predictions)

ValueError: You have to specify either input_ids or inputs_embeds