使用预训练模型有诸多好处，比如减少计算开销，让你不用从头训练就可以方便的使用SOTA模型。🤗Transformers提供了众多预训练模型，当你使用预训练模型的时候，你可以在特定任务的数据集上对其进行微调。

接下来看一下
- 微调🤗Transformers的预训练模型
- 在原生pytorch中微调模型

微调一个预训练模型之前需要准备好预训练模型。下边使用一下Yelp Reviews数据集。

In [None]:
from datasets import load_dataset

dataset = load_dataset("yelp_review_full")
dataset["train"][0]  # dataset结构如下，打印训练集的第一组数据

'''
DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 650000
    })
    test: Dataset({
        features: ['label', 'text'],
        num_rows: 50000
    })
})
'''


前边只说了怎么用tokenizer处理几个句子。而对于数据集🤗Datasets提供了`map`方法将tokenizer处理应用到整个数据集。

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")


def tokenize_function(example):
    return tokenizer(example["text"], padding="max_length", truncation=True)
# example可以换成别的词

tokenized_datasets = dataset.map(tokenize_function, batched=True)

如果你只想用数据集的一个子集来减少微调时间，可以这样：


In [4]:
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

# 微调
🤗 Transformers提供了[`Trainer`](https://huggingface.co/docs/transformers/v4.20.1/en/main_classes/trainer#transformers.Trainer)类用于优化训练Transformer模型。支持logging、gradient accumulation、mixed precision.

In [None]:
from transformers import AutoModelForSequenceClassification

# 加载预训练模型，选择想要的标签数量，根据我们使用的数据集的介绍可以知道Yelp Review的数据集可选标签为1~5个
model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

'''
你可能会看到警告，说一些预训练参数没被用到，还有一些参数被随机初始化了。
这是因为原来bert的训练头被忽视掉了，用分类头取代了，之后就是要在分类任务上进行BEET模型的微调。
'''

## Training hyperparameters

🤗提供了一个[`TrainingArguments`类](https://huggingface.co/docs/transformers/v4.20.1/en/main_classes/trainer#transformers.TrainingArguments)，其中包含所有需要调参的超参数。 下边代码是直接使用这个类的默认参数，你也可以选出自己需要的进行修改以找到最佳参数。

In [14]:
from transformers import TrainingArguments

training_args = TrainingArguments(output_dir="test_trainer")

NameError: name 'datasets' is not defined

Trainer本身是不带有评价指标的，只是一个循环训练。你需要自己引入评价指标。

🤗提供了一些常用的评价指标，用[`load_metric`](https://huggingface.co/docs/datasets/metrics)可以直接加载进来。
更多评价指标可以看[`datasets.list_metrics`](https://huggingface.co/docs/datasets/v2.3.2/en/package_reference/loading_methods#datasets.list_metrics)。

调用metric的compute方法即可对预测结果进行评测，但是注意在计算之前要将预测结果转化为logits，因为🤗transformer默认返回值都是logist。

指定`evaluation_strategy`参数就可以在每个epoch结尾显示当前训练结果指标。

In [10]:
import numpy as np
from datasets import load_metric

metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

training_args = TrainingArguments(output_dir="test_trainer", evaluation_strategy="epoch")

搞一个Trainer对象把刚才的模型、训练参数、训练集测试集数据、评价指标组合到一起。就可以微调了。

In [11]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

trainer.train()

NameError: name 'model' is not defined

# 用原生pytorch微调

`Trainer`只是提供一个迭代方法，让你可以一行代码训练模型。当然如果你想自己写循环也完全可以。你可以手写代码进行微调。

首先清空一下上边刚才执行的东西。


In [8]:
del model
del trainer
torch.cuda.empty_cache()

NameError: ignored

## 数据预处理
手写预处理的`tokenizer_dataset`，然后抽取数据集的子集进行训练。

In [9]:
# 1.移除text列，因为模型不能接受原始文本作为输入
tokenized_datasets = tokenized_datasets.remove_columns(["text"])
# 2.重命名`label`为`labels`，因为模型希望参数是`labels`
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
# 3.将格式转化为pytorch的张量
tokenized_datasets.set_format("torch")

# 抽子集
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

## DataLoader
为你的训练集和测试集创建一个`dataloader`，方便地取到每个batch的数据。

In [10]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(small_train_dataset, shuffle=True, batch_size=8)
eval_dataloader = DataLoader(small_eval_dataset, batch_size=8)

根据你需要的标签数量加载模型。

In [11]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

loading configuration file https://huggingface.co/bert-base-cased/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/a803e0468a8fe090683bdc453f4fac622804f49de86d7cecaee92365d4a0f829.a64a22196690e0e82ead56f388a3ef3a50de93335926ccfa20610217db589307
Model config BertConfig {
  "_name_or_path": "bert-base-cased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2",
    "3": "LABEL_3",
    "4": "LABEL_4"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2,
    "LABEL_3": 3,
    "LABEL_4": 4
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad

## Optimizer and learning rate scheduler
创建优化器和学习率调节器来微调模型，这里我们使用AdamW。

从Trainer创建默认的学习速率调度器。

最后把代码扔到GPU上。如果有GPU的话。

In [15]:
from torch.optim import AdamW
optimizer = AdamW(model.parameters(), lr=5e-5)

from transformers import get_scheduler
num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    name="linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps
)

import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(28996, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, element

Great, now you are ready to train! 🥳

## 训练循环

为了能监视你的训练进度，使用`tqdm`库给训练加一个进度条。

In [16]:
from tqdm.auto import tqdm

progress_bar = tqdm(range(num_training_steps))

model.train()

for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

  0%|          | 0/375 [00:00<?, ?it/s]

## 评价指标

和之前的一样，你需要给你自己写的循环加一个训练指标。但是，这次不是在每个epoch结束时计算和报告度量，而是使用add_batch累计所有批，并在最后计算度量。



In [17]:
metric = load_metric("accuracy")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()

{'accuracy': 0.559}

Additional resources
For more fine-tuning examples, refer to:

🤗 [Transformers Examples](https://github.com/huggingface/transformers/tree/main/examples) includes scripts to train common NLP tasks in PyTorch and TensorFlow.

🤗 [Transformers Notebooks](https://huggingface.co/docs/transformers/notebooks) contains various notebooks on how to fine-tune a model for specific tasks in PyTorch and TensorFlow.