# 基于MindNLP的Roberta模型Prompt Tuning

## 环境配置

    python =3.9
    mindspore = 2.3.1
    mindnlp = 0.4.0
    jieba
    tiktoken

**在线运行代码平台链接：**
- 1. [华为云AI Gallery](https://pangu.huaweicloud.com/gallery/asset-detail.html?id=016991f8-0e0d-44c8-96f7-8b2cad54c592)
- 2. [大模型平台AI实验室统一入口](https://xihe.mindspore.cn/projects)

## 模型与数据集加载

本案例对roberta-large模型基于GLUE基准数据集进行prompt tuning。

In [1]:
%env HF_ENDPOINT=https://hf-mirror.com

env: HF_ENDPOINT=https://hf-mirror.com


In [2]:
import mindspore
from tqdm import tqdm
from mindnlp import evaluate
from mindnlp.dataset import load_dataset
from mindnlp.transformers import AutoModelForSequenceClassification, AutoTokenizer
from mindnlp.core.optim import AdamW
from mindnlp.common.optimization import get_linear_schedule_with_warmup
from mindnlp.peft import (
    get_peft_model,
    PeftType,
    PromptTuningConfig,
)

  setattr(self, word, getattr(machar, word).flat[0])
  return self._float_to_str(self.smallest_subnormal)
  setattr(self, word, getattr(machar, word).flat[0])
  return self._float_to_str(self.smallest_subnormal)
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.931 seconds.
Prefix dict has been built successfully.
  tree = Parsing.p_module(s, pxd, full_module_name)
In file included from /home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/include/numpy/ndarraytypes.h:1929,
                 from /home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/include/numpy/ndarrayobject.h:12,
                 from /home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/include/numpy/arrayobject.h:5,
                 from /home/lvyufeng/.pyxbld/temp.linux-aarch64-cpython-39/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/mindnlp/transform

In [3]:
batch_size = 32
model_name_or_path = "roberta-large"
task = "mrpc"
peft_type = PeftType.PROMPT_TUNING
num_epochs = 20

prompt tuning配置，任务类型选为"SEQ_CLS", 即序列分类。

In [4]:
peft_config = PromptTuningConfig(task_type="SEQ_CLS", num_virtual_tokens=10)
lr = 1e-3

加载tokenizer。如模型为GPT、OPT或BLOOM类模型，从序列左侧添加padding，其他情况下从序列右侧添加padding。

In [5]:
if any(k in model_name_or_path for k in ("gpt", "opt", "bloom")):
    padding_side = "left"
else:
    padding_side = "right"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side=padding_side)
if getattr(tokenizer, "pad_token_id") is None:
    tokenizer.pad_token_id = tokenizer.eos_token_id



In [6]:
datasets = load_dataset("glue", task)
print(next(datasets['train'].create_dict_iterator()))

{'sentence1': Tensor(shape=[], dtype=String, value= 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .'), 'sentence2': Tensor(shape=[], dtype=String, value= 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .'), 'label': Tensor(shape=[], dtype=Int64, value= 1), 'idx': Tensor(shape=[], dtype=Int64, value= 0)}


In [7]:
from mindnlp.dataset import BaseMapFunction

class MapFunc(BaseMapFunction):
    def __call__(self, sentence1, sentence2, label, idx):
        outputs = tokenizer(sentence1, sentence2, truncation=True, max_length=None)
        return outputs['input_ids'], outputs['attention_mask'], label


def get_dataset(dataset, tokenizer):
    input_colums=['sentence1', 'sentence2', 'label', 'idx']
    output_columns=['input_ids', 'attention_mask', 'labels']
    dataset = dataset.map(MapFunc(input_colums, output_columns),
                          input_colums, output_columns)
    dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id),
                                                         'attention_mask': (None, 0)})
    return dataset

train_dataset = get_dataset(datasets['train'], tokenizer)
eval_dataset = get_dataset(datasets['validation'], tokenizer)

In [8]:
print(next(train_dataset.create_dict_iterator()))

{'input_ids': Tensor(shape=[32, 70], dtype=Int64, value=
[[    0, 10127,  1001 ...     1,     1,     1],
 [    0,   975, 26802 ...     1,     1,     1],
 [    0,  1213,    56 ...     1,     1,     1],
 ...
 [    0,   133,  1154 ...     1,     1,     1],
 [    0, 12667,  8423 ...     1,     1,     1],
 [    0, 32478,  1033 ...     1,     1,     1]]), 'attention_mask': Tensor(shape=[32, 70], dtype=Int64, value=
[[1, 1, 1 ... 0, 0, 0],
 [1, 1, 1 ... 0, 0, 0],
 [1, 1, 1 ... 0, 0, 0],
 ...
 [1, 1, 1 ... 0, 0, 0],
 [1, 1, 1 ... 0, 0, 0],
 [1, 1, 1 ... 0, 0, 0]]), 'labels': Tensor(shape=[32], dtype=Int64, value= [1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 
 1, 1, 0, 0, 1, 1, 1, 0])}


In [9]:
metric = evaluate.load("glue", task)

In [10]:
model = AutoModelForSequenceClassification.from_pretrained(model_name_or_path, return_dict=True)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

[MS_ALLOC_CONF]Runtime config:  enable_vmm:True  vmm_align_size:2MB


Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-large and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


trainable params: 1,061,890 || all params: 356,423,684 || trainable%: 0.2979291353713745


加载模型并打印微调参数量，可以看到仅有不到0.3%的参数参与了微调。

如出现如下告警请忽略，并不影响模型的微调。

The following parameters in checkpoint files are not loaded:
['lm_head.bias', 'lm_head.dense.bias', 'lm_head.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'roberta.embeddings.position_ids']

The following parameters in models are missing parameter:
['classifier.dense.weight', 'classifier.dense.bias', 'classifier.out_proj.weight', 'classifier.out_proj.bias']

## 模型微调（prompt tuning）
指定优化器和学习率调整策略

In [11]:
optimizer = AdamW(params=model.parameters(), lr=lr)

# Instantiate scheduler
lr_scheduler = get_linear_schedule_with_warmup(
    optimizer=optimizer,
    num_warmup_steps=0.06 * (len(train_dataset) * num_epochs),
    num_training_steps=(len(train_dataset) * num_epochs),
)

按照如下步骤定义训练逻辑：

1、构建正向计算函数

2、函数变换，获取微分函数

3、定义训练一个step的逻辑

4、遍历训练数据集进行模型训练，同时每一个epoch后，遍历验证数据集获取当前的评价指标（accuracy、f1 score）

In [None]:
from mindnlp.core import value_and_grad
def forward_fn(**batch):
    outputs = model(**batch)
    loss = outputs.loss
    return loss

grad_fn = value_and_grad(forward_fn, tuple(model.parameters()))

for epoch in range(num_epochs):
    model.set_train()
    train_total_size = train_dataset.get_dataset_size()
    for step, batch in enumerate(tqdm(train_dataset.create_dict_iterator(), total=train_total_size)):
        optimizer.zero_grad()
        loss = grad_fn(**batch)
        optimizer.step()
        lr_scheduler.step()

    model.set_train(False)
    eval_total_size = eval_dataset.get_dataset_size()
    for step, batch in enumerate(tqdm(eval_dataset.create_dict_iterator(), total=eval_total_size)):
        outputs = model(**batch)
        predictions = outputs.logits.argmax(axis=-1)
        predictions, references = predictions, batch["labels"]
        metric.add_batch(
            predictions=predictions,
            references=references,
        )

    eval_metric = metric.compute()
    print(f"epoch {epoch}:", eval_metric)

  0%|                                                                                                | 0/115 [00:00<?, ?it/s]

/

100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [02:10<00:00,  1.13s/it]
 15%|█████████████▋                                                                           | 2/13 [00:01<00:04,  2.21it/s]

-

100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.53it/s]


epoch 0: {'accuracy': 0.7205882352941176, 'f1': 0.8267477203647416}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:21<00:00,  1.41it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.96it/s]


epoch 1: {'accuracy': 0.7009803921568627, 'f1': 0.817910447761194}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:22<00:00,  1.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.82it/s]


epoch 2: {'accuracy': 0.7058823529411765, 'f1': 0.8198198198198198}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:20<00:00,  1.43it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.88it/s]


epoch 3: {'accuracy': 0.7058823529411765, 'f1': 0.8187311178247734}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:23<00:00,  1.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.76it/s]


epoch 4: {'accuracy': 0.7107843137254902, 'f1': 0.8190184049079755}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:23<00:00,  1.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.77it/s]


epoch 5: {'accuracy': 0.7205882352941176, 'f1': 0.8161290322580645}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:23<00:00,  1.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.80it/s]


epoch 6: {'accuracy': 0.7401960784313726, 'f1': 0.8295819935691319}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:24<00:00,  1.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.71it/s]


epoch 7: {'accuracy': 0.7156862745098039, 'f1': 0.8104575163398693}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:22<00:00,  1.40it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  5.89it/s]


epoch 8: {'accuracy': 0.7205882352941176, 'f1': 0.8093645484949833}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:15<00:00,  1.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  7.10it/s]


epoch 9: {'accuracy': 0.7328431372549019, 'f1': 0.8256}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:09<00:00,  1.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.92it/s]


epoch 10: {'accuracy': 0.7328431372549019, 'f1': 0.8233387358184765}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:05<00:00,  1.76it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 11: {'accuracy': 0.7401960784313726, 'f1': 0.8284789644012945}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:05<00:00,  1.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  7.02it/s]


epoch 12: {'accuracy': 0.7303921568627451, 'f1': 0.8264984227129337}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:02<00:00,  1.83it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 13: {'accuracy': 0.7352941176470589, 'f1': 0.8296529968454258}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:04<00:00,  1.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.79it/s]


epoch 14: {'accuracy': 0.7328431372549019, 'f1': 0.8244766505636071}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:06<00:00,  1.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.59it/s]


epoch 15: {'accuracy': 0.7377450980392157, 'f1': 0.8260162601626017}


100%|██████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:08<00:00,  1.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.58it/s]


epoch 16: {'accuracy': 0.7377450980392157, 'f1': 0.8288}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:07<00:00,  1.70it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:02<00:00,  6.48it/s]


epoch 17: {'accuracy': 0.7401960784313726, 'f1': 0.8295819935691319}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:08<00:00,  1.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 18: {'accuracy': 0.7279411764705882, 'f1': 0.8235294117647058}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 115/115 [01:07<00:00,  1.71it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.55it/s]


epoch 19: {'accuracy': 0.7328431372549019, 'f1': 0.8244766505636071}
