In [1]:
import argparse
import os

import torch
from torch.optim import AdamW
from torch.utils.data import DataLoader
from peft import get_peft_config,get_peft_model, get_peft_model_state_dict, set_peft_model_state_dict, PeftType, \
PrefixTuningConfig, PromptEncoderConfig

import evaluate
from datasets import load_dataset
from transformers import AutoModelForSequenceClassification, AutoTokenizer, get_linear_schedule_with_warmup, set_seed
from tqdm import tqdm


In [2]:
batch_size = 32
model_name_or_path = "roberta-large"
task = "mrpc"
peft_type = PeftType.P_TUNING
device = "cuda"
num_epochs = 30

In [3]:

peft_config = PromptEncoderConfig(
    task_type="SEQ_CLS",
    num_virtual_tokens=20,
    encoder_hidden_size=128
)
lr = 1e-3

In [4]:
if any(k in model_name_or_path for k in ("gpt", "opt", "bloom")):
    padding_side = "left"
else:
    padding_side = "right"
    
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side=padding_side)
if getattr(tokenizer, "pad_token_id") is None:
    tokenizer.pad_token_id = tokenizer.eos_token_id
    
datasets = load_dataset("glue", task)
metric = evaluate.load("glue", task)

def tokenize_function(examples):
    # max_length=None => use the model max length (it's actually the default)
    outputs = tokenizer(examples["sentence1"], examples["sentence2"], truncation=True, max_length=None)
    return outputs

tokenized_datasets = datasets.map(
    tokenize_function,
    batched=True,
    remove_columns=["idx", "sentence1", "sentence2"],
)

# We also rename the 'label' column to 'labels' which is the expected name for labels by the models of the
# transformers library
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

def collate_fn(examples):
    return tokenizer.pad(examples, padding="longest", return_tensors="pt")

# Instantiate dataloaders.
train_dataloader = DataLoader(
    tokenized_datasets["train"], shuffle=True, collate_fn=collate_fn, batch_size=batch_size
)
eval_dataloader = DataLoader(
    tokenized_datasets["validation"], shuffle=False, collate_fn=collate_fn, batch_size=batch_size
)


Found cached dataset glue (/home/sourab/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached processed dataset at /home/sourab/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad/cache-121b991f592093a4.arrow
Loading cached processed dataset at /home/sourab/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad/cache-6c55b9fb8fbb12c7.arrow
Loading cached processed dataset at /home/sourab/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad/cache-b9740d82185f93e5.arrow


In [5]:
model = AutoModelForSequenceClassification.from_pretrained(model_name_or_path, return_dict=True)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()
model

Some weights of the model checkpoint at roberta-large were not used when initializing RobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'lm_head.dense.bias', 'lm_head.dense.weight', 'roberta.pooler.dense.weight', 'lm_head.bias', 'lm_head.layer_norm.weight', 'lm_head.layer_norm.bias', 'lm_head.decoder.weight']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-large and are newly initialized: ['classifier.out_proj.bias', 'classi

trainable params: 1351938 || all params: 355662082 || trainable%: 0.38011867680626127


PETModelForSequenceClassification(
  (base_model): RobertaForSequenceClassification(
    (roberta): RobertaModel(
      (embeddings): RobertaEmbeddings(
        (word_embeddings): Embedding(50265, 1024, padding_idx=1)
        (position_embeddings): Embedding(514, 1024, padding_idx=1)
        (token_type_embeddings): Embedding(1, 1024)
        (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (encoder): RobertaEncoder(
        (layer): ModuleList(
          (0): RobertaLayer(
            (attention): RobertaAttention(
              (self): RobertaSelfAttention(
                (query): Linear(in_features=1024, out_features=1024, bias=True)
                (key): Linear(in_features=1024, out_features=1024, bias=True)
                (value): Linear(in_features=1024, out_features=1024, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): RobertaSelfOutput

In [6]:
optimizer = AdamW(params=model.parameters(), lr=lr)

# Instantiate scheduler
lr_scheduler = get_linear_schedule_with_warmup(
    optimizer=optimizer,
    num_warmup_steps=0,#0.06*(len(train_dataloader) * num_epochs),
    num_training_steps=(len(train_dataloader) * num_epochs),
)

In [7]:
model.to(device)
for epoch in range(num_epochs):
    model.train()
    for step, batch in enumerate(tqdm(train_dataloader)):
        batch.to(device)
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()

    model.eval()
    for step, batch in enumerate(tqdm(eval_dataloader)):
        batch.to(device)
        with torch.no_grad():
            outputs = model(**batch)
        predictions = outputs.logits.argmax(dim=-1)
        predictions, references = predictions, batch["labels"]
        metric.add_batch(
            predictions=predictions,
            references=references,
        )

    eval_metric = metric.compute()
    print(f"epoch {epoch}:", eval_metric)

  0%|                                                                       | 0/115 [00:00<?, ?it/s]You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
100%|█████████████████████████████████████████████████████████████| 115/115 [00:32<00:00,  3.55it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 0: {'accuracy': 0.6838235294117647, 'f1': 0.8122270742358079}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 1: {'accuracy': 0.6911764705882353, 'f1': 0.7993630573248407}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.64it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 2: {'accuracy': 0.7230392156862745, 'f1': 0.8138385502471169}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 3: {'accuracy': 0.6985294117647058, 'f1': 0.8177777777777778}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 4: {'accuracy': 0.6862745098039216, 'f1': 0.8128654970760235}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 5: {'accuracy': 0.7034313725490197, 'f1': 0.7986688851913478}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.64it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.88it/s]


epoch 6: {'accuracy': 0.6911764705882353, 'f1': 0.81524926686217}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.92it/s]


epoch 7: {'accuracy': 0.7156862745098039, 'f1': 0.8237082066869301}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 8: {'accuracy': 0.7205882352941176, 'f1': 0.8267477203647416}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 9: {'accuracy': 0.7303921568627451, 'f1': 0.8312883435582822}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 10: {'accuracy': 0.7328431372549019, 'f1': 0.809106830122592}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 11: {'accuracy': 0.7107843137254902, 'f1': 0.8071895424836601}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.64it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.92it/s]


epoch 12: {'accuracy': 0.7205882352941176, 'f1': 0.8235294117647058}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.64it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 13: {'accuracy': 0.7083333333333334, 'f1': 0.8231797919762258}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 14: {'accuracy': 0.7083333333333334, 'f1': 0.8058727569331159}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 15: {'accuracy': 0.7230392156862745, 'f1': 0.8295625942684767}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.63it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.92it/s]


epoch 16: {'accuracy': 0.7303921568627451, 'f1': 0.828125}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 17: {'accuracy': 0.7230392156862745, 'f1': 0.8197767145135567}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.60it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 18: {'accuracy': 0.7181372549019608, 'f1': 0.8238897396630934}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.60it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.90it/s]


epoch 19: {'accuracy': 0.7205882352941176, 'f1': 0.8240740740740742}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.61it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 20: {'accuracy': 0.7181372549019608, 'f1': 0.8265460030165913}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.61it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.89it/s]


epoch 21: {'accuracy': 0.7156862745098039, 'f1': 0.8170347003154573}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 22: {'accuracy': 0.7328431372549019, 'f1': 0.8250401284109149}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.60it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.92it/s]


epoch 23: {'accuracy': 0.7279411764705882, 'f1': 0.8289676425269645}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.88it/s]


epoch 24: {'accuracy': 0.7254901960784313, 'f1': 0.826086956521739}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.61it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.88it/s]


epoch 25: {'accuracy': 0.75, 'f1': 0.8333333333333334}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.60it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.94it/s]


epoch 26: {'accuracy': 0.7426470588235294, 'f1': 0.8287112561174552}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.61it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]


epoch 27: {'accuracy': 0.7303921568627451, 'f1': 0.8275862068965518}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.91it/s]


epoch 28: {'accuracy': 0.7303921568627451, 'f1': 0.8259493670886074}


100%|█████████████████████████████████████████████████████████████| 115/115 [00:31<00:00,  3.62it/s]
100%|███████████████████████████████████████████████████████████████| 13/13 [00:01<00:00,  6.93it/s]

epoch 29: {'accuracy': 0.7303921568627451, 'f1': 0.8259493670886074}



