# Preprocessing Glue Tasks
> Creating a preprocessing function that works for any glue tasks

What are the datasets under Glue tasks?

1. ax
2. cola
3. mnli
4. mnli_matched
5. mnli_mismatched
6. mrpc
7. qnli
8. qqp
9. rte
10. sst2
11. stsb
12. wnli

In [1]:
from datasets import load_dataset

  from .autonotebook import tqdm as notebook_tqdm


## Ax

In [2]:
ax_dataset = load_dataset('glue', 'ax'); ax_dataset

DatasetDict({
    test: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 1104
    })
})

## Cola

In [3]:
cola_dataset = load_dataset('glue', 'cola'); cola_dataset

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 8551
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1043
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1063
    })
})

## Mnli

In [6]:
mnli_dataset = load_dataset('glue', 'mnli'); mnli_dataset

DatasetDict({
    train: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 392702
    })
    validation_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9815
    })
    validation_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9832
    })
    test_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9796
    })
    test_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9847
    })
})

## Mnli Matched

In [7]:
mnli_matched_dataset = load_dataset('glue', 'mnli_matched'); mnli_matched_dataset

DatasetDict({
    validation: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9815
    })
    test: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9796
    })
})

## Mnli Mismatched

In [8]:
mnli_mismatched_dataset = load_dataset('glue', 'mnli_mismatched'); mnli_mismatched_dataset

Generating validation split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9832/9832 [00:00<00:00, 11110.45 examples/s]
Generating test split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9847/9847 [00:00<00:00, 13114.35 examples/s]


DatasetDict({
    validation: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9832
    })
    test: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9847
    })
})

## Mrpc

In [9]:
mrpc_dataset = load_dataset('glue', 'mrpc'); mrpc_dataset

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

## Qnli

In [10]:
qnli_dataset = load_dataset('glue', 'qnli'); qnli_dataset

Downloading data: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10.6M/10.6M [00:00<00:00, 17.5MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 104743/104743 [00:05<00:00, 18316.29 examples/s]
Generating validation split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5463/5463 [00:00<00:00, 17127.22 examples/s]
Generating test split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5463/5463 [00:00<00:00, 19257.89 examples/s]


DatasetDict({
    train: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 104743
    })
    validation: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 5463
    })
    test: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 5463
    })
})

## Qqp

In [11]:
qqp_dataset = load_dataset('glue', 'qqp'); qqp_dataset

Downloading data: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 41.7M/41.7M [00:01<00:00, 26.3MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 363846/363846 [00:19<00:00, 18861.09 examples/s]
Generating validation split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40430/40430 [00:02<00:00, 19571.32 examples/s]
Generating test split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 390965/390965 [00:20<00:00, 19451.12 examples/s]


DatasetDict({
    train: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 363846
    })
    validation: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 40430
    })
    test: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 390965
    })
})

## Rte

In [12]:
rte_dataset = load_dataset('glue', 'rte'); rte_dataset

Downloading data: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 697k/697k [00:00<00:00, 5.74MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2490/2490 [00:00<00:00, 13195.62 examples/s]
Generating validation split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 277/277 [00:00<00:00, 9369.46 examples/s]
Generating test split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [00:00<00:00, 17456.99 examples/s]


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 2490
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 277
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3000
    })
})

## Sst2

In [13]:
sst2_dataset = load_dataset('glue', 'sst2'); sst2_dataset

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 67349
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 872
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1821
    })
})

## Stsb

In [14]:
stsb_dataset = load_dataset('glue', 'stsb'); stsb_dataset

Downloading data: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 803k/803k [00:00<00:00, 6.09MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5749/5749 [00:00<00:00, 15377.88 examples/s]
Generating validation split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1500/1500 [00:00<00:00, 12199.98 examples/s]
Generating test split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1379/1379 [00:00<00:00, 13323.66 examples/s]


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 5749
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1500
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1379
    })
})

## Wnli

In [15]:
wnli_dataset = load_dataset('glue', 'wnli'); wnli_dataset

Downloading data: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29.0k/29.0k [00:00<00:00, 7.27MB/s]
Generating train split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 635/635 [00:00<00:00, 14755.67 examples/s]
Generating validation split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 71/71 [00:00<00:00, 5368.98 examples/s]
Generating test split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 146/146 [00:00<00:00, 6406.00 examples/s]


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 635
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 71
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 146
    })
})

In [24]:
set(wnli_dataset['train'].features.keys()) - set(['label', 'idx'])

{'sentence1', 'sentence2'}

## Pre Processing

In [35]:
from transformers import AutoTokenizer
from functools import partial
from transformers import DataCollatorWithPadding

In [45]:
def tokenize(data, tokenizer, features_to_tokenize):
    if len(features_to_tokenize) == 2:
        f1, f2 = features_to_tokenize
        return tokenizer(data[f1], data[f2], truncation=True)
    else:
        f1 = list(features_to_tokenize)[0]
        return tokenizer(data[f1], truncation=True)

In [46]:
def preprocess(task, checkpoint, type='train'):
    dataset = load_dataset('glue', task)
    tokenizer = AutoTokenizer.from_pretrained(checkpoint)
    features_to_tokenize = set(dataset['train'].features.keys()) - set(['label', 'idx'])
    toke = partial(tokenize, tokenizer=tokenizer, features_to_tokenize=features_to_tokenize)
    tokenized_dataset = dataset.map(toke, batched=True)
    ds = tokenized_dataset[type]
    
    return ds

In [53]:
def get_batch(ds, checkpoint, bs=32):
    tokenizer = AutoTokenizer.from_pretrained(checkpoint)
    collator = DataCollatorWithPadding(tokenizer)
    for i in range(0, len(ds), bs):
        samples = ds[i: i + bs]
        samples  = {k: v for k , v in samples.items() if k in ['input_ids', 'attention_mask', 'token_type_ids', 'sentence', 'label', 'idx']}
        yield collator(samples)

In [54]:
ds = preprocess('stsb', 'bert-base-uncased'); ds

Map: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1379/1379 [00:00<00:00, 5738.56 examples/s]


Dataset({
    features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 5749
})

In [64]:
val = next(get_batch(ds, 'bert-base-uncased'))

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


In [65]:
val.input_ids.shape

torch.Size([32, 28])