# Předzpracování datasetu DBpedia

Tento notebook slouží k předzpracování datasetu DBpedia. Pro dataset jsou vytvořeny augmentované záznamy a předpočítány logity.
Nejprve jsou načteny všechny potřebné knihovny včetně vlastní sbírky objektů a funkcí.

In [37]:
from datasets import load_from_disk, Dataset, concatenate_datasets, ClassLabel, Features, Value, Sequence
from transformers import BertTokenizer, BertForSequenceClassification, BasicTokenizer
from torch.utils.data import  DataLoader
from tqdm.notebook import tqdm
import numpy as np
import torch
import base
import os
import copy

Ověření, že GPU je k dispozici a balíček torch je správně nakonfigurován.

In [2]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    print("GPU is available and will be used:", torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print("GPU is not available, using CPU.")

GPU is available and will be used: NVIDIA A100 80GB PCIe MIG 2g.20gb


Konfigurace augmentačních parametrů.
Dataset se bude procházet pouze jednou (vzhledem ke své velikosti), každý token v záznamu bude na deset procent zamaskován a na třicet procent nahrazen jiným tokenem se stejným POS tagem. Po průchodu všech tokenů v záznamu může dojít s pravděpodobností dvacet procent ke zkrácení záznamu. 

In [3]:
augmentation_params = {"n_iter": 1, "p_mask":0.1, "p_pos": 0.3, "p_ng":0.2}

Získání datasetu, základního tokenizeru a jeho použití nad datasetem. 

In [4]:
tokenizer = BasicTokenizer(do_lower_case=True)
DATASET = "dbpedia"

In [5]:
train_data = load_from_disk(f"~/data/{DATASET}/train")
sentences = list(map(lambda e: e["sentence"], train_data))

Pohled na průměrné délky záznamů dle počtu tokenů.

In [6]:
token_lengths = [len(tokenizer.tokenize(sentence)) for sentence in sentences]


In [7]:
sorted_token_lengths = sorted(token_lengths, reverse=True)
avg_tokens = np.mean(token_lengths)

In [8]:
print(sorted_token_lengths[0:25])
print(avg_tokens)
print(sorted_token_lengths[-25:])

[1498, 1283, 1211, 989, 734, 655, 551, 516, 501, 433, 410, 394, 384, 364, 354, 338, 336, 331, 313, 311, 308, 307, 306, 301, 294]
53.53230357142857
[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1]


Získání POS tagů jednotlivých tokenů v záznamech pro potřeby augmentace.

In [9]:
pos_tag_word_map_list = base.get_pos_tag_word_map(sentences, tokenizer=tokenizer)

In [10]:
print(train_data[0])

{'label': 8, 'sentence': ' Zarrin Darreh (Persian: زرين دره\u200e also Romanized as Zarrīn Darreh) is a village in Chahriq Rural District Kuhsar District Salmas County West Azerbaijan Province Iran. At the 2006 census its population was 37 in 8 families.'}


Spuštění procesu augmentace s popsanými parametry.

In [11]:
augmented_datasets = base.get_augmented_dataset(augmentation_params, train_data, pos_tag_word_map_list, tokenizer=tokenizer, include_idx=False)

In [12]:
print(augmented_datasets[0].keys())

dict_keys(['label', 'sentence'])


Převedení nových záznamů do dataset objektu.

In [13]:
aug_datasets_formated = []
ds_schema = Features({
    "sentence": Value("string"),
    "label": ClassLabel(names=["Company", "EducationalInstitution", "Artist", "Athlete", "OfficeHolder", "MeanOfTransportation", "Building", "NaturalPlace", "Village", "Animal", "Plant", "Album", "Film", "WrittenWork"])
})

for iter in augmented_datasets:
    dataset = Dataset.from_dict(iter)
    dataset = dataset.cast(ds_schema)
    aug_datasets_formated.append(dataset)

Casting the dataset:   0%|          | 0/448000 [00:00<?, ? examples/s]

Ověření efektu augmentace, zde např. maskování tokenů, změna tokenů i zkrácení celého záznamu.

In [14]:
print(aug_datasets_formated[0][70])
print(train_data[70])

{'sentence': 'zarrin [MASK] persian : [MASK] - romaine zarrin in southeast france . the zarrin is listed as a monument historique as 1939', 'label': 6}
{'label': 6, 'sentence': " Château d'Alba-la-Romaine is a château in Alba-la-Romaine Ardèche in southeast France.The castle is listed as a Monument historique since 1939 by the French Ministry of Culture."}


Načtení učitelského modelu a jeho tokenizeru.

In [15]:
tokenizer = BertTokenizer.from_pretrained("fabriceyhc/bert-base-uncased-dbpedia_14")
model = BertForSequenceClassification.from_pretrained("fabriceyhc/bert-base-uncased-dbpedia_14", num_labels=14)
model.to(device)
model.eval()

torch.save(model.state_dict(), f"{os.path.expanduser('~')}/models/{DATASET}/teacher.pth")

Předzpracování trénovací části datasetu a výpočet logitů učitelským modelem. Vypočtené logity se přidávají jako nový sloupec datasetu, naopak se odstraňují záznamy ponechané po tokenizeru učitele, které dále nejsou třeba. 

In [16]:
train_dataset = base.prepare_dataset(train_data, tokenizer)
train_dataloader = DataLoader(train_dataset, batch_size=128, shuffle=False)
train_logits = base.generate_logits(train_dataloader, model)
train_dataset = train_dataset.add_column("logits", train_logits)
train_dataset = train_dataset.remove_columns(["token_type_ids", "attention_mask", "input_ids"])
train_dataset.set_format(type="torch", columns=["logits", "labels"], device="cpu")

Generating logits for given dataset:   0%|          | 0/3500 [00:00<?, ?it/s]

Výpočet správnosti učitelských predikcí nad trénovací částí datasetu.

In [17]:
print(base.check_acc(train_dataset, "Accuracy for base dataset: "))

Calculating accuracy based on the saved logits:   0%|          | 0/448000 [00:00<?, ?it/s]

Accuracy for base dataset:  0.9887633928571429


Stejné kroky pro výpočet logitů jsou provedeny i pro augmentovanou variantu datasetu. Připraveno pro potřeby většího množství průchodů augmentace. Dataset je nejprve tokenizován a následně je předán učitely k inferenci pro získání logitů, které jsou k datasetu uloženy. Odstraněny jsou poté nepotřebné pozůstatky tokenizace. V rámci průběhu zpracování rovnou dochází k filtraci augmentovaných záznamů dle popsaného mechanismu (notebook precompute_logits_10.ipynb).

Takto zpracované datasety se postupně spojují do jednoho celku. 

In [18]:
aug_clean_datasets = []
for dataset in tqdm(aug_datasets_formated, total=(len(aug_datasets_formated)), desc="Processing augmented datasets: "):
    aug_train_dataset = base.prepare_dataset(dataset, tokenizer)
    aug_train_dataloader = DataLoader(aug_train_dataset, batch_size=128, shuffle=False)
    aug_train_logits = base.generate_logits(aug_train_dataloader, model)
    aug_train_dataset = aug_train_dataset.add_column("logits", aug_train_logits)
    aug_train_dataset = aug_train_dataset.remove_columns(["token_type_ids", "attention_mask", "input_ids"])
    aug_train_dataset.set_format(type="torch", columns=["logits", "labels"], device="cpu")

    print(base.check_acc(aug_train_dataset, "Accuracy for augmented dataset: "))

    aug_train_dataset = base.remove_diff_pred_class(train_dataset, aug_train_dataset, pytorch_dataset=False)
    
    print(base.check_acc(aug_train_dataset, "Accuracy for filtered dataset: "))

    aug_train_dataset.reset_format()
    aug_clean_datasets.extend(aug_train_dataset)

Processing augmented datasets:   0%|          | 0/1 [00:00<?, ?it/s]

Tokenizing the provided dataset:   0%|          | 0/448000 [00:00<?, ? examples/s]

Generating logits for given dataset:   0%|          | 0/3500 [00:00<?, ?it/s]

Calculating accuracy based on the saved logits:   0%|          | 0/448000 [00:00<?, ?it/s]

Accuracy for augmented dataset:  0.9568727678571428


Removing entries from augmented dataset that are different from the base one - based on saved logits:   0%|   …

Calculating accuracy based on the saved logits:   0%|          | 0/431401 [00:00<?, ?it/s]

Accuracy for filtered dataset:  0.9914766076110162


In [19]:
print(train_dataset.features)

{'labels': ClassLabel(names=['Company', 'EducationalInstitution', 'Artist', 'Athlete', 'OfficeHolder', 'MeanOfTransportation', 'Building', 'NaturalPlace', 'Village', 'Animal', 'Plant', 'Album', 'Film', 'WrittenWork'], id=None), 'sentence': Value(dtype='string', id=None), 'logits': Sequence(feature=Value(dtype='float32', id=None), length=-1, id=None)}


Převedení spojeného a zpracovaného augmentovaného datasetu do dataset objektu.

In [20]:
ds_schema = Features({
    "sentence": Value("string"),
    "labels": ClassLabel(names=["Company", "EducationalInstitution", "Artist", "Athlete", "OfficeHolder", "MeanOfTransportation", "Building", "NaturalPlace", "Village", "Animal", "Plant", "Album", "Film", "WrittenWork"]),
    "logits": Sequence(feature=Value(dtype="float32")),
})

aug_dataset = Dataset.from_list(aug_clean_datasets)
aug_dataset = aug_dataset.cast(ds_schema)


Casting the dataset:   0%|          | 0/431401 [00:00<?, ? examples/s]

In [21]:
aug_dataset.set_format(type="torch", columns=["logits", "labels"], device="cpu")
train_dataset.set_format(type="torch", columns=["logits", "labels"], device="cpu")

Výpočet správnosti nad zpracovanými datasety.

In [22]:
print(base.check_acc(train_dataset, "Accuracy for base dataset: "))
print(base.check_acc(aug_dataset, "Accuracy for augmented dataset: "))

Calculating accuracy based on the saved logits:   0%|          | 0/448000 [00:00<?, ?it/s]

Accuracy for base dataset:  0.9887633928571429


Calculating accuracy based on the saved logits:   0%|          | 0/431401 [00:00<?, ?it/s]

Accuracy for augmented dataset:  0.9914766076110162


Spojení původního a augmentovaného datasetu.

In [23]:
train_all_data = concatenate_datasets([train_dataset, aug_dataset])
train_all_data.set_format(type="torch", columns=["logits", "labels"], device="cpu")

Získání správnosti nad touto kombinací.

In [24]:
print(base.check_acc(train_all_data, "Accuracy for combined dataset: "))

Calculating accuracy based on the saved logits:   0%|          | 0/879401 [00:00<?, ?it/s]

Accuracy for combined dataset:  0.9900943937975963


In [25]:
print(train_all_data.column_names)

['labels', 'sentence', 'logits']


In [26]:
train_all_data.reset_format()

Uložení zpracovaných datasetů na disk.

In [27]:
train_all_data.save_to_disk(f"~/data/{DATASET}/train-logits-augmented")

Saving the dataset (0/1 shards):   0%|          | 0/879401 [00:00<?, ? examples/s]

In [28]:
train_dataset.reset_format()
train_dataset.save_to_disk(f"~/data/{DATASET}/train-logits")

Saving the dataset (0/1 shards):   0%|          | 0/448000 [00:00<?, ? examples/s]

Načtení zbylých částí datasetu (validační a testovací). Výpočet logitů je proveden pro každou z těchto částí stejným způsobem jako v příapdě trénovací části.

Nejprve je část tokenizována učitelem a vložena do dataloaderu.

In [29]:
eval_data = load_from_disk(f"~/data/{DATASET}/eval")

eval_dataset = base.prepare_dataset(eval_data, tokenizer)
eval_dataloader = DataLoader(eval_dataset, batch_size=128, shuffle=False)

In [30]:
test_data = load_from_disk(f"~/data/{DATASET}/test")

test_dataset = base.prepare_dataset(test_data, tokenizer)
test_dataloader = DataLoader(test_dataset, batch_size=128, shuffle=False)

Následně jsou pro každou část spočteny logity.

In [31]:
eval_logits = base.generate_logits(eval_dataloader, model)
test_logits = base.generate_logits(test_dataloader, model)

Generating logits for given dataset:   0%|          | 0/875 [00:00<?, ?it/s]

Generating logits for given dataset:   0%|          | 0/547 [00:00<?, ?it/s]

Logity jsou přidány jako nový sloupec, odstraněny jsou již nepotřebné pozůstatky tokenizace.

In [32]:
eval_dataset.reset_format()
eval_dataset = eval_dataset.add_column("logits", eval_logits)
eval_dataset = eval_dataset.remove_columns(["token_type_ids", "input_ids", "attention_mask"])

In [33]:
test_dataset.reset_format()
test_dataset = test_dataset.add_column("logits", test_logits)
test_dataset = test_dataset.remove_columns(["token_type_ids", "input_ids", "attention_mask"])

In [34]:
eval_dataset.save_to_disk(f"~/data/{DATASET}/eval-logits")
test_dataset.save_to_disk(f"~/data/{DATASET}/test-logits")

Saving the dataset (0/1 shards):   0%|          | 0/112000 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/70000 [00:00<?, ? examples/s]

Uložení dat na disk a vypočtení správnosti predikcí.

In [35]:
eval_data = load_from_disk(f"~/data/{DATASET}/eval-logits")
test_data = load_from_disk(f"~/data/{DATASET}/test-logits")

eval_data.set_format(type="torch", columns=["logits", "labels"], device="cpu")
test_data.set_format(type="torch", columns=["logits", "labels"], device="cpu")

print(base.check_acc(eval_data, "Accuracy for base eval dataset: "))
print(base.check_acc(test_data, "Accuracy for base test dataset: "))

Calculating accuracy based on the saved logits:   0%|          | 0/112000 [00:00<?, ?it/s]

Accuracy for base eval dataset:  0.9881785714285715


Calculating accuracy based on the saved logits:   0%|          | 0/70000 [00:00<?, ?it/s]

Accuracy for base test dataset:  0.9883285714285714


Výpočet výkonnostních metrik a velikosti u učitelského modelu.

In [43]:
train_dataset = base.prepare_dataset(train_data, tokenizer)

train_data_gpu = copy.deepcopy(train_dataset)
train_data_gpu.set_format(type="torch", columns=["input_ids", "attention_mask"], device="cuda")
gpu_data_loader = DataLoader(train_data_gpu, batch_size=1, shuffle=False)

train_data_cpu = copy.deepcopy(train_dataset)
train_data_cpu.set_format(type="torch", columns=["input_ids", "attention_mask"], device="cpu")
cpu_data_loader = DataLoader(train_data_cpu, batch_size=1, shuffle=False)

In [44]:
base.count_parameters(model)

model size: 417.690MB.
Total Trainable Params: 109493006.


Unnamed: 0,Modules,Parameters
0,bert.embeddings.word_embeddings.weight,23440896
1,bert.embeddings.position_embeddings.weight,393216
2,bert.embeddings.token_type_embeddings.weight,1536
3,bert.embeddings.LayerNorm.weight,768
4,bert.embeddings.LayerNorm.bias,768
...,...,...
196,bert.encoder.layer.11.output.LayerNorm.bias,768
197,bert.pooler.dense.weight,589824
198,bert.pooler.dense.bias,768
199,classifier.weight,10752


In [45]:
cpu_benchmark = base.BenchMarkRunner(model, cpu_data_loader, "cpu", 1000)
print(cpu_benchmark.run_benchmark())

<torch.utils.benchmark.utils.common.Measurement object at 0x7bc898ae19c0>
self.infer_speed_comp()
  49.43 ms
  1 measurement, 1000 runs , 4 threads


In [46]:
gpu_benchmark = base.BenchMarkRunner(model, gpu_data_loader, "cuda", 1000)
print(gpu_benchmark.run_benchmark())

<torch.utils.benchmark.utils.common.Measurement object at 0x7bc7fa81f7c0>
self.infer_speed_comp()
  5.80 ms
  1 measurement, 1000 runs , 4 threads


In [58]:
base.get_scores(test_data)

F1 score: 0.9883300032042014
Accuracy: 0.9883285714285714
Precision: 0.9883487370157686
Recall: 0.9883285714285714
