## Iteractively refine dataset labels

In [1]:
import os
import pathlib
import typing as t
import random
import requests
import json as json_package
import collections
import glob

import IPython.display
import ipywidgets
import datasets
import tokenizers
import ipywidgets
import colorama
import tqdm

import segmentador
from config import *
import interactive_labeling


%load_ext autoreload
%autoreload 2


CN = colorama.Fore.RED
CT = colorama.Fore.YELLOW
CLN = colorama.Fore.CYAN
CSR = colorama.Style.RESET_ALL


VOCAB_SIZE = 6000
AUTOSAVE_IN_N_INSTANCES = 20


DATASET_SPLIT = "test"
CACHED_INDEX_FILENAME = "refined_indices.csv"
BRUTE_DATASET_DIR = "../data"

TARGET_DATASET_NAME = f"df_tokenized_split_0_120000_{VOCAB_SIZE}"

REFINED_DATASET_DIR = os.path.join(BRUTE_DATASET_DIR, "refined_datasets", TARGET_DATASET_NAME)

BRUTE_DATASET_URI = os.path.join(BRUTE_DATASET_DIR, TARGET_DATASET_NAME)
CACHED_INDEX_URI = os.path.join(REFINED_DATASET_DIR, CACHED_INDEX_FILENAME)


assert BRUTE_DATASET_URI != REFINED_DATASET_DIR


logit_model = segmentador.BERTSegmenter(
    uri_model=f"../pretrained_segmenter_model/4_{VOCAB_SIZE}_layer_model",
    device="cpu",
)

pbar_dump = tqdm.auto.tqdm(desc="Instances until next dump:", total=AUTOSAVE_IN_N_INSTANCES)
it_counter = 0

random.seed(17)

Instances until next dump::   0%|          | 0/20 [00:00<?, ?it/s]

In [2]:
tokenizer = tokenizers.Tokenizer.from_file(f"../tokenizers/{VOCAB_SIZE}_subwords/tokenizer.json")
tokenizer.get_vocab_size()

6000

## Load dataset

In [3]:
try:    
    with open(CACHED_INDEX_URI, "r") as f_index:
        cached_indices = set(map(int, f_index.read().split(",")))
        
    print(f"Loaded {len(cached_indices)} indices from disk.")

except FileNotFoundError:
    cached_indices = set()
    
    
new_refined_instances = collections.defaultdict(list)
df_brute = datasets.load_from_disk(BRUTE_DATASET_URI)
df_brute

Loaded 233 indices from disk.


DatasetDict({
    train: Dataset({
        features: ['labels', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 114884
    })
    eval: Dataset({
        features: ['labels', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 14361
    })
    test: Dataset({
        features: ['labels', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 14361
    })
})

## Iteractive refinement

In [194]:
df_split = df_brute[DATASET_SPLIT]

fn_rand = lambda: random.randint(0, df_split.num_rows)

df_view_labels = df_split["labels"]
df_view_input_ids = df_split["input_ids"]

cls2id = {
    "no-op": 0,
    "seg": 1,
    "n-start": 2,
    "n-end": 3,
}

def print_labels(input_ids, labels, input_is_tokens: bool = False):
    seg_counter = 1
    
    print(end=CSR)
    print(end=f"{CLN}{seg_counter}.{CSR} ")
    
    if not input_is_tokens:
        tokens = list(map(tokenizer.id_to_token, input_ids))
    
    else:
        tokens = input_ids
    
    for i, (tok, lab) in enumerate(zip(tokens, labels)):
        if lab == cls2id["seg"]:
            seg_counter += 1
            print("\n\n", end=f"{CLN}{seg_counter}.{CSR} ")
        
        if lab == cls2id["n-start"]:
            print(end=CN)
            
        if lab == cls2id["n-end"]:
            print(end=CSR)
            
        print(tok, end=" ")
        
    return tokens


def dump_refined_dataset():
    new_subset = datasets.Dataset.from_dict(new_refined_instances, split=DATASET_SPLIT)
    shard_id = len(glob.glob(os.path.join(REFINED_DATASET_DIR, f"{DATASET_SPLIT}_*")))
    REFINED_DATASET_SHARD_URI = os.path.join(REFINED_DATASET_DIR, f"{DATASET_SPLIT}_{shard_id}")
    new_subset.save_to_disk(REFINED_DATASET_SHARD_URI)
    new_refined_instances.clear()
    
    with open(CACHED_INDEX_URI, "w") as f_index:
        f_index.write(",".join(map(str, sorted(cached_indices))))
    
    it_counter = 0
    
    print(f"Saved progress in '{REFINED_DATASET_SHARD_URI}'.")
    
    
def fn_run_cell(index_shift: int):
    js = IPython.display.Javascript(
        f"Jupyter.notebook.execute_cells([IPython.notebook.get_selected_index()+{index_shift}])"
    )
    IPython.display.display(js)

    
def fn_run_last_cell(_):
    js = IPython.display.Javascript(
        "Jupyter.notebook.execute_cells([IPython.notebook.ncells() - 1])"
    )
    IPython.display.display(js)

    
button_run_cell = ipywidgets.Button(
    description="Fetch new instance",
    tooltip="Run cell below to fetch a random instance",
    layout=ipywidgets.Layout(width="25%", height="48px", margin="0 0 0 5%"),
)
button_run_cell.on_click(lambda _: fn_run_cell(1))

button_edit_instance = ipywidgets.Button(
    description="Edit instance",
    tooltip="Send instance to interactive front-end for refinement",
    style=dict(button_color="lightblue"),
)
button_edit_instance.layout = button_run_cell.layout
button_edit_instance.on_click(lambda _: fn_run_cell(2))

button_save = ipywidgets.Button(
    description="Save test instance",
    style=dict(button_color="salmon"),
    tooltip="Run notebook last cell (triggers code to save instance in curated dataset)",
)
button_save.layout = button_run_cell.layout
button_save.on_click(fn_run_last_cell)

In [195]:
IPython.display.display(ipywidgets.HBox((button_run_cell, button_edit_instance, button_save)))

HBox(children=(Button(description='Fetch new instance', layout=Layout(height='48px', margin='0 0 0 5%', width=…

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [197]:
id_ = fn_rand()
while id_ in cached_indices:
    id_ = fn_rand()


input_ids = df_view_input_ids[id_]
labels = df_view_labels[id_]
tokens = print_labels(input_ids, labels)

[0m[36m1.[0m [CLS] COMISSÃO DE CIÊNCIA E TECNOLOGIA , COMUNICAÇÃO E INFORMÁTICA 

[36m2.[0m PROJETO DE DECRETO LEGISLATIVO Nº , DE 2013 

[36m3.[0m Aprova o ato que outorga permissão à C ##M ##M Comunicações Ltda . para explorar serviço de radiodifusão sonora em frequência modulada , no Município de Fazenda Nova , Estado de Goiás . 

[36m4.[0m O CONGRESSO NACIONAL decreta : 

[36m5.[0m Art . 1º É aprovado o ato constante da Portaria nº 41 ##9 , de 07 de maio de 2010 , que outorga permissão à C ##M ##M Comunicações Ltda . para explorar , pelo prazo de dez anos , sem direito de exclusividade , serviço de radiodifusão sonora em frequência modulada , no Município de Fazenda Nova , Estado de Goiás . 

[36m6.[0m Art . 2º Este decreto legislativo entra em vigor na data de sua publicação . 

[36m7.[0m Sala da Comissão , em 04 de setembro de 2013 . Deputado JO ##R ##GE BITTAR Presidente em exercício [SEP] 

In [180]:
logits = logit_model(df_split[id_], return_logits=True).logits
interactive_labeling.open_example(tokens, labels, logits=logits)
lock_save = True

In [181]:
ret = interactive_labeling.retrieve_refined_example()
labels = ret["labels"]
print_labels(tokens, labels, input_is_tokens=True)
lock_save = False

[0m[36m1.[0m [CLS] [31mCâmara dos Deputados Gabinete da Deputada Ja ##nd ##ira F ##eg ##ha ##l ##i – PCdoB / RJ 

[36m2.[0m Requerimento de Informação n . º de 2002 

[36m3.[0m Solicita ao Exmo Sr . Ministro de Estado das Minas e Energia , Francisco Luiz S ##ib ##ut Go ##m ##id ##e , informações sobre o seguro ant ##i - ra ##cionamento . 

[36m4.[0m Senhor Presidente : Vi ##mos através deste requerer a V . Exa , nos termos do art . 116 do Regimento interno , seja solici ##tada ao Sr . Ministro de Estado das Minas e Energia , Francisco Luiz S ##ib ##ut Go ##m ##id ##e , informações acerca das questões abaixo . 

[36m5.[0m 1 ) Des ##de o início de sua cobrança , quanto foi arrecad ##ado pelas dist ##ribui ##doras a título de encar ##go de capacidade ( seguro ant ##i - ra ##cionamento ) ? 

[36m6.[0m 2 ) Há dist ##ribui ##doras inad ##impl ##entes ou paga ##ndo menos seguro do que o que hav ##ia sido calcul ##ado pela C ##B ##E ##E ? 

[36m7.[0m 3 ) A An ##e ##el já inici 

In [198]:
if not lock_save and id_ not in cached_indices:
    it_counter += 1
    cached_indices.add(id_)

    for key, val in df_split[id_].items():
        if key != "labels":
            new_refined_instances[key].append(val.copy())

        else:
            new_refined_instances[key].append(labels)
     
    pbar_dump.update()


if it_counter % AUTOSAVE_IN_N_INSTANCES == 0:
    dump_refined_dataset()
    pbar_dump.reset()
    
    
print(pbar_dump)

Instances until next dump::  90%|█████████ | 18/20 [1:56:13<22:59, 689.57s/it]
