<a href="https://colab.research.google.com/github/componavt/neural_synset/blob/master/src/dataset/wikt_labels_tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Loading labels with definitions

Source code: [Loading a custom dataset](https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/videos/load_custom_dataset.ipynb#scrollTo=D2ekPOyykZDq), [video](https://www.youtube.com/watch?v=HyQgpJTkRdE).

Video: [The pipeline function](https://www.youtube.com/watch?v=tiZFewofSLM).

Install the Transformers and Datasets libraries to run this notebook.

In [None]:
! pip install -U accelerate
! pip install -U transformers

! pip install datasets transformers[sentencepiece]
! pip install torch               # required by TrainingArguments
! pip install transformers[torch] # required by TrainingArguments

In [None]:
!wget https://github.com/componavt/neural_synset/raw/master/data/label_meaning.csv

In [3]:
cat label_meaning.csv

"word"|"meaning"|"книжн."|"ирон."|"религ."|"груб."
подвизаться|осуществлять деятельность, работать, действовать в какой-нибудь области|1|1|0|0
подвизаться|совершать подвиг в чём-либо, часто о ежедневном борении|0|0|1|0
заткнуться|то же, что замолчать; перестать говорить, кричать, плакать; замолкнуть|0|0|0|1
пустобрёх|тот, кто говорит много пустого и несерьёзного; болтун|0|0|0|1
излаять|сильно изругать|0|0|0|1
бизнес-дама|о предпринимательнице|0|1|0|0
агнец божий|кроткий, робкий, безобидный человек|0|1|0|0
всезнайка|человек, который считает себя знающим всё|0|1|0|0
галантерейный|относящийся к галантерее|0|0|0|0
галантерейный|чрезмерно любезный, вежливый до слащавости|0|1|0|0
дитятя|дитя, ребёнок, чадо|0|1|0|0


In [27]:
from datasets import load_dataset

ds = load_dataset("csv", data_files="label_meaning.csv", sep="|")  # , split='train')
print(ds["train"][0]["word"], "=", ds["train"][0]["meaning"], )

подвизаться = осуществлять деятельность, работать, действовать в какой-нибудь области


In [26]:
# Don't uncomment the following line unless your dataset is small!
# training_corpus = [ds["train"][i: i + 1000]["meaning"] for i in range(0, len(ds["train"]), 1000)]
# training_corpus

[['осуществлять деятельность, работать, действовать в какой-нибудь области',
  'совершать подвиг в чём-либо, часто о ежедневном борении',
  'то же, что замолчать; перестать говорить, кричать, плакать; замолкнуть',
  'тот, кто говорит много пустого и несерьёзного; болтун',
  'сильно изругать',
  'о предпринимательнице',
  'кроткий, робкий, безобидный человек',
  'человек, который считает себя знающим всё',
  'относящийся к галантерее',
  'чрезмерно любезный, вежливый до слащавости',
  'дитя, ребёнок, чадо']]

In [41]:
# create corpus of strings, see https://huggingface.co/learn/nlp-course/chapter6/2 (Training a new tokenizer from an old one)
#training_corpus = (
#    ds["train"][i : i + 1000]["meaning"]
#    for i in range(0, len(ds["train"]), 1000)
#)
#training_corpus

In [37]:
def get_training_corpus(dataset):
    d = ds["train"]
    for i in range(0, len(d), 1000):
        samples = d[i : i + 1000]
        yield samples["meaning"]
training_corpus = get_training_corpus(dataset)

In [8]:
#def meaning_iterator():
#    for i in range(0, len(da["train"]), 1):
#        yield da["train"][i]["meaning"]
#print(len(datushka["train"]))

# AutoTokenizer and PyTorch optimized training loop
From [quicktour.ipynb#AutoTokenizer](https://colab.research.google.com/github/huggingface/notebooks/blob/main/transformers_doc/en/quicktour.ipynb#scrollTo=c-mB_1hXw57y&line=1&uniqifier=1)

In [38]:
# setup hyperparameters (learning rate, batch size, and the number of epochs to train for)
from transformers import TrainingArguments
training_args = TrainingArguments(
    output_dir="./pt_training",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
    )

In [40]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification


#model_name = "MoritzLaurer/mDeBERTa-v3-base-mnli-xnli"
#model_name = "Babelscape/wikineural-multilingual-ner"     # see https://huggingface.co/Babelscape/wikineural-multilingual-ner
model_name = "orgcatorg/bert-base-multilingual-cased-ner" # see https://huggingface.co/orgcatorg/bert-base-multilingual-cased-ner
pt_model = AutoModelForSequenceClassification.from_pretrained(model_name)
old_tokenizer = AutoTokenizer.from_pretrained(model_name)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at orgcatorg/bert-base-multilingual-cased-ner and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

In [36]:
tokens = old_tokenizer.tokenize( ds["train"][0]["meaning"] )
tokens

['ос',
 '##у',
 '##ществ',
 '##лять',
 'деятельность',
 ',',
 'работать',
 ',',
 'дей',
 '##ствовать',
 'в',
 'какой',
 '-',
 'ни',
 '##будь',
 'области']

In [13]:
def tokenize_dataset(dataset):
  return tokenizer(dataset["meaning"])

In [14]:
#da["train"]
ds

DatasetDict({
    train: Dataset({
        features: ['word', 'meaning', 'книжн.', 'ирон.', 'религ.', 'груб.'],
        num_rows: 11
    })
})

In [15]:
#dataset = ds["train"].map(tokenize_dataset, batched=True)
dataset = ds.map(tokenize_dataset, batched=True)
dataset

Map:   0%|          | 0/11 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['word', 'meaning', 'книжн.', 'ирон.', 'религ.', 'груб.', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 11
    })
})

In [None]:
# create a batch of examples from dataset
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
data_collator

In [17]:
# 80% train, 20% test + validation
dataset = dataset['train'].train_test_split(test_size=0.2, shuffle=True)
dataset

DatasetDict({
    train: Dataset({
        features: ['word', 'meaning', 'книжн.', 'ирон.', 'религ.', 'груб.', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 8
    })
    test: Dataset({
        features: ['word', 'meaning', 'книжн.', 'ирон.', 'религ.', 'груб.', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3
    })
})

In [18]:
# gather all these classes in Trainer:
from transformers import Trainer
trainer = Trainer(
    model=pt_model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    tokenizer=tokenizer,
    data_collator=data_collator,
)  # doctest: +SKIP

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [19]:
trainer.train()

#see https://discuss.huggingface.co/t/the-model-did-not-return-a-loss-from-the-inputs-only-the-following-keys-logits-for-reference-the-inputs-it-received-are-input-values/25420

ValueError: The model did not return a loss from the inputs, only the following keys: logits. For reference, the inputs it received are input_ids,token_type_ids,attention_mask.