# Based on conversation with ChatGPT : https://chatgpt.com/share/67f4f246-0b88-8012-87c1-8f9023ea0571

In [1]:
from tokenizers import Tokenizer
from tokenizers.models import WordLevel
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import WordLevelTrainer
from tokenizers.processors import TemplateProcessing
from transformers import PreTrainedTokenizerFast
from datasets import Dataset
from transformers import BartConfig, BartForConditionalGeneration
from transformers import TrainingArguments, Trainer, DataCollatorForSeq2Seq

# 1. Generate arithmetic corpus
corpus = [f"{a} + {b} = {a + b}" for a in range(100) for b in range(100)]

# 2. Initialize and train tokenizer
tokenizer = Tokenizer(WordLevel(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()
special_tokens = ["[PAD]", "[UNK]", "[BOS]", "[EOS]"]
trainer = WordLevelTrainer(special_tokens=special_tokens)
tokenizer.train_from_iterator(corpus, trainer)

# 3. Add post-processing template for special tokens
tokenizer.post_processor = TemplateProcessing(
    single="[BOS] $A [EOS]",
    pair="[BOS] $A [EOS] $B:1 [EOS]:1",
    special_tokens=[
        ("[BOS]", tokenizer.token_to_id("[BOS]")),
        ("[EOS]", tokenizer.token_to_id("[EOS]"))
    ]
)

# 4. Save and wrap in HuggingFace tokenizer
tokenizer.save("arithmetic-tokenizer.json")
hf_tokenizer = PreTrainedTokenizerFast(
    tokenizer_file="arithmetic-tokenizer.json",
    bos_token="[BOS]",
    eos_token="[EOS]",
    unk_token="[UNK]",
    pad_token="[PAD]",
)
hf_tokenizer.save_pretrained("custom-arithmetic-tokenizer")

# 5. Prepare dataset
examples = [{"input": f"{a} + {b}", "output": str(a + b)} for a in range(100) for b in range(100)]
dataset = Dataset.from_list(examples)

# 6. Tokenize dataset
def tokenize_function(example):
    model_input = hf_tokenizer(example["input"], padding="max_length", truncation=True, max_length=16)
    with hf_tokenizer.as_target_tokenizer():
        labels = hf_tokenizer(example["output"], padding="max_length", truncation=True, max_length=4)
    model_input["labels"] = labels["input_ids"]
    return model_input

tokenized_dataset = dataset.map(tokenize_function, batched=False)

# 7. Define small BART config
config = BartConfig(
    vocab_size=hf_tokenizer.vocab_size,
    d_model=64,
    encoder_layers=1,
    decoder_layers=1,
    encoder_attention_heads=1,
    decoder_attention_heads=1,
    decoder_ffn_dim=32,
    encoder_ffn_dim=32,
    max_position_embeddings=64,
    bos_token_id=hf_tokenizer.bos_token_id,
    eos_token_id=hf_tokenizer.eos_token_id,
    pad_token_id=hf_tokenizer.pad_token_id,
)

# 8. Initialize BART model
model = BartForConditionalGeneration(config)

# 9. Training setup
data_collator = DataCollatorForSeq2Seq(tokenizer=hf_tokenizer, model=model)
training_args = TrainingArguments(
    output_dir="./bart_addition",
    evaluation_strategy="no",
    per_device_train_batch_size=16,
    num_train_epochs=30,
    save_total_limit=1,
    logging_steps=100,
    push_to_hub=False,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=hf_tokenizer,
    data_collator=data_collator,
)

# 10. Train the model
trainer.train()

2025-04-08 11:48:11.403152: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2025-04-08 11:48:11.445784: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
huggingfac

  0%|          | 0/18750 [00:00<?, ?it/s]

{'loss': 5.0079, 'learning_rate': 4.973333333333334e-05, 'epoch': 0.16}
{'loss': 4.5496, 'learning_rate': 4.9466666666666665e-05, 'epoch': 0.32}
{'loss': 4.1008, 'learning_rate': 4.92e-05, 'epoch': 0.48}
{'loss': 3.6964, 'learning_rate': 4.8933333333333335e-05, 'epoch': 0.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 3.3176, 'learning_rate': 4.866666666666667e-05, 'epoch': 0.8}
{'loss': 2.9865, 'learning_rate': 4.8400000000000004e-05, 'epoch': 0.96}
{'loss': 2.6933, 'learning_rate': 4.8133333333333336e-05, 'epoch': 1.12}
{'loss': 2.4382, 'learning_rate': 4.7866666666666674e-05, 'epoch': 1.28}
{'loss': 2.1985, 'learning_rate': 4.76e-05, 'epoch': 1.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.9897, 'learning_rate': 4.7333333333333336e-05, 'epoch': 1.6}
{'loss': 1.8252, 'learning_rate': 4.706666666666667e-05, 'epoch': 1.76}
{'loss': 1.6935, 'learning_rate': 4.6800000000000006e-05, 'epoch': 1.92}
{'loss': 1.5914, 'learning_rate': 4.653333333333334e-05, 'epoch': 2.08}
{'loss': 1.5142, 'learning_rate': 4.626666666666667e-05, 'epoch': 2.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.4621, 'learning_rate': 4.600000000000001e-05, 'epoch': 2.4}
{'loss': 1.4235, 'learning_rate': 4.573333333333333e-05, 'epoch': 2.56}
{'loss': 1.397, 'learning_rate': 4.546666666666667e-05, 'epoch': 2.72}
{'loss': 1.3782, 'learning_rate': 4.52e-05, 'epoch': 2.88}
{'loss': 1.3643, 'learning_rate': 4.493333333333333e-05, 'epoch': 3.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.3496, 'learning_rate': 4.466666666666667e-05, 'epoch': 3.2}
{'loss': 1.3384, 'learning_rate': 4.44e-05, 'epoch': 3.36}
{'loss': 1.34, 'learning_rate': 4.413333333333334e-05, 'epoch': 3.52}
{'loss': 1.3284, 'learning_rate': 4.3866666666666665e-05, 'epoch': 3.68}
{'loss': 1.3255, 'learning_rate': 4.36e-05, 'epoch': 3.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.3188, 'learning_rate': 4.3333333333333334e-05, 'epoch': 4.0}
{'loss': 1.3131, 'learning_rate': 4.3066666666666665e-05, 'epoch': 4.16}
{'loss': 1.3107, 'learning_rate': 4.2800000000000004e-05, 'epoch': 4.32}
{'loss': 1.3082, 'learning_rate': 4.2533333333333335e-05, 'epoch': 4.48}
{'loss': 1.3023, 'learning_rate': 4.226666666666667e-05, 'epoch': 4.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.3059, 'learning_rate': 4.2e-05, 'epoch': 4.8}
{'loss': 1.3028, 'learning_rate': 4.1733333333333336e-05, 'epoch': 4.96}
{'loss': 1.3026, 'learning_rate': 4.146666666666667e-05, 'epoch': 5.12}
{'loss': 1.2972, 'learning_rate': 4.12e-05, 'epoch': 5.28}
{'loss': 1.2941, 'learning_rate': 4.093333333333334e-05, 'epoch': 5.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2971, 'learning_rate': 4.066666666666667e-05, 'epoch': 5.6}
{'loss': 1.2908, 'learning_rate': 4.0400000000000006e-05, 'epoch': 5.76}
{'loss': 1.2935, 'learning_rate': 4.013333333333333e-05, 'epoch': 5.92}
{'loss': 1.2918, 'learning_rate': 3.986666666666667e-05, 'epoch': 6.08}
{'loss': 1.2908, 'learning_rate': 3.960000000000001e-05, 'epoch': 6.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2903, 'learning_rate': 3.933333333333333e-05, 'epoch': 6.4}
{'loss': 1.2947, 'learning_rate': 3.906666666666667e-05, 'epoch': 6.56}
{'loss': 1.2851, 'learning_rate': 3.88e-05, 'epoch': 6.72}
{'loss': 1.2858, 'learning_rate': 3.853333333333334e-05, 'epoch': 6.88}
{'loss': 1.284, 'learning_rate': 3.8266666666666664e-05, 'epoch': 7.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2852, 'learning_rate': 3.8e-05, 'epoch': 7.2}
{'loss': 1.2848, 'learning_rate': 3.773333333333334e-05, 'epoch': 7.36}
{'loss': 1.2859, 'learning_rate': 3.7466666666666665e-05, 'epoch': 7.52}
{'loss': 1.2796, 'learning_rate': 3.72e-05, 'epoch': 7.68}
{'loss': 1.2802, 'learning_rate': 3.6933333333333334e-05, 'epoch': 7.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2814, 'learning_rate': 3.6666666666666666e-05, 'epoch': 8.0}
{'loss': 1.2724, 'learning_rate': 3.6400000000000004e-05, 'epoch': 8.16}
{'loss': 1.2754, 'learning_rate': 3.6133333333333335e-05, 'epoch': 8.32}
{'loss': 1.2689, 'learning_rate': 3.586666666666667e-05, 'epoch': 8.48}
{'loss': 1.267, 'learning_rate': 3.56e-05, 'epoch': 8.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2622, 'learning_rate': 3.5333333333333336e-05, 'epoch': 8.8}
{'loss': 1.2598, 'learning_rate': 3.506666666666667e-05, 'epoch': 8.96}
{'loss': 1.2626, 'learning_rate': 3.48e-05, 'epoch': 9.12}
{'loss': 1.2548, 'learning_rate': 3.453333333333334e-05, 'epoch': 9.28}
{'loss': 1.2504, 'learning_rate': 3.426666666666667e-05, 'epoch': 9.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2461, 'learning_rate': 3.4000000000000007e-05, 'epoch': 9.6}
{'loss': 1.2458, 'learning_rate': 3.373333333333333e-05, 'epoch': 9.76}
{'loss': 1.2428, 'learning_rate': 3.346666666666667e-05, 'epoch': 9.92}
{'loss': 1.2439, 'learning_rate': 3.32e-05, 'epoch': 10.08}
{'loss': 1.2398, 'learning_rate': 3.293333333333333e-05, 'epoch': 10.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2392, 'learning_rate': 3.266666666666667e-05, 'epoch': 10.4}
{'loss': 1.2368, 'learning_rate': 3.24e-05, 'epoch': 10.56}
{'loss': 1.2343, 'learning_rate': 3.213333333333334e-05, 'epoch': 10.72}
{'loss': 1.2349, 'learning_rate': 3.1866666666666664e-05, 'epoch': 10.88}
{'loss': 1.2333, 'learning_rate': 3.16e-05, 'epoch': 11.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2331, 'learning_rate': 3.1333333333333334e-05, 'epoch': 11.2}
{'loss': 1.2305, 'learning_rate': 3.1066666666666665e-05, 'epoch': 11.36}
{'loss': 1.2265, 'learning_rate': 3.08e-05, 'epoch': 11.52}
{'loss': 1.2292, 'learning_rate': 3.0533333333333335e-05, 'epoch': 11.68}
{'loss': 1.2256, 'learning_rate': 3.0266666666666666e-05, 'epoch': 11.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2269, 'learning_rate': 3e-05, 'epoch': 12.0}
{'loss': 1.2233, 'learning_rate': 2.9733333333333336e-05, 'epoch': 12.16}
{'loss': 1.2292, 'learning_rate': 2.946666666666667e-05, 'epoch': 12.32}
{'loss': 1.2215, 'learning_rate': 2.9199999999999998e-05, 'epoch': 12.48}
{'loss': 1.217, 'learning_rate': 2.8933333333333333e-05, 'epoch': 12.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2213, 'learning_rate': 2.8666666666666668e-05, 'epoch': 12.8}
{'loss': 1.2209, 'learning_rate': 2.84e-05, 'epoch': 12.96}
{'loss': 1.2185, 'learning_rate': 2.8133333333333334e-05, 'epoch': 13.12}
{'loss': 1.2133, 'learning_rate': 2.786666666666667e-05, 'epoch': 13.28}
{'loss': 1.2215, 'learning_rate': 2.7600000000000003e-05, 'epoch': 13.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2147, 'learning_rate': 2.733333333333333e-05, 'epoch': 13.6}
{'loss': 1.2138, 'learning_rate': 2.706666666666667e-05, 'epoch': 13.76}
{'loss': 1.2177, 'learning_rate': 2.6800000000000004e-05, 'epoch': 13.92}
{'loss': 1.2126, 'learning_rate': 2.6533333333333332e-05, 'epoch': 14.08}
{'loss': 1.2066, 'learning_rate': 2.6266666666666667e-05, 'epoch': 14.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2125, 'learning_rate': 2.6000000000000002e-05, 'epoch': 14.4}
{'loss': 1.2091, 'learning_rate': 2.5733333333333337e-05, 'epoch': 14.56}
{'loss': 1.2112, 'learning_rate': 2.5466666666666668e-05, 'epoch': 14.72}
{'loss': 1.211, 'learning_rate': 2.5200000000000003e-05, 'epoch': 14.88}
{'loss': 1.2063, 'learning_rate': 2.4933333333333334e-05, 'epoch': 15.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2067, 'learning_rate': 2.466666666666667e-05, 'epoch': 15.2}
{'loss': 1.2025, 'learning_rate': 2.44e-05, 'epoch': 15.36}
{'loss': 1.2098, 'learning_rate': 2.4133333333333335e-05, 'epoch': 15.52}
{'loss': 1.1989, 'learning_rate': 2.3866666666666666e-05, 'epoch': 15.68}
{'loss': 1.2035, 'learning_rate': 2.36e-05, 'epoch': 15.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2084, 'learning_rate': 2.3333333333333336e-05, 'epoch': 16.0}
{'loss': 1.2028, 'learning_rate': 2.3066666666666667e-05, 'epoch': 16.16}
{'loss': 1.2025, 'learning_rate': 2.2800000000000002e-05, 'epoch': 16.32}
{'loss': 1.2007, 'learning_rate': 2.2533333333333333e-05, 'epoch': 16.48}
{'loss': 1.1987, 'learning_rate': 2.2266666666666668e-05, 'epoch': 16.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.2022, 'learning_rate': 2.2000000000000003e-05, 'epoch': 16.8}
{'loss': 1.1971, 'learning_rate': 2.1733333333333334e-05, 'epoch': 16.96}
{'loss': 1.1983, 'learning_rate': 2.146666666666667e-05, 'epoch': 17.12}
{'loss': 1.1951, 'learning_rate': 2.12e-05, 'epoch': 17.28}
{'loss': 1.1974, 'learning_rate': 2.0933333333333335e-05, 'epoch': 17.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1966, 'learning_rate': 2.0666666666666666e-05, 'epoch': 17.6}
{'loss': 1.1951, 'learning_rate': 2.04e-05, 'epoch': 17.76}
{'loss': 1.1977, 'learning_rate': 2.0133333333333336e-05, 'epoch': 17.92}
{'loss': 1.1911, 'learning_rate': 1.9866666666666667e-05, 'epoch': 18.08}
{'loss': 1.1899, 'learning_rate': 1.9600000000000002e-05, 'epoch': 18.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1906, 'learning_rate': 1.9333333333333333e-05, 'epoch': 18.4}
{'loss': 1.1915, 'learning_rate': 1.9066666666666668e-05, 'epoch': 18.56}
{'loss': 1.1875, 'learning_rate': 1.88e-05, 'epoch': 18.72}
{'loss': 1.1957, 'learning_rate': 1.8533333333333334e-05, 'epoch': 18.88}
{'loss': 1.1908, 'learning_rate': 1.826666666666667e-05, 'epoch': 19.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.189, 'learning_rate': 1.8e-05, 'epoch': 19.2}
{'loss': 1.1886, 'learning_rate': 1.7733333333333335e-05, 'epoch': 19.36}
{'loss': 1.185, 'learning_rate': 1.7466666666666667e-05, 'epoch': 19.52}
{'loss': 1.1854, 'learning_rate': 1.7199999999999998e-05, 'epoch': 19.68}
{'loss': 1.1842, 'learning_rate': 1.6933333333333333e-05, 'epoch': 19.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1826, 'learning_rate': 1.6666666666666667e-05, 'epoch': 20.0}
{'loss': 1.1821, 'learning_rate': 1.6400000000000002e-05, 'epoch': 20.16}
{'loss': 1.1809, 'learning_rate': 1.6133333333333334e-05, 'epoch': 20.32}
{'loss': 1.1788, 'learning_rate': 1.586666666666667e-05, 'epoch': 20.48}
{'loss': 1.1827, 'learning_rate': 1.56e-05, 'epoch': 20.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.174, 'learning_rate': 1.5333333333333334e-05, 'epoch': 20.8}
{'loss': 1.1773, 'learning_rate': 1.5066666666666668e-05, 'epoch': 20.96}
{'loss': 1.1785, 'learning_rate': 1.48e-05, 'epoch': 21.12}
{'loss': 1.1737, 'learning_rate': 1.4533333333333335e-05, 'epoch': 21.28}
{'loss': 1.1716, 'learning_rate': 1.4266666666666667e-05, 'epoch': 21.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1684, 'learning_rate': 1.4000000000000001e-05, 'epoch': 21.6}
{'loss': 1.1669, 'learning_rate': 1.3733333333333335e-05, 'epoch': 21.76}
{'loss': 1.1645, 'learning_rate': 1.3466666666666666e-05, 'epoch': 21.92}
{'loss': 1.1686, 'learning_rate': 1.32e-05, 'epoch': 22.08}
{'loss': 1.1604, 'learning_rate': 1.2933333333333334e-05, 'epoch': 22.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.16, 'learning_rate': 1.2666666666666668e-05, 'epoch': 22.4}
{'loss': 1.1639, 'learning_rate': 1.24e-05, 'epoch': 22.56}
{'loss': 1.161, 'learning_rate': 1.2133333333333335e-05, 'epoch': 22.72}
{'loss': 1.1592, 'learning_rate': 1.1866666666666668e-05, 'epoch': 22.88}
{'loss': 1.1585, 'learning_rate': 1.16e-05, 'epoch': 23.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1585, 'learning_rate': 1.1333333333333334e-05, 'epoch': 23.2}
{'loss': 1.1556, 'learning_rate': 1.1066666666666667e-05, 'epoch': 23.36}
{'loss': 1.1579, 'learning_rate': 1.08e-05, 'epoch': 23.52}
{'loss': 1.1526, 'learning_rate': 1.0533333333333335e-05, 'epoch': 23.68}
{'loss': 1.153, 'learning_rate': 1.0266666666666668e-05, 'epoch': 23.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1512, 'learning_rate': 1e-05, 'epoch': 24.0}
{'loss': 1.1503, 'learning_rate': 9.733333333333334e-06, 'epoch': 24.16}
{'loss': 1.1516, 'learning_rate': 9.466666666666667e-06, 'epoch': 24.32}
{'loss': 1.1508, 'learning_rate': 9.2e-06, 'epoch': 24.48}
{'loss': 1.1505, 'learning_rate': 8.933333333333333e-06, 'epoch': 24.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1494, 'learning_rate': 8.666666666666668e-06, 'epoch': 24.8}
{'loss': 1.1489, 'learning_rate': 8.400000000000001e-06, 'epoch': 24.96}
{'loss': 1.1457, 'learning_rate': 8.133333333333332e-06, 'epoch': 25.12}
{'loss': 1.1461, 'learning_rate': 7.866666666666667e-06, 'epoch': 25.28}
{'loss': 1.1446, 'learning_rate': 7.6e-06, 'epoch': 25.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1473, 'learning_rate': 7.333333333333334e-06, 'epoch': 25.6}
{'loss': 1.1451, 'learning_rate': 7.066666666666667e-06, 'epoch': 25.76}
{'loss': 1.1455, 'learning_rate': 6.800000000000001e-06, 'epoch': 25.92}
{'loss': 1.1479, 'learning_rate': 6.533333333333333e-06, 'epoch': 26.08}
{'loss': 1.1425, 'learning_rate': 6.266666666666666e-06, 'epoch': 26.24}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1443, 'learning_rate': 6e-06, 'epoch': 26.4}
{'loss': 1.145, 'learning_rate': 5.733333333333333e-06, 'epoch': 26.56}
{'loss': 1.1417, 'learning_rate': 5.466666666666667e-06, 'epoch': 26.72}
{'loss': 1.1444, 'learning_rate': 5.2e-06, 'epoch': 26.88}
{'loss': 1.1425, 'learning_rate': 4.933333333333333e-06, 'epoch': 27.04}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1409, 'learning_rate': 4.666666666666667e-06, 'epoch': 27.2}
{'loss': 1.1452, 'learning_rate': 4.4e-06, 'epoch': 27.36}
{'loss': 1.1441, 'learning_rate': 4.133333333333333e-06, 'epoch': 27.52}
{'loss': 1.1412, 'learning_rate': 3.866666666666667e-06, 'epoch': 27.68}
{'loss': 1.1417, 'learning_rate': 3.6e-06, 'epoch': 27.84}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1403, 'learning_rate': 3.3333333333333333e-06, 'epoch': 28.0}
{'loss': 1.1456, 'learning_rate': 3.066666666666667e-06, 'epoch': 28.16}
{'loss': 1.1367, 'learning_rate': 2.8000000000000003e-06, 'epoch': 28.32}
{'loss': 1.1402, 'learning_rate': 2.5333333333333334e-06, 'epoch': 28.48}
{'loss': 1.1357, 'learning_rate': 2.266666666666667e-06, 'epoch': 28.64}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.139, 'learning_rate': 2.0000000000000003e-06, 'epoch': 28.8}
{'loss': 1.1399, 'learning_rate': 1.7333333333333334e-06, 'epoch': 28.96}
{'loss': 1.1442, 'learning_rate': 1.4666666666666667e-06, 'epoch': 29.12}
{'loss': 1.1393, 'learning_rate': 1.2000000000000002e-06, 'epoch': 29.28}
{'loss': 1.1374, 'learning_rate': 9.333333333333334e-07, 'epoch': 29.44}


Non-default generation parameters: {'forced_eos_token_id': 2}


{'loss': 1.1426, 'learning_rate': 6.666666666666667e-07, 'epoch': 29.6}
{'loss': 1.1361, 'learning_rate': 4.0000000000000003e-07, 'epoch': 29.76}
{'loss': 1.1399, 'learning_rate': 1.3333333333333334e-07, 'epoch': 29.92}
{'train_runtime': 449.361, 'train_samples_per_second': 667.615, 'train_steps_per_second': 41.726, 'train_loss': 1.3350471315511068, 'epoch': 30.0}


TrainOutput(global_step=18750, training_loss=1.3350471315511068, metrics={'train_runtime': 449.361, 'train_samples_per_second': 667.615, 'train_steps_per_second': 41.726, 'train_loss': 1.3350471315511068, 'epoch': 30.0})

In [43]:
# 11. Inference
test_inputs = ["12 + 7", "45 + 33", "99 + 1", "0 + 0", "123 + 456"]
inputs = hf_tokenizer(test_inputs, return_tensors="pt", padding=True, truncation=True)

# Generate predictions without token_type_ids
output_ids = model.generate(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], max_length=8)  

# Decode predictions
predictions = hf_tokenizer.batch_decode(output_ids, skip_special_tokens=True)
print(inputs)
print(output_ids)
# 12. Print results
for inp, pred in zip(test_inputs, predictions):
    print(f"{inp} = {pred}")


{'input_ids': tensor([[  2,  93,   4,  98,   3],
        [  2,  60,   4,  72,   3],
        [  2,   6,   4, 104,   3],
        [  2, 105,   4, 105,   3],
        [  2, 129,   4,   1,   3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]])}
tensor([[  2,   2, 156,   3],
        [  2,   2,   8,   3],
        [  2,   2,   8,   3],
        [  2,   2, 155,   3],
        [  2,   2, 156,   3]])
12 + 7 = 150
45 + 33 = 97
99 + 1 = 97
0 + 0 = 149
123 + 456 = 150


In [47]:
for k,i in hf_tokenizer.vocab.items():
    if i == 2:
        print(k)
        break


[BOS]
