In [11]:
from tokenizers import (
    decoders,
    models,
    normalizers,
    pre_tokenizers,
    processors,
    trainers,
    Tokenizer,
)

In [12]:
tamil_tokenizer = Tokenizer(models.BPE())

## Pre Tokenization
The BPE Tokenizer doesn't use any normalizer

In [13]:
tamil_tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)

In [14]:
tamil_tokenizer.pre_tokenizer.pre_tokenize_str(sample_sentence)

[('à®¤à®®', (0, 2)),
 ('à®¿', (2, 3)),
 ('à®´', (3, 4)),
 ('à¯į', (4, 5)),
 ('Ġà®µ', (5, 7)),
 ('à®¾', (7, 8)),
 ('à®´', (8, 9)),
 ('à¯į', (9, 10)),
 ('à®ķ', (10, 11))]

In [17]:
trainer = trainers.BpeTrainer(vocab_size=45000, special_tokens=["<|endoftext|>"])
tamil_tokenizer.model = models.BPE()
tamil_tokenizer.train(["dataset/tamil_pretrain.txt"], trainer=trainer)






In [20]:
sample_sentence

'தமிழ் வாழ்க'

In [19]:
encoding = tamil_tokenizer.encode(sample_sentence)
print(encoding.tokens)

['à®¤à®®', 'à®¿', 'à®´', 'à¯į', 'Ġà®µ', 'à®¾', 'à®´', 'à¯į', 'à®ķ']


In [21]:
tamil_tokenizer.post_processor = processors.ByteLevel(trim_offsets=False)

In [24]:
encoding = tamil_tokenizer.encode(sample_sentence)
start, end = encoding.offsets[4]
sample_sentence[start:end]

' வ'

In [25]:
tamil_tokenizer.decoder = decoders.ByteLevel()

In [26]:
tamil_tokenizer.decode(encoding.ids)

'தமிழ் வாழ்க'

In [27]:
tamil_tokenizer.save(f"bpe_tamil_tokenizer/tamil_bpe_tokenizer.json")

## Loading the pretrained tamil tokenizer

In [30]:
sample = "புதுச்சேரி-புதுச்சேரி சட்டசபை தேர்தலையொட்டி, அனைத்து பள்ளிகளுக்கும் நாளை 2ம் தேதி முதல், 7ம் தேதி வரை விடுமுறை அளிக்கப்பட்டுள்ளது.இது குறித்து புதுச்சேரி பள்ளி கல்வித் துறை இணை இயக்குனர் மைக்கேல் பென்னோ வெளியிட்டுள்ள செய்திக்குறிப்புபுதுச்சேரி சட்டசபை தேர்தல், வரும் 6ம் தேதி நடைபெற உள்ளது. அதையொட்டி புதுச்சேரி மாநிலத்தில் உள்ள அனைத்து பள்ளிகளுக்கும் நாளை 2ம் தேதி முதல் 7ம் தேதி வரை விடுமுறை அளிக்கப்படுகிறது. பத்தாம் வகுப்பு மற்றும் பிளஸ் 2 வகுப்புகளுக்கு 8ம் தேதி முதல் வகுப்புகள் நடைபெறும்.இவ்வாறு அதில் கூறப்பட்டுள்ளது.மாணவர், பெற்றோர் குழப்பம்கொரோனா தொற்று அதிகரித்து வரும் சூழ்நிலையில், புதுச்சேரியில் தமிழக பாடத்திட்டத்தின் கீழ் செயல்படும் பள்ளிகள், 1ம் வகுப்பு முதல் பிளஸ் 1 வகுப்பு வரை ரெகுலர் அல்லது சிறப்பு வகுப்பு நடத்தக் கூடாது. பொதுத்தேர்வு காரணமாக பிளஸ் 2 மாணவர்களுக்கு மட்டும் வகுப்பு நடத்தலாம் என பள்ளி கல்வித் துறை உத்தரவிட்டது.மேலும், சி.பி.எஸ்.இ., - ஐ.சி.எஸ்.இ., பாடத்திட்டத்தின் கீழ் செயல்படும் பள்ளிகள் 1ம் வகுப்பு முதல் 9ம் வகுப்பு வரை மற்றும் பிளஸ் 1 மாணவர்களுக்கு ரெகுலர், சிறப்பு வகுப்பு நடத்த கூடாது. 10 மற்றும் பிளஸ் 2 வகுப்புகளுக்கு பொதுத்தேர்வு வர உள்ளதால், வகுப்புகள் நடத்தி கொள்ளலாம் என அறிவித்தது.பள்ளிக்குவர வேண்டியது சி.பி.எஸ்.இ., மாணவர்களா, மாநில பாட வாரிய பள்ளி மாணவர்களா என்பதை குறிப்பிடாததால் பெற்றோர் மற்றும் மாணவர்கள் குழப்பம் அடைந்துள்ளனர்."

In [31]:
from transformers import PreTrainedTokenizerFast

wrapped_tokenizer = PreTrainedTokenizerFast(
    tokenizer_object=tamil_tokenizer,
    bos_token="<|endoftext|>",
    eos_token="<|endoftext|>",
)

In [32]:
enc_text = wrapped_tokenizer.encode(sample, add_special_tokens=True)

In [34]:
len(enc_text)

943