In [100]:
import regex as re
from typing import List, Tuple
from functools import lru_cache

# Unicode code points to ignore in matching
ignore_case = frozenset({0x0B0D, 0x0B0E, 0x0B11, 0x0B12, 0x0B29, 0x0B31, 0x0B34, 0x0B45, 0x0B46, 0x0B5E, 0x0B49, 0x0B4A})

uni2char = lambda lis: [chr(i) for i in lis if i not in ignore_case ]
join_lis = lambda lis1, lis2 : [''.join([i, j]) for i in lis1 for j in lis2 ]


class Odia:

    # List of valid Unicode ranges for Odia script
    anusvara = ('ଁ', 'ଂ', 'ଃ')
    matras = ('଼', 'ା', 'ି', 'ୀ', 'ୁ', 'ୂ', 'ୃ', 'ୄ', 'େ', 'ୈ', 'ୋ', 'ୌ', '୍', '୕', 'ୖ', 'ୗ')
    digits = ('୦', '୧', '୨', '୩', '୪', '୫', '୬', '୭', '୮', '୯')
    sign = ('୲', '୳', '୴', '୵', '୶', '୷', '‘', '’', '“', '”', '୰', '।', '॥', 'ଽ')
    vowels = uni2char(range(0x0B05, 0x0B14 + 1) )
    consonants = uni2char(frozenset(range(0x0B15, 0x0B39 + 1)).union({0x0B5F, 0x0B71}))

    def __init__(self):
      self.com_ord_1 = join_lis(self.consonants, self.matras) + join_lis(self.consonants, self.anusvara) + join_lis(self.vowels, self.anusvara)
      self.categories = ['com_ord_1', 'consonants', 'vowels', 'sign', 'anusvara', 'matras']

      self.words_regex =  r'(?:[' + r'|'.join(map(re.escape, self.com_ord_1 + self.consonants + self.vowels)) + r'])+'
      self.digits_regex = r'([+-]?[୦-୯]+(?:[୦-୯]*,[୦-୯]+)*(?:\.[୦-୯]+)*)'
      self.od_regex = r'(?: ?' + self.words_regex + r'| ?' + self.digits_regex + r')'

      self.matras_regex = r'(?:\s?' + r'|'.join(map(re.escape, self.matras +self.anusvara)) + r')'
      self.combined_regex = (
          r"(?:"
          r" ?{}"  # Odia words
          r"| ?{}"  # Odia digits
          r"| 's|'t|'re|'ve|'m|'ll|'d"  # English contractions
          r"| ?[\p{{L}}]+"  # Unicode letters
          r"| ?[\p{{N}}]+"  # Unicode numbers
          r"| ?[^\s\p{{L}}\p{{N}}]+"  # Non-space, non-letter, non-number characters
          r"|\s+(?!\S)"  # Whitespace
          r"|\s+"  # Any other whitespace
          r")"
      ).format(self.words_regex, self.digits_regex)



    def find_matches(self, text: str) -> List[str]:
        # Compile and apply the combined regex pattern to find matches
        combined_regex = self.od_regex
        return re.findall(combined_regex, text)

# Example usage
od = Odia()

In [101]:
t = "ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ -୩.୪୫ +୯୮୯.୦"
re.findall(od.words_regex, t)

['ମୋ', 'ସଂଖ୍ୟା']

In [2]:
from datasets import load_dataset
dataset = load_dataset("OdiaGenAIdata/pre_train_odia_data_processed")
dataset

Resolving data files:   0%|          | 0/25 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'source'],
        num_rows: 5941930
    })
})

In [118]:
def batch_iterator(batch_size=10000):
    for split_name, split_dataset in dataset.items():
        tok_dataset = split_dataset.select_columns(["text"])
        for batch in tok_dataset.iter(batch_size=batch_size):
            yield batch["text"]

### Train BPE tokenizer

In [134]:
from tokenizers import Regex, Tokenizer, models, trainers, pre_tokenizers, decoders, normalizers, processors, Regex
from tokenizers.normalizers import NFKD, Replace, NFD
from tokenizers.pre_tokenizers import UnicodeScripts, Whitespace, ByteLevel, Split, WhitespaceSplit
tokenizer = Tokenizer(models.BPE(fuse_unk = True, unk_token="[UNK]"))
# For viram punctuation, use the generic Indic 0964 and 0965. https://www.unicode.org/charts/PDF/U0B00.pdf
odia_and_english_regex = r'[^\u0000-\u00FF\u0B00-\u0B7F\u0964-\u0965]'  # Matches characters outside English and Odia

tokenizer.normalizer = normalizers.Sequence([
    NFD(),
    Replace(r'\u200D', ''),  # Removes Zero Width Joiner
    Replace(r'\u200C', ''),  # Removes Zero Width Non-Joiner
    Replace(Regex(odia_and_english_regex), ''),  # Removes characters outside English and Odia ranges
    Replace(r'\s+', ' '),
])

tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
    Split(Regex(r'([+-]?[୦-୯]+(?:[୦-୯]*,[୦-୯]+)*(?:\.[୦-୯]+)*)'), behavior='isolated'),
    WhitespaceSplit(),
    UnicodeScripts(),
    ])

trainer = trainers.BpeTrainer(
        vocab_size=20_000,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]", "<|endoftext|>"],
        show_progress=True,
        min_frequency=4,
        #initial_alphabet=list(od.get_all_chars()),
        )

tokenizer.train_from_iterator(batch_iterator(), trainer=trainer,  length=len(dataset))

In [125]:
# Test encoding and decoding
test_string = "ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ -୩.୪୫ +୯୮୯.୦"
encoded = tokenizer.encode(test_string)
decoded = tokenizer.decode(encoded.ids)

# Print results
print("Original:", test_string)
print("Encoded Tokens:", encoded.tokens)
print("Decoded Text:", decoded)

Original: ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ -୩.୪୫ +୯୮୯.୦
Encoded Tokens: ['ମୋ', 'ସଂଖ୍ୟା', '୦', '୧୨୩', '-', '୩', '.', '୪୫', '+', '୯୮', '୯', '.', '୦']
Decoded Text: ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ - ୩ . ୪୫ + ୯୮ ୯ . ୦


In [141]:
tokenizer.save("tokenizer_bpe.json")

In [122]:
print(tokenizer.get_vocab())

{'ass': 4427, 'ନୀଳକଣ୍ଠ': 17675, 'କ୍ୟା': 1012, 'ଉତ୍ସାହିତ': 5126, 'ହସ୍ପିଟାଲ୍ରେ': 9222, 'ସ୍ତରରୁ': 12067, 'ଆପଣେଇ': 12325, 'ଅତିକମରେ': 14442, 'ନୋରା': 19051, 'ପଚାଂ': 19231, 'ସମୀକରଣ': 11173, 'ound': 9400, 'ପୁଷ୍': 4270, '୧୧୦': 9517, 'ରେଇ': 3095, 'ବିକଳ୍ପ': 3738, 'ାରୁ': 426, 'ଖଣ୍ଡ': 1318, 'ରାଜ୍ୟମାନଙ୍କୁ': 18708, 'ସିନ୍ଦୂର': 19542, 'ଅମୃତସର': 17613, '2': 28, 'ଶ୍ୟା': 5774, 'ପ୍ରେସର': 12600, 'ବିଷମ': 16082, '୨୨୦': 14086, 'ମ୍ନ': 14118, 'କୋଠରୀରେ': 15774, 'ହରାଇବା': 9816, 'ସିଗାରେ': 13555, 'ଖୋଜନ୍ତୁ': 18606, 'ରାଶିଫଳ': 4336, 'ତ୍ବରେ': 6286, 'ହରିଆ': 10546, 'ମିଳା': 7431, 'ତ୍ୱରାନ୍ୱିତ': 7917, 'ମେସେ': 6214, 'ମାମଲାକୁ': 6973, 'ଫଙ୍ଗ': 11330, 'ଦ୍': 317, 'ଆଣିବାକୁ': 5733, 'ମାନସୀ': 13895, 'ରୋଧ': 670, 'ପିଇବା': 4637, 'ପିକେ': 15797, 'କ୍ୱାରେଣ୍ଟାଇନ୍ରୁ': 18782, 'ଷ୍ଟୋରି': 8505, 'ମଧ୍ୟରେ': 553, 'ବଳୟ': 7413, 'ଦେଖିଛନ୍ତି': 12080, 'ମୁଖପାତ୍ର': 5216, 'Child': 8023, 'ଟେକ୍ନୋଲଜି': 19564, 'ବ୍ୟବସାୟକୁ': 14891, 'ଗିଂ': 15961, 'ଳଙ୍କ': 4536, 'କେନ୍ଯୁ': 18297, 'ଶରୀରକୁ': 5332, 'will': 5842, 'ମାରୁତି': 18377, 'ତାଲିବାନର': 13256, 'ଧାର୍ମିକ': 4488, 'ପ

In [138]:
txt = ["ପବିତ୍ର କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଉପଲକ୍ଷେ କୃଷି ବିଭାଗ ତରଫରୁ ସମସ୍ତଙ୍କୁ ହାର୍ଦ୍ଦିକ ଶୁଭେଚ୍ଛା ଏବଂ ଅଭିନନ୍ଦନ। ॥ ଽ",
       "ଭୁବନେଶ୍ୱର/କଟକ,୧୫ା୧୧: ଆଜି ହେଉଛି କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା। ",
       "ଓଡ଼ିଶା ନୌବାଣିଜ୍ୟ ପରମ୍ପରାର ସ୍ମୃତିକୁ ମନେ ପକାଇ ରାଜ୍ୟବ୍ୟାପୀ ଲୋକେ ନଦୀ, ପୋଖରୀ, ମହୋଦଧିରେ ମଧ୍ୟ ଡଙ୍ଗା ଭସାଇଛନ୍ତି।",
       "ସବୁଠି ଆ-କା-ମା-ବୈ’ର ସ୍ବର ଶୁଭିଛି। ଭୁବନେଶ୍ବରର ପବିତ୍ର ବିନ୍ଦୁ ସାଗର, କୂଆଖାଇ, ପୁରୀ ମହୋଦଧି, କଟକର ମହାନଦୀ, କାଠଯୋଡ଼ି ଭଳି ଅନେକ ସ୍ଥାନରେ ସ୍ବତନ୍ତ୍ର କାର୍ଯ୍ୟକ୍ରମ ଆୟୋଜନ ହୋଇଛି।",
       "କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଦିନ ଓଡ଼ିଆମାନେ ଓଡ଼ିଶାର ଅତୀତର ଇତିହାସକୁ ମନେପକାଇଥାନ୍ତି ।",
       "ଏହି ସମୟକୁ ସାଧବମାନେ ବେପାର-ବଣିଜ ପାଇଁ ପ୍ରକୃଷ୍ଟ ସମୟ ଭାବୁଥିଲେ କାରଣ ପବନର ଗତି ସେମାନଙ୍କ ଯାତ୍ରାକୁ ସହଜ କରୁଥିଲା । ",
       "କଟକଠାରେ ବାଲିଯାତ୍ରା ପ୍ରତି ବର୍ଷ ଗଡ଼ଗଡ଼ିଆ ଘାଟ ଓ ବାରବାଟି ଦୁର୍ଗ ନିକଟରେ ଅନୁଷ୍ଠିତ ହୋଇଥାଏ।",
       "ଏଠାକୁ ଓଡ଼ିଶା ଓ ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତରୁ ଅନେକ ବ୍ୟବସାୟୀ ଆସିଥାନ୍ତି । ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତର ହସ୍ତ-ଶିଳ୍ପ ଦେଖିବାକୁ ମିଳିବ।",
       "ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ -୩.୪୫ +୯୮୯.୦ ୧ ୨ ୩ ୧,୨୩,୧୨୩.୧୨୩"
       ]

for i in txt:
  print(tokenizer.encode(i).tokens)

['ପବିତ୍ର', 'କାର୍ତ୍ତିକ', 'ପୂର୍ଣ୍ଣିମା', 'ଉପଲକ୍ଷେ', 'କୃଷି', 'ବିଭାଗ', 'ତରଫରୁ', 'ସମସ୍ତଙ୍କୁ', 'ହାର୍ଦ୍ଦିକ', 'ଶୁଭେଚ୍ଛା', 'ଏବଂ', 'ଅଭିନନ୍ଦନ', '।', '॥', 'ଽ']
['ଭୁବନେଶ୍ୱର', '/', 'କଟକ', ',', '୧୫', 'ା', '୧୧', ':', 'ଆଜି', 'ହେଉଛି', 'କାର୍ତ୍ତିକ', 'ପୂର୍ଣ୍ଣିମା', '।']
['ଓଡ଼ିଶା', 'ନୌ', 'ବାଣିଜ୍ୟ', 'ପରମ୍ପରାର', 'ସ୍ମୃତି', 'କୁ', 'ମନେ', 'ପକାଇ', 'ରାଜ୍ୟବ୍ୟାପୀ', 'ଲୋକେ', 'ନଦୀ', ',', 'ପୋଖରୀ', ',', 'ମହୋ', 'ଦ', 'ଧିରେ', 'ମଧ୍ୟ', 'ଡଙ୍ଗା', 'ଭ', 'ସାଇ', 'ଛନ୍ତି', '।']
['ସବୁଠି', 'ଆ', '-', 'କା', '-', 'ମା', '-', 'ବୈ', 'ର', 'ସ୍ବର', 'ଶୁ', 'ଭି', 'ଛି', '।', 'ଭୁବନେଶ୍ବରର', 'ପବିତ୍ର', 'ବିନ୍ଦୁ', 'ସାଗର', ',', 'କୂ', 'ଆ', 'ଖାଇ', ',', 'ପୁରୀ', 'ମହୋ', 'ଦ', 'ଧି', ',', 'କଟକର', 'ମହାନଦୀ', ',', 'କାଠ', 'ଯୋଡ଼ି', 'ଭଳି', 'ଅନେକ', 'ସ୍ଥାନରେ', 'ସ୍ବତନ୍ତ୍ର', 'କାର୍ଯ୍ୟକ୍ରମ', 'ଆୟୋଜନ', 'ହୋଇଛି', '।']
['କାର୍ତ୍ତିକ', 'ପୂର୍ଣ୍ଣିମା', 'ଦିନ', 'ଓଡ଼ିଆ', 'ମାନେ', 'ଓଡ଼ିଶାର', 'ଅତୀତର', 'ଇତିହାସ', 'କୁ', 'ମନେ', 'ପକାଇ', 'ଥାନ୍ତି', '।']
['ଏହି', 'ସମୟକୁ', 'ସା', 'ଧବ', 'ମାନେ', 'ବେପାର', '-', 'ବଣି', 'ଜ', 'ପାଇଁ', 'ପ୍ର', 'କୃଷ୍ଟ', 'ସମୟ', 'ଭାବୁ', 'ଥିଲେ', 'କାରଣ', 'ପବନର', 'ଗତି', 'ସେମାନଙ୍

In [139]:
t = []
for i in txt:
  k = tokenizer.decode(tokenizer.encode(i).ids)
  t.append(k)
  print(k)

ପବିତ୍ର କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଉପଲକ୍ଷେ କୃଷି ବିଭାଗ ତରଫରୁ ସମସ୍ତଙ୍କୁ ହାର୍ଦ୍ଦିକ ଶୁଭେଚ୍ଛା ଏବଂ ଅଭିନନ୍ଦନ । ॥ ଽ
ଭୁବନେଶ୍ୱର / କଟକ , ୧୫ ା ୧୧ : ଆଜି ହେଉଛି କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ।
ଓଡ଼ିଶା ନୌ ବାଣିଜ୍ୟ ପରମ୍ପରାର ସ୍ମୃତି କୁ ମନେ ପକାଇ ରାଜ୍ୟବ୍ୟାପୀ ଲୋକେ ନଦୀ , ପୋଖରୀ , ମହୋ ଦ ଧିରେ ମଧ୍ୟ ଡଙ୍ଗା ଭ ସାଇ ଛନ୍ତି ।
ସବୁଠି ଆ - କା - ମା - ବୈ ର ସ୍ବର ଶୁ ଭି ଛି । ଭୁବନେଶ୍ବରର ପବିତ୍ର ବିନ୍ଦୁ ସାଗର , କୂ ଆ ଖାଇ , ପୁରୀ ମହୋ ଦ ଧି , କଟକର ମହାନଦୀ , କାଠ ଯୋଡ଼ି ଭଳି ଅନେକ ସ୍ଥାନରେ ସ୍ବତନ୍ତ୍ର କାର୍ଯ୍ୟକ୍ରମ ଆୟୋଜନ ହୋଇଛି ।
କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଦିନ ଓଡ଼ିଆ ମାନେ ଓଡ଼ିଶାର ଅତୀତର ଇତିହାସ କୁ ମନେ ପକାଇ ଥାନ୍ତି ।
ଏହି ସମୟକୁ ସା ଧବ ମାନେ ବେପାର - ବଣି ଜ ପାଇଁ ପ୍ର କୃଷ୍ଟ ସମୟ ଭାବୁ ଥିଲେ କାରଣ ପବନର ଗତି ସେମାନଙ୍କ ଯାତ୍ରାକୁ ସହଜ କରୁଥିଲା ।
କଟକ ଠାରେ ବାଲିଯାତ୍ରା ପ୍ରତି ବର୍ଷ ଗଡ଼ ଗ ଡ଼ିଆ ଘାଟ ଓ ବାର ବାଟି ଦୁର୍ଗ ନିକଟରେ ଅନୁଷ୍ଠିତ ହୋଇଥାଏ ।
ଏଠାକୁ ଓଡ଼ିଶା ଓ ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତ ରୁ ଅନେକ ବ୍ୟବସାୟୀ ଆସିଥାନ୍ତି । ଦେଶର ବିଭିନ୍ନ ପ୍ରା ନ୍ତର ହସ୍ତ - ଶିଳ୍ପ ଦେଖିବାକୁ ମିଳିବ ।
ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ - ୩ . ୪୫ + ୯୮ ୯ . ୦ ୧ ୨ ୩ ୧ , ୨୩ , ୧୨୩ . ୧୨୩


In [140]:
t

['ପବିତ୍ର କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଉପଲକ୍ଷେ କୃଷି ବିଭାଗ ତରଫରୁ ସମସ୍ତଙ୍କୁ ହାର୍ଦ୍ଦିକ ଶୁଭେଚ୍ଛା ଏବଂ ଅଭିନନ୍ଦନ । ॥ ଽ',
 'ଭୁବନେଶ୍ୱର / କଟକ , ୧୫ ା ୧୧ : ଆଜି ହେଉଛି କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ।',
 'ଓଡ଼ିଶା ନୌ ବାଣିଜ୍ୟ ପରମ୍ପରାର ସ୍ମୃତି କୁ ମନେ ପକାଇ ରାଜ୍ୟବ୍ୟାପୀ ଲୋକେ ନଦୀ , ପୋଖରୀ , ମହୋ ଦ ଧିରେ ମଧ୍ୟ ଡଙ୍ଗା ଭ ସାଇ ଛନ୍ତି ।',
 'ସବୁଠି ଆ - କା - ମା - ବୈ ର ସ୍ବର ଶୁ ଭି ଛି । ଭୁବନେଶ୍ବରର ପବିତ୍ର ବିନ୍ଦୁ ସାଗର , କୂ ଆ ଖାଇ , ପୁରୀ ମହୋ ଦ ଧି , କଟକର ମହାନଦୀ , କାଠ ଯୋଡ଼ି ଭଳି ଅନେକ ସ୍ଥାନରେ ସ୍ବତନ୍ତ୍ର କାର୍ଯ୍ୟକ୍ରମ ଆୟୋଜନ ହୋଇଛି ।',
 'କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଦିନ ଓଡ଼ିଆ ମାନେ ଓଡ଼ିଶାର ଅତୀତର ଇତିହାସ କୁ ମନେ ପକାଇ ଥାନ୍ତି ।',
 'ଏହି ସମୟକୁ ସା ଧବ ମାନେ ବେପାର - ବଣି ଜ ପାଇଁ ପ୍ର କୃଷ୍ଟ ସମୟ ଭାବୁ ଥିଲେ କାରଣ ପବନର ଗତି ସେମାନଙ୍କ ଯାତ୍ରାକୁ ସହଜ କରୁଥିଲା ।',
 'କଟକ ଠାରେ ବାଲିଯାତ୍ରା ପ୍ରତି ବର୍ଷ ଗଡ଼ ଗ ଡ଼ିଆ ଘାଟ ଓ ବାର ବାଟି ଦୁର୍ଗ ନିକଟରେ ଅନୁଷ୍ଠିତ ହୋଇଥାଏ ।',
 'ଏଠାକୁ ଓଡ଼ିଶା ଓ ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତ ରୁ ଅନେକ ବ୍ୟବସାୟୀ ଆସିଥାନ୍ତି । ଦେଶର ବିଭିନ୍ନ ପ୍ରା ନ୍ତର ହସ୍ତ - ଶିଳ୍ପ ଦେଖିବାକୁ ମିଳିବ ।',
 'ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ - ୩ . ୪୫ + ୯୮ ୯ . ୦ ୧ ୨ ୩ ୧ , ୨୩ , ୧୨୩ . ୧୨୩']

### Train wordpeice tokenizer

from tokenizers import Regex, Tokenizer, models, trainers, pre_tokenizers, decoders, normalizers, processors, Regex
from tokenizers.normalizers import NFKD, Replace, Strip
from tokenizers.pre_tokenizers import UnicodeScripts, Whitespace, ByteLevel, Split

tokenizer = Tokenizer(models.WordPiece(vocab = vocab))

odia_and_english_regex = r'[^\u0000-\u00FF\u0B00-\u0B7F\u0964-\u0965]'  # Matches characters outside English and Odia

tokenizer.normalizer = normalizers.Sequence([
    NFKD(),
    Replace(r'\u200D', ''),  # Removes Zero Width Joiner
    Replace(r'\u200C', ''),  # Removes Zero Width Non-Joiner
    Replace(Regex(odia_and_english_regex), ''),  # Removes characters outside English and Odia ranges
    Strip()
])

tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
    Whitespace()
    ])
#tokenizer.post_processor = processors.ByteLevel()
tokenizer.decoder = decoders.WordPiece()

trainer = trainers.WordPieceTrainer(
        vocab_size=20_000,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]", "<|endoftext|>"],
        show_progress=True,
        min_frequency=5,
        #initial_alphabet=list(od.get_all_chars()),
        )

tokenizer.train_from_iterator(batch_iterator(), trainer=trainer,  length=len(dataset))

In [None]:
tokenizer.save("tokenizer_wordpeice.json")

In [None]:
txt = ["ପବିତ୍ର କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଉପଲକ୍ଷେ କୃଷି ବିଭାଗ ତରଫରୁ ସମସ୍ତଙ୍କୁ ହାର୍ଦ୍ଦିକ ଶୁଭେଚ୍ଛା ଏବଂ ଅଭିନନ୍ଦନ। ॥ ଽ", 
       "ଭୁବନେଶ୍ୱର/କଟକ,୧୫ା୧୧: ଆଜି ହେଉଛି କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା। ",
       "ଓଡ଼ିଶା ନୌବାଣିଜ୍ୟ ପରମ୍ପରାର ସ୍ମୃତିକୁ ମନେ ପକାଇ ରାଜ୍ୟବ୍ୟାପୀ ଲୋକେ ନଦୀ, ପୋଖରୀ, ମହୋଦଧିରେ ମଧ୍ୟ ଡଙ୍ଗା ଭସାଇଛନ୍ତି।", 
       "ସବୁଠି ଆ-କା-ମା-ବୈ’ର ସ୍ବର ଶୁଭିଛି। ଭୁବନେଶ୍ବରର ପବିତ୍ର ବିନ୍ଦୁ ସାଗର, କୂଆଖାଇ, ପୁରୀ ମହୋଦଧି, କଟକର ମହାନଦୀ, କାଠଯୋଡ଼ି ଭଳି ଅନେକ ସ୍ଥାନରେ ସ୍ବତନ୍ତ୍ର କାର୍ଯ୍ୟକ୍ରମ ଆୟୋଜନ ହୋଇଛି।",
       "କାର୍ତ୍ତିକ ପୂର୍ଣ୍ଣିମା ଦିନ ଓଡ଼ିଆମାନେ ଓଡ଼ିଶାର ଅତୀତର ଇତିହାସକୁ ମନେପକାଇଥାନ୍ତି ।", 
       "ଏହି ସମୟକୁ ସାଧବମାନେ ବେପାର-ବଣିଜ ପାଇଁ ପ୍ରକୃଷ୍ଟ ସମୟ ଭାବୁଥିଲେ କାରଣ ପବନର ଗତି ସେମାନଙ୍କ ଯାତ୍ରାକୁ ସହଜ କରୁଥିଲା । ",
       "କଟକଠାରେ ବାଲିଯାତ୍ରା ପ୍ରତି ବର୍ଷ ଗଡ଼ଗଡ଼ିଆ ଘାଟ ଓ ବାରବାଟି ଦୁର୍ଗ ନିକଟରେ ଅନୁଷ୍ଠିତ ହୋଇଥାଏ।",
       "ଏଠାକୁ ଓଡ଼ିଶା ଓ ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତରୁ ଅନେକ ବ୍ୟବସାୟୀ ଆସିଥାନ୍ତି । ଦେଶର ବିଭିନ୍ନ ପ୍ରାନ୍ତର ହସ୍ତ-ଶିଳ୍ପ ଦେଖିବାକୁ ମିଳିବ।",
       "ମୋ ସଂଖ୍ୟା ୦ ୧୨୩ -୩.୪୫ +୯୮୯.୦ ୧ ୨ ୩ ୧,୨୩,୧୨୩.୧୨୩"
       ]

for i in txt:
  print(tokenizer.encode(i).tokens)

In [None]:
t = []
for i in txt:
  k = tokenizer.decode(tokenizer.encode(i).ids)
  t.append(k)
  #print(k)
t