In [1]:
import os
from tokenizers.models import BPE
from tokenizers import Tokenizer
from tokenizers.decoders import ByteLevel as ByteLevelDecoder
from tokenizers.normalizers import NFKC, Sequence
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.trainers import BpeTrainer
from transformers import PreTrainedTokenizerFast
from pathlib import Path

class BPE_token(object):
    def __init__(self):
        self.tokenizer = Tokenizer(BPE())
        self.tokenizer.normalizer = Sequence([
            NFKC() #for support persian char
        ])
        self.tokenizer.pre_tokenizer = ByteLevel()
        self.tokenizer.decoder = ByteLevelDecoder()

    def bpe_train(self, paths):
        trainer = BpeTrainer(vocab_size=50000, show_progress=True, inital_alphabet=ByteLevel.alphabet(), special_tokens=[
            "<s>",
            "<pad>",
            "</s>",
            "<unk>",
            "<mask>"
        ])
        print
        self.tokenizer.train(paths, trainer)

    def save_tokenizer(self, location, prefix=None):
        if not os.path.exists(location):
            os.makedirs(location)
        self.tokenizer.model.save(location, prefix)


# Check unicode support

In [2]:
from unicodedata import normalize
s = "株式会社ＫＡＤＯＫＡＷＡ Ｆｕｔｕｒｅ Ｐｕｂｌｉｓｈｉｎｇ سلام دنیا"
normalize('NFKC', s)

'株式会社KADOKAWA Future Publishing سلام دنیا'

# Create tokenizer file based on texts

In [None]:
# the folder 'fa_corpus' contains all the file
paths = [str(x) for x in Path("./fa_corpus/").glob("**/*.txt")]
tokenizer = BPE_token()# train the tokenizer model
tokenizer.bpe_train(paths)# saving the tokenized data in our specified folder 
save_path = 'tokenized_data'
tokenizer.save_tokenizer(save_path)

# Test tokenizer

In [3]:
single_string = ''
filename = paths[0]
with open(filename, "r", encoding='utf-8') as f:
    x = f.read()
    single_string += x + tokenizer.eos_token
string_tokenized = tokenizer.encode(single_string)
tokenize_string = tokenizer.decode(string_tokenized)

print(string_tokenized)

[170, 710, 6891, 260, 5456, 12929, 12399, 4189, 223, 1383, 207, 5667, 1445, 2053, 243, 219, 233, 207, 2053, 494, 8429, 1354, 211, 357, 511, 2839, 233, 208, 3768, 1383, 3207, 892, 525, 211, 1159, 4615, 262, 248, 12913, 5419, 414, 353, 1974, 6891, 214, 489, 2182, 1974, 208, 2466, 2669, 17831, 207, 6891, 864, 272, 214, 11308, 2182, 5207, 208, 2466, 5456, 354, 12390, 1018, 272, 219, 1845, 1974, 6891, 9527, 1274, 790, 260, 5456, 207, 5667, 1445, 208, 3117, 569, 218, 659, 1853, 219, 1974, 3621, 749, 192, 484, 1405, 285, 366, 208, 664, 630, 8367, 316, 5456, 4838, 370, 1378, 28566, 1354, 288, 806, 6624, 262, 7238, 30371, 8084, 15864, 718, 301, 2087, 3312, 13268, 1974, 10778, 2246, 1974, 6891, 248, 3125, 211, 414, 3856, 218, 5313, 848, 247, 2669, 192, 313, 2812, 8050, 3592, 718, 603, 3856, 218, 6345, 1641, 301, 192, 646, 9423, 7300, 208, 247, 2669, 6943, 211, 17056, 1974, 6891, 214, 1202, 1509, 374, 1201, 610, 214, 2669, 1297, 932, 214, 3734, 2063, 17951, 704, 219, 233, 1203, 214, 7694, 214, 34

In [4]:
print(tokenize_string)

ویکی پدیا یک دانشنامه برخط چندزبانه مبتنی بر وب با محتوای آزاد همکاری باز است که با همکاری افراد داوطلب نوشته می شود هر کسی که به اینترنت وب دسترسی داشته باشد می تواند مقالات آن را ببیند ویرایش کند نام ویکی پدیا از پیوند واژه ویکی به معنی وبگاه مشارکتی با پدیا گرفته شده از پسوند واژه encyclopedia به معنی دانشنامه یا دائرةالمعارف ایجاد شده است هدف ویکی پدیا آفرینش انتشار جهانی یک دانشنامه با محتوای آزاد به تمامی زبان های زنده دنیا است ویکی پدیای انگلیسی در تاریخ ژانویه میلادی دی به صورت مکملی برای دانشنامه تخصصی نیوپدیا نوشته شد بنیان گذاران آن جیمی ویلز لری سنگر هستند هم اکنون بنیاد غیرانتفاعی ویکی مدیا پروژه ویکی پدیا را پشتیبانی می کند میزبان های اینترنتی اصلی این وبگاه در شهر تامپای فلوریدا هستند همچنین میزبان های اضافی دیگری هم در شهرهای آمستردام سئول به این وبگاه یاری می رسانند ویکی پدیا از پایان آوریل تا اکتبر یکی از وبگاه برتر جهان از لحاظ شمار بازدیدکنندگان بوده است که بیش از نیمی از بازدیدها به ویکی پدیای انگلیسی مربوط می شود در میان تمام زبان های ویکی پدیا تا دسامبر آذر بیش ا