# Functions Explorer

The purpose of this notebook is to check and validate the functions in the NLMs training pipeline

Keep in mind, to properly run this noteobook, set the root folder to be the root of this repository at the same level as dotless_arabic.
To set this in jupyter vscode:

go to setting > search for "Notebook File Root" > change its value from `${fileDirname}` to `${workspaceFolder}`

In [23]:
import tkseem as tk
from dotless_arabic.processing import process
from dotless_arabic.experiments.nlms.src.utils import get_tokenizer
from dotless_arabic.datasets.quran.collect import collect_dataset_for_language_modeling as collect_quran_dataset
from dotless_arabic.tokenizers import FarasaMorphologicalTokenizer, DisjointLetterTokenizer, CharacterTokenizer,WordTokenizer

In [24]:
dataset = collect_quran_dataset()
len(dataset)

####################################################################################################
Number of samples:
6236
####################################################################################################


6236

## Explore Tokenizers

The purpose is to compare `tokenize` and `tokenize_from_splits` methods of the tokenizers.

### Farasa

In [25]:
farasa_tokenizer = get_tokenizer(
    vocab_size=10_000,
    train_dataset=list(map(process,dataset)),
    tokenizer_class=FarasaMorphologicalTokenizer,
)



Training FarasaMorphologicalTokenizer...


In [26]:
# source: https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D9%82%D8%B1%D8%A2%D9%86
sample_text = process("""
ويعود الفضل في توحيد اللغة العربية إلى نزول القرآن الكريم، حيث لم تكن موحدة قبل هذا العهد رغم أنها كانت ذات غنى ومرونة، إلى أن نزل القرآن الكريم وتحدى الجموع ببيانه، وأعطى اللغة العربية سيلا من حسن السبك وعذوبة السجع ومن البلاغة والبيان ما عجز عنه بلغاء العرب. وقد وحد القرآن الكريم اللغة العربية توحيدا كاملا وحفظها من التلاشي والانقراض، كما حدث مع العديد من اللغات السامية الأخرى، التي أضحت لغات بائدة واندثرت مع الزمن، أو لغات طالها الضعف والانحطاط، وبالتالي عدم القدرة على مسايرة التغييرات والتجاذبات التي تعرفها الحضارة وشعوب العالم القديم والحديث
""")
sample_text

'ويعود الفضل في توحيد اللغة العربية الى نزول القران الكريم حيث لم تكن موحدة قبل هذا العهد رغم انها كانت ذات غنى ومرونة الى ان نزل القران الكريم وتحدى الجموع ببيانه واعطى اللغة العربية سيلا من حسن السبك وعذوبة السجع ومن البلاغة والبيان ما عجز عنه بلغاء العرب وقد وحد القران الكريم اللغة العربية توحيدا كاملا وحفظها من التلاشي والانقراض كما حدث مع العديد من اللغات السامية الاخرى التي اضحت لغات باىدة واندثرت مع الزمن او لغات طالها الضعف والانحطاط وبالتالي عدم القدرة على مسايرة التغييرات والتجاذبات التي تعرفها الحضارة وشعوب العالم القديم والحديث'

In [27]:
# tokenization using tkseem _base tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in farasa_tokenizer.tokenize(sample_text)])

['"غير_معروف"', '"غير_معروف"', 'في', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'الى', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'حيث', 'لم', 'تكن', '"غير_معروف"', 'قبل', 'هذا', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'ذات', '"غير_معروف"', '"غير_معروف"', 'الى', 'ان', 'نزل', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', 'حسن', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'ما', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'وحد', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'كما', 'حدث', 'مع', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'التي', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'مع', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"'

In [28]:
# tokenization using tkseem farasa_morphological_tokenizer tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in farasa_tokenizer.tokenize_from_splits(sample_text)])

['و', 'يعود', '<##>', 'ال', 'فضل', '<##>', 'في', '<##>', '"غير_معروف"', '<##>', 'ال', 'لغ', 'ة', '<##>', 'ال', 'عربي', 'ة', '<##>', 'الى', '<##>', '"غير_معروف"', '<##>', 'ال', 'قران', '<##>', 'ال', 'كريم', '<##>', 'حيث', '<##>', 'لم', '<##>', 'تكن', '<##>', '"غير_معروف"', 'ة', '<##>', 'قبل', '<##>', 'هذا', '<##>', 'ال', 'عهد', '<##>', '"غير_معروف"', '<##>', 'ان', 'ها', '<##>', 'كان', 'ت', '<##>', 'ذات', '<##>', '"غير_معروف"', '<##>', 'و', '"غير_معروف"', 'ة', '<##>', 'الى', '<##>', 'ان', '<##>', 'نزل', '<##>', 'ال', 'قران', '<##>', 'ال', 'كريم', '<##>', 'و', '"غير_معروف"', '<##>', 'ال', '"غير_معروف"', '<##>', 'ب', 'بيان', 'ه', '<##>', 'و', 'أعطى', '<##>', 'ال', 'لغ', 'ة', '<##>', 'ال', 'عربي', 'ة', '<##>', 'سيل', 'ا', '<##>', 'من', '<##>', 'حسن', '<##>', 'ال', '"غير_معروف"', '<##>', 'و', '"غير_معروف"', 'ة', '<##>', 'ال', '"غير_معروف"', '<##>', 'و', 'من', '<##>', 'ال', 'بلاغ', 'ة', '<##>', 'و', 'ال', 'بيان', '<##>', 'ما', '<##>', '"غير_معروف"', '<##>', 'عن', 'ه', '<##>', '"غير_معروف"', '

In [29]:
print(['"غير_معروف"' if item == '<UNK>' else item for item in farasa_tokenizer.split_text(sample_text)])

['و', 'يعود', '<##>', 'ال', 'فضل', '<##>', 'في', '<##>', 'توحيد', '<##>', 'ال', 'لغ', 'ة', '<##>', 'ال', 'عربي', 'ة', '<##>', 'الى', '<##>', 'نزول', '<##>', 'ال', 'قران', '<##>', 'ال', 'كريم', '<##>', 'حيث', '<##>', 'لم', '<##>', 'تكن', '<##>', 'موحد', 'ة', '<##>', 'قبل', '<##>', 'هذا', '<##>', 'ال', 'عهد', '<##>', 'رغم', '<##>', 'ان', 'ها', '<##>', 'كان', 'ت', '<##>', 'ذات', '<##>', 'غنى', '<##>', 'و', 'مرون', 'ة', '<##>', 'الى', '<##>', 'ان', '<##>', 'نزل', '<##>', 'ال', 'قران', '<##>', 'ال', 'كريم', '<##>', 'و', 'تحدى', '<##>', 'ال', 'جموع', '<##>', 'ب', 'بيان', 'ه', '<##>', 'و', 'أعطى', '<##>', 'ال', 'لغ', 'ة', '<##>', 'ال', 'عربي', 'ة', '<##>', 'سيل', 'ا', '<##>', 'من', '<##>', 'حسن', '<##>', 'ال', 'سبك', '<##>', 'و', 'عذوب', 'ة', '<##>', 'ال', 'سجع', '<##>', 'و', 'من', '<##>', 'ال', 'بلاغ', 'ة', '<##>', 'و', 'ال', 'بيان', '<##>', 'ما', '<##>', 'عجز', '<##>', 'عن', 'ه', '<##>', 'بلغاء', '<##>', 'ال', 'عرب', '<##>', 'و', 'قد', '<##>', 'وحد', '<##>', 'ال', 'قران', '<##>', 'ال', 'كري

### Disjoint Letters

In [30]:
disjoint_letters_tokenizer = get_tokenizer(
    vocab_size=10_000,
    train_dataset=list(map(process,dataset)),
    tokenizer_class=DisjointLetterTokenizer,
)

Training DisjointLetterTokenizer ...


In [31]:
# tokenization using tkseem _base tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in disjoint_letters_tokenizer.tokenize(sample_text)])

['"غير_معروف"', '"غير_معروف"', 'في', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'حيث', 'لم', 'تكن', '"غير_معروف"', 'قبل', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'غنى', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', 'حسن', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'ما', 'عجز', 'عنه', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'كما', '"غير_معروف"', 'مع', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'مع', '"غير_معروف"', '"غير_معرو

In [32]:
# tokenization using tkseem farasa_morphological_tokenizer tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in disjoint_letters_tokenizer.tokenize_from_splits(sample_text)])

['و', 'يعو', 'د', '<##>', 'ا', 'لفضل', '<##>', 'في', '<##>', 'تو', '"غير_معروف"', '<##>', 'ا', '"غير_معروف"', '<##>', 'ا', 'لعر', '"غير_معروف"', '<##>', 'ا', 'لى', '<##>', 'نز', 'و', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'حيث', '<##>', 'لم', '<##>', 'تكن', '<##>', 'مو', 'حد', 'ة', '<##>', 'قبل', '<##>', 'هذ', 'ا', '<##>', 'ا', 'لعهد', '<##>', 'ر', '"غير_معروف"', '<##>', 'ا', 'نها', '<##>', 'كا', 'نت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غنى', '<##>', 'و', 'مر', 'و', 'نة', '<##>', 'ا', 'لى', '<##>', 'ا', 'ن', '<##>', 'نز', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'و', 'تحد', 'ى', '<##>', 'ا', '"غير_معروف"', 'ع', '<##>', '"غير_معروف"', 'نه', '<##>', 'و', 'ا', 'عطى', '<##>', 'ا', '"غير_معروف"', '<##>', 'ا', 'لعر', '"غير_معروف"', '<##>', '"غير_معروف"', '<##>', 'من', '<##>', 'حسن', '<##>', 'ا', '"غير_معروف"', '<##>', 'و', 'عذ', 'و', 'بة', '<##>', 'ا', '"غير_معروف"', '<##>', 'و', 'من', '<##>', 'ا', 'لبلا', 'غة', '<##>', 'و', 'ا', '"غير_م

In [33]:
print(['"غير_معروف"' if item == '<UNK>' else item for item in disjoint_letters_tokenizer.split_text(sample_text)])

['و', 'يعو', 'د', '<##>', 'ا', 'لفضل', '<##>', 'في', '<##>', 'تو', 'حيد', '<##>', 'ا', 'للغة', '<##>', 'ا', 'لعر', 'بية', '<##>', 'ا', 'لى', '<##>', 'نز', 'و', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'حيث', '<##>', 'لم', '<##>', 'تكن', '<##>', 'مو', 'حد', 'ة', '<##>', 'قبل', '<##>', 'هذ', 'ا', '<##>', 'ا', 'لعهد', '<##>', 'ر', 'غم', '<##>', 'ا', 'نها', '<##>', 'كا', 'نت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غنى', '<##>', 'و', 'مر', 'و', 'نة', '<##>', 'ا', 'لى', '<##>', 'ا', 'ن', '<##>', 'نز', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'و', 'تحد', 'ى', '<##>', 'ا', 'لجمو', 'ع', '<##>', 'ببيا', 'نه', '<##>', 'و', 'ا', 'عطى', '<##>', 'ا', 'للغة', '<##>', 'ا', 'لعر', 'بية', '<##>', 'سيلا', '<##>', 'من', '<##>', 'حسن', '<##>', 'ا', 'لسبك', '<##>', 'و', 'عذ', 'و', 'بة', '<##>', 'ا', 'لسجع', '<##>', 'و', 'من', '<##>', 'ا', 'لبلا', 'غة', '<##>', 'و', 'ا', 'لبيا', 'ن', '<##>', 'ما', '<##>', 'عجز', '<##>', 'عنه', '<##>', 'بلغا', 'ء', '<##>', 'ا'

In [34]:
# A fixed bug discovered in the disjoint letters tokenizer. It was putting ## as a token, hence it adds a very high frequency to it.
import re
# rx = re.compile(r"([اأإآءؤﻵﻹﻷدذرزو])")
# text = rx.sub(r"\1## ", sample_text)
# text = text.replace("## ", " ##")
# text
print(disjoint_letters_tokenizer.split_text(sample_text))

['و', 'يعو', 'د', '<##>', 'ا', 'لفضل', '<##>', 'في', '<##>', 'تو', 'حيد', '<##>', 'ا', 'للغة', '<##>', 'ا', 'لعر', 'بية', '<##>', 'ا', 'لى', '<##>', 'نز', 'و', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'حيث', '<##>', 'لم', '<##>', 'تكن', '<##>', 'مو', 'حد', 'ة', '<##>', 'قبل', '<##>', 'هذ', 'ا', '<##>', 'ا', 'لعهد', '<##>', 'ر', 'غم', '<##>', 'ا', 'نها', '<##>', 'كا', 'نت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غنى', '<##>', 'و', 'مر', 'و', 'نة', '<##>', 'ا', 'لى', '<##>', 'ا', 'ن', '<##>', 'نز', 'ل', '<##>', 'ا', 'لقر', 'ا', 'ن', '<##>', 'ا', 'لكر', 'يم', '<##>', 'و', 'تحد', 'ى', '<##>', 'ا', 'لجمو', 'ع', '<##>', 'ببيا', 'نه', '<##>', 'و', 'ا', 'عطى', '<##>', 'ا', 'للغة', '<##>', 'ا', 'لعر', 'بية', '<##>', 'سيلا', '<##>', 'من', '<##>', 'حسن', '<##>', 'ا', 'لسبك', '<##>', 'و', 'عذ', 'و', 'بة', '<##>', 'ا', 'لسجع', '<##>', 'و', 'من', '<##>', 'ا', 'لبلا', 'غة', '<##>', 'و', 'ا', 'لبيا', 'ن', '<##>', 'ما', '<##>', 'عجز', '<##>', 'عنه', '<##>', 'بلغا', 'ء', '<##>', 'ا'

### Words

In [35]:
words_tokenizer = get_tokenizer(
    vocab_size=10_000,
    train_dataset=list(map(process,dataset)),
    tokenizer_class=WordTokenizer,
)

Training WordTokenizer ...


In [36]:
# tokenization using tkseem _base tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in words_tokenizer.tokenize(sample_text)])

['"غير_معروف"', 'الفضل', 'في', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'الى', '"غير_معروف"', 'القران', 'الكريم', 'حيث', 'لم', 'تكن', '"غير_معروف"', 'قبل', 'هذا', 'العهد', '"غير_معروف"', 'انها', 'كانت', 'ذات', '"غير_معروف"', '"غير_معروف"', 'الى', 'ان', 'نزل', 'القران', 'الكريم', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', 'حسن', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'ومن', '"غير_معروف"', '"غير_معروف"', 'ما', '"غير_معروف"', 'عنه', '"غير_معروف"', '"غير_معروف"', 'وقد', '"غير_معروف"', 'القران', 'الكريم', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'كما', '"غير_معروف"', 'مع', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'الاخرى', 'التي', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'مع', '"غير_معروف"', 'او', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'على', '"غير_معر

In [37]:
# tokenization using tkseem farasa_morphological_tokenizer tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in words_tokenizer.tokenize_from_splits(sample_text)])

['"غير_معروف"', 'الفضل', 'في', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'الى', '"غير_معروف"', 'القران', 'الكريم', 'حيث', 'لم', 'تكن', '"غير_معروف"', 'قبل', 'هذا', 'العهد', '"غير_معروف"', 'انها', 'كانت', 'ذات', '"غير_معروف"', '"غير_معروف"', 'الى', 'ان', 'نزل', 'القران', 'الكريم', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', 'حسن', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'ومن', '"غير_معروف"', '"غير_معروف"', 'ما', '"غير_معروف"', 'عنه', '"غير_معروف"', '"غير_معروف"', 'وقد', '"غير_معروف"', 'القران', 'الكريم', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'كما', '"غير_معروف"', 'مع', '"غير_معروف"', 'من', '"غير_معروف"', '"غير_معروف"', 'الاخرى', 'التي', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'مع', '"غير_معروف"', 'او', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', '"غير_معروف"', 'على', '"غير_معر

In [38]:
print(['"غير_معروف"' if item == '<UNK>' else item for item in words_tokenizer.split_text(sample_text)])

['ويعود', 'الفضل', 'في', 'توحيد', 'اللغة', 'العربية', 'الى', 'نزول', 'القران', 'الكريم', 'حيث', 'لم', 'تكن', 'موحدة', 'قبل', 'هذا', 'العهد', 'رغم', 'انها', 'كانت', 'ذات', 'غنى', 'ومرونة', 'الى', 'ان', 'نزل', 'القران', 'الكريم', 'وتحدى', 'الجموع', 'ببيانه', 'واعطى', 'اللغة', 'العربية', 'سيلا', 'من', 'حسن', 'السبك', 'وعذوبة', 'السجع', 'ومن', 'البلاغة', 'والبيان', 'ما', 'عجز', 'عنه', 'بلغاء', 'العرب', 'وقد', 'وحد', 'القران', 'الكريم', 'اللغة', 'العربية', 'توحيدا', 'كاملا', 'وحفظها', 'من', 'التلاشي', 'والانقراض', 'كما', 'حدث', 'مع', 'العديد', 'من', 'اللغات', 'السامية', 'الاخرى', 'التي', 'اضحت', 'لغات', 'باىدة', 'واندثرت', 'مع', 'الزمن', 'او', 'لغات', 'طالها', 'الضعف', 'والانحطاط', 'وبالتالي', 'عدم', 'القدرة', 'على', 'مسايرة', 'التغييرات', 'والتجاذبات', 'التي', 'تعرفها', 'الحضارة', 'وشعوب', 'العالم', 'القديم', 'والحديث']


### Chars

In [39]:
chars_tokenizer = get_tokenizer(
    vocab_size=10_000,
    train_dataset=list(map(process,dataset)),
    tokenizer_class=CharacterTokenizer,
)

Training CharacterTokenizer ...


In [40]:
# tokenization using tkseem _base tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in chars_tokenizer.tokenize(sample_text)])

['و', 'ي', 'ع', 'و', 'د', '<##>', 'ا', 'ل', 'ف', 'ض', 'ل', '<##>', 'ف', 'ي', '<##>', 'ت', 'و', 'ح', 'ي', 'د', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 'ي', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ن', 'ز', 'و', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'ح', 'ي', 'ث', '<##>', 'ل', 'م', '<##>', 'ت', 'ك', 'ن', '<##>', 'م', 'و', 'ح', 'د', 'ة', '<##>', 'ق', 'ب', 'ل', '<##>', 'ه', 'ذ', 'ا', '<##>', 'ا', 'ل', 'ع', 'ه', 'د', '<##>', 'ر', 'غ', 'م', '<##>', 'ا', 'ن', 'ه', 'ا', '<##>', 'ك', 'ا', 'ن', 'ت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غ', 'ن', 'ى', '<##>', 'و', 'م', 'ر', 'و', 'ن', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ا', 'ن', '<##>', 'ن', 'ز', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'و', 'ت', 'ح', 'د', 'ى', '<##>', 'ا', 'ل', 'ج', 'م', 'و', 'ع', '<##>', 'ب', 'ب', 'ي', 'ا', 'ن', 'ه', '<##>', 'و', 'ا', 'ع', 'ط', 'ى', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 

In [41]:
# tokenization using tkseem farasa_morphological_tokenizer tokenize method
print(['"غير_معروف"' if item == '<UNK>' else item for item in chars_tokenizer.tokenize_from_splits(sample_text)])

['و', 'ي', 'ع', 'و', 'د', '<##>', 'ا', 'ل', 'ف', 'ض', 'ل', '<##>', 'ف', 'ي', '<##>', 'ت', 'و', 'ح', 'ي', 'د', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 'ي', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ن', 'ز', 'و', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'ح', 'ي', 'ث', '<##>', 'ل', 'م', '<##>', 'ت', 'ك', 'ن', '<##>', 'م', 'و', 'ح', 'د', 'ة', '<##>', 'ق', 'ب', 'ل', '<##>', 'ه', 'ذ', 'ا', '<##>', 'ا', 'ل', 'ع', 'ه', 'د', '<##>', 'ر', 'غ', 'م', '<##>', 'ا', 'ن', 'ه', 'ا', '<##>', 'ك', 'ا', 'ن', 'ت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غ', 'ن', 'ى', '<##>', 'و', 'م', 'ر', 'و', 'ن', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ا', 'ن', '<##>', 'ن', 'ز', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'و', 'ت', 'ح', 'د', 'ى', '<##>', 'ا', 'ل', 'ج', 'م', 'و', 'ع', '<##>', 'ب', 'ب', 'ي', 'ا', 'ن', 'ه', '<##>', 'و', 'ا', 'ع', 'ط', 'ى', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 

In [42]:
print(['"غير_معروف"' if item == '<UNK>' else item for item in chars_tokenizer.split_text(sample_text)])

['و', 'ي', 'ع', 'و', 'د', '<##>', 'ا', 'ل', 'ف', 'ض', 'ل', '<##>', 'ف', 'ي', '<##>', 'ت', 'و', 'ح', 'ي', 'د', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 'ي', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ن', 'ز', 'و', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'ح', 'ي', 'ث', '<##>', 'ل', 'م', '<##>', 'ت', 'ك', 'ن', '<##>', 'م', 'و', 'ح', 'د', 'ة', '<##>', 'ق', 'ب', 'ل', '<##>', 'ه', 'ذ', 'ا', '<##>', 'ا', 'ل', 'ع', 'ه', 'د', '<##>', 'ر', 'غ', 'م', '<##>', 'ا', 'ن', 'ه', 'ا', '<##>', 'ك', 'ا', 'ن', 'ت', '<##>', 'ذ', 'ا', 'ت', '<##>', 'غ', 'ن', 'ى', '<##>', 'و', 'م', 'ر', 'و', 'ن', 'ة', '<##>', 'ا', 'ل', 'ى', '<##>', 'ا', 'ن', '<##>', 'ن', 'ز', 'ل', '<##>', 'ا', 'ل', 'ق', 'ر', 'ا', 'ن', '<##>', 'ا', 'ل', 'ك', 'ر', 'ي', 'م', '<##>', 'و', 'ت', 'ح', 'د', 'ى', '<##>', 'ا', 'ل', 'ج', 'م', 'و', 'ع', '<##>', 'ب', 'ب', 'ي', 'ا', 'ن', 'ه', '<##>', 'و', 'ا', 'ع', 'ط', 'ى', '<##>', 'ا', 'ل', 'ل', 'غ', 'ة', '<##>', 'ا', 'ل', 'ع', 'ر', 'ب', 