In [1]:
import sys
sys.path.append("../src/")

In [2]:
from sinlib import Tokenizer, preprocessing, Romanizer

## Training a sinlib tokenizer

In [3]:
corpus = [
    """මෙරටට බුදදහම දායාද කරමින් අනුබුදු මිහිඳු හිමිගේ ලංකා ගමනය සිදුවූ උතුම් පොසොන් පුර පසළොස්වක පොහොය දිනය අදට යෙදී තිබේ.

මිහිඳු මහරහතන් වහන්සේ ප්‍රමුඛ ඉට්ඨිය, උත්ථිය, සම්බල, බද්දසාල යන රහතන් වහන්සේලාත් සුමන සාමණේරයන් වහන්සේත් භණ්ඩුක උපාසකක් බුදුරජාණන් වහන්සේගේ නිර්මල බුදුදහම රැගෙන මිහින්තලා පව්වට වැඩම කරවීම අද වැනි පොසොන් පුර පසළොස්වක පෙහොය දිනක සිදුවූ බව බෞද්ධ ඉතිහාසයේ සඳහන් වෙයි.

දේවානම් පියතිස්ස රජු ඇතුළු පිරිස චුල්ලහත්ථි පදෝපම සූත්‍රය අසා තෙරුවන් සරණ යාම සිදු වූයේද අද වැනි පොසොන් පොහොය දිනකය.""",
"මේ අතර පොසොන් පොහෝ දින පණිවුඩයක් නිකුත් කරමින් ජනාධිපතිවරයා පෙන්වා දෙන්නේ මිහිඳු මහරහතන් වහන්සේ විසින් අනු දැන වදාළ ධර්ම මාර්ගය මෙරට පත්වී ඇති දේශපාලන, සමාජ හා ආර්ථික ගැටළු නිරාකරණය කර ගනිමින් දියුණු රටක් ගොඩනැඟීමට ඉවහල් කරගන්නා ලෙස සියලු දෙනාගෙන් ඉල්ලා සිටින බවය."
]

In [4]:
tokenizer = Tokenizer()
tokenizer.train?

[0;31mSignature:[0m [0mtokenizer[0m[0;34m.[0m[0mtrain[0m[0;34m([0m[0mtext_list[0m[0;34m)[0m [0;34m->[0m [0;32mNone[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Train the tokenizer on a list of text strings.

Parameters
----------
text_list : list of str
    List of text strings to be used for training the tokenizer.

Examples
--------
>>> from sinlib import Tokenizer
>>> corpus = [...]
>>> tokenizer = Tokenizer()
>>> tokenizer.train(corpus)
[0;31mFile:[0m      ~/learning/sinlib/src/sinlib/tokenizer.py
[0;31mType:[0m      method

In [5]:
tokenizer.train(corpus)

In [6]:
len(tokenizer)

127

## Encoding text

In [7]:
text = "උතුම් පොසොන් පොහොය අද"

In [8]:
encodings = tokenizer(text)

In [9]:
encodings

[51, 118, 33, 54, 121, 13, 97, 54, 121, 29, 50, 54, 52, 120]

In [10]:
[tokenizer.token_id_to_token_map[tok] for tok in encodings]

['උ', 'තු', 'ම්', ' ', 'පො', 'සො', 'න්', ' ', 'පො', 'හො', 'ය', ' ', 'අ', 'ද']

## Save trained tokenizer and load from disk

In [11]:
tokenizer.save_tokenizer(".")

In [12]:
loaded_tokenizer = Tokenizer().load_from_pretrained("./vocab.json")

In [13]:
assert loaded_tokenizer(text)==tokenizer(text)

## Sinhala text romanization

In [14]:
romanizer = Romanizer(char_mapper_fp=None, tokenizer_vocab_path=None) #pass both none to load from default configs

In [15]:
print(romanizer(corpus[0]))

meratata budadahama dayada karamin anubudu mihidu himige lanka gamanaya siduwu uthum poson pura pasaloswaka pohoya dinaya adata yedi thibe.mihidu maharahathan wahanse pramuka ettiya, uththiya, sambala, baddasala yana rahathan wahanselath sumana samanorayan wahanseth bhanduka upasakak budurajanan wahansege nirmala bududahama regena mihinthala pawwata wadama karawema ada wani poson pura pasaloswaka pehoya dinaka siduwu bawa bauddha ethihasaye sadahan wei.dewanam piyathissa raju ethulu pirisa chullahaththi padhopama suthraya asa theruwan sarana yama sidu wuyeda ada wani poson pohoya dinakaya.


In [16]:
more_complex_text = corpus[1]

In [17]:
more_complex_text = more_complex_text[:100] + ".... \nIn linguistics, romanization is the conversion...., adding special chars ^^*#(&#&$^)"

In [18]:
romanizer(more_complex_text)

'me athara poson poho dina paniwudayak nikuth karamin janadhipathiwaraya penwa denne mihidu maharahathan wahanse visi.... In linguistics, romanization is the conversion...., adding special chars ^^*#(&#&$^)'

## Few available preprocessing methods on Sinhala texts

In [19]:
_, token_count = preprocessing.process_text_with_token_counts(corpus[0], consider_special_character_as_sinhala=False, ignore_non_printable=True)

In [20]:
token_count

271

In [21]:
more_complex_text += "ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී"

In [22]:
print(more_complex_text)

මේ අතර පොසොන් පොහෝ දින පණිවුඩයක් නිකුත් කරමින් ජනාධිපතිවරයා පෙන්වා දෙන්නේ මිහිඳු මහරහතන් වහන්සේ විසි.... 
In linguistics, romanization is the conversion...., adding special chars ^^*#(&#&$^)ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී


In [23]:
more_complex_text[-50:]

'rs ^^*#(&#&$^)ශ්\u200dරී ලංකා ප්\u200dරජාතාන්ත්\u200dරික සමාජවාදී'

In [24]:
preprocessing.remove_english_characters(more_complex_text)

'මේ අතර පොසොන් පොහෝ දින පණිවුඩයක් නිකුත් කරමින් ජනාධිපතිවරයා පෙන්වා දෙන්නේ මිහිඳු මහරහතන් වහන්සේ විසි.... , ...., ^^*#(&#&$^)ශ්\u200dරී ලංකා ප්\u200dරජාතාන්ත්\u200dරික සමාජවාදී'

In [25]:
preprocessing.remove_non_printable(more_complex_text[-50:])

'rs ^^*#(&#&$^)ශ්රී ලංකා ප්රජාතාන්ත්රික සමාජවාදී'

In [26]:
preprocessing.get_sinhala_character_ratio(more_complex_text)

0.610738255033557

In [27]:
preprocessing.get_sinhala_character_ratio(
    preprocessing.remove_english_characters(
        more_complex_text
    )
)

1.0