In [1]:
from transformers import AutoTokenizer

In [157]:
from string import punctuation
import re

In [3]:
tokenizer_en = AutoTokenizer.from_pretrained("bert-base-uncased")
tokenizer_si = AutoTokenizer.from_pretrained("Ransaka/sinhala-bert-medium-v2")

In [6]:
text_en = "This is english text"

In [11]:
encoded_using_en = tokenizer_en.encode(text_en,add_special_tokens=False)

In [12]:
encoded_using_sin = tokenizer_si.encode(text_en,add_special_tokens=False)

In [13]:
len(text_en)

20

In [14]:
len(encoded_using_sin)

14

In [15]:
len(encoded_using_en)

4

In [16]:
sinhala_text = "සෞඛ්‍ය වැඩවර්ජනය අද (02) දිනයේත් අඛණ්ඩව ක්‍රියාත්මක කරන බව වෘත්තීය සමිති පවසයි."

In [18]:
english_encode = tokenizer_en.encode(sinhala_text,add_special_tokens=False)
sinhala_encode = tokenizer_si.encode(sinhala_text,add_special_tokens=False)

In [22]:
tokenizer_en.decode(english_encode,skip_special_tokens=True)

'( 02 ).'

In [21]:
tokenizer_si.decode(sinhala_encode,skip_special_tokens=True)

'සෞඛ්ය වැඩවර්ජනය අද ( 02 ) දිනයේත් අඛණ්ඩව ක්රියාත්මක කරන බව වෘත්තීය සමිති පවසයි.'

In [31]:
def is_sinhala(text):
    english_encoding = [enc for enc in tokenizer_en(text=text, add_special_tokens=False).input_ids if enc not in tokenizer_en.all_special_ids]
    sinhala_encoding = [enc for enc in tokenizer_si(text=text, add_special_tokens=False).input_ids if enc not in tokenizer_si.all_special_ids]
    print(english_encoding)
    print(sinhala_encoding)

In [32]:
is_sinhala(sinhala_text)

[1006, 6185, 1007, 1012]
[7017, 24289, 5753, 12, 9001, 13, 7791, 5618, 13642, 6584, 5737, 5672, 8442, 9470, 7372, 18]


In [44]:
text_eocode = u"සෞඛ්ය".encode()

In [45]:
type(text_eocode)

bytes

In [46]:
text_eocode

b'\xe0\xb7\x83\xe0\xb7\x9e\xe0\xb6\x9b\xe0\xb7\x8a\xe0\xb6\xba'

In [49]:
for byte in text_eocode:
    print(hex(byte))

0xe0
0xb7
0x83
0xe0
0xb7
0x9e
0xe0
0xb6
0x9b
0xe0
0xb7
0x8a
0xe0
0xb6
0xba


In [56]:
b"0xe0".decode()

'0xe0'

In [110]:
# from sinling import utils

BASE_CONSONANTS = [
    'ක', 'ඛ', 'ග', 'ඝ', 'ඞ', 'ඟ',
    'ච', 'ඡ', 'ජ', 'ඣ', 'ඤ', 'ඦ',
    'ට', 'ඨ', 'ඩ', 'ඪ', 'ණ', 'ඬ',
    'ත', 'ථ', 'ද', 'ධ', 'න', 'ඳ',
    'ප', 'ඵ', 'බ', 'භ', 'ම', 'ඹ',
    'ය', 'ර', 'ල', 'ව',
    'ශ', 'ෂ', 'ස', 'හ', 'ළ', 'ෆ',
]

SAN = [
    'ඟ', 'ඦ', 'ඬ', 'ඳ', 'ඹ'
]
# TODO: Check whether these are correct mappings
# ඟ = ඬ්ග, ඦ = ඤ්ජ, ඬ = ණ්ඩ, ඳ = න්ද, ඹ = ම්බ
# Resource: http://www.danuma.lk/sinhala/index.php?option=com_content&view=article&id=19234%3A2010-06-09-10-17-10&
# catid=110%3Aeducation&Itemid=76&lang=si
SAN_MAPPING = {'ඟ': 'ංග', 'ඦ': 'ඤ්ජ', 'ඬ': 'ණ්ඩ', 'ඳ': 'න්ද', 'ඹ': 'ම්බ'}
REVERSE_SAN_MAPPING = {d: v for v, d in SAN_MAPPING.items()}

CONSONANTS = [c + '්' for c in BASE_CONSONANTS]

VOWELS = [
    'අ', 'ආ', 'ඇ', 'ඈ', 'ඉ', 'ඊ', 'උ', 'ඌ',
    'ඍ', 'ඎ', 'එ', 'ඒ', 'ඓ', 'ඔ', 'ඕ', 'ඖ',
    'අං', 'අඃ',
]

VOWEL_DIACRITICS = [
    '', 'ා', 'ැ', 'ෑ', 'ි', 'ී', 'ු', 'ූ', 'ෘ',
    'ෲ', 'ෙ', 'ේ', 'ෛ', 'ො', 'ෝ', 'ෞ',
    'ං', 'ඃ', '්'
]

LONG_TO_SHORT_VOWEL_DIACRITICS_MAPPING = {
    '': 'ා',
    'ෑ': 'ැ',
    'ී': 'ි',
    'ූ': 'ු',
    'ේ': 'ෙ',
    'ෝ': 'ො'
}

DIACRITICS_MAPPING = {v: d for v, d in zip(VOWELS, VOWEL_DIACRITICS)}

REVERSE_DIACRITICS_MAPPING = {d: v for v, d in zip(VOWELS, VOWEL_DIACRITICS)}

CONJUNCT_CONSONANTS = [
    'ක්ර', 'ඛ්ර', 'ග්ර', 'ඝ්ර', 'ඞ්ර', 'ඟ්ර',
    'ක්ය', 'ඛ්ය', 'ග්ය', 'ඝ්ය', 'ඞ්ය', 'ඟ්ය',
    'ක්ෂ', '෴',
]

NUMERALS = [
    '𑇡', '𑇢', '𑇣', '𑇤', '𑇥', '𑇦', '𑇧', '𑇨', '𑇩', '𑇪',
    '𑇫', '𑇬', '𑇭', '𑇮', '𑇯', '𑇰', '𑇱', '𑇲', '𑇳', '𑇴',
]

# COMBINED_LETTERS = CONSONANTS + utils.combine(BASE_CONSONANTS, VOWEL_DIACRITICS)

# COMBINED_SAN = SAN + utils.combine(SAN, VOWEL_DIACRITICS)

GOSHA_LETTERS = [
    'අ', 'ආ', 'ඇ', 'ඈ', 'ඉ', 'ඊ', 'උ', 'ඌ',
    'ඍ', 'ඎ', 'එ', 'ඒ', 'ඓ', 'ඔ', 'ඕ', 'ඖ',
    'අං', 'අඃ',
    'ග', 'ඝ', 'ඞ',
    'ජ', 'ඣ', 'ඤ',
    'ඩ', 'ඪ', 'ණ',
    'ද', 'ධ', 'න',
    'බ', 'භ', 'ම',
    'ය', 'ර', 'ල', 'ව',
    'හ'
]

AGOSHA_LETTERS = [
    'ක්', 'ඛ්',
    'ච්', 'ඡ්',
    'ට්', 'ඨ්',
    'ත්', 'ථ්',
    'ප්', 'ඵ්',
]

AGOSHA_TO_GOSHA_MAPPING = {
    'ක්': 'ග්',
    'ඛ්': 'ඝ්',
    'ච්': 'ජ්',
    'ඡ්': 'ඣ්',
    'ට්': 'ඩ්',
    'ඨ්': 'ඪ්',
    'ත්': 'ද්',
    'ථ්': 'ධ්',
    'ප්': 'බ්',
    'ඵ්': 'භ්',
}


In [111]:
sinhala_text = sinhala_text.replace("\u200d","")

In [112]:
sinhala_text

'සෞඛ්ය වැඩවර්ජනය අද (02) දිනයේත් අඛණ්ඩව ක්රියාත්මක කරන බව වෘත්තීය සමිති පවසයි.'

In [176]:
ALL_LETTERS = VOWELS + BASE_CONSONANTS + AGOSHA_LETTERS + GOSHA_LETTERS
ALL_LETTERS = set(ALL_LETTERS)

In [177]:
PUNKT = set(punctuation)
NUMBERS = set("1234567890")

NUBERS_AND_PUNKTS = PUNKT.union(NUMBERS)

In [179]:
# word = ''
# tokenized_chars = []

# for i,char in enumerate(sinhala_text):
#     if char in VOWEL_DIACRITICS:
#         print(f"{char} skipped")
#         continue
#     if char in NUBERS_AND_PUNKTS:
#         tokenized_chars.append(char)
#     if char == ' ':
#         tokenized_chars.append(" ")
#     if (char in ALL_WORDS) and (sinhala_text[i+1] in ALL_WORDS):
#         tokenized_chars.append(char)
#     if (char in ALL_WORDS) and (sinhala_text[i+1] in VOWEL_DIACRITICS):
#         tokenized_chars.append(char + sinhala_text[i+1])
#     if (char in ALL_WORDS) and (sinhala_text[i+1] == ' '):
#         tokenized_chars.append(char)

In [321]:
text = """
ගතවු පැය 24 තුළ දිවයින පුරා සිදුකළ මෙහෙයුම්වලින් සැකකරුවන් 703 දෙනෙකු අත්අඩංගුවට ගෙන තිබේ.

පොලීසිය පැවසුවේ මත්ද්‍රව්‍ය වැරදි සම්බන්ධ සැකකරුවන් 525ක් සහ අපරාධ අංශ වෙත යොමු කළ ලැයිස්තුවේ සිටි සැකකරුවන් 178ක් ඒ අතර වන බවය.

මත්ද්‍රව්‍ය වැරදි සම්බන්ධ අත්අඩංගුවට ගත් සැකකරුවන් 525 දෙනා අතරින් සැකකරුවකු රැඳවුම් නියෝග මත වැඩිදුර විමර්ශන සිදුකරන අතර මත්ද්‍රව්‍යවලට ඇබ්බැහිවූවන් 06 ක් පුනරුත්ථාපනය සඳහා යොමුකර ඇත.

පොලිස් මත්ද්‍රව්‍ය නාශක කාර්යංශය සහ පොලිස් විශේෂ කාර්යංශයේ ලැයිස්තුවේ සිටි සැකකරුවන් 04 ක්ද අත්අඩංගුවට ගෙන තිබේ.

අපරාධ අංශවෙත යොමු කළ ලැයිස්තුවේ අත්අඩංගුවට ගත් සැකකරුවන් 178 දෙනා අතරින් මත්ද්‍රව්‍ය වැරදි සම්බන්ධව විවෘත වරෙන්තු නිකුත්ව සිටි සැකකරුවන් 11 ක් සහ මත්ද්‍රව්‍ය නොවන වැරදි සම්බන්ධව විවෘත වරෙන්තුකරුවන් 156 ක්ද සිටින බව පොලීසිය පැවසීය.

ඇඟිලි සටහන් මාධ්‍යයෙන් හඳුනාගෙන අත්අඩංගුවට ගෙන නොමැතිව සිටි සැකකරුවන් දෙදෙනෙක් සහ අපරාධවලට අවශ්‍ය කරන සැකකරුවන් 09 ක්ද මෙහෙයුම්වලදී අත්අඩංගුවට ගෙන තිබේ.

මෙම වැටලීම්වලදී පහත පරිදි මත්ද්‍රව්‍ය පොලිස් භාරයට ගෙන ඇත."""

In [322]:
def remove_non_printable(input_string):
    printable_pattern = re.compile(r'[^\u0020-\u007E\u0D80-\u0DFF]+', flags=re.UNICODE)
    return printable_pattern.sub('', input_string)

In [324]:
def chracter_level_tokenizer(text):
    text = remove_non_printable(text)
    tokenized_chars = []

    for i, char in enumerate(text):
        if char in VOWEL_DIACRITICS:
            continue

        if char in NUBERS_AND_PUNKTS:
            tokenized_chars.append(char)
        elif char == ' ':
            tokenized_chars.append(" ")
        elif char in ALL_LETTERS:
            if i < len(text) - 1 and text[i + 1] in ALL_LETTERS:
                tokenized_chars.append(char)
            elif i < len(text) - 1 and text[i + 1] in VOWEL_DIACRITICS:
                tokenized_chars.append(char + text[i + 1])
            else:
                tokenized_chars.append(char)
        else:
            tokenized_chars.append(char)
    return tokenized_chars

In [341]:
from datasets import load_dataset
dataset = load_dataset("Ransaka/sinhala-450M-sample")

In [406]:
import concurrent.futures

class Tokenizer:
    def __init__(self):
        self.unknown_token = "<unk>"
        self.tokenized_chars = []
        self.unique_chars = []
    
    def __encode(self, text):
        processed_text = self.__process_text(text)
        encoded_text = [self.token_map_reverse.get(char, self.unknown_token_id) for char in processed_text]
        return encoded_text
    
    def __call__(self, text):
        return self.__encode(text)
    
    def decode(self, ids):
        return [self.token_map.get(token,self.unknown_token) for token in ids]

    def train(self, text_list):
        self.__train_chracter_level_tokenizer(text_list)

    def __process_text(self, t):
        t = remove_non_printable(t)
        tokenized_chars = []

        for i, char in enumerate(t):
            if char in VOWEL_DIACRITICS:
                continue
            if char in NUBERS_AND_PUNKTS:
                tokenized_chars.append(char)
            elif char == ' ':
                tokenized_chars.append(" ")
            elif char in ALL_LETTERS:
                if i < len(t) - 1 and t[i + 1] in ALL_LETTERS:
                    tokenized_chars.append(char)
                elif i < len(t) - 1 and t[i + 1] in VOWEL_DIACRITICS:
                    tokenized_chars.append(char + t[i + 1])
                else:
                    tokenized_chars.append(char)
            else:
                tokenized_chars.append(char)

        return tokenized_chars

    def __train_chracter_level_tokenizer(self, text_list):
        with concurrent.futures.ThreadPoolExecutor() as executor:
            results = list(executor.map(self.__process_text, text_list))
            self.tokenized_chars = [char for sublist in results for char in sublist]
        self.unique_chars = set(self.tokenized_chars)
        self.token_map = dict(zip(range(len(self.unique_chars)),self.unique_chars))
        self.token_map[self.unknown_token] = len(self.token_map)
        self.unknown_token_id = self.token_map[self.unknown_token]
        self.token_map_reverse = {value:key for key,value in self.token_map.items()}

In [407]:
tokenizer = Tokenizer()
tokenizer.train(dataset['train']['text'])

In [408]:
encode = tokenizer(text)

In [409]:
encode = tokenizer(text_en)

In [411]:
text = "Hey my name is Ransaka, බන්ධ අත්අඩංගුවට ගත් සැකකරුවන් 525 දෙනා අතරින් සැකකරුවකු රැඳවුම් may be bbe"

In [413]:
encoded = tokenizer(text)

In [415]:
sinhala_piece = [tok for tok in encoded if tok != tokenizer.unknown_token_id]

In [417]:
import re

def remove_english_characters(text):
    """
    Remove English characters from the given text using a regular expression.

    Parameters:
    - text (str): The input text containing English and Sinhala characters.

    Returns:
    - str: Text with English characters removed.
    """
    english_pattern = re.compile("[a-zA-Z]")
    text = english_pattern.sub(r'', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

In [418]:
remove_english_characters(text)

', බන්ධ අත්අඩංගුවට ගත් සැකකරුවන් 525 දෙනා අතරින් සැකකරුවකු රැඳවුම්'