### Sinhala Tokenizer

In [None]:
# use !pip install sinling

In [1]:
from sinling import SinhalaTokenizer
tokenizer = SinhalaTokenizer()

sentence = 'ඔබට කොහොමද ? ඔයාව හොඳින් දෙන්නෙ නෑ'  # your sentence

tokenizer.tokenize(sentence)

['ඔබට', 'කොහොමද', '?', 'ඔයාව', 'හොඳින්', 'දෙන්නෙ', 'නෑ']

## Sinhala Stemmer

In [2]:
from sinling import SinhalaStemmer

stemmer = SinhalaStemmer()
word = 'ඔබට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ. ඇයි ඔයා ඔය විදිහට වැඩ කරන්න, ඉඩ වැඩිය හොඳට වැඩ කරන්න තිබ්බ නේද?'  # your sentence

stemmer.stem(word)

('ඔබට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ. ඇයි ඔයා ඔය විදිහට වැඩ කරන්න, ඉඩ වැඩිය හොඳට වැඩ කරන්න තිබ්බ නේද?',
 '')

## Part-of-Speech Tagger

In [3]:
from sinling import SinhalaTokenizer, POSTagger

tokenizer = SinhalaTokenizer()

document = 'ඔබට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ. ඇයි ඔයා ඔය විදිහට වැඩ කරන්න, ඉඩ වැඩිය හොඳට වැඩ කරන්න තිබ්බ නේද? සමහර දෙකට හොඳට කරන්න පුළුවන් සමහර දේවල් හට කරන්නට කරන්න.  හැබැයි එක හරිද? තීරණය ඔබ සතුයි.'  # may contain multiple sentences

tokenized_sentences = [tokenizer.tokenize(f'{ss}.') for ss in tokenizer.split_sentences(document)]
tagger = POSTagger()
pos_tags = tagger.predict(tokenized_sentences)

In [4]:
pos_tags

[[('ඔබට', 'PRP'),
  ('කොහොමද', 'NNC'),
  ('ඔයාව', 'NNC'),
  ('හොඳින්', 'JJ'),
  ('දෙන්නෙ', 'NNC'),
  ('නෑ', 'NIP'),
  ('.', 'FS')],
 [('ඇයි', 'QUE'),
  ('ඔයා', 'NNC'),
  ('ඔය', 'DET'),
  ('විදිහට', 'NNC'),
  ('වැඩ', 'NNJ'),
  ('කරන්න', 'VNN'),
  (',', 'PUNC'),
  ('ඉඩ', 'NNJ'),
  ('වැඩිය', 'NNC'),
  ('හොඳට', 'JJ'),
  ('වැඩ', 'NNJ'),
  ('කරන්න', 'VNN'),
  ('තිබ්බ', 'NNC'),
  ('නේද', 'VFM'),
  ('.', 'FS')],
 [('සමහර', 'NDT'),
  ('දෙකට', 'NUM'),
  ('හොඳට', 'NNC'),
  ('කරන්න', 'VNN'),
  ('පුළුවන්', 'NNC'),
  ('සමහර', 'DET'),
  ('දේවල්', 'NNC'),
  ('හට', 'RRPCV'),
  ('කරන්නට', 'VNN'),
  ('කරන්න', 'VFM'),
  ('.', 'FS')],
 [('හැබැයි', 'NNC'), ('එක', 'NUM'), ('හරිද', 'NNC'), ('.', 'FS')],
 [('තීරණය', 'NNC'), ('ඔබ', 'PRP'), ('සතුයි', 'VFM'), ('.', 'FS')]]

## Word Joiner (Morphological Joiner)

In [5]:
from sinling import preprocess, word_joiner

w1 = preprocess('මුනි')
w2 = preprocess('උතුමා')
results = word_joiner.join(w1, w2)
# Returns a list of possible results after applying join rules ['මුනිතුමා', ...]

In [6]:
results

['මුනුතුමා',
 'මුනිතුමා',
 'මුනිනතුමා',
 'මුනිවුතුමා',
 'මුනියුතුමා',
 'මුනිරුතුමා',
 'මුන්නුතුමා',
 'මුනිොතුමා',
 'මුනිෝතුමා',
 'මුන්\u200dයුතුමා']

In [7]:
results[0:2]

['මුනුතුමා', 'මුනිතුමා']

### Word Splitter (Morphological Splitter) / corpus based - experimental

In [10]:
from sinling import word_splitter

word = 'ඔබට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.'
results = word_splitter.split(word)
# Returns a dict containing debug information, base word and affix

In [11]:
results

{'debug': [['ඔ', 'බට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.989010989010989],
  ['ඔබ', 'ට කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.9999581896101182],
  ['ඔබට', ' කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.9998797787929792],
  ['ඔබට ', 'කොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට ක', 'ොහොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කො', 'හොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහ', 'ොමද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහො', 'මද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොම', 'ද ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද', ' ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ', 'ඔයාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔ', 'යාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔය', 'ාව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයා', 'ව හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයාව', ' හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයාව ', 'හොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයාව හ', 'ොඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයාව හො', 'ඳින් දෙන්නෙ නෑ.', 1.0],
  ['ඔබට කොහොමද ඔයාව හොඳ', 'ින් දෙන්නෙ නෑ.', 1.0