In [1]:
!pip install sinling --upgrade

Collecting sinling
[?25l  Downloading https://files.pythonhosted.org/packages/c6/08/01ae5aad2346d52a10962db07bc599500b9d6e6676713a55cbad1675d6cd/sinling-0.3.4-py3-none-any.whl (20.0MB)
[K    100% |████████████████████████████████| 20.0MB 1.3MB/s ta 0:00:011
Installing collected packages: sinling
Successfully installed sinling-0.3.4
[33mYou are using pip version 19.0.3, however version 20.3b1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [2]:
from sinling.sinhala.tokenizer import SinhalaTweetTokenizer

if __name__ == '__main__':
    docs = ['ශ්‍රී දළදා මාලිගාව බුදුරජාණන් වහන්සේගේ දන්තධාතූන් අතරින් ශ්‍රී ලංකාවේ ඇති දන්තධාතූන් වහන්සේ වර්තමානයේ තැන්පත් කර ඇති දළදා මාලිගාවයි. මෙය ශ්‍රී ලංකාවේ මහනුවර නගරයේ පිහිටා ඇත.']
    tokenizer = SinhalaTweetTokenizer()
    # tokenizer = SinhalaTokenizer()
    for doc in docs:
        for sent in tokenizer.split_sentences(doc):
            print(tokenizer.tokenize(sent))

['ශ්\u200dරී', 'දළදා', 'මාලිගාව', 'බුදුරජාණන්', 'වහන්සේගේ', 'දන්තධාතූන්', 'අතරින්', 'ශ්\u200dරී', 'ලංකාවේ', 'ඇති', 'දන්තධාතූන්', 'වහන්සේ', 'වර්තමානයේ', 'තැන්පත්', 'කර', 'ඇති', 'දළදා', 'මාලිගාවයි.', 'මෙය', 'ශ්\u200dරී', 'ලංකාවේ', 'මහනුවර', 'නගරයේ', 'පිහිටා', 'ඇත']


In [3]:
from sinling import SinhalaTokenizer, POSTagger

tokenizer = SinhalaTokenizer()

document = 'මමත් රජයේ විශ්ව විද්‍යාලයකට තමා ගියේ, හැබැයි මම නම් හැමදාම කැම්පස් එකේ CCTV සවි කරන එක හොඳයි'  # may contain multiple sentences

tokenized_sentences = [tokenizer.tokenize(f'{ss}.') for ss in tokenizer.split_sentences(document)]

tagger = POSTagger()

pos_tags = tagger.predict(tokenized_sentences)

pos_tags

[[('මමත්', 'JJ'),
  ('රජයේ', 'NNC'),
  ('විශ්ව', 'JJ'),
  ('විද්\u200dයාලයකට', 'NNC'),
  ('තමා', 'PRP'),
  ('ගියේ', 'VP'),
  (',', 'PUNC'),
  ('හැබැයි', 'NNC'),
  ('මම', 'PRP'),
  ('නම්', 'POST'),
  ('හැමදාම', 'NNC'),
  ('කැම්පස්', 'NNP'),
  ('එකේ', 'NUM'),
  ('CCTV', 'NNC'),
  ('සවි', 'RRPCV'),
  ('කරන', 'VP'),
  ('එක', 'NUM'),
  ('හොඳයි', 'NNC'),
  ('.', 'FS')]]

In [4]:
from sinling import preprocess, word_joiner

w1 = preprocess('මුනි')
w2 = preprocess('උතුමා')
results = word_joiner.join(w1, w2)
# Returns a list of possible results after applying join rules ['මුනිතුමා', ...]

results

['මුනුතුමා',
 'මුනිතුමා',
 'මුනිනතුමා',
 'මුනිවුතුමා',
 'මුනියුතුමා',
 'මුනිරුතුමා',
 'මුන්නුතුමා',
 'මුනිොතුමා',
 'මුනිෝතුමා',
 'මුන්\u200dයුතුමා']

In [5]:
from sinling import word_splitter

word = 'හොඳයි'
results = word_splitter.split(word)
# Returns a dict containing debug information, base word and affix

results

{'debug': [['හ', 'ොඳයි', 27.841807909604523],
  ['හො', 'ඳයි', 96.33466135458167],
  ['හොඳ', 'යි', 36214.60977416788],
  ['හොඳය', 'ි', 550.7488852208618]],
 'base': 'හොඳ',
 'affix': 'යි'}

In [6]:
from sinling import SinhalaStemmer

stemmer = SinhalaStemmer()

word = 'හොඳයි'  # your sentence

stemmer.stem(word)

('හොඳ', 'යි')