In [1]:
from sanskrit_parser.parser.sandhi import Sandhi
from sanskrit_parser.base.sanskrit_base import SanskritImmutableString, SanskritObject, SLP1, DEVANAGARI, denormalize
from sanskrit_parser.parser.sandhi_analyzer import LexicalSandhiAnalyzer

In [2]:
sandhi = Sandhi()

__Sandhi Join__

In [3]:
word1 = SanskritImmutableString('te')
word2 = SanskritImmutableString('eva')

In [4]:
joins = sandhi.join(word1, word2)
for join in joins: # strings
    print(join)

ta eva
tayeva
taeva
teeva


__Sandhi Splits__

In [38]:
word = SanskritImmutableString('papracCa')

In [39]:
# split at position
pos = 1
splits = sandhi.split_at(word, pos)
for split in splits: # strings
    print(split)

('pa', 'pracCa')


In [40]:
# split at all poistions
splits_all = sandhi.split_all(word)
for split in splits_all: # strings
    print(split)

('paprad', 'Sa')
('paprat', 'Sa')
('papracC', 'a')
('papra', 'cCa')
('paprat', 'Ca')
('paprac', 'Ca')
('paprac', 'Sa')
('papraJ', 'Ca')
('paprac', 'Ta')
('p', 'apracCa')
('papracCa', '')
('papra', 'Ca')
('papF', 'acCa')
('pap', 'racCa')
('papr', 'acCa')
('pa', 'pracCa')
('papraC', 'Ca')
('papf', 'acCa')
('papraj', 'Ca')


__Sandhi Analyzer__

In [8]:
analyzer = LexicalSandhiAnalyzer()

In [51]:
sentence = SanskritObject("को न्वस्मिन् साम्प्रतं लोके गुणवान् कश्च वीर्यवान् धर्मज्ञश्च कृतज्ञश्च सत्यवाक्यो दृढव्रतः", encoding=DEVANAGARI)
# sentence = SanskritObject("astyuttarasyAMdishidevatAtmA")
graphs = analyzer.getSandhiSplits(sentence,tag=True)
splits = graphs.find_all_paths(10)
tags = analyzer.tagSandhiGraph(graphs)

In [52]:
analyzer.dynamic_scoreboard

{'Sca vIryavAn DarmajYaSca kftajYaSca satyavAkyo dfQavrataH': set(),
 'Sca satyavAkyo dfQavrataH': set(),
 'kyo dfQavrataH': set(),
 'akyo dfQavrataH': set(),
 'Akyo dfQavrataH': set(),
 'H': set(),
 'taH': {tas},
 'vrataH': {vra, vratas},
 'dfQavrataH': {dfQa, dfQavratas},
 'yo dfQavrataH': {yas, yo},
 'vAkyo dfQavrataH': {vAk, vAkyas},
 'tyavAkyo dfQavrataH': set(),
 'avAkyo dfQavrataH': {a, avAk},
 'yavAkyo dfQavrataH': {ya},
 'satyavAkyo dfQavrataH': {sat, satI, sati, satya, satyavAkyas},
 'ca satyavAkyo dfQavrataH': {ca},
 'jYaSca satyavAkyo dfQavrataH': {jYas},
 'ajYaSca satyavAkyo dfQavrataH': {a, ajYas},
 'kftajYaSca satyavAkyo dfQavrataH': {kft, kfta, kftajYas},
 'ca kftajYaSca satyavAkyo dfQavrataH': {ca},
 'Sca kftajYaSca satyavAkyo dfQavrataH': set(),
 'jYaSca kftajYaSca satyavAkyo dfQavrataH': {jYas},
 'majYaSca kftajYaSca satyavAkyo dfQavrataH': {ma},
 'FmajYaSca kftajYaSca satyavAkyo dfQavrataH': {F},
 'fmajYaSca kftajYaSca satyavAkyo dfQavrataH': {f},
 'rmajYaSca kftajY

In [53]:
print('tags : ', tags)

tags :  None


In [54]:
print('splits for: ', sentence.devanagari())
for split in splits: # SanskritObjects
    print([s.devanagari() for s in split])
    print(split)    

splits for:  को न्वस्मिन् साम्प्रतं लोके गुणवान् कश्च वीर्यवान् धर्मज्ञश्च कृतज्ञश्च सत्यवाक्यो दृढव्रतः
['को', 'नु', 'अस्मिन्', 'साम्प्रतम्', 'लोके', 'गुणवान्', 'कस्', 'च', 'वीर्य', 'वान्', 'धर्म', 'ज्ञस्', 'च', 'कृतज्ञस्', 'च', 'सत्य', 'वाक्यस्', 'दृढ', 'व्रतस्']
[ko, nu, asmin, sAmpratam, loke, guRavAn, kas, ca, vIrya, vAn, Darma, jYas, ca, kftajYas, ca, satya, vAkyas, dfQa, vratas]
['को', 'नु', 'अस्मिन्', 'साम्प्रतम्', 'लोके', 'गुणवान्', 'कस्', 'च', 'वीर्य', 'वान्', 'धर्म', 'ज्ञस्', 'च', 'कृतज्ञस्', 'च', 'सत्य', 'वाक्', 'यो', 'दृढ', 'व्रतस्']
[ko, nu, asmin, sAmpratam, loke, guRavAn, kas, ca, vIrya, vAn, Darma, jYas, ca, kftajYas, ca, satya, vAk, yo, dfQa, vratas]
['को', 'नु', 'अस्मिन्', 'साम्', 'प्र', 'तम्', 'लोके', 'गुण', 'वान्', 'कस्', 'च', 'वीर्य', 'वान्', 'धर्म', 'ज्ञस्', 'च', 'कृतज्ञस्', 'च', 'सत्य', 'वाक्यस्', 'दृढ', 'व्रतस्']
[ko, nu, asmin, sAm, pra, tam, loke, guRa, vAn, kas, ca, vIrya, vAn, Darma, jYas, ca, kftajYas, ca, satya, vAkyas, dfQa, vratas]
['को', 'नु', 'अस्मिन्

In [55]:
for graph in graphs: # can be SanskritObjects or Strings
    if isinstance(graph, SanskritObject):
        print(graph.devanagari(),end=' , ')
    else:
        print(graph)

तस् , __end__
व्र , व्रतस् , दृढ , दृढव्रतस् , वाक्यस् , यस् , यो , वाक् , सत्य , अ , अवाक् , सति , सती , सत्यवाक्यस् , य , सत् , च , कृतज्ञस् , ज्ञस् , अ , अज्ञस् , कृत् , कृत , च , ज्ञस् , धर्म , म , ॠ , ध , ऋ , धा , धर्मज्ञस् , अवान् , आन् , अव , वान् , व , वा , अ , अवा , रि , री , वी , वीर्यवान् , इ , यव , य , यवा , यवान् , यो , इस् , इरि , इर्य , इरी , वि , विस् , वीस् , वीर्य , वीरी , वीरि , ईस् , ई , ईरी , ईरि , ईर्य , इस् , च , कस् , गुणवान् , वान् , आन् , व , वा , ण , गु , गुण , के , उ , ल , ऊ , ला , अके , अ , लस् , लोके , तम् , प्र , साम् , अम् , सा , आम् , स , साम्प्रतम् , अस्मिन् , नू , नु , को , कस् , __start__


In [56]:
word = SanskritObject('papracCa')
tags = analyzer.getMorphologicalTags(word)
if tags:
    for tag in tags: # SanskritImmutableStrings
        print(tag)

(praS, {prATamikaH, parasmEpadam, bahuvacanam, liw, maDyamapuruzaH})
(praS, {liw, prATamikaH, praTamapuruzaH, parasmEpadam, ekavacanam})
(praS, {liw, prATamikaH, parasmEpadam, uttamapuruzaH, ekavacanam})


In [26]:
obj1 = SanskritImmutableString('kon', encoding=SLP1)
obj2 = SanskritImmutableString('vasmin', encoding=SLP1)
joins = analyzer.sandhi.join(first_in=obj1, second_in=obj2)
print('joins: ', joins)

joins:  {'konvasmin'}


In [27]:
splits = analyzer.sandhi.split_all(SanskritImmutableString(list(joins)[0]), stop=5)
print('splits: ', [[SanskritImmutableString(s).devanagari() for s in split] for split in splits])

splits:  [['कोनु', 'अस्मिन्'], ['कस्', 'अन्वस्मिन्'], ['कर्', 'अन्वस्मिन्'], ['कः', 'न्वस्मिन्'], ['कोनू', 'अस्मिन्'], ['कोन्व्', 'अस्मिन्'], ['का', 'उन्वस्मिन्'], ['को', 'अन्वस्मिन्'], ['क्', 'ओन्वस्मिन्'], ['कोन्', 'वस्मिन्'], ['कोन्व', 'स्मिन्'], ['क', 'उन्वस्मिन्'], ['का', 'ऊन्वस्मिन्'], ['कर्', 'न्वस्मिन्'], ['क', 'ऊन्वस्मिन्'], ['को', 'न्वस्मिन्'], ['कस्', 'न्वस्मिन्'], ['कः', 'अन्वस्मिन्']]
