# CLTK Tokenizer

In [3]:
from cltk import NLP

In [4]:
cltk_nlp = NLP(language="san")


‎𐤀 CLTK version '1.1.6'.
Pipeline for language 'Sanskrit' (ISO: 'san'): `MultilingualTokenizationProcess`, `SanskritEmbeddingsProcess`, `StopsProcess`.


In [5]:
from pprint import pprint
pprint(cltk_nlp.pipeline.processes)

[<class 'cltk.tokenizers.processes.MultilingualTokenizationProcess'>,
 <class 'cltk.embeddings.processes.SanskritEmbeddingsProcess'>,
 <class 'cltk.stops.processes.StopsProcess'>]


In [6]:
sanskrit_text_example = 'वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति । वार्त्तापत्रम् अस्माकं ज्ञानस्य गंङगा इव।यथा प्रभाते करदर्शनम् आवश्यकं सञ्जताम्।'


In [7]:
 cltk_doc = cltk_nlp.analyze(sanskrit_text_example)

CLTK message: This part of the CLTK depends upon word embedding models from the Fasttext project.
Do you want to download file 'https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.sa.vec' to '/home/kasyap/cltk_data/san/embeddings/fasttext/wiki.sa.vec'? [Y/n] 
Y


100%|███████████████████████████████████████████████████████████████████████████████| 129M/129M [00:11<00:00, 11.2MiB/s]


In [8]:
cltk_doc

Doc(language='san', words=[Word(index_char_start=0, index_char_stop=14, index_token=0, index_sentence=None, string='वार्त्तापत्रम्', pos=None, lemma=None, stem=None, scansion=None, xpos=None, upos=None, dependency_relation=None, governor=None, features={}, category={}, stop=False, named_entity=None, syllables=None, phonetic_transcription=None, definition=None), Word(index_char_start=15, index_char_stop=27, index_token=1, index_sentence=None, string='अर्वाचीनकाले', pos=None, lemma=None, stem=None, scansion=None, xpos=None, upos=None, dependency_relation=None, governor=None, features={}, category={}, stop=False, named_entity=None, syllables=None, phonetic_transcription=None, definition=None), Word(index_char_start=28, index_char_stop=35, index_token=2, index_sentence=None, string='मानवस्य', pos=None, lemma=None, stem=None, scansion=None, xpos=None, upos=None, dependency_relation=None, governor=None, features={}, category={}, stop=False, named_entity=None, syllables=None, phonetic_transcr

In [9]:
from cltk.sentence.san import SanskritRegexSentenceTokenizer


In [10]:
tokenizer = SanskritRegexSentenceTokenizer()

In [30]:
"""Test tokenizing Sanskrit sentences."""
text = """श्री भगवानुवाच भूय एव महाबाहो श्रृणु मे परमं वचः। यत्तेऽहं प्रीयमाणाय वक्ष्यामि हितकाम्यया।।
न मे विदुः सुरगणाः प्रभवं न महर्षयः। अहमादिर्हि देवानां महर्षीणां च सर्वशः।।"""
target = [
            "श्री भगवानुवाच भूय एव महाबाहो श्रृणु मे परमं वचः।",
            "यत्तेऽहं प्रीयमाणाय वक्ष्यामि हितकाम्यया।।",
            "न मे विदुः सुरगणाः प्रभवं न महर्षयः।",
            "अहमादिर्हि देवानां महर्षीणां च सर्वशः।।",
        ]
        
        #self.assertEqual(tokenized_sentences, target)

In [12]:
tokenized_sentences = tokenizer.tokenize(text)


In [13]:
print(tokenized_sentences)

['श्री भगवानुवाच भूय एव महाबाहो श्रृणु मे परमं वचः।', 'यत्तेऽहं प्रीयमाणाय वक्ष्यामि हितकाम्यया।।', 'न मे विदुः सुरगणाः प्रभवं न महर्षयः।', 'अहमादिर्हि देवानां महर्षीणां च सर्वशः।।']


In [14]:
tokenizer.tokenize(sanskrit_text_example)

['वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति ।',
 'वार्त्तापत्रम् अस्माकं ज्ञानस्य गंङगा इव।यथा प्रभाते करदर्शनम् आवश्यकं सञ्जताम्।']

# Sanskrit Parser

In [27]:
from sanskrit_parser import Parser
from indic_transliteration import sanscript

In [28]:
parser = Parser(output_encoding=sanscript.DEVANAGARI)

In [29]:
text = 'तस्मात्समस्तक्षत्रवर्गगर्वपाटनवरिष्ठधारापरश्वधभरणभीषणवेषभार्गवभङ्गादपरिच्छिन्नतरशौर्यशालिनि'
splits = parser.split(text, limit=10)
for split in splits:
    print(f'{split}')

['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाटन', 'वरिष्ठ', 'धारा', 'परशु', 'अध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्', 'अपरि', 'छिन्न', 'तर', 'शौर्य', 'शालि', 'नि']
['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाटन', 'वरिष्ठ', 'ध', 'आरा', 'परश्वध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्', 'अपरि', 'छिन्न', 'तर', 'शौर्य', 'शालि', 'नि']
['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाटन', 'वरिष्ठ', 'धारा', 'परशु', 'अध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्', 'अपरि', 'छिन्न', 'तर', 'शौर्य', 'शालिनि']
['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाटन', 'वरिष्ठ', 'ध', 'आरा', 'परश्वध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्', 'अपरि', 'छिन्न', 'तर', 'शौर्य', 'शालिनि']
['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाटन', 'वरिष्ठ', 'धारा', 'परश्वध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्', 'अपरि', 'छिन्न', 'तर', 'शौर्य', 'शालि', 'नि']
['तस्मात्', 'समस्त', 'क्षत्र', 'वर्ग', 'गर्व', 'पाट', 'न', 'वरिष्ठ', 'धारा', 'परशु', 'अध', 'भरण', 'भीषण', 'वेष', 'भार्गव', 'भङ्गात्'

In [33]:
splits = parser.split(sanskrit_text_example)
for split in splits:
    print(f'{split}')

['वार्त्ता', 'पत्रम्', 'अर्वाच्', 'ईन्', 'अकाले', 'मानवस्य', 'जीवनम्', 'अस्ति', 'वार्त्ता', 'पत्रम्', 'अस्माकम्', 'ज्ञानस्य', 'गम्', 'ङ', 'गौ', 'इव', 'यथा', 'प्रभाते', 'कर', 'दर्शनम्', 'आवश्यकम्', 'सन्', 'ज', 'ताम्']
['वार्त्ता', 'पत्रम्', 'अः', 'वाची', 'न', 'काले', 'मानवस्य', 'जीवनम्', 'अस्ति', 'वार्त्ता', 'पत्रम्', 'अस्माकम्', 'ज्ञानस्य', 'गम्', 'ङ', 'गौ', 'इव', 'यथा', 'प्रभाते', 'कर', 'दर्शनम्', 'आवश्यकम्', 'सन्', 'ज', 'ताम्']
['वार्त्ता', 'पत्रम्', 'अः', 'वाची', 'न', 'काले', 'मानवस्य', 'जीव', 'नम्', 'अस्ति', 'वार्त्ता', 'पत्रम्', 'अस्माकम्', 'ज्ञानस्य', 'गम्', 'ङ', 'गौ', 'इव', 'यथा', 'प्रभाते', 'कर', 'दर्शनम्', 'आवश्यकम्', 'सन्', 'ज', 'ताम्']
['वार्त्ता', 'पत्रम्', 'अर्वाचीन', 'काले', 'मानवस्य', 'जीवनम्', 'अस्ति', 'वार्त्ता', 'पत्रम्', 'अस्माकम्', 'ज्ञानस्य', 'गम्', 'ङ', 'गौ', 'इव', 'यथा', 'प्रभाते', 'कर', 'दर्शनम्', 'आवश्यकम्', 'सन्', 'ज', 'ताम्']
['वार्त्ता', 'पत्रम्', 'अर्वाच्', 'ईन्', 'अकाले', 'मानवस्य', 'जीव', 'नम्', 'अस्ति', 'वार्त्ता', 'पत्रम्', 'अस्माकम्', 'ज्ञानस्य', 'गम्'

In [34]:
splits

[Split(वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति । वार्त्तापत्रम् अस्माकं ज्ञानस्य गंङगा इव।यथा प्रभाते करदर्शनम् आवश्यकं सञ्जताम्।) = [vArttA, patram, arvAc, In, akAle, mAnavasya, jIvanam, asti, vArttA, patram, asmAkam, jYAnasya, gam, Na, gO, iva, yaTA, praBAte, kara, darSanam, AvaSyakam, san, ja, tAm],
 Split(वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति । वार्त्तापत्रम् अस्माकं ज्ञानस्य गंङगा इव।यथा प्रभाते करदर्शनम् आवश्यकं सञ्जताम्।) = [vArttA, patram, ar, vAcI, na, kAle, mAnavasya, jIvanam, asti, vArttA, patram, asmAkam, jYAnasya, gam, Na, gO, iva, yaTA, praBAte, kara, darSanam, AvaSyakam, san, ja, tAm],
 Split(वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति । वार्त्तापत्रम् अस्माकं ज्ञानस्य गंङगा इव।यथा प्रभाते करदर्शनम् आवश्यकं सञ्जताम्।) = [vArttA, patram, ar, vAcI, na, kAle, mAnavasya, jIva, nam, asti, vArttA, patram, asmAkam, jYAnasya, gam, Na, gO, iva, yaTA, praBAte, kara, darSanam, AvaSyakam, san, ja, tAm],
 Split(वार्त्तापत्रम् अर्वाचीनकाले मानवस्य जीवनमस्ति । वार्त्ताप