# Telugu with CLTK

A quick overview of how you can analyse your Telugu texts with <b>CLTK</b> ! <br>
Let's begin by adding the `USER_PATH`..

In [1]:
import os
USER_PATH = os.path.expanduser('~')

In order to be able to download Telugu texts from CLTK's Github repo, we will require an importer.

In [2]:
from cltk.corpus.utils.importer import CorpusImporter
telugu_downloader = CorpusImporter('telugu')

We can now see the corpora available for download, by using `list_corpora` feature of the importer. Let's go ahead and try it out!

In [3]:
telugu_downloader.list_corpora

['telugu_text_wikisource']

The corpus <i>telugu_text_wikisource</i> can be downloaded from the Github repo. The corpus will be downloaded to the directory `cltk_data/telugu` at the above mentioned `USER_PATH`

In [4]:
telugu_downloader.import_corpus('telugu_text_wikisource')

You can see the texts downloaded by doing the following, or checking out the `cltk_data/telugu/text/telugu_text_wikisource/texts` directory.

In [5]:
telugu_corpus_path = os.path.join(USER_PATH,'cltk_data/telugu/text/telugu_text_wikisource/texts')
list_of_texts = [text for text in os.listdir(telugu_corpus_path) if '.' not in text]
print(list_of_texts)

['kumari_satakam', 'vemana_satakam', 'brahma_puranam', 'neeti_satakam', 'srimadbhagavatham', 'dwarakapathi_satakam', 'krishna_satakam', 'bharga_satakam', 'dasaradhi_satakam', 'ramachandarprabhu_satakam', 'molla_ramayanam', 'srungara_satakam', 'sri_kalahistiswara_satakam', 'siva_puranam', 'narasimha_satakam', 'vrushadhipa_satakam', 'sumathi_satakam', 'kumara_satakam', 'bhadadri_satakam', 'pothana_telugu_bhagavatham', 'narayana_satakam', 'bhaskara_satakam', 'mrutyunjaya_siva_satakam', 'suryasatakam', 'devakinandana_satakam', 'vairagya_satakam']


Now that we have our texts, let's take a sample from one of them. For this tutorial, we shall be using <i>Kumari Satakam</i> by Pakki Venkata Narasimha Kavi.

In [6]:
telugu_text_path = os.path.join(telugu_corpus_path,'kumari_satakam/satakam.txt')
telugu_text = open(telugu_text_path,'r').read()
print(telugu_text[:446])

1. శ్రీ భూ నీళా హైమవ
తీ భారతు లతుల శుభవ తిగ నెన్ను చు స 
త్సౌభాగ్యము నీ కొసగంగ
లో భావించెదరు ధర్మ లోల కుమారీ!

2. చెప్పెడి బుద్ధులలోపల
దప్పకు మొక టైన సర్వ ధర్మములందున్
మెప్పొంది యిహపరంబులన్
దప్పింతయు లేక మెలగ దగును కుమారీ!

3. ఆటల బాటలలోనే
మాటయు రాకుండన్ దండ్రి మందిరమందున్
బాటిల్లు గాపురములో
వాట మెఱిగి బాల! తిరుగ వలయున్ గుమారీ!

4. మగనికి నత్తకు మామకున్
దగ సేవ యొనర్చుచోటన్ దత్పరిచర్యన్
మిగుల నుతి బొందుచుండుట
మగువలకున్ బాడి తెలిసి మసలు కుమారీ!


## Telugu Alphabets

Telugu alphabets are grouped as follows:

In [7]:
from cltk.corpus.telugu.alphabet import *
print("NumeralS:",NUMERLALS)
print("Vowels:",VOWELS)
print("Consonants:",CONSONANTS)

NumeralS: ['౦', '౧', '౨', '౩', '౪\t', '౫', '౬', '౭', '౮', '౯']
Vowels: ['అ ', 'ఆ', 'ఇ', 'ఈ ', 'ఉ ', 'ఊ ', 'ఋ  ', 'ౠ  ', 'ఌ ', 'ౡ', 'ఎ', 'ఏ', 'ఐ', 'ఒ', 'ఓ', 'ఔ ', 'అం', 'అః']
Consonants: ['క', 'ఖ', 'గ', 'ఘ', 'ఙచ', 'ఛ', 'జ', 'ఝ', 'ఞ', 'ట', 'ఠ', 'డ ', 'ఢ', 'ణ', 'త', 'థ', 'ద', 'ధ', 'న', 'ప', 'ఫ', 'బ', 'భ', 'మ', 'య', 'ర', 'ల', 'వ', 'శ', 'ష', 'స ', 'హ', 'ళ', 'క్ష ', 'ఱ']


## Transliterations

We can transliterate Telugu scripts to that of other Indic languages. Let us transliterate one of the lines from the above text,  `లో భావించెదరు ధర్మ లోల కుమారీ! `to Hindi:

In [8]:
telugu_text_two = 'లో భావించెదరు ధర్మ లోల కుమారీ!'
from cltk.corpus.sanskrit.itrans.unicode_transliterate import UnicodeIndicTransliterator
UnicodeIndicTransliterator.transliterate(telugu_text_two,"te","hi")

'लो भाविंचॆदरु धर्म लोल कुमारी!'

We can also romanize the text as shown:

In [9]:
from cltk.corpus.sanskrit.itrans.unicode_transliterate import ItransTransliterator
ItransTransliterator.to_itrans(telugu_text_two,'te')

'lo bhaawi.mch.edaru dharma lola kumaarii!'

Similarly, we can indicize a text given in its ITRANS-transliteration

In [10]:
telugu_text_itrans = 'kumaarii'
ItransTransliterator.from_itrans(telugu_text_itrans,'te')

'కుమారీ'

## Syllabifier

We can use the indian_syllabifier to syllabify the Telugu sentences. To do this, we will have to import models as follows. The importing of `sanskrit_models_cltk` might take some time.

In [11]:
phonetics_model_importer = CorpusImporter('sanskrit')
phonetics_model_importer.list_corpora
phonetics_model_importer.import_corpus('sanskrit_models_cltk') 

Now we import the syllabifier and syllabify as follows:

In [12]:
%%capture
from cltk.stem.sanskrit.indian_syllabifier import Syllabifier
telugu_syllabifier = Syllabifier('telegu')
telugu_syllables = telugu_syllabifier.orthographic_syllabify('కుమారీ')

The syllables of the word `'కుమారీ'` will thus be:

In [13]:
print(telugu_syllables)

['కు', 'మా', 'రీ']
