# Bengali with CLTK

Use <b>CLTK</b> to analyse Bengali texts!

Let us first add user path, where our scripts will be downloaded to..

In [1]:
import os
USER_PATH = os.path.expanduser('~')

Now, before we can analyse the texts, let us first download the Bengali texts from CLTK's Github repo, for which, we will be needing an importer.

In [2]:
from cltk.corpus.utils.importer import CorpusImporter
bengali_corpus_downloader = CorpusImporter('bengali')

Once we have our importer ready, we can view which corpora are available for download.

In [3]:
bengali_corpus_downloader.list_corpora

['bengali_text_wikisource']

Let us now download the corpus <i>bengali_text_wikisource</i>. The corpus will be downloaded to the home directory of the user in a directory called `cltk_data/text`

In [4]:
bengali_corpus_downloader.import_corpus('bengali_text_wikisource')

Let us now open the text শকুন্তলা by <i>Abanindranath Tagore</i>.

In [5]:
bengali_corpus_path = os.path.join(USER_PATH,'cltk_data/bengali/text/bengali_text_wikisource')
bengali_text_path = os.path.join(bengali_corpus_path,'শকুন্তলা')

Since we have the data differentiated into different text files, let us combine them to form a single text block..

In [6]:
bengali_text_shakuntala = []
for filename in os.listdir(bengali_text_path):
    if filename[-3:] == 'txt':
        with open(os.path.join(bengali_text_path,filename)) as f:
            file_text = f.read()
            print(file_text)
            bengali_text_shakuntala.append(file_text)

তপোবনে ।
 রাজা রাজ্যে চলে গেলেন, আর শকুন্তলা সেই বনে দিন গুন্‌তে লাগল।
 যাবার সময় রাজা নিজের মোহর আংটী শকুন্তলাকে দিয়ে গেলেন, বলে গেলেন—সুন্দরি, তুমি প্রতিদিন আমার নামের একটি করে অক্ষর পড়বে, নামও শেষ হবে আর বনপথে সোণার রথ তোমাকে নিতে আসবে।”
 কিন্তু হায়, সোণার রথ কই এল ?
 কত দিন গেল, কত রাত গেল; দুষ্মন্ত নাম কতবার পড়া হয়ে গেল, তবু সোণার রথ কই এল! হায় হায়, সোণার সাঁঝে সোণার রথ সেই যে গেল আর ফিরল না!
 পৃথিবীর রাজা সোণার সিংহাসনে, আর বনের রাণী কুটীর দুয়ারে,—দুই জনে দুই খানে।
 রাজার শোকে শকুন্তলার মন ভেঙ্গে পড়ল। কোথা রইল অতিথিসেবা, কোথা রইল পোষা হরিণ, কোথা রইল সাধের নিকুঞ্জবনে প্রাণের দুই প্রিয়সখী! শকুন্তলার মুখে হাসি নেই, চোখে ঘুম নেই! রাজার ভাবনা নিয়ে কুটীর দুয়ারে পাষাণ-প্রতিমা বসে রইল।
 রাজার রথ কেন এল না? কেন রাজা ভুলে রইলেন?
 রাজা রাজ্যে গেলে একদিন শকুন্তলা কুটীর দুয়ারে গালে হাত দিয়ে বসে বসে রাজার কথা ভাবছে—ভাবছে আর কাঁদছে, এমন সময় মহর্ষি দুর্ব্বাসা দুয়ারে অতিথি এলেন, শকুন্তলা জানতেও পারলে না, ফিরেও দেখলে না। একে দুর্ব্বাসা মহা অভিমানী, একটুতেই মহা রাগ হয়, কথায় কথায়

## Sentence tokenization

Let us now perform tokenization on the first part of the text <i>Shakuntala</i> . 

In [7]:
bengali_text_shakuntala_first = bengali_text_shakuntala[0]

from cltk.tokenize.sentence import TokenizeSentence
tokenizer = TokenizeSentence('bengali')
bengali_text_shakuntala_first_tokens = tokenizer.tokenize(bengali_text_shakuntala_first)
print(bengali_text_shakuntala_first_tokens)


['তপোবনে', '।', '\n\xa0রাজা', 'রাজ্যে', 'চলে', 'গেলেন', ',', 'আর', 'শকুন্তলা', 'সেই', 'বনে', 'দিন', 'গুন্\u200cতে', 'লাগল', '।', '\n\xa0যাবার', 'সময়', 'রাজা', 'নিজের', 'মোহর', 'আংটী', 'শকুন্তলাকে', 'দিয়ে', 'গেলেন', ',', 'বলে', 'গেলেন—সুন্দরি', ',', 'তুমি', 'প্রতিদিন', 'আমার', 'নামের', 'একটি', 'করে', 'অক্ষর', 'পড়বে', ',', 'নামও', 'শেষ', 'হবে', 'আর', 'বনপথে', 'সোণার', 'রথ', 'তোমাকে', 'নিতে', 'আসবে', '।', '”\n\xa0কিন্তু', 'হায়', ',', 'সোণার', 'রথ', 'কই', 'এল\xa0', '?', '\n\xa0কত', 'দিন', 'গেল', ',', 'কত', 'রাত', 'গেল', ';', 'দুষ্মন্ত', 'নাম', 'কতবার', 'পড়া', 'হয়ে', 'গেল', ',', 'তবু', 'সোণার', 'রথ', 'কই', 'এল', '!', 'হায়', 'হায়', ',', 'সোণার', 'সাঁঝে', 'সোণার', 'রথ', 'সেই', 'যে', 'গেল', 'আর', 'ফিরল', 'না', '!', '\n\xa0পৃথিবীর', 'রাজা', 'সোণার', 'সিংহাসনে', ',', 'আর', 'বনের', 'রাণী', 'কুটীর', 'দুয়ারে', ',', '—দুই', 'জনে', 'দুই', 'খানে', '।', '\n\xa0রাজার', 'শোকে', 'শকুন্তলার', 'মন', 'ভেঙ্গে', 'পড়ল', '।', 'কোথা', 'রইল', 'অতিথিসেবা', ',', 'কোথা', 'রইল', 'পোষা', 'হরিণ', ',', 'কোথা', 

## Transliterations

We can transliterate Bengali scripts to that of other Indic languages. Let us transliterate ` আমি বই পছন্দ করি `to Telugu:

In [8]:
bengali_text_two = 'আমি বই পছন্দ করি'
from cltk.corpus.sanskrit.itrans.unicode_transliterate import UnicodeIndicTransliterator
UnicodeIndicTransliterator.transliterate(bengali_text_two,"bn","te")

'ఆమి బఇ పఛన్ద కరి'

We can also romanize the text as shown:

In [9]:
from cltk.corpus.sanskrit.itrans.unicode_transliterate import ItransTransliterator
ItransTransliterator.to_itrans(bengali_text_two,'bn')

'aami bi paChanda kari'

Similarly, we can indicize a text given in its ITRANS-transliteration

In [10]:
bengali_text_itrans = 'shikshhaa'
ItransTransliterator.from_itrans(bengali_text_itrans,'bn')

'শিক্ষা'

## Syllabifier

We can use the indian_syllabifier to syllabify the Bengali sentences. To do this, we will have to import models as follows. The importing of `sanskrit_models_cltk` might take some time.

In [11]:
phonetics_model_importer = CorpusImporter('sanskrit')
phonetics_model_importer.list_corpora
phonetics_model_importer.import_corpus('sanskrit_models_cltk') 

Now we import the syllabifier and syllabify as follows:

In [12]:
%%capture
from cltk.stem.sanskrit.indian_syllabifier import Syllabifier
bengali_syllabifier = Syllabifier('bengali')
bengali_syllables = bengali_syllabifier.orthographic_syllabify('আমি')

The syllables of the word `আমি` will thus be:

In [13]:
print(bengali_syllables)

['আ', 'মি']
