# Hindi with CLTK

Analyse hindi texts using CLTK! <br>
Firstly, we need to add the path where our corpora will reside.

In [1]:
import os
USER_PATH = os.path.expanduser('~')

Before we begin analysing the texts, we will need to download the Hindi corpora, for which, we will be using an Importer. Call the importer to download Hindi texts, as follows.. 

In [2]:
from cltk.corpus.utils.importer import CorpusImporter
hindi_corpus_importer = CorpusImporter('hindi')

You can view which corpora to download by calling list_corpora() method

In [3]:
hindi_corpus_importer.list_corpora

['hindi_text_ltrc']

In [4]:
hindi_corpus_importer.import_corpus('hindi_text_ltrc');

It can be verified that the `hindi_text_ltrc` corpus is downloaded in a `cltk_data/hindi/text` folder which at the path given by `USER_PATH`. It is now possible to analyse the texts within. For this tutorial, let us analyse the text `Akiri Kalam` by the poet Malik Muhammad Jayasi, which is at the path as shown.

In [5]:
hindi_corpus_path = os.path.join(USER_PATH,'cltk_data/hindi/text/hindi_text_ltrc/')
hindi_text_path = os.path.join(hindi_corpus_path,'JayasI/AKirIkalAm/main.u')
hindi_text = open(hindi_text_path,'r').read()

Let us see the contents of `hindi_text`

In [6]:
print(hindi_text)

              आखरी कलाम

पहिले नावँ दैउ कर लीन्हा । जेंइ जिउ दीन्ह, बोल मुख कीन्हा॥
दीन्हेसि सिर जो सँवारै पागा । दीन्हेसि कया जो पहिरै बागा॥
दीन्हेसि नयन जोति, उजियारा । दीन्हेसि देखै कहँ संसारा॥
दीन्हेसि स्रवन बात जेहि सुनै । दीन्हेसि बुध्दि, ज्ञान बहु गुनै॥
दीन्हेसि नासिक लीजै बासा । दीन्हेसि सुमन सुगंधा बिरासा॥
दीन्हेसि जीभ बैन रस भाखै । दीन्हेसि भुगुति, साधा सब राखै॥
दीन्हेसि दसन, सुरग कपोला । दीन्हेसि अधार जे रचैं तँबोला॥
दीन्हेसि बदन सुरूप रँग, दीन्हेसि माथे भाग।
देखि दयाल, 'मुहम्मद', सीस नाइ पद लाग॥1॥

दीन्हेसि कंठ बोल जेहि माहाँ । दीन्हेसि भुजादंड, बल बाहाँ॥
दीन्हेसि हिया भोग जेहि जमा । दीन्हेसि पाँच भूत, आतमा॥
दीन्हेसि बदन सीत औ घामू । दीन्हेसि सुक्ख नींद बिसरामू॥
दीन्हेसि हाथ चाह जस कीजै । दीन्हेसि कर पल्लव गहि लीजै॥
दीन्हेसि रहस कूद बहुतेरा । दीन्हेसि हरष हिया बहु मेरा॥
दीन्हेसि बैठक आसन मारै । दीन्हेसि बूत जो उठें सँभारैं॥
दीन्हेसि सबै सँपूरन काया । दीन्हेसि होइ चलै कहँ पाया॥
दीन्हेसि नौ नौ फाटका, दीन्हेसि दसवँ दुवार।
सो अस दानि 'मुहम्मद' तिन्ह कै हौं बलिहार॥2॥

मरम नैन कर

## Tokenizing Sentences

Let us tokenize the sentences in `hindi_text`.

In [7]:
from cltk.tokenize.sentence import TokenizeSentence
hindi_tokenizer = TokenizeSentence('hindi')
hindi_tokens = hindi_tokenizer.tokenize(hindi_text)
print(hindi_tokens[:50])

['आखरी', 'कलाम\n\nपहिले', 'नावँ', 'दैउ', 'कर', 'लीन्हा', '।', 'जेंइ', 'जिउ', 'दीन्ह', ',', 'बोल', 'मुख', 'कीन्हा', '॥', '\nदीन्हेसि', 'सिर', 'जो', 'सँवारै', 'पागा', '।', 'दीन्हेसि', 'कया', 'जो', 'पहिरै', 'बागा', '॥', '\nदीन्हेसि', 'नयन', 'जोति', ',', 'उजियारा', '।', 'दीन्हेसि', 'देखै', 'कहँ', 'संसारा', '॥', '\nदीन्हेसि', 'स्रवन', 'बात', 'जेहि', 'सुनै', '।', 'दीन्हेसि', 'बुध्दि', ',', 'ज्ञान', 'बहु', 'गुनै']


## Stopword filtering

Stopwords list for Hindi can be found at `stop` module of cltk.

In [8]:
from cltk.stop.classical_hindi.stops import STOPS_LIST
print (STOPS_LIST[:10])

['हें', 'है', 'हैं', 'हि', 'ही', 'हो', 'हे', 'से', 'अत', 'के']


Let us filter the `hindi_tokens` list for words that are not stop words.

In [9]:
hindi_tokens_no_stop  = [token for token in hindi_tokens if token not in STOPS_LIST]
print(hindi_tokens_no_stop[:5])

['आखरी', 'कलाम\n\nपहिले', 'नावँ', 'दैउ', 'कर']


In [10]:
print(len(hindi_tokens))
print(len(hindi_tokens_no_stop))

6404
5987


As one can see, `hindi_tokens` had 6404 tokens whereas `hindi_tokens_no_stop` has 5987

## Swadesh list for Hindi

Swadesh list for Hindi can be obtained as follows:

In [11]:
from cltk.corpus.swadesh import Swadesh
swadesh_list = Swadesh('hi')
print(swadesh_list.words())

['मैं', 'तू', 'वह', 'हम', 'तुम', 'वे', 'यह', 'वह', 'यहाँ', 'वहाँ', 'कौन', 'क्या', 'कहाँ', 'कब', 'कैसा', 'नहीं', 'सब', 'बहुत', 'कुछ', 'थोड़ा', 'दूसरा', 'एक', 'दो', 'तीन', 'चार', 'पाँच', 'बड़ा', 'लम्बा', 'चौड़ा', 'गाढ़ा', 'भारी', 'छोटा', 'छोटा', 'तंग', 'पतला', 'औरत', 'आदमी', 'इंसान', 'बच्चा', 'पत्नी', 'पति', 'माता', 'पिता', 'जानवर', 'मछली', 'चिड़िया', 'कुत्ता', 'जूँ', 'साँप', 'कीड़ा', 'पेड़', 'जंगल', 'डण्डा', 'फल', 'बीज', 'पत्ता', 'जड़', 'छाल', 'फूल', 'घास', 'रस्सी', 'त्वचा', 'माँस', 'ख़ून', 'हड्डी', 'चरबी', 'अंडा', 'सींग', 'पूँछ', 'पंख', 'बाल', 'सर', 'कान', 'आँख', 'नाक', 'मुँह', 'दाँत', 'जीभ', 'नाख़ुन', 'पैर', 'टांग', 'घुटना', 'हाथ', 'पंख', 'पेट', 'अंतड़ी', 'गरदन', 'पीठ', 'छाती', 'दिल', 'जिगर', 'पीना', 'खाना', 'काटना', 'चूसना', 'थूकना', 'उल्टी करना', 'फूँक मारना', 'साँस लेना', 'हँसना', 'देखना', 'सुनना', 'जानना', 'सोचना', 'सूंघना', '(से) डरना ((se) ḍarnā', 'सोना', 'जीना', 'मरना', 'मारना', 'लड़ना', 'शिकार करना', 'मारना', 'काटना', 'बंटना', 'भोंकना', 'खरोंचना', 'खोदना', 'तैरना', 'उड़ना', 'च

## Transliterations

We can transliterate Hindi scripts to that of other Indic languages. Let us transliterate ` फूल `to Malayalam:

In [2]:
from cltk.corpus.sanskrit.itrans.unicode_transliterate import UnicodeIndicTransliterator
UnicodeIndicTransliterator.transliterate(' फूल ',"hi","ml")

' ഫൂല '

We can also romanize the text as shown:

In [13]:
hindi_text_two = 'पढ़ना एक अच्छी आदत है।'
from cltk.corpus.sanskrit.itrans.unicode_transliterate import ItransTransliterator
ItransTransliterator.to_itrans(hindi_text_two,'hi')

'paDha़naa eka achChii aadata hai.'

Similarly, we can indicize a text given in its ITRANS-transliteration

In [14]:
hindi_text_itrans = 'bhaashhaa wichaaro.m ko wyakta karane kaa maadhyama hai'
ItransTransliterator.from_itrans(hindi_text_itrans,'hi')

'भाषा विचारों को व्यक्त करने का माध्यम है'

## Syllabifier

We can use the `indian_syllabifier` to syllabify the Hindi sentences. To do this, we will have to import models as follows. The importing of `sanskrit_models_cltk` might take some time.

In [15]:
phonetics_model_importer = CorpusImporter('sanskrit')
phonetics_model_importer.list_corpora
phonetics_model_importer.import_corpus('sanskrit_models_cltk') 

Now we import the syllabifier and syllabify as follows:

In [16]:
%%capture
from cltk.stem.sanskrit.indian_syllabifier import Syllabifier
hindi_syllabifier = Syllabifier('hindi')
hindi_syllables = hindi_syllabifier.orthographic_syllabify('पुस्तकालय')

The syllables of the word पुस्तकालय will thus be:

In [17]:
print(hindi_syllables)

['पु', 'स्त', 'का', 'ल', 'य']
