# Introduction to Indic NLP Library
---
---

Let's have some hands-on experince using the Indic NLP Library. While the libraries discussed in the previous notebook work well for English, Indian languages sometimes requires additional handling in tasks such as tokenization, sentence-splitting, etc. 

More details can be found here https://github.com/anoopkunchukuttan/indic_nlp_library

### Download IndicNLP Library resources

In [2]:
!git clone https://github.com/anoopkunchukuttan/indic_nlp_resources.git

Cloning into 'indic_nlp_resources'...
remote: Enumerating objects: 139, done.[K
remote: Counting objects: 100% (13/13), done.[K
remote: Compressing objects: 100% (13/13), done.[K
remote: Total 139 (delta 2), reused 2 (delta 0), pack-reused 126[K
Receiving objects: 100% (139/139), 149.77 MiB | 7.99 MiB/s, done.
Resolving deltas: 100% (53/53), done.


Set-up the path to Indic NLP Resources folder

### Initialize the Indic NLP library

In [44]:
INDIC_NLP_RESOURCES=r"./indic_nlp_resources/"

In [45]:
import sys
from indicnlp import common
common.set_resources_path(INDIC_NLP_RESOURCES)

In [46]:
from indicnlp import loader
loader.load()

Let's now try out some of the APIs provided by the library

**NOTE:** Many APIs require us to provide the language we are working with. Language information is provided as a 2-letter ISO 639-1 codes. More details and the exact 2-letter code used can be found here https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes

Some languages do not have assigned 2-letter codes. The library uses the following two-letter codes for such languages:

 - Konkani : kK
 - Manipuri : mP
 - Bodo : bD

---
# Text Normalization

Standardize the text written in Indic scripts. Some of the issues handled are
 - Non-spacing characters
 - Multiple representations of Nukta based characters
 - Multiple representations of two part dependent vowel signs
 - Typing inconsistencies: e.g. use of pipe (|) for poorna virama

In [47]:
def normalize_text(input_text, normalizer):
    output_text=normalizer.normalize(input_text)

    print(input_text)
    print()

    print('Before normalization')
    print(' '.join([ hex(ord(c)) for c in input_text ] ))
    print('Length: {}'.format(len(input_text)))
    print()    
    print('After normalization')
    print(' '.join([ hex(ord(c)) for c in output_text ] ))
    print('Length: {}'.format(len(output_text)))    

In [48]:
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory

factory=IndicNormalizerFactory()
normalizer=factory.get_normalizer("hi")

# Reference for Hindi https://unicode.org/charts/PDF/U0900.pdf

input_text="\u0958 \u0915\u093c"

normalize_text( input_text, normalizer )

print("\n\n")

input_text="\u0959 \u0916\u093c"

normalize_text( input_text, normalizer )

क़ क़

Before normalization
0x958 0x20 0x915 0x93c
Length: 4

After normalization
0x915 0x93c 0x20 0x915 0x93c
Length: 5



ख़ ख़

Before normalization
0x959 0x20 0x916 0x93c
Length: 4

After normalization
0x916 0x93c 0x20 0x916 0x93c
Length: 5


---
# Sentence Splitter

Rule-based system to split text into sentences

In [49]:
from indicnlp.tokenize import sentence_tokenize

indic_string="ज़िन्दगी के असली मजे उनके लिए नहीं हैं जो फूलों की छांह के नीचे खेलते और सोते हैं। बल्कि फूलों की छांह के नीचे अगर जीवन का कोई स्वाद छिपा है तो वह भी उन्हीं के लिए है जो दूर रेगिस्तान से आ रहे हैं जिनका कंठ सूखा हुआ, होंठ फटे हुए और सारा बदन पसीने से तर है। पानी में जो अमृत वाला तत्व है, उसे वह जनता है जो धूप में खूब सूख चूका है, वह नहीं जो रेगिस्तान में कभी पड़ा ही नहीं है।"

output_text = normalizer.normalize(indic_string)
sentences=sentence_tokenize.sentence_split(output_text, lang='hi')
for t in sentences:
    print(t)

ज़िन्दगी के असली मजे उनके लिए नहीं हैं जो फूलों की छांह के नीचे खेलते और सोते हैं।
बल्कि फूलों की छांह के नीचे अगर जीवन का कोई स्वाद छिपा है तो वह भी उन्हीं के लिए है जो दूर रेगिस्तान से आ रहे हैं जिनका कंठ सूखा हुआ, होंठ फटे हुए और सारा बदन पसीने से तर है।
पानी में जो अमृत वाला तत्व है, उसे वह जनता है जो धूप में खूब सूख चूका है, वह नहीं जो रेगिस्तान में कभी पड़ा ही नहीं है।


In [50]:
indic_string="لوگوں سے ملتا تھا غم, میں سہہ نہ سکا. اکیلا رہنا چاہتا تھا, مگر رہ بھی نہ سکا."

output_text = normalizer.normalize(indic_string)
sentences=sentence_tokenize.sentence_split(output_text, lang='ur')
for t in sentences:
    print(t)

لوگوں سے ملتا تھا غم, میں سہہ نہ سکا.
اکیلا رہنا چاہتا تھا, مگر رہ بھی نہ سکا.


In [51]:
indic_string="आलस्यं हि मनुष्याणां शरीरस्थो महान् रिपुः। नास्त्युद्यमसमो बन्धुः कृत्वा यं नावसीदति।। अर्थ – व्यक्ति का सबसे बड़ा दुश्मन आलस्य होता है, व्यक्ति का परिश्रम ही उसका सच्चा मित्र होता है। क्योंकि जब भी मनुष्य परिश्रम करता है तो वह दुखी नहीं होता है और हमेशा खुश ही रहता है।"

output_text = normalizer.normalize(indic_string)
sentences=sentence_tokenize.sentence_split(output_text, lang='hi')
for t in sentences:
    print(t)

आलस्यं हि मनुष्याणां शरीरस्थो महान् रिपुः।
नास्त्युद्यमसमो बन्धुः कृत्वा यं नावसीदति।
।
अर्थ - व्यक्ति का सबसे बड़ा दुश्मन आलस्य होता है, व्यक्ति का परिश्रम ही उसका सच्चा मित्र होता है।
क्योंकि जब भी मनुष्य परिश्रम करता है तो वह दुखी नहीं होता है और हमेशा खुश ही रहता है।


As we observe here, in some instances we use two poorna viraam next to each other instead of just one, especially when Sanskrit is embedded in Hindi text. The sentence-splitting treats each as a separate sentence and is prone to failure.

---
# Tokenization

Tokenize based on punctuation boundary

In [83]:
from indicnlp.tokenize import indic_tokenize  

indic_string='उनका जीवन ख़ुशी-ख़ुशी बीत रहा था|'
output_text = normalizer.normalize(indic_string)

print('Input String:\n{}'.format(output_text))
print('\nTokens: ')
for t in indic_tokenize.trivial_tokenize(output_text): 
    print(t)

Input String:
उनका जीवन ख़ुशी-ख़ुशी बीत रहा था।

Tokens: 
उनका
जीवन
ख़ुशी
-
ख़ुशी
बीत
रहा
था
।


---
# Detokenization

It is natural to not add white-space between words and punctuations. The detokenizer handles it

In [80]:
from indicnlp.tokenize import indic_detokenize

indic_string2 = ' '.join( indic_tokenize.trivial_tokenize(indic_string) )

print('Input String\t\t:\t{}'.format(indic_string2))
print('Detokenized String\t:\t{}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

Input String		:	धीरे – धीरे
Detokenized String	:	धीरे – धीरे


It is cool to observe that distinction between - and – needs to be made very clearly, in order for the detokenization to work perfectly. This phenomenon is demonstrated in the two cells below:

In [73]:
from indicnlp.tokenize import indic_tokenize  

indic_string='آہِستہ – آہِستہ'
output_text = normalizer.normalize(indic_string)
    
from indicnlp.tokenize import indic_detokenize  
indic_string2 = ' '.join( indic_tokenize.trivial_tokenize(indic_string) )

print('Input String:\t\t {}'.format(indic_string2))
print('Detokenized String:\t {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

indic_string='धीरे – धीरे'
output_text = normalizer.normalize(indic_string)
    
from indicnlp.tokenize import indic_detokenize  
indic_string2 = ' '.join( indic_tokenize.trivial_tokenize(indic_string) )

print('\nInput String:\t\t {}'.format(indic_string2))
print('Detokenized String:\t {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

Input String:		 آہِستہ – آہِستہ
Detokenized String:	 آہِستہ – آہِستہ

Input String:		 धीरे – धीरे
Detokenized String:	 धीरे – धीरे


In [71]:
from indicnlp.tokenize import indic_tokenize  

indic_string=' آہِستہ - آہِستہ '
output_text = normalizer.normalize(indic_string)
    
from indicnlp.tokenize import indic_detokenize  
indic_string2 = ' '.join( indic_tokenize.trivial_tokenize(indic_string) )

print('Input String:\t\t {}'.format(indic_string2))
print('Detokenized String:\t {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

indic_string='धीरे - धीरे'
output_text = normalizer.normalize(indic_string)
    
from indicnlp.tokenize import indic_detokenize  
indic_string2 = ' '.join( indic_tokenize.trivial_tokenize(indic_string) )

print('\nInput String:\t\t {}'.format(indic_string2))
print('Detokenized String:\t {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

Input String:		 آہِستہ - آہِستہ
Detokenized String:	  آہِستہ-آہِستہ 

Input String:		 धीरे - धीरे
Detokenized String:	 धीरे-धीरे


---
# Script Conversion

Convert from one Indic script to another using a rule-based system

The following scripts are supported:

Devanagari (Hindi,Marathi,Sanskrit,Konkani,Sindhi,Nepali), Assamese, Bangla, Oriya, Gujarati, Gurumukhi (Punjabi), Sindhi, Tamil, Telugu, Kannada, Malayalam

In [96]:
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator
input_text = 'राजस्थान'
print("In Hindi\t:\t",input_text, "\nIn Telegu\t:\t", UnicodeIndicTransliterator.transliterate(input_text,"hi","te"))

In Hindi	:	 राजस्थान 
In Telegu	:	 రాజస్థాన


In [95]:
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator
input_text = 'राजस्थान'
print("In Hindi\t:\t",input_text)
print("In Bangla\t:\t",UnicodeIndicTransliterator.transliterate(input_text,"hi","bn"))
print("In Kannada\t:\t",UnicodeIndicTransliterator.transliterate(input_text,"hi","kn"))


In Hindi	:	 राजस्थान
In Bangla	:	 রাজস্থান
In Kannada	:	 ರಾಜಸ್ಥಾನ


---
# Romanization

Convert Indic script text to Roman text in the ITRANS notation

In [120]:
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator

input_text = 'हिंदी'
lang='hi'

itrans_text = ItransTransliterator.to_itrans(input_text,lang)

print("In Hindi\t\t\t:\t",input_text,"\nIn Roman script(ITRANS notation):\t",itrans_text)
print("The actual spelling\t\t:\t Hindi")

In Hindi			:	 हिंदी 
In Roman script(ITRANS notation):	 hi.mdii
The actual spelling		:	 Hindi


In [118]:
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator

input_text = 'নাজিয়া'
lang='bn'

itrans_text = ItransTransliterator.to_itrans(input_text,lang)

print("In Bangla\t\t\t:\t",input_text,"\nIn Roman script(ITRANS notation):\t",itrans_text)
print("The actual spelling\t\t:\t Nazia")

In Bangla			:	 নাজিয়া 
In Roman script(ITRANS notation):	 naajiaa
The actual spelling		:	 Nazia


---
# Indicization (ITRANS to Indic Script)

Convert script text in ITRANS notation to Indic script

In [126]:
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator

lang='hi'
itrans_text = 'sam'
x = ItransTransliterator.from_itrans(itrans_text,lang)

print(x)
for y in x:
    print('{:x}'.format(ord(y)))


स्स्अअम्म्
938
94d
938
94d
905
905
92e
94d
92e
94d


---
# Word Segmentation

Perform unsupervised word segmentation using Morfessor

The following languages are supported:

Hindi, Punjabi, Marathi, Konkani, Gujarati, Bengali, Kannada, Tamil, Telugu, Malayalam

In [128]:
from indicnlp.morph import unsupervised_morph 
from indicnlp import common

In [129]:
analyzer=unsupervised_morph.UnsupervisedMorphAnalyzer('kn')
indic_string='ರೈತನೊಬ್ಬನ ತೋಟದಲ್ಲಿದ್ದ ಸೇಬು ಮರದಲ್ಲಿಒಂದೇ ಒಂದು ಹಣ್ಣು ಬೆಳೆಯಿತು .'

analyzes_tokens=analyzer.morph_analyze_document(indic_string.split(' '))

for w in analyzes_tokens: 
    print(w)

ರೈತ
ನೊಬ್ಬನ
ತೋಟ
ದಲ್ಲಿದ್ದ
ಸೇಬು
ಮರ
ದಲ್ಲಿ
ಒಂದೇ
ಒಂದು
ಹಣ್ಣು
ಬೆಳೆಯ
ಿತು
.


In [130]:
analyzer=unsupervised_morph.UnsupervisedMorphAnalyzer('hi')
indic_string='मुझे खाना खाना है।'

analyzes_tokens=analyzer.morph_analyze_document(indic_string.split(' '))

for w in analyzes_tokens: 
    print(w)

मुझे
खाना
खाना
है
।


In [132]:
analyzer=unsupervised_morph.UnsupervisedMorphAnalyzer('hi')
indic_string='मैं तुम्हारी दीर्घायु की कामना करती हूँ।'

analyzes_tokens=analyzer.morph_analyze_document(indic_string.split(' '))

for w in analyzes_tokens: 
    print(w)

मैं
तुम्हार
ी
दीर्घा
यु
की
कामना
कर
ती
हूँ
।


In [134]:
analyzer=unsupervised_morph.UnsupervisedMorphAnalyzer('mr')
indic_string='शुभेच्छा'

analyzes_tokens=analyzer.morph_analyze_document(indic_string.split(' '))

for w in analyzes_tokens: 
    print(w)

शुभेच्छा


In [131]:
analyzer=unsupervised_morph.UnsupervisedMorphAnalyzer('bn')
indic_string='এই বাংলা। ইহা হলো মিষ্টি।'

analyzes_tokens=analyzer.morph_analyze_document(indic_string.split(' '))

for w in analyzes_tokens: 
    print(w)

এই
বাংলা।
ই
হা
হলো
মিষ্টি।


---
---