# Using Indic NLP 
Pre-requisites

   1 Python 3.x 
   2 Morfessor 2.0 Python Library
   3 Indic NLP Resources
    (As from Official documents)
    Note: You also need to have pandas installed

Next two lines I have downloaded :
1: Indic NLP Library(from github)
2: Indic NLP Resources(from github)
3: Morfessor 2.0 Python Library
Set the path accordingly

In [None]:
INDIC_NLP_LIB_HOME="/home/shivam/Desktop/indic_nlp_library-master"


In [2]:
INDIC_NLP_RESOURCES="/home/shivam/Desktop/indic_nlp_resources-master"

In [3]:
import sys

In [4]:
sys.path.append('{}/src'.format(INDIC_NLP_LIB_HOME))

In [5]:
from indicnlp import common

In [6]:
common.set_resources_path(INDIC_NLP_RESOURCES)

In [7]:
from indicnlp import loader


In [8]:
loader.load()

  ALL_PHONETIC_VECTORS= ALL_PHONETIC_DATA.ix[:,PHONETIC_VECTOR_START_OFFSET:].as_matrix()
  TAMIL_PHONETIC_VECTORS=TAMIL_PHONETIC_DATA.ix[:,PHONETIC_VECTOR_START_OFFSET:].as_matrix()
  ENGLISH_PHONETIC_VECTORS=ENGLISH_PHONETIC_DATA.ix[:,PHONETIC_VECTOR_START_OFFSET:].as_matrix()


# Text Normalization 

In [9]:
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory

# \u0958 = क़   \u0915 = क    \u093c = ़ (Nukta)
so input_text= "क़ क़" (ek क nukta ke saath aur ek क ke baad nukta)
instead of this input_text="\u0958 \u0915\u093c" we can also write input_text= "क़ क़".

In [10]:
input_text="\u0958 \u0915\u093c"
remove_nuktas=False
factory=IndicNormalizerFactory()
normalizer=factory.get_normalizer("hi",remove_nuktas)
output_text=normalizer.normalize(input_text)
print(input_text)
print("Elements of input text")
j=1
for c in input_text:
    print(j,c)
    j+=1

print("Elements of output text")
j=1
for c in output_text:
    print(j,c)
    j+=1
print(output_text)


print('Length before normalization: {}'.format(len(input_text)))
print('Length after normalization: {}'.format(len(output_text)))

क़ क़
Elements of input text
1 क़
2  
3 क
4 ़
Elements of output text
1 क
2 ़
3  
4 क
5 ़
क़ क़
Length before normalization: 4
Length after normalization: 5


# Script Conversion


In [31]:
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator
input_text='मेरा नाम शिवम् है '
print(UnicodeIndicTransliterator.transliterate(input_text,"hi","ur"))

मेरा नाम शिवम् है 


# Romanization
It follows ITRANS rules

In [12]:
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator

input_text='राजस्थान'
# input_text='ஆசிரியர்கள்'
lang='hi'

print(ItransTransliterator.to_itrans(input_text,lang))

raajasthaana


# Indicization (ITRANS to Indic Script)

In [24]:
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator


# input_text='rajasthAna'
input_text='Shivam is a good boy'
lang='hi'
x=ItransTransliterator.from_itrans(input_text,lang)
print(x)


षिवम् इस् अ गोओद् बोय्


## With each script character, a phontic feature vector is associated, which encodes the phontic properties of the character.
(only character possible)

In [14]:
from indicnlp.script import  indic_scripts as isc

c='न'
lang='hi'

isc.get_phonetic_feature_vector(c,lang)

array([0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [15]:
from indicnlp.langinfo import *

c='क'
lang='hi'

print('Is vowel?:  {}'.format(is_vowel(c,lang)))
print('Is consonant?:  {}'.format(is_consonant(c,lang)))
print('Is velar?:  {}'.format(is_velar(c,lang)))
print('Is palatal?:  {}'.format(is_palatal(c,lang)))
print('Is aspirated?:  {}'.format(is_aspirated(c,lang)))
print('Is unvoiced?:  {}'.format(is_unvoiced(c,lang)))
print('Is nasal?:  {}'.format(is_nasal(c,lang)))

Is vowel?:  False
Is consonant?:  True
Is velar?:  True
Is palatal?:  False
Is aspirated?:  False
Is unvoiced?:  True
Is nasal?:  False


# Phonetic Similarity

In [16]:
from indicnlp.script import  indic_scripts as isc
from indicnlp.script import  phonetic_sim as psim

c1='क'
c2='ख'
c3='भ'
lang='hi'

print('Similarity between {} and {}'.format(c1,c2))
print(psim.cosine(
    isc.get_phonetic_feature_vector(c1,lang),
    isc.get_phonetic_feature_vector(c2,lang)
    ))

print()

print(u'Similarity between {} and {}'.format(c1,c3))
print(psim.cosine(
    isc.get_phonetic_feature_vector(c1,lang),
    isc.get_phonetic_feature_vector(c3,lang)
    ))



Similarity between क and ख
0.8333319444467593

Similarity between क and भ
0.4999991666680556


# Orthographic Syllabification
A variable-length consonant-vowel sequence, as a basic unit of translation between related languages which use abugida or alphabetic scripts

In [17]:
from indicnlp.syllable import  syllabifier

w='जगदीशचंद्र'
lang='hi'

print(' '.join(syllabifier.orthographic_syllabify(w,lang)))
w='हैदराबाद में बिरयानी खाना है'
print(' '.join(syllabifier.orthographic_syllabify(w,lang)))

ज ग दी श च ंद्र
है द रा बा द   में   बि र या नी   खा ना   है


# Sentence Splitter

In [18]:
from indicnlp.tokenize import sentence_tokenize

indic_string='तो क्या विश्व कप 2019 में मैच का बॉस टॉस है? यानी मैच में हार-जीत में टॉस की भूमिका अहम है? आप ऐसा सोच सकते हैं। विश्वकप के अपने-अपने पहले मैच में बुरी तरह हारने वाली एशिया की दो टीमों पाकिस्तान और श्रीलंका के कप्तान ने हालांकि अपने हार के पीछे टॉस की दलील तो नहीं दी, लेकिन यह जरूर कहा था कि वह एक अहम टॉस हार गए थे।'
sentences=sentence_tokenize.sentence_split(indic_string, lang='hi')
for t in sentences:
    print(t)

तो क्या विश्व कप 2019 में मैच का बॉस टॉस है?
यानी मैच में हार-जीत में टॉस की भूमिका अहम है?
आप ऐसा सोच सकते हैं।
विश्वकप के अपने-अपने पहले मैच में बुरी तरह हारने वाली एशिया की दो टीमों पाकिस्तान और श्रीलंका के कप्तान ने हालांकि अपने हार के पीछे टॉस की दलील तो नहीं दी, लेकिन यह जरूर कहा था कि वह एक अहम टॉस हार गए थे।


# Tokenize

In [32]:
from indicnlp.tokenize import indic_tokenize  

indic_string='शिवम् एक, अच्छा लड़का है।'

print('Input String: {}'.format(indic_string))
print('Tokens: ')
for t in indic_tokenize.trivial_tokenize(indic_string): 
    print(t)

Input String: शिवम् एक, अच्छा लड़का है।
Tokens: 
शिवम्
एक
,
अच्छा
लड़का
है
।


# De-tokenization

In [20]:
from indicnlp.tokenize import indic_detokenize  
indic_string='" सुनो , कुछ आवाज़ आ रही है . " , उसने कहा । '

print('Input String: {}'.format(indic_string))
print('Detokenized String: {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='hi')))

Input String: " सुनो , कुछ आवाज़ आ रही है . " , उसने कहा । 
Detokenized String: "सुनो, कुछ आवाज़ आ रही है.", उसने कहा। 


# Transliterator

In [21]:
from indicnlp.transliterate import acronym_transliterator

ack_transliterator=acronym_transliterator.LatinToIndicAcronymTransliterator()
ack_transliterator.transliterate('SBI',lang='hi')

'एसबीआई'

In [35]:
import json
import requests
from urllib.parse import  quote

# text=quote('manish, joe')
text=quote('यहाँ सब अच्छा है अपना बताये ')
url='http://www.cfilt.iitb.ac.in/indicnlpweb/indicnlpws/transliterate_bulk/hi/en/{}/rule'.format(text)
# print(url)
response = requests.get(url)
response.json()

{'en': ['yahAँ saba achChA hai apanA batAye']}