# INDICNLP

 Indic NLP Library is useful for performing advanced text processing tasks for Indian languages. 

In [None]:
import sys
from indicnlp import common

# The path to the local git repo for Indic NLP library
INDIC_NLP_LIB_HOME=r"indic_nlp_library"

# The path to the local git repo for Indic NLP Resources
INDIC_NLP_RESOURCES=r"indic_nlp_resources"

# Add library to Python path
sys.path.append(r'{}\src'.format(INDIC_NLP_LIB_HOME))

# Set environment variable for resources folder
common.set_resources_path(INDIC_NLP_RESOURCES

In [2]:
from indicnlp.tokenize import sentence_tokenize

In [3]:
indic_string="நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளது. இந்த உண்மையைப் புரிந்துக்கொள்ளுதல் மிகமிக அவசியம். 100 ஆற்றல் மிக்க இளைஞர்களைக் கொடுங்கள். இந்தியாவை மாற்றிக் காட்டுகின்றேன் என்றுவிவேகானந்தர் சவால் விட்டுக் கூறினார் என்றால் என்ன தெரியுமா ? 2 விஷயங்கள். 1 இளைஞர்கள் மீது அவருக்கு இருந்தநம்பிக்கை. 2 இந்தியாவை மாற்ற முடியும் என்ற நம்பிக்கை. நாட்டிற்கும் சரி வீட்டிற்கும் சரி, நம்பிக்கை மிக மிக அவசியம்."

# SENTENCE SPLITTER

In [4]:
from indicnlp.tokenize import sentence_tokenize

indic_string="""நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளது. இந்த உண்மையைப் புரிந்துக்கொள்ளுதல் மிகமிக அவசியம். 100 ஆற்றல் மிக்க இளைஞர்களைக் கொடுங்கள். இந்தியாவை மாற்றிக் காட்டுகின்றேன் என்றுவிவேகானந்தர் சவால் விட்டுக் கூறினார் என்றால் என்ன தெரியுமா ? 2 விஷயங்கள். 1 இளைஞர்கள் மீது அவருக்கு இருந்தநம்பிக்கை. 2 இந்தியாவை மாற்ற முடியும் என்ற நம்பிக்கை. நாட்டிற்கும் சரி வீட்டிற்கும் சரி, நம்பிக்கை மிக மிக அவசியம்"""
sentences=sentence_tokenize.sentence_split(indic_string, lang='tam')
for t in sentences:
    print(t)

நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளது.
இந்த உண்மையைப் புரிந்துக்கொள்ளுதல் மிகமிக அவசியம்.
100 ஆற்றல் மிக்க இளைஞர்களைக் கொடுங்கள்.
இந்தியாவை மாற்றிக் காட்டுகின்றேன் என்றுவிவேகானந்தர் சவால் விட்டுக் கூறினார் என்றால் என்ன தெரியுமா ?
2 விஷயங்கள்.
1 இளைஞர்கள் மீது அவருக்கு இருந்தநம்பிக்கை.
2 இந்தியாவை மாற்ற முடியும் என்ற நம்பிக்கை.
நாட்டிற்கும் சரி வீட்டிற்கும் சரி, நம்பிக்கை மிக மிக அவசியம்


# TOKENIZATION

In [5]:
from indicnlp.tokenize import indic_tokenize  

indic_string='நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளத.'

print('Input String: {}'.format(indic_string))
print('Tokens: ')
for t in indic_tokenize.trivial_tokenize(indic_string): 
    print(t)

Input String: நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளத.
Tokens: 
நம்
செயலின்
வெற்றியை
தீர்மானிக்கும்
திறன்
நாம்
வைக்கும்
நம்பிக்கை
மீது
தான்
உள்ளத
.


# SCRIPT CONVERSION

In [7]:
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator
input_text='நம் செயலின் வெற்றியை தீர்மானிக்கும் திறன் நாம் வைக்கும் நம்பிக்கை மீது தான் உள்ளது.'
print(UnicodeIndicTransliterator.transliterate(input_text,"ta","hi"))

नम् चॆयलिऩ् वॆऱ्ऱियै तीर्माऩिक्कुम् तिऱऩ् नाम् वैक्कुम् नम्पिक्कै मीतु ताऩ् उळ्ळतु.


# LEXICAL SIMILARITY

In [8]:
from indicnlp.script import  indic_scripts as isc
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator

In [9]:
lang1_str='இந்தியாவை மாற்றிக் காட்டுகின்றேன் என்றுவிவேகானந்தர் சவால் விட்டுக் கூறினார்.'
lang2_str='पिछले दिनों हम लोगों ने कई उत्सव मनाये. कल, हिन्दुस्तान भर में श्री कृष्ण जन्म-महोत्सव मनाया गयाયો.'
lang1='ta'
lang2='hi'

lcsr, len1, len2 = isc.lcsr_indic(lang1_str,lang2_str,lang1,lang2)
print('{} string: {}'.format(lang1, lang1_str))
print('{} string: {}'.format(lang2, UnicodeIndicTransliterator.transliterate(lang2_str,lang2,lang1)))
print('LCSR: {}'.format(lcsr))


ta string: இந்தியாவை மாற்றிக் காட்டுகின்றேன் என்றுவிவேகானந்தர் சவால் விட்டுக் கூறினார்.
hi string: பிசலே திநோஂ ஹம லோகோஂ நே கஈ உத்ஸவ மநாயே. கல, ஹிந்துஸ்தாந பர மேஂ ஷ்ரீ க௃ஷ்ண ஜந்ம-மஹோத்ஸவ மநாயா கயாયો.
LCSR: 0.24242424242424243


# PHONETICS OF A CHARACTER

In [13]:
from indicnlp.langinfo import *

# Input character 
c='க'
# Language is tamil or 'ta'
lang='ta'

print('Is vowel?:  {}'.format(is_vowel(c,lang)))
print('Is consonant?:  {}'.format(is_consonant(c,lang)))
print('Is velar?:  {}'.format(is_velar(c,lang)))
print('Is palatal?:  {}'.format(is_palatal(c,lang)))
print('Is aspirated?:  {}'.format(is_aspirated(c,lang)))
print('Is unvoiced?:  {}'.format(is_unvoiced(c,lang)))
print('Is nasal?:  {}'.format(is_nasal(c,lang)))

Is vowel?:  False
Is consonant?:  True
Is velar?:  True
Is palatal?:  False
Is aspirated?:  False
Is unvoiced?:  True
Is nasal?:  False


Phonetics of a character describe the speech property of that character (like how will it sound, how much tongue should be rolled to pronounce it, etc.)

velar constriction made by back of tonguw against soft palate