pip install torch==1.3.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

pip install inltk

Note: inltk is currently supported only on Linux and Windows 10 with Python >= 3.6



Language	Code

Hindi	hi


Punjabi	pa

Sanskrit	sa

Gujarati	gu

Kannada	kn

Malayalam	ml

Nepali	ne

Odia	or

Marathi	mr

Bengali	bn

Tamil	ta

Urdu	ur

English	en

https://visualstudio.microsoft.com/visual-cpp-build-tools/

https://pypi.org/project/nest-asyncio/

By design asyncio does not allow its event loop to be nested. This presents a practical problem: When in an environment where the event loop is already running it’s impossible to run tasks and wait for the result. Trying to do so will give the error “RuntimeError: This event loop is already running”.

The issue pops up in various environments, such as web servers, GUI applications and in Jupyter notebooks.

Optionally the specific loop that needs patching can be given as argument to apply, otherwise the current event loop is used. An event loop can be patched whether it is already running or not. Only event loops from asyncio can be patched; Loops from other projects, such as uvloop or quamash, generally can’t be patched.

In [1]:
import nest_asyncio
nest_asyncio.apply()
from inltk.inltk import setup
setup('hi')


Done!


RuntimeError: Cannot close a running event loop

# 1. Tokenizing using INLTK

In [2]:
from inltk.inltk import tokenize

tokenize('तुम्हारा नाम क्या हे?','hi')

['▁तुम्हारा', '▁नाम', '▁क्या', '▁हे', '?']

# 2. Finding similar sentences w.r.t to given sentence

In [3]:
from inltk.inltk import get_similar_sentences

# get similar sentences to the one given in hindi
output = get_similar_sentences('मैं आज बहुत खुश हूं', 5, 'hi')

print(output)







































['मैं अब बहुत खुश हूं', 'मैं आज अत्यधिक खुश हूं', 'मै आज बहुत खुश हूं', 'मैं आज बहुत हाजिर हूं', 'मैं आज बहुत नाखुश हूं']


In [4]:
output1=get_similar_sentences('राहिल क्रिकेट खेल रहे हैं', 10, 'hi')



















































































In [5]:
print(output1)

['राहेज़ क्रिकेट खेल रहे हैं', 'राहैट क्रिकेट खेल रहे हैं', 'राहैट क्रिकेट खेल रहे हैं', 'राहशाल क्रिकेट खेल रहे हैं', 'राह डैम क्रिकेट खेल रहे हैं', 'जुदाईिल क्रिकेट खेल रहे हैं', 'उन्मत्तिल क्रिकेट खेल रहे हैं', 'अन्वितिल क्रिकेट खेल रहे हैं', 'बिम्बिल क्रिकेट खेल रहे हैं', 'राहिल फुटबॉल खेल रहे हैं']


In [6]:
output2=get_similar_sentences('मैं वीडियो गेम खेल रहा हूं', 5, 'hi')











































In [7]:
print(output2)

['मैं वीडियो इवेंट खेल रहा हूं', 'मैं ऑडियो गेम खेल रहा हूं', 'मैं वीडियो चैट खेल रहा हूं', 'मैं वीडियो गेम क्रीड़ा रहा हूं', 'मैं वीडियो कैसेट खेल रहा हूं']


# 3. Extract embedding vectors


In [13]:

from inltk.inltk import get_embedding_vectors

# get embedding for input words
vectors = get_embedding_vectors("विश्लेषिकी विद्या", "hi")

print(vectors)
# print shape of the first word
print("shape:", vectors[0].shape)



[array([-0.432755, -0.138092,  0.318305, -0.635152, ...,  0.137299, -0.00537 ,  0.549906,  0.068798], dtype=float32), array([ 0.617097,  0.112811, -0.406291, -0.263062, ...,  0.551395,  0.138665,  0.592104,  0.091295], dtype=float32), array([ 0.086235,  0.357199, -0.080211, -0.884763, ...,  0.060092, -0.440086,  0.522778, -0.156389], dtype=float32)]
shape: (400,)


# 4.Text completion


In [16]:

from inltk.inltk import setup
from inltk.inltk import predict_next_words


# predict the next words of the sentence "The weather is nice today"
predict_next_words("आज मौसम अच्छा हे", 10, "hi", 0.7)



'आज मौसम अच्छा हे तो हम या तोहत या ठंड व गर्मी का'

# 5.Finding similarity between two sentences


In [17]:

from inltk.inltk import get_sentence_similarity

# similarity of encodings is calculated by using cmp function whose default is cosine similarity
get_sentence_similarity('मुझे क्रिकेट देखना पसंद है', 'मुझे क्रिकेट खेलना पसंद है', 'hi')





0.9165630340576172

# removing Unknown/foreign language

In [4]:
from inltk.inltk import remove_foreign_languages
remove_foreign_languages('विकिपीडिया सभी विषयों ਇੱਕ ਅਲੌਕਿਕ ਨਜ਼ਾਰਾ ਬੱਝਾ ਹੋਇਆ ਸਾਹਮਣੇ ਆ ਖਲੋਂਦਾ ਸੀ पर प्रामाणिक और 维基百科:关于中文维基百科 उपयोग, परिवर्तन 维基百科:关于中文维基百科', 'hi')



['▁विकिपीडिया',
 '▁सभी',
 '▁विषयों',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁पर',
 '▁प्रामाणिक',
 '▁और',
 '▁',
 '<unk>',
 ':',
 '<unk>',
 '▁उपयोग',
 ',',
 '▁परिवर्तन',
 '▁',
 '<unk>',
 ':',
 '<unk>']

# Finding out the language in which the text is given

In [11]:
from inltk.inltk import identify_language
identify_language("میں یہ جملہ پڑھ رہا ہوں")

RuntimeError: Cannot close a running event loop

# stanford nlp

In [18]:
import stanfordnlp
stanfordnlp.download('hi')


Using the default treebank "hi_hdtb" for language "hi".
Would you like to download the models for: hi_hdtb now? (Y/n)
Y

Default download directory: C:\Users\rahil\stanfordnlp_resources
Hit enter to continue or type an alternate directory.


Downloading models for: hi_hdtb
Download location: C:\Users\rahil\stanfordnlp_resources\hi_hdtb_models.zip


100%|█████████████████████████████████████████████████████████████████████████████| 208M/208M [2:00:25<00:00, 28.7kB/s]



Download complete.  Models saved to: C:\Users\rahil\stanfordnlp_resources\hi_hdtb_models.zip
Extracting models file for: hi_hdtb
Cleaning up...Done.
