<a href="https://colab.research.google.com/github/Aakash-Ez/indicLP/blob/master/Testing_for_IndicLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Installing indciLP Library
Run the below cell to install indicLP library from pypi package

In [1]:
!pip install indicLP

Collecting indicLP
  Downloading indicLP-0.1.1.tar.gz (67.5 MB)
[K     |████████████████████████████████| 67.5 MB 40 kB/s 
[?25hCollecting torch>=1.9.1
  Downloading torch-1.10.0-cp37-cp37m-manylinux1_x86_64.whl (881.9 MB)
[K     |██████████████████████████████▎ | 834.1 MB 1.3 MB/s eta 0:00:38tcmalloc: large alloc 1147494400 bytes == 0x55f9e1842000 @  0x7fab8ed45615 0x55f97c5754cc 0x55f97c65547a 0x55f97c5782ed 0x55f97c669e1d 0x55f97c5ebe99 0x55f97c5e69ee 0x55f97c579bda 0x55f97c5ebd00 0x55f97c5e69ee 0x55f97c579bda 0x55f97c5e8737 0x55f97c66ac66 0x55f97c5e7daf 0x55f97c66ac66 0x55f97c5e7daf 0x55f97c66ac66 0x55f97c5e7daf 0x55f97c57a039 0x55f97c5bd409 0x55f97c578c52 0x55f97c5ebc25 0x55f97c5e69ee 0x55f97c579bda 0x55f97c5e8737 0x55f97c5e69ee 0x55f97c579bda 0x55f97c5e7915 0x55f97c579afa 0x55f97c5e7c0d 0x55f97c5e69ee
[K     |████████████████████████████████| 881.9 MB 19 kB/s 
[?25hCollecting torchtext>=0.10.1
  Downloading torchtext-0.11.0-cp37-cp37m-manylinux1_x86_64.whl (8.0 MB)
[K     |

# Getting Started with Preprocessing

In [2]:
from indicLP.preprocessing import TextNormalizer
import re

language = "hi"

normalizerHindi = TextNormalizer(language)

In [3]:
text = " नमस्ते! आप कैसे हैं? मुझे आपकी बहुत याद आयी।"
text = re.split('[।;?\.!]',text)
text = list(filter(None, text))

print(text)
# Output is [' नमस्ते', ' आप कैसे हैं', ' मुझे आपकी बहुत याद आयी']

[' नमस्ते', ' आप कैसे हैं', ' मुझे आपकी बहुत याद आयी']


In [4]:
out = normalizerHindi.tokenizer(text, stem = True)
print(out)
# Output is [['▁नमस्त'], ['▁आप', '▁कैस', '▁हैं'], ['▁मुझ', '▁आपक', '▁बहुत', '▁याद', '▁आय']]

[['▁नमस्त'], ['▁आप', '▁कैस', '▁हैं'], ['▁मुझ', '▁आपक', '▁बहुत', '▁याद', '▁आय']]


In [5]:
clean_out = []
for i in out:
    clean_out.append(normalizerHindi.remove_stop_words(i))
print(clean_out)
#Output is  [['▁नमस्त'], [], ['▁मुझ', '▁याद', '▁आय']]

[['▁नमस्त'], [], ['▁मुझ', '▁याद', '▁आय']]


## Word Embedding

In [6]:
from indicLP.preprocessing import Embedding

language = "ta"

word = "பள்ளி"
embedder = Embedding(lang=language)

#print(embedder.get_vector(word))
#Output is:
# [-0.38245687 -0.43007085  0.75659156 -0.029661    0.42061085 -0.78045815
# -0.28127694 -1.0599478  -0.1264891  -0.42795     0.39396504 -0.79804516
#  0.03756442  0.24138477 -0.1513924   0.31122482  0.46426052 -1.2080644
# -0.40227187  0.7438162  -0.4533786   0.40707597 -0.25478044  0.19656514
#  0.5389387   0.2874967   0.43010154  0.13535404 -0.4051279   0.03866816 ...

In [7]:
closest = embedder.get_closest(word)

for i in closest:
    (word, score) = i
    print(word,round(score,2))

#   பாடசாலை 0.87
#   உயர்நில் 0.86
#   கல்லூரி 0.85
#   பாடசால் 0.84
#   உயர்நிலைப்பள்ளி 0.81
#   மேல்நில் 0.81
#   பள்ளிக்கூடம் 0.79
#   கல் 0.78
#   மாண 0.77
#   படிப்பு 0.77

பாடசாலை 0.87
உயர்நில் 0.86
கல்லூரி 0.85
பாடசால் 0.84
உயர்நிலைப்பள்ளி 0.81
மேல்நில் 0.81
பள்ளிக்கூடம் 0.79
கல் 0.78
மாண 0.77
படிப்பு 0.77


# Dataset and Sentence Iterator

In [10]:
! cp kaggle.json ~/.kaggle/kaggle.json
! chmod 600 /root/.kaggle/kaggle.json

In [12]:
from indicLP.datasets import Dataset
import pandas as pd

In [13]:
dt = Dataset()
data = dt.load_dataset("ponniyin-selvan", True)
if isinstance(data, pd.DataFrame):
  print(data.head())
else:
  print(data)

['/content/datasets/ponniyin-selvan/ponniyin-selvan_combine.txt']


In [15]:
from indicLP.utils import SentenceIterator
count = 0
st = SentenceIterator(data[0], "\\n")
for i in st:
  print(i)
  count = count + 1
  if count == 5:
    break

'அத்தியாயம் 50 - குந்தவையின் கலக்கம்
செல்வத்தில் பிறந்து செல்வத்தில் வளர்ந்தவள் இளைய பிராட்டி குந்தவை தேவி. அழகில் ரதியையும், அறிவில் கலைமகளையும் அதிர்ஷ்டத்தில் திருமகளையும் ஒத்தவள். சுந்தர சோழ சக்கரவர்த்தி முதல் சோழ நாட்டின் சாதாரண குடிமக்கள் வரையில் அவளைப் போற்றினார்கள். அரண்மனையில் அவள் காலால் இட்டதைத் தலையினால் செய்ய எத்தனையோ பேர் காத்திருந்தார்கள். சிற்றரசர்கள் தங்கள் குலத்தில் வந்த அரசிளங் குமரிகளுக்குக் குந்தவை தேவியின் பணிப்பெண்ணாக இருக்கும் பாக்கியம் கிடைக்காதா என்று ஏங்கினார்கள். பாரத நாட்டில் அந்நாளில் பேரரசர்களாக விளங்கிய பலரின் பட்டத்துக்குரிய அரச குமாரர்கள் இளைய பிராட்டி குந்தவையின் கைப்பிடிக்கும் பாக்கியத்துக்குத் தவம் கிடந்தார்கள்.
அத்தகைய சகல பாக்கியங்களும் வாய்க்கப் பெற்ற இளைய பிராட்டி அளவில்லாத சோகக் கடலில் மூழ்கி இருந்தாள். ஆதித்த கரிகாலனுக்கு அவள் சொல்லி அனுப்பிய எச்சரிக்கையெல்லாம் பயனிலதாய்ப் போயிற்று. சம்புவரையர் மாளிகைக்குப் போக வேண்டாமென்று அவனுக்கு அவள் அவசரச் செய்தி அனுப்பியிருந்தாள். அவளுடைய வார்த்தைக்கு எப்போதும் மிக்க மதிப்புக் கொடுக்கக்கூடிய அருமைத் தமையன