<a href="https://colab.research.google.com/github/stdntlfe/Speaker-Identification-Audio-Classification/blob/master/mahaNLP_demo_updated.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **mahaNLP**

- **mahaNLP** is a python-based natural language processing library focused on the Indian language **Marathi**. It provides an easy interface for NLP features like sentiment analysis, named entity recognition, hate speech detection, etc. exclusively for Marathi text.
- **L3Cube**, the author of this library aims to bring Marathi to the forefront of IndicNLP. Our vision is to make Marathi a resource-rich language and promote AI for Maharashtra!

# **'How to use mahaNLP?'**

### installation

Library link (for reference): https://pypi.org/project/mahaNLP/

In [None]:
pip install mahaNLP==0.6

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mahaNLP==0.6
  Downloading mahaNLP-0.6-py3-none-any.whl (34 kB)
Installing collected packages: mahaNLP
Successfully installed mahaNLP-0.6


#### import the library

In [None]:
import mahaNLP

### **This library is customised to be used by an ML practitioner and a basic programmer.**

***
***

## **1. Basic Usage:**

This mode of access is designed from a basic programmer point of view and follow simpler way to perform the desired tasks.

### The below mentioned topics are explained in the following examples:

**a. Datasets:** Provides the functionality to load the dataset

**b. Autocomplete:** Text prediction

**c. Preprocess:** Data cleaning

**d. Tokenizer:** Tokenizes text

**e. Tagger:** Named entity recognision

**f. MaskFill:** Predicts the masked tokens

**g. Hate:** Detects hate speech

**h. Sentiment:** Sentiment analysis

**i. Similarity:** Detects similarity

***

### **a. Datasets**

#### import datasets

In [None]:
from mahaNLP.datasets import *

#### loading the datasets

In [None]:
# loads the dataframe into 'dataset'
dataset_1 = load_datasets('mahaSent')

In [None]:
dataset_2 = load_datasets('mahaNER')

In [None]:
dataset_3 = load_datasets('mahaHate')

***

### **b. Autocomplete**

#### import

In [None]:
from mahaNLP.autocomplete import TextGenerator

#### create an object

In [None]:
model1 = TextGenerator()

### **Usage of autocomplete:**
It provides two functionalities
* **next_word:** Predicts the next word in the given sentence
* **complete_sentence:** Predicts the remanining blank words in the given sentence and completes a sentence.

#### **next_word:**

In [None]:
# Example:

text1 = 'आपण आरोग्याची काळजी घेतली '
# English Translation:
# 'We take care of our health'

model1.next_word(text1)



Unnamed: 0,generated_text
0,आपण आरोग्याची काळजी घेतली पाहिजे


Optional Parameter(s):
* **num_of_predictions** (any number) in int - Default: 1
  * Used to pass the number of predictions to be made

In [None]:
# Example:

model1.next_word(text1, num_of_predictions = 2)
# or
# model1.next_word(text1, 2)

Unnamed: 0,generated_text
0,आपण आरोग्याची काळजी घेतली तर
1,आपण आरोग्याची काळजी घेतली पाहिजे


#### **complete_sentence:**

In [None]:
# Example:

text2 = 'कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे'
# English Translation:
# 'From hot summers to cooler monsoons, the change in climate also affects human health. Due to changes in climate'

model1.complete_sentence(text2)

Unnamed: 0,generated_text
0,"कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे सर्दी, खोकला, ताप, कान, घसा, का विळ, घशात खव खव ख वणे यासारख्या आजारांचा प्रसार थांब वणं आवश्यक आहे"


Optional Parameter(s):
* **num_of_words** (any number) in int - Default: 25
  * Used to pass the number of words to be filled
* **num_of_predictions** (any number) in int - Default: 1
  * Used to pass the number of predictions to be made

In [None]:
# Example:

model1.complete_sentence(text2, num_of_words = 10, num_of_predictions = 4)

Unnamed: 0,generated_text
0,"कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे सर्दी, ताप आणि दमा सारखे आजार होण्याची शक्यता अधिक"
1,"कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे आणि हवामानात होणाऱ्या घडामोडी ंमुळे उन्हाळा आता चांगलाच जाणवू लागला"
2,"कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे ही काळजी घेणे गरजेचे असते. त्यासाठी त्यांनी ‘ एक"
3,"कडक उन्हाळ्यातून थंडगार पावसाळ्यात येताना, ऋतूमानातील बदल हा मानवी आरोग्यावरही परिणामकारक ठरतो. हवामानात होणार्‍या बदलांमुळे ही पाण्याची बचत होऊन पाण्याची बचत होऊन पाणी साठ वलेल्या"


***

### **c. Preprocess**

#### import

In [None]:
from mahaNLP.preprocess import Preprocess

#### create an object

In [None]:
model2 = Preprocess()

### **Usage of preprocess:**
It provides three functionalities
* **remove_url:** Removes url from the text
* **remove_stopwords:** Removes stopwords from the text
* **remove_nondevnagari:** Removes the non-marathi characters

#### **remove_url:**

In [None]:
# Example:

text3 = 'मी गुगल https://www.google.com/ वर शोधले कि भारतात जवळपास एकूण ८० टक्के लोकांचे बँकेत खाते आहे.'
# English Translation:
# 'I found on google https://www.google.com/ that almost 80 percent of total people in India have bank account.'

model2.remove_url(text3)

'मी गुगल  वर शोधले कि भारतात जवळपास एकूण ८० टक्के लोकांचे बँकेत खाते आहे.'

#### **remove_stopwords:**

In [None]:
# stopwords like articles, prepositions, pronouns, conjunctions, etc.

# Example:

text4 = 'तीन दिवस झाले, पण गाडी अजून सापडली नाही. पोलिसांचा कडक तपास सुरु आहे.'
# English Translation:
# 'It's been three days, but the car is still not found. Strict investigation by the police is going on.'

model2.remove_stopwords(text4)

['दिवस', 'गाडी', 'अजून', 'सापडली', 'पोलिसांचा', 'कडक', 'तपास', 'सुरु']

#### **remove_nondevnagari:**

In [None]:
# Example:

text5 = 'डाळी भारतीय थाळीमध्ये सामील असलेले मुख्य भोजन आहेत. US agriculture department, यु एस एग्रीकल्चर डिपार्टमेंट नुसार १०० ग्रॅम डाळ मध्ये 8 ते 9 ग्राम प्रोटीन असतात.'
# English Translation:
# 'Pulses are the staple food included in Indian Thali. According to the US agriculture department, 100 grams of dal contains 8-9 grams of protein.'

model2.remove_nondevnagari(text5)

डाळी भारतीय थाळीमध्ये सामील असलेले मुख्य भोजन आहेत.   , यु एस एग्रीकल्चर डिपार्टमेंट नुसार १०० ग्रॅम डाळ मध्ये 8 ते 9 ग्राम प्रोटीन असतात.


Optional Parameter(s):
* **en_num** (1, 0) in int - Default: 1
  * Decides whether to keep English numericals (1-yes, 0-no)

In [None]:
# Example:

model2.remove_nondevnagari(text5, en_num = 0)

डाळी भारतीय थाळीमध्ये सामील असलेले मुख्य भोजन आहेत.   , यु एस एग्रीकल्चर डिपार्टमेंट नुसार १०० ग्रॅम डाळ मध्ये  ते  ग्राम प्रोटीन असतात.


***

### **d. Tokenizer**

#### import

In [None]:
from mahaNLP.tokenizer import Tokenize

#### create an object

In [None]:
model3 = Tokenize()

### **Usage of tokenizer:**
It provides two functionalities
* **word_tokenize:** Tokenizes words from sentences and stores them in an array
* **sentence_tokenize:** Tokenizes sentences from paragraph or set of sentences

#### **wordTokenize:**

In [None]:
# Example:

text6 = 'तुमच्या भावनाही शरीर निरोगी ठेवण्यात महत्त्वाची भूमिका बजावतात!'
# English Translation:
# 'Your emotions also play an important role in keeping the body healthy!'

model3.word_tokenize(text6)

['तुमच्या',
 'भावनाही',
 'शरीर',
 'निरोगी',
 'ठेवण्यात',
 'महत्त्वाची',
 'भूमिका',
 'बजावतात',
 '!']

You can see the above example also tokenized the punctuation marks

Optional Parameter(s):
* **punctuation** (True, False) in bool - Default: True
  * Decides whether to tokenize punctuation marks (True-yes, False-no)

In [None]:
# Example:

model3.word_tokenize(text6, punctuation = False)

['तुमच्या',
 'भावनाही',
 'शरीर',
 'निरोगी',
 'ठेवण्यात',
 'महत्त्वाची',
 'भूमिका',
 'बजावतात']

#### **sentence_tokenize:**

In [None]:
# Example

text7 = 'पावसाळ्यात हवेत ओलावा असल्यामुळे फळे व भाज्यांवर धूळ व कचरा बसतो. त्यामुळे फळे व भाज्या स्वच्छ धुवून मगच खाव्यात! पावसाळ्यात रोगप्रतिकारक शक्ती कमी झालेली असते. त्यामुळे या दिवसांत शरीराला जास्त ताण देणारे व्यायाम केल्यास शरीरातील पित्त वाढते. पावसाळ्यात पोहणे, योगासने किंवा चालणे यांसारखे सोपे व्यायम करावेत.'
# English Translation:
# 'Due to moisture in the air during monsoons, dust and garbage settle on fruits and vegetables. So fruits and vegetables should be washed and then eaten! The immune system is reduced during monsoon. Therefore, during these days, doing exercises that put more stress on the body increases the pitta in the body. Simple exercises like swimming, yoga or walking should be done during monsoons.'

model3.sentence_tokenize(text7)

['पावसाळ्यात हवेत ओलावा असल्यामुळे फळे व भाज्यांवर धूळ व कचरा बसतो.',
 ' त्यामुळे फळे व भाज्या स्वच्छ धुवून मगच खाव्यात!',
 ' पावसाळ्यात रोगप्रतिकारक शक्ती कमी झालेली असते.',
 ' त्यामुळे या दिवसांत शरीराला जास्त ताण देणारे व्यायाम केल्यास शरीरातील पित्त वाढते.',
 ' पावसाळ्यात पोहणे, योगासने किंवा चालणे यांसारखे सोपे व्यायम करावेत.']

***

### **e. Tagger**

#### import

In [None]:
from mahaNLP.tagger import EntityRecognizer

#### create an object

In [None]:
model4 = EntityRecognizer()

### **Usage of tagger:**
It provides two functionalities
* **get_token_labels:** Prints token and entity label for each word
* **get_tokens:** Prints a string with all entity lables for the respective tokens in the text

#### **get_token_labels:**

In [None]:
# Example:

text8 = 'भारताचे दुसरे राष्ट्रपती डॉ. सर्वपल्ली राधाकृष्णन यांचा जन्मदिवस म्हणजेच, ५ सप्टेंबर हा दिवस शिक्षक दिन म्हणून साजरा करण्यात येतो.'
# English Translation:
# 'Second President of India Dr. Sarvapalli Radhakrishnan's birthday i.e. 5th September is celebrated as Teachers' Day.'
model4.get_token_labels(text8)

Unnamed: 0,word,entity_group
0,भारताचे,Location
1,दुसरे,Measure
2,राष्ट्रपती,Designation
3,डॉ.,Designation
4,सर्वपल्ली,Person
5,राधाकृष्णन,Person
6,यांचा,Other
7,जन्मदिवस,Other
8,"म्हणजेच,",Other
9,५,Date


Optional Parameter(s):
* **details** (minimum, medium, all) in string - Default: minimum
  * Used to pass the detailedness to be considered like entity prediction score, start-end index of word, etc.
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
model4.get_token_labels(text8, details = 'medium', as_dict = False)

Unnamed: 0,word,entity_group,score
0,भारताचे,Location,0.990536
1,दुसरे,Measure,0.99287
2,राष्ट्रपती,Designation,0.872444
3,डॉ.,Designation,0.872444
4,सर्वपल्ली,Person,0.926756
5,राधाकृष्णन,Person,0.926756
6,यांचा,Other,0.99995
7,जन्मदिवस,Other,0.99995
8,"म्हणजेच,",Other,0.99995
9,५,Date,0.999657


In [None]:
model4.get_token_labels(text8, details = 'all', as_dict = False)

Unnamed: 0,word,entity_group,score,start,end
0,भारताचे,Location,0.990536,0,7
1,दुसरे,Measure,0.99287,8,13
2,राष्ट्रपती,Designation,0.872444,14,28
3,डॉ.,Designation,0.872444,14,28
4,सर्वपल्ली,Person,0.926756,29,49
5,राधाकृष्णन,Person,0.926756,29,49
6,यांचा,Other,0.99995,50,73
7,जन्मदिवस,Other,0.99995,50,73
8,"म्हणजेच,",Other,0.99995,50,73
9,५,Date,0.999657,74,84


In [None]:
model4.get_token_labels(text8, details = 'all', as_dict = 'True')
# prints in dictionary form

[{'word': 'भारताचे',
  'entity_group': 'Location',
  'score': 0.99053555727005,
  'start': 0,
  'end': 7},
 {'word': 'दुसरे',
  'entity_group': 'Measure',
  'score': 0.9928703904151917,
  'start': 8,
  'end': 13},
 {'word': 'राष्ट्रपती',
  'entity_group': 'Designation',
  'score': 0.872444212436676,
  'start': 14,
  'end': 28},
 {'word': 'डॉ.',
  'entity_group': 'Designation',
  'score': 0.872444212436676,
  'start': 14,
  'end': 28},
 {'word': 'सर्वपल्ली',
  'entity_group': 'Person',
  'score': 0.9267563223838806,
  'start': 29,
  'end': 49},
 {'word': 'राधाकृष्णन',
  'entity_group': 'Person',
  'score': 0.9267563223838806,
  'start': 29,
  'end': 49},
 {'word': 'यांचा',
  'entity_group': 'Other',
  'score': 0.9999501705169678,
  'start': 50,
  'end': 73},
 {'word': 'जन्मदिवस',
  'entity_group': 'Other',
  'score': 0.9999501705169678,
  'start': 50,
  'end': 73},
 {'word': 'म्हणजेच,',
  'entity_group': 'Other',
  'score': 0.9999501705169678,
  'start': 50,
  'end': 73},
 {'word': '५',

#### **get_tokens:**

In [None]:
# Example:

model4.get_tokens(text8)

'Location Measure Designation Designation Person Person Other Other Other Date Date Other Other Other Other Other Other Other Other'

***

### **f. MaskFill:**

#### import

In [None]:
from mahaNLP.mask_fill import MaskPredictor

#### create an object

In [None]:
model5 = MaskPredictor()

### **Usage of maskFill:**
It provides one functionality
* **predict_mask:** Predicts the masked token

In [None]:
# Example

# pass the string with the word to be predicted replaced with '[MASK]'
text9 = 'मी महाराष्ट्रात [MASK].'
# English Translation:
# 'I in Maharashtra [MASK]'

model5.predict_mask(text9)

Unnamed: 0,token_str,sequence
0,आहे,मी महाराष्ट्रात आहे.
1,राहणार,मी महाराष्ट्रात राहणार.
2,नाही,मी महाराष्ट्रात नाही.
3,##च,मी महाराष्ट्रातच.
4,राहतो,मी महाराष्ट्रात राहतो.


Optional Parameter(s):
* **details** (minimum, medium, all) in string - Default: minimum
  * Used to pass the detailedness to be considered
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
model5.predict_mask(text9, details = 'medium', as_dict = False)

Unnamed: 0,token_str,score,sequence
0,आहे,0.465601,मी महाराष्ट्रात आहे.
1,राहणार,0.07969,मी महाराष्ट्रात राहणार.
2,नाही,0.074001,मी महाराष्ट्रात नाही.
3,##च,0.050423,मी महाराष्ट्रातच.
4,राहतो,0.043737,मी महाराष्ट्रात राहतो.


In [None]:
model5.predict_mask(text9, 'all', False)

Unnamed: 0,score,token,token_str,sequence
0,0.465601,1155,आहे,मी महाराष्ट्रात आहे.
1,0.07969,92222,राहणार,मी महाराष्ट्रात राहणार.
2,0.074001,1826,नाही,मी महाराष्ट्रात नाही.
3,0.050423,1617,##च,मी महाराष्ट्रातच.
4,0.043737,62560,राहतो,मी महाराष्ट्रात राहतो.


In [None]:
# Print as dictionary
model5.predict_mask(text9, 'all', True)

[{'score': 0.46560075879096985,
  'token': 1155,
  'token_str': 'आहे',
  'sequence': 'मी महाराष्ट्रात आहे.'},
 {'score': 0.07969045639038086,
  'token': 92222,
  'token_str': 'राहणार',
  'sequence': 'मी महाराष्ट्रात राहणार.'},
 {'score': 0.07400081306695938,
  'token': 1826,
  'token_str': 'नाही',
  'sequence': 'मी महाराष्ट्रात नाही.'},
 {'score': 0.050422605127096176,
  'token': 1617,
  'token_str': '##च',
  'sequence': 'मी महाराष्ट्रातच.'},
 {'score': 0.04373728483915329,
  'token': 62560,
  'token_str': 'राहतो',
  'sequence': 'मी महाराष्ट्रात राहतो.'}]

***

### **g. Hate**

#### import

In [None]:
from mahaNLP.hate import HateAnalyzer

#### create an object

In [None]:
model6 = HateAnalyzer()

In [None]:
# list the labels supported
model6.list_supported_labels()

Supported labels: 
	 hate -> 1
	 non-hate -> 0



### **Usage of hate:**
It provides one functionality
* **get_hate_score:** Gives the hate score of a sentence. It gives the scores as hate (1) and non-hate (0)

In [None]:
# Example:

text10 = 'ती मूर्ख आहे. मला ती आवडत नाही.'
# English Translation:
# 'She is stupid. I don't like her.'

model6.get_hate_score(text10)

Unnamed: 0,label,score
0,hate,0.966924


In [None]:
# Example:

text11 = 'मला तुझे खूप कौतुक वाटते.'
# English Translation:
# 'I appreciate you so much.'

model6.get_hate_score(text11)

Unnamed: 0,label,score
0,non-hate,0.999377


***

### **h. Sentiment**

#### import

In [None]:
from mahaNLP.sentiment import SentimentAnalyzer

#### create an object

In [None]:
model7 = SentimentAnalyzer()

In [None]:
# list the lables supported
model7.list_supported_labels()

Supported labels: 
 -Positive
 -Negative
 -Neutral



### **Usage of sentiment:**
It provides one functionality
* **get_polarity_score:** Gives the polarity score of words in a sentence along with the tokens (Neutral, Positive, Negative)

In [None]:
# Example:

text12 = 'दिवाळीच्या सणादरम्यान सगळे आनंदी असतात.'
# English Translation:
# 'Everyone is happy during Diwali festival.'

model7.get_polarity_score(text12)

Unnamed: 0,label,score
0,Positive,0.995338


In [None]:
# Example:

text13 = 'मी तुझा तिरस्कार करते.'
# English Translation:
# 'I hate you.'

model7.get_polarity_score(text13)

Unnamed: 0,label,score
0,Neutral,0.989352


In [None]:
# Example:

text14 = 'मी कॉलेजला जात आहे.'
# English Translation:
# 'I am going to college.'

model7.get_polarity_score(text14)

Unnamed: 0,label,score
0,Neutral,0.993329


***

### **i. Similarity**

#### import

In [None]:
from mahaNLP.similarity import SimilarityAnalyzer

#### create an object

In [None]:
model8 = SimilarityAnalyzer()

### **Usage of similarity:**
It provides two functionalities
* **embed_sentences:** Embeds the sentences and return the values in an array
* **get_similarity_score:** Checks the similarity of a sentence with respect to array of sentences

#### **embed_sentences:**

In [None]:
# Example

text15 = 'भारतात एकूण २८ राज्ये आहेत.'
# English Translation:
# 'There are total 28 states in India.'

model8.embed_sentences(text15)

array([-3.01300809e-02,  5.90831181e-03, -1.33653795e-02, -3.19638439e-02,
        1.86218787e-02, -4.54362743e-02, -4.17430745e-03, -1.99699737e-02,
        3.58055718e-03,  6.32557133e-03,  8.54484178e-03, -4.28140257e-03,
       -2.65209517e-03, -2.75102034e-02, -4.76909569e-03, -1.02574341e-02,
        1.45057784e-02, -2.26347111e-02,  1.03825880e-02,  1.66710429e-02,
        1.12478444e-02, -1.54639995e-02,  1.83427557e-02, -7.28148175e-03,
        3.23612406e-03, -7.66688536e-05, -2.73413360e-02, -7.00747129e-03,
       -1.96131505e-02,  1.76330376e-03, -1.34859420e-02, -6.28396496e-03,
        7.86420144e-03,  6.67925971e-03, -1.99246369e-02, -7.11165322e-03,
        1.37242498e-02,  4.83196788e-03,  1.89736369e-03,  1.25255501e-02,
       -2.43625697e-03, -3.05463783e-02, -5.00233378e-03,  1.55041227e-02,
       -6.46518636e-03,  3.41290201e-04, -1.23328273e-03,  2.16220766e-02,
        8.16372968e-03, -1.91043504e-03, -1.46023212e-02,  3.50542180e-03,
        1.29642645e-02, -

#### **get_similarity_score:**

In [None]:
# Example

textsource = 'वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.'
# English Translation:
# 'Elections are being held for 15 gram panchayats in Vasai taluka.'
textsentences = ['वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.', '28 ते 2 डिसेंबर पर्यंत उमेदवारी अर्ज भरण्याची वेळ असून आज आणि उध्या दोन दिवसात ऑफलाईन उमेदवारी अर्ज भरण्यासाठी 5 वाजेपर्यंत वेळ वाढवून दिला आहे.', 'त्यामुळे आज दिवसभरात उमेदवारांनी आपले उमेदवारी अर्ज भरण्यासाठी तहसील कार्यालयात गर्दी केली होती.']
# English Translation:
# [
# 'Elections are being held for 15 gram panchayats in Vasai taluka.',
# 'The time to fill candidature form is from 28th to 2nd December and the time for filling offline candidature form has been extended till 5 pm today and tomorrow.',
# 'Therefore, candidates thronged the tehsil office to fill their nomination forms today.'
# ]

model8.get_similarity_score(textsource, textsentences)

array([0.9999999 , 0.24566297, 0.3010444 ], dtype=float32)

Optional Parameter(s):
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
model8.get_similarity_score(textsource, textsentences, as_dict = True)

{'वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.': 0.9999999,
 '28 ते 2 डिसेंबर पर्यंत उमेदवारी अर्ज भरण्याची वेळ असून आज आणि उध्या दोन दिवसात ऑफलाईन उमेदवारी अर्ज भरण्यासाठी 5 वाजेपर्यंत वेळ वाढवून दिला आहे.': 0.24566297,
 'त्यामुळे आज दिवसभरात उमेदवारांनी आपले उमेदवारी अर्ज भरण्यासाठी तहसील कार्यालयात गर्दी केली होती.': 0.3010444}

***
***

## **2. Advanced Usage:**

This way of accessing the library is designed from an ML Practitioners point of view and has more flexibility to choose a model for the desired task.

## The below mentioned models are explained in the examples following:
* **MaskFill Model:** Predicts the masked tokens
* **GPT Model:** Text prediction
* **Hate Model:** Detects hate speech
* **NER Model:** Named entity recognision
* **Sentiment Model:** Sentiment analysis
* **Similarity Model:** Detects similarity

Some of the mentioned models have sub models within them that can be seen using the **listModels()** function as described in the examples

***

#### import the models

In [None]:
from mahaNLP.model_repo import MaskFillModel, GPTModel, HateModel, NERModel, SentimentModel, SimilarityModel

Here, we are accessing the functionalities via modelRepo

***

## **MaskFill Model**:

In [None]:
# create an object
modelMaskFill = MaskFillModel() # this loads with default model. Here, marathi-bert-v2

In [None]:
# list models present in it
modelMaskFill.list_models()

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta


#### **To change the default model:**
Pass the name of the model as the argument:

modelMaskFill = MaskFillModel('name of model')

In [None]:
# Example:

modelMaskFill2 = MaskFillModel('marathi-roberta')

### **Usage of MaskFillModel:**
It provides one functionality
* **predict_mask:** Predicts the masked token

In [None]:
# Example:

# pass the string with the word to be predicted replaced with '[MASK]' for marathi-bert-v2, marathi-albert
# and '<mask>' for marathi-roberta

txt1 = 'मी महाराष्ट्रात [MASK].'
# English Translation:
# 'I in Maharashtra [MASK]'

modelMaskFill.predict_mask(txt1)

Unnamed: 0,token_str,sequence
0,आहे,मी महाराष्ट्रात आहे.
1,राहणार,मी महाराष्ट्रात राहणार.
2,नाही,मी महाराष्ट्रात नाही.
3,##च,मी महाराष्ट्रातच.
4,राहतो,मी महाराष्ट्रात राहतो.


Optional Parameter(s):
* **details** (minimum, medium, all) in string - Default: minimum
  * Used to pass the detailedness to be considered
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
# Example:

modelMaskFill.predict_mask(txt1, details = 'medium', as_dict = False)

Unnamed: 0,token_str,score,sequence
0,आहे,0.465601,मी महाराष्ट्रात आहे.
1,राहणार,0.07969,मी महाराष्ट्रात राहणार.
2,नाही,0.074001,मी महाराष्ट्रात नाही.
3,##च,0.050423,मी महाराष्ट्रातच.
4,राहतो,0.043737,मी महाराष्ट्रात राहतो.


In [None]:
modelMaskFill.predict_mask(txt1, 'all', False)

Unnamed: 0,score,token,token_str,sequence
0,0.465601,1155,आहे,मी महाराष्ट्रात आहे.
1,0.07969,92222,राहणार,मी महाराष्ट्रात राहणार.
2,0.074001,1826,नाही,मी महाराष्ट्रात नाही.
3,0.050423,1617,##च,मी महाराष्ट्रातच.
4,0.043737,62560,राहतो,मी महाराष्ट्रात राहतो.


In [None]:
# Print as dictionary
modelMaskFill.predict_mask(txt1, 'all', True)

[{'score': 0.46560075879096985,
  'token': 1155,
  'token_str': 'आहे',
  'sequence': 'मी महाराष्ट्रात आहे.'},
 {'score': 0.07969045639038086,
  'token': 92222,
  'token_str': 'राहणार',
  'sequence': 'मी महाराष्ट्रात राहणार.'},
 {'score': 0.07400081306695938,
  'token': 1826,
  'token_str': 'नाही',
  'sequence': 'मी महाराष्ट्रात नाही.'},
 {'score': 0.050422605127096176,
  'token': 1617,
  'token_str': '##च',
  'sequence': 'मी महाराष्ट्रातच.'},
 {'score': 0.04373728483915329,
  'token': 62560,
  'token_str': 'राहतो',
  'sequence': 'मी महाराष्ट्रात राहतो.'}]

***

## **GPT Model**:

In [None]:
# create an object
modelGPT = GPTModel()

In [None]:
# list models present in it
modelGPT.list_models()

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta


### **Usage of GPT Model:**
It provides two functionalities
* **next_word:** Predicts the next word in the given sentence
* **complete_sentence:** Predicts the remanining blank words in the given sentence and completes a sentence.

#### **next_word:**

In [None]:
# Example:

txt2 = 'मला शाळेत जायला '
# English Translation:
# 'I want to go to school '

modelGPT.next_word(txt2)



Unnamed: 0,generated_text
0,मला शाळेत जायला यायला


Optional Parameter(s):
* **num_of_predictions** (any number) in int - Default: 1
  * Used to pass the number of predictions to be made

In [None]:
# Example:

modelGPT.next_word(txt2, num_of_predictions = 4)

Unnamed: 0,generated_text
0,मला शाळेत जायला च
1,मला शाळेत जायला जमणार
2,मला शाळेत जायला हवं
3,मला शाळेत जायला आवडत


#### **complete_sentence:**

In [None]:
# Example:

txt3 = 'आज खूप पाऊस'
# English Translation:
# 'A lot of rain today'

modelGPT.complete_sentence(txt3)

Unnamed: 0,generated_text
0,आज खूप पाऊस पडतो हे खरेच आहे. आणि काही ठिकाणी झाडे तोड ल्यामुळे आणि काही ठिकाणी पाणी अड विण्यासाठी झाडे तोडली गेल्याने ही झाडे मोडून पडली.


Optional Parameter(s):
* **num_of_words** (any number) in int - Default: 25
  * Used to pass the number of words to be filled
* **num_of_predictions** (any number) in int - Default: 1
  * Used to pass the number of predictions to be made

In [None]:
# Example:

modelGPT.complete_sentence(txt3, num_of_words = 10, num_of_predictions = 4)

Unnamed: 0,generated_text
0,आज खूप पाऊस येतो आहे. सध्या हे सगळं सहन करण्याची गरज आहे
1,आज खूप पाऊस पडणार आहे. आता हा प्रकल्प च आता पूर्ण होईल
2,आज खूप पाऊस पडत आहे आणि पाणी पि ताच येत नाही. त्यामुळे
3,आज खूप पाऊस पडल्यावर आज पाऊस पडणार अशी चर्चा गेल्या १० वर्षांपासून होत


***

## **Hate Model:**

In [None]:
# create an object
modelHate = HateModel()

In [None]:
# list models present in it
modelHate.list_models() # this loads with default model. Here, mahahate-bert

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert


#### **To change the default model:**
Pass the name of the model as the argument:

modelHate = HateModel('name of model')

In [None]:
# Example:

modelHate2 = HateModel('mahahate-multi-roberta')

### **Usage of HateModel:**
It provides one functionality
* **get_hate_score:** Gives the hate score of a sentence. It gives the scores as hate (1) and non-hate (0)

In [None]:
# Example:

txt4 = 'ती मूर्ख आहे. मला ती आवडत नाही.'
# English Translation:
# 'She is stupid. I don't like her.'

modelHate.get_hate_score(txt4)

Unnamed: 0,label,score
0,hate,0.966924


In [None]:
# Example
txt5 = 'मला तुझे खूप कौतुक वाटते.'
# English Translation:
# 'I appreciate you so much.'

modelHate.get_hate_score(txt5)

Unnamed: 0,label,score
0,non-hate,0.999377


***

## **NER Model:**

In [None]:
# create an object:
modelNER = NERModel()

In [None]:
# list models present in it
modelNER.list_models()

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta


### **Usage of NER Model:**
It provides two functionalities
* **get_token_labels:** Gives the polarity score of words in a sentence along with the tokens
* **get_tokens:** Gives tokens for each word

#### **get_token_labels:**

In [None]:
# Example

txt6 = '१७ तारखेला आदित्य पुण्यात आला.'
# English Translation:
# 'Aditya came to Pune on 17th.'

modelNER.get_token_labels(txt6)

Unnamed: 0,word,entity_group
0,१७,Date
1,तारखेला,Other
2,आदित्य,Person
3,पुण्यात,Location
4,आला.,Other


Optional Parameter(s):
* **details** (minimum, medium, all) in string - Default: minimum
  * Used to pass the detailedness to be considered
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
# Example:

modelNER.get_token_labels(txt6, details = 'medium', as_dict = False)
# prints the polarity score of the individual words as well

Unnamed: 0,word,entity_group,score
0,१७,Date,0.997312
1,तारखेला,Other,0.999764
2,आदित्य,Person,0.99907
3,पुण्यात,Location,0.997783
4,आला.,Other,0.999862


In [None]:
modelNER.get_token_labels(txt6, details = 'all', as_dict = False)
# prints the start as well as the end index for the individual word

Unnamed: 0,word,entity_group,score,start,end
0,१७,Date,0.997312,0,2
1,तारखेला,Other,0.999764,3,10
2,आदित्य,Person,0.99907,11,17
3,पुण्यात,Location,0.997783,18,25
4,आला.,Other,0.999862,26,30


In [None]:
modelNER.get_token_labels(txt6, details = 'all', as_dict = True)
# prints in dictionary form

[{'word': '१७',
  'entity_group': 'Date',
  'score': 0.9973124265670776,
  'start': 0,
  'end': 2},
 {'word': 'तारखेला',
  'entity_group': 'Other',
  'score': 0.9997643828392029,
  'start': 3,
  'end': 10},
 {'word': 'आदित्य',
  'entity_group': 'Person',
  'score': 0.9990702271461487,
  'start': 11,
  'end': 17},
 {'word': 'पुण्यात',
  'entity_group': 'Location',
  'score': 0.997783362865448,
  'start': 18,
  'end': 25},
 {'word': 'आला.',
  'entity_group': 'Other',
  'score': 0.9998623132705688,
  'start': 26,
  'end': 30}]

#### **get_tokens:**

In [None]:
# Example:

txt7 = 'मेघा आणि लता ४ तारखेला महाबळेश्वरला जाणार आहे.'
# English Translation:
# 'Megha and Lata will go to Mahabaleshwar on 4th.'

modelNER.get_tokens(txt7)

'Person Other Person Date Other Location Other Other'

***

## **Sentiment:**

In [None]:
# create an object
modelSentiment = SentimentModel()

In [None]:
# list models present in it
modelSentiment.list_models()

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta


### **Usage of Sentiment Model:**
It provides one functionality
* **get_polarity_score:** Gives the polarity score of words in a sentence along with the tokens (Neutral, Positive, Negative)

In [None]:
# Example:

txt8 = 'दिवाळीच्या सणादरम्यान सगळे आनंदी असतात.'
# English Translation:
# 'Everyone is happy during Diwali festival.'

modelSentiment.get_polarity_score(txt8)

Unnamed: 0,label,score
0,Positive,0.995338


In [None]:
# Example:

txt9 = 'मी तुझा तिरस्कार करतो.'
# English Translation:
# 'I hate you.'

modelSentiment.get_polarity_score(txt9)

Unnamed: 0,label,score
0,Neutral,0.989352


In [None]:
# Example:

txt10 = 'मी कॉलेजला जात आहे.'
# English Translation:
# 'I am going to college.'

modelSentiment.get_polarity_score(txt10)

Unnamed: 0,label,score
0,Neutral,0.993329


***

## **Similarity Model:**

In [None]:
# create an object
modelSimilarity = SimilarityModel() # this loads with default model. Here, marathi-sentence-similarity-sbert

In [None]:
# list models present in it
modelSimilarity.list_models()

 similarity models: 
	 marathi-sentence-similarity-sbert :  l3cube-pune/marathi-sentence-similarity-sbert
	 marathi-sentence-bert-nli :  l3cube-pune/marathi-sentence-bert-nli

 tagger models: 
	 marathi-ner :  l3cube-pune/marathi-ner

 autocomplete models: 
	 marathi-gpt :  l3cube-pune/marathi-gpt

 sentiment models: 
	 MarathiSentiment :  l3cube-pune/MarathiSentiment

 mask_fill models: 
	 marathi-bert-v2 :  l3cube-pune/marathi-bert-v2
	 marathi-roberta :  l3cube-pune/marathi-roberta
	 marathi-albert :  l3cube-pune/marathi-albert

 hate models: 
	 mahahate-bert :  l3cube-pune/mahahate-bert
	 mahahate-multi-roberta :  l3cube-pune/mahahate-multi-roberta


#### **To change the default model:**
Pass the name of the model as the argument:

modelSimilarity = SimilarityModel('name of model')

In [None]:
# Example:

modelSimilarity2 = SimilarityModel('marathi-sentence-bert-nli')

### **Usage of Similarity Model:**
It provides two functionalities
* **embed_sentences:** Embeds the sentences and return the values in an array
* **get_similarity_score:** Checks the similarity of a word with respect to a sentence

#### **embed_sentences:**

In [None]:
# Example

txt11 = 'भारतात एकूण २८ राज्ये आहेत.'
# English Translation:
# 'There are total 28 states in India.'

modelSimilarity.embed_sentences(txt11)

array([-3.01300809e-02,  5.90831181e-03, -1.33653795e-02, -3.19638439e-02,
        1.86218787e-02, -4.54362743e-02, -4.17430745e-03, -1.99699737e-02,
        3.58055718e-03,  6.32557133e-03,  8.54484178e-03, -4.28140257e-03,
       -2.65209517e-03, -2.75102034e-02, -4.76909569e-03, -1.02574341e-02,
        1.45057784e-02, -2.26347111e-02,  1.03825880e-02,  1.66710429e-02,
        1.12478444e-02, -1.54639995e-02,  1.83427557e-02, -7.28148175e-03,
        3.23612406e-03, -7.66688536e-05, -2.73413360e-02, -7.00747129e-03,
       -1.96131505e-02,  1.76330376e-03, -1.34859420e-02, -6.28396496e-03,
        7.86420144e-03,  6.67925971e-03, -1.99246369e-02, -7.11165322e-03,
        1.37242498e-02,  4.83196788e-03,  1.89736369e-03,  1.25255501e-02,
       -2.43625697e-03, -3.05463783e-02, -5.00233378e-03,  1.55041227e-02,
       -6.46518636e-03,  3.41290201e-04, -1.23328273e-03,  2.16220766e-02,
        8.16372968e-03, -1.91043504e-03, -1.46023212e-02,  3.50542180e-03,
        1.29642645e-02, -

#### **get_similarity_score:**

In [None]:
# Example

source = 'वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.'
# English Translation:
# 'Elections are being held for 15 gram panchayats in Vasai taluka.'
sentences = ['वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.', '28 ते 2 डिसेंबर पर्यंत उमेदवारी अर्ज भरण्याची वेळ असून आज आणि उध्या दोन दिवसात ऑफलाईन उमेदवारी अर्ज भरण्यासाठी 5 वाजेपर्यंत वेळ वाढवून दिला आहे.', 'त्यामुळे आज दिवसभरात उमेदवारांनी आपले उमेदवारी अर्ज भरण्यासाठी तहसील कार्यालयात गर्दी केली होती.']
# English Translation:
# [
# 'Elections are being held for 15 gram panchayats in Vasai taluka.',
# 'The time to fill candidature form is from 28th to 2nd December and the time for filling offline candidature form has been extended till 5 pm today and tomorrow.',
# 'Therefore, candidates thronged the tehsil office to fill their nomination forms today.'
# ]

modelSimilarity.get_similarity_score(source, sentences)

array([0.9999999 , 0.24566297, 0.3010444 ], dtype=float32)

Optional Parameter(s):
* **as_dict** (True, False) in boolean - Default: False
  * Used to define the print type

In [None]:
modelSimilarity.get_similarity_score(source, sentences, as_dict = True)

{'वसई तालुक्यातील 15 ग्रामपंचायतींसाठी निवडणूक होत आहे.': 0.9999999,
 '28 ते 2 डिसेंबर पर्यंत उमेदवारी अर्ज भरण्याची वेळ असून आज आणि उध्या दोन दिवसात ऑफलाईन उमेदवारी अर्ज भरण्यासाठी 5 वाजेपर्यंत वेळ वाढवून दिला आहे.': 0.24566297,
 'त्यामुळे आज दिवसभरात उमेदवारांनी आपले उमेदवारी अर्ज भरण्यासाठी तहसील कार्यालयात गर्दी केली होती.': 0.3010444}

***
***

# Extras:

In [None]:
# import
from mahaNLP.sentiment import SentimentAnalyzer

# create a model object
model = SentimentAnalyzer()

# function - getPolarityScore
# It gives the sentiment score in the range of 0 to 1
# for 3 poles: Neutral, Positive, Negative

# example:
text = 'दिवाळीच्या सणादरम्यान सगळे आनंदी असतात.'
# English Translation:
# 'Everyone is happy during Diwali festival.'

polarscore = model.get_polarity_score(text)
print(polarscore)

      label     score
0  Positive  0.995338


In [None]:
# import
from mahaNLP.model_repo import MaskFillModel

# create a model object
# parameter:
# model name
model = MaskFillModel('marathi-bert-v2')

# function - predictMask
# It predictes the masked token

text = 'मी महाराष्ट्रात [MASK].'
# English Translation:
# 'I in Maharashtra [MASK]'

# parameters:
# text, details of prediction, print in dict

model.predict_mask(text, details = "all", as_dict = False)

Unnamed: 0,score,token,token_str,sequence
0,0.465601,1155,आहे,मी महाराष्ट्रात आहे.
1,0.07969,92222,राहणार,मी महाराष्ट्रात राहणार.
2,0.074001,1826,नाही,मी महाराष्ट्रात नाही.
3,0.050423,1617,##च,मी महाराष्ट्रातच.
4,0.043737,62560,राहतो,मी महाराष्ट्रात राहतो.


In [None]:
# import
from mahaNLP.datasets import *

# loadDatasets: This loads the dataset into our variable
# parameter:
# name of the dataset

dataset = load_datasets('mahaSent')