##Word Sense Disambiguation for Marathi Language-
Word Sense Disambiguation (WSD) is a natural language processing task of identifying the correct sense of a word in context. Many words in natural language have multiple senses, and it is often essential to disambiguate them to understand the meaning of the sentence accurately.

Required Library Imports

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import nltk
import pandas as pd

from nltk import word_tokenize
from nltk.tag import untag
from nltk import UnigramTagger

pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', -1)

from nltk.corpus import indian
nltk.download('indian')

  pd.set_option('max_colwidth', -1)
[nltk_data] Downloading package indian to /root/nltk_data...
[nltk_data]   Unzipping corpora/indian.zip.


True

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

Taking 2 sample texts for testing

In [None]:
text = "हा लेख पन्ना जिल्ह्याविषयी आहे. पन्ना शहराविषयीचा लेख येथे आहे. पन्ना जिल्हा भारतातील मध्य प्रदेश राज्यातील एक जिल्हा आहे."
sent = "समाजासाठी देशासाठी चांगले काम करणाऱ्या व्यक्तीला लोक एखाद्या मानद उपाधीने संबोधित करायला सुरुवात करतात आणि पुढे तीच उपाधी त्या व्यक्तीची ओळख होऊन जाते. पुण्यश्लोक, महर्षी, महात्मा, बाबासाहेब आणि लोकमान्य या अशाच काही उपाध्या आहेत. भारतातील अशा उपाध्या धारण करणाऱ्या काही व्यक्तींची नावे पुढील पुढीलप्रमाणे आहेत."

##Preprocess

In [None]:
import re
# Remove unnecessary spaces
text = re.sub('\s+', ' ', text).strip()

# Remove numbers
text = re.sub('[0-9]+', '', text)

print(text)

हा लेख पन्ना जिल्ह्याविषयी आहे. पन्ना शहराविषयीचा लेख येथे आहे. पन्ना जिल्हा भारतातील मध्य प्रदेश राज्यातील एक जिल्हा आहे.


##Parts of Speech Tagging

In [None]:
tagged_set = 'marathi.pos'
articles = indian.sents(tagged_set)

In [None]:
articles

[["''", 'सनातनवाद्यांनी', 'व', 'प्रतिगाम्यांनी', 'समाज', 'रसातळाला', 'नेला', 'असताना', 'या', 'अंधारात', 'बाळशास्त्री', 'जांभेकर', 'यांनी', "'दर्पण'च्या", 'माध्यमातून', 'पहिली', 'ज्ञानज्योत', 'तेववली', ',', "''", 'असे', 'प्रतिपादन', 'नटसम्राट', 'प्रभाकर', 'पणशीकर', 'यांनी', 'केले', '.'], ['दर्पणकार', 'बाळशास्त्री', 'जांभेकर', 'यांच्या', '१९५व्या', 'जयंतीनिमित्त', 'महाराष्ट्र', 'संपादक', 'परिषद', 'व', 'सिंधुदुर्ग', 'जिल्हा', 'मराठी', 'पत्रकार', 'संघाच्या', 'वतीने', 'तसेच', 'महाराष्ट्र', 'जर्नलिस्ट', 'फाउंडेशन', 'व', 'महाराष्ट्र', 'ग्रामीण', 'पत्रकार', 'संघाच्या', 'सहभागाने', 'अभिवादन', 'कार्यक्रम', 'आयोजित', 'केला', 'होता', '.'], ...]

In [None]:
count=len(articles)
print(count)

1197


In [None]:
sentence1 = " ".join(articles[0])
sentence1

"'' सनातनवाद्यांनी व प्रतिगाम्यांनी समाज रसातळाला नेला असताना या अंधारात बाळशास्त्री जांभेकर यांनी 'दर्पण'च्या माध्यमातून पहिली ज्ञानज्योत तेववली , '' असे प्रतिपादन नटसम्राट प्रभाकर पणशीकर यांनी केले ."

Making Training and testing set split

In [None]:
train_perc = .9
train_rows = int(train_perc*count)
test_rows = train_rows + 1
print(train_rows,test_rows)

1077 1078


Getting already tagged sentences for traning

In [None]:
data = indian.tagged_sents(tagged_set)
train_data = data[:train_rows] 
test_data = data[test_rows:]

##Traning Unigram POS Tagger

In [None]:
# Train the unigram model
unigram_tag = UnigramTagger(train_data)

# Test it on a single sentence
unigram_tag.tag(untag(test_data[0]))

[('ज्या', 'PRP'),
 ('देशवासीयांकडे', None),
 ('केबल', 'NN'),
 ('नाही', 'VAUX'),
 (',', 'SYM'),
 ('त्यांना', 'PRP'),
 ('सात', 'QC'),
 ('मिनिटे', 'NN'),
 ('उशिरा', None),
 ('सामना', 'NN'),
 ('दाखवावा', None),
 ('लागत', 'VAUX'),
 ('असल्याने', 'VM'),
 ('निंबस', 'NNP'),
 ('अन्याय', 'NN'),
 ('करत', 'VM'),
 ('असल्याचे', 'VAUX'),
 ('मत', 'NN'),
 ('त्यांनी', 'PRP'),
 ('व्यक्त', 'JJ'),
 ('केले', 'VM'),
 ('होते', 'VAUX'),
 (';', 'SYM'),
 ('तसेच', 'CC'),
 ('त्याच', 'DEM'),
 ('वेळी', 'NN'),
 ('सरकारी', 'JJ'),
 ('पातळीवर', 'NN'),
 ('एक', 'QC'),
 ('विधेयक', 'NN'),
 ('मांडण्याचाही', None),
 ('विचार', 'NN'),
 ('बोलून', 'VM'),
 ('दाखविला', 'VAUX'),
 ('होता', 'VAUX'),
 ('.', 'SYM')]

In [None]:
unigram_tag.evaluate(test_data)   # Evaluation of model

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  unigram_tag.evaluate(test_data)   # Evaluation of model


0.5846774193548387

##Unigram Tagger with Default Backoff

In [None]:
# Train the unigram model
unigram_tagger = UnigramTagger(train_data,backoff=nltk.DefaultTagger('NN'))

# Test it on a single sentence
unigram_tagger.tag(untag(test_data[0]))

[('ज्या', 'PRP'),
 ('देशवासीयांकडे', 'NN'),
 ('केबल', 'NN'),
 ('नाही', 'VAUX'),
 (',', 'SYM'),
 ('त्यांना', 'PRP'),
 ('सात', 'QC'),
 ('मिनिटे', 'NN'),
 ('उशिरा', 'NN'),
 ('सामना', 'NN'),
 ('दाखवावा', 'NN'),
 ('लागत', 'VAUX'),
 ('असल्याने', 'VM'),
 ('निंबस', 'NNP'),
 ('अन्याय', 'NN'),
 ('करत', 'VM'),
 ('असल्याचे', 'VAUX'),
 ('मत', 'NN'),
 ('त्यांनी', 'PRP'),
 ('व्यक्त', 'JJ'),
 ('केले', 'VM'),
 ('होते', 'VAUX'),
 (';', 'SYM'),
 ('तसेच', 'CC'),
 ('त्याच', 'DEM'),
 ('वेळी', 'NN'),
 ('सरकारी', 'JJ'),
 ('पातळीवर', 'NN'),
 ('एक', 'QC'),
 ('विधेयक', 'NN'),
 ('मांडण्याचाही', 'NN'),
 ('विचार', 'NN'),
 ('बोलून', 'VM'),
 ('दाखविला', 'VAUX'),
 ('होता', 'VAUX'),
 ('.', 'SYM')]

In [None]:
unigram_tagger.evaluate(test_data)  #Evaluation of new model

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  unigram_tagger.evaluate(test_data)  #Evaluation of new model


0.7240783410138248

##Function to get POS of any provided marathi text uisng the above Unigram Tagger

In [None]:
#Generalized function that would return the POS tags in a structured table format
from collections import defaultdict

def get_POS(article):

    POS = {}

    word_tags = unigram_tagger.tag(article)
    for word, tag in word_tags:
        if tag not in POS:
            POS[tag] = [word]
        else:
            POS[tag].append(word)
    
    DF = {'Tags':[], 'Words':[], 'Count':[]}


    for k in POS:
        DF['Tags'].append(k)
        DF['Words'].append(" ".join(POS[k]))
        DF['Count'].append(len(POS[k]))
    
    return pd.DataFrame(DF)

In [None]:
token = word_tokenize(text)

In [None]:
df = get_POS(token)

Conversion of POS to DataFrame

In [None]:
df.head(10)

Unnamed: 0,Tags,Words,Count
0,DEM,हा,1
1,NN,लेख पन्ना जिल्ह्याविषयी पन्ना शहराविषयीचा लेख पन्ना प्रदेश राज्यातील,9
2,VAUX,आहे आहे आहे,3
3,SYM,. . .,3
4,PRP,येथे,1
5,NNC,जिल्हा जिल्हा,2
6,NNP,भारतातील,1
7,NNPC,मध्य,1
8,QC,एक,1


In [None]:
word_tags = unigram_tagger.tag(token)

In [None]:
word_tags

[('हा', 'DEM'),
 ('लेख', 'NN'),
 ('पन्ना', 'NN'),
 ('जिल्ह्याविषयी', 'NN'),
 ('आहे', 'VAUX'),
 ('.', 'SYM'),
 ('पन्ना', 'NN'),
 ('शहराविषयीचा', 'NN'),
 ('लेख', 'NN'),
 ('येथे', 'PRP'),
 ('आहे', 'VAUX'),
 ('.', 'SYM'),
 ('पन्ना', 'NN'),
 ('जिल्हा', 'NNC'),
 ('भारतातील', 'NNP'),
 ('मध्य', 'NNPC'),
 ('प्रदेश', 'NN'),
 ('राज्यातील', 'NN'),
 ('एक', 'QC'),
 ('जिल्हा', 'NNC'),
 ('आहे', 'VAUX'),
 ('.', 'SYM')]

##Word of Interest Lookup accroding to synset format

In [None]:
def wordOfInterest(pos):
    wn_pos=['NN','VB','JJ','JJR','JJS','NNP','VBG','RB','VBD','VBP','VAUX','PRP','DEM']

    woi1=[]
    for x in range(0,len(pos)):
      arr=[]
      j=pos[x]
      for y in range(0,len(j)):
        i=j[y]
        if i in wn_pos:
          arr.append(j)
          woi1.append(arr) 
    woi=[]


    for i in woi1:
        arr2=[]
        for j in i:

            if j[1]=='VBD' or j[1]=='VB' or j[1]=='VBP':
                tup=(j[0],'verb')
                arr2.append(tup)
            elif j[1]=='VBG' or j[1]=='PRP':
                tup=(j[0],'noun')
                arr2.append(tup)
            elif j[1]=='NN' or j[1]=='NNP':
                tup=(j[0],'noun')
                arr2.append(tup)
            elif j[1]== 'JJ' or j[1]=='JJR' or j[1]=='JJS' or j[1]=='VAUX' or j[1]=='DEM':
                tup=(j[0],'adjective')
                arr2.append(tup)
            elif j[1]=='RB' or j[1]=='VM':
                tup=(j[0],'adverb')
                arr2.append(tup)
        woi.append(arr2)       
            
    return woi

##Making a Wordnet dictionary

reading wordbank txt file and preprocessing

##Making Wordnet definitions - dictionary

In [None]:
def deleteLeadingZeros(inputString):
   # regex pattern for removing leading zeros from an input string
   regexPattern = "^0+(?!$)"
   # Replace the matched regex pattern with an empty string
   outputString = re.sub(regexPattern, "", inputString)
   # returning output string after removing leading 0s
   return outputString

In [None]:
# Initialize an empty dictionary
dictionary = {}

# Open the text file and read its contents line by line
with open("/content/drive/MyDrive/MArathi_data/data.txt", "r", encoding = 'utf-8') as f:
    for line in f:
        # Split the line into serial number and value
        line = line.strip()  # Remove any leading/trailing whitespace
        regexPattern = "^0+(?!$)"
        line = re.sub(regexPattern, "", line)
        serial_number, value = line.split(" ", 1)
        #serial_number = int(serial_number)  # Convert the serial number to an integer

        # Add the key-value pair to the dictionary
        dictionary[serial_number] = value

In [None]:
for n in dictionary.keys():
    # Remove numbers from the line using regular expressions
    line = dictionary.get(n)
    cleaned_line = re.sub(r'\d+', '', line)

    # Remove unnecessary spaces from the line
    cleaned_line = ' '.join(cleaned_line.strip().split())

    # Add the cleaned line to the list of cleaned lines
    dictionary.update({n:cleaned_line})

First 5 entries

In [None]:
count = 0
for n in dictionary.keys():
  count+=1
  if count<5:
    print(n, dictionary.get(n))
  else:
    break

1 अजन्मा | ज्यास जन्म नाही असा:"ईश्वर अजन्मा आहे"
2 अशुभ:अमंगळ | शुभ नाही असा:"या योगामूळे कुंडलीतील इतर अशुभ योगांचा नाश होतो."
3 अप्रविष्ट | ज्याने प्रवेश केला नाही असा:"अप्रविष्ट व्यक्तींना ताबडतोब आत प्रवेश करू द्या."
4 पुण्यभूमी:पवित्रभूमी:पुण्यस्थान:पवित्रस्थान:पावनस्थान | पवित्र मानले गेलेले स्थान:"हिंदूंसाठी काशी ही पुण्यभूमी आहे."


##Synsets 

In [None]:
!pip install --upgrade pyiwn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyiwn
  Downloading pyiwn-0.0.5-py3-none-any.whl (12 kB)
Installing collected packages: pyiwn
Successfully installed pyiwn-0.0.5


In [None]:
import pyiwn

[██████████████████████████████████████████████████]


Marathi synset object creation

In [None]:
iwn = pyiwn.IndoWordNet(lang=pyiwn.Language.MARATHI)

In [None]:
all_synsets = iwn.synsets('आई')

In [None]:
all_synsets

[Synset('आई.noun.2191'), Synset('आई.noun.36505')]

List of tags available

In [None]:
list(map(str, pyiwn.PosTag))

['PosTag.NOUN', 'PosTag.VERB', 'PosTag.ADVERB', 'PosTag.ADJECTIVE']

In [None]:
synsets = iwn.all_synsets()
print(len(synsets))

32200


In [None]:
syn = synsets[:5]

In [None]:
syn = str(synsets[:5])

In [None]:
syn = list(syn.split(","))

In [None]:
import string
idx = []
printable_chars = string.printable
for line in syn:
  cleaned_text = "".join([char for char in line if char in printable_chars and char not in string.whitespace])
  n = re.findall('\d+', cleaned_text)
  idx.append(n)

In [None]:
print(idx)

[['5'], ['1'], ['7'], ['2'], ['10']]


##Lookup

In [None]:
for n in idx:
  print(n, dictionary.get(n[0]))

['5'] शिवालय:शिवमंदिर | जिथे शंकराच्या पिंडीची स्थापना केली असून त्याची पूजा होते ती जागा:"ती दर सोमवारी शिवालयात जाते."
['1'] अजन्मा | ज्यास जन्म नाही असा:"ईश्वर अजन्मा आहे"
['7'] आलेला:आगत | दाखल झालेला:"आलेल्या पाहुण्यांचे स्वागत आहे."
['2'] अशुभ:अमंगळ | शुभ नाही असा:"या योगामूळे कुंडलीतील इतर अशुभ योगांचा नाश होतो."
['10'] उत्पादित:उत्पन्न | ज्याची उत्पत्ति झाली आहे असा:"आसाममध्ये उत्पादित चहा जगभर प्रसिद्ध आहे."


##Final Complete Function for WSD

In [None]:
text = str(input())


हा लेख पन्ना जिल्ह्याविषयी आहे. पन्ना शहराविषयीचा लेख येथे आहे. पन्ना जिल्हा भारतातील मध्य प्रदेश राज्यातील एक जिल्हा आहे


In [None]:
text

'हा लेख पन्ना जिल्ह्याविषयी आहे. पन्ना शहराविषयीचा लेख येथे आहे. पन्ना जिल्हा भारतातील मध्य प्रदेश राज्यातील एक जिल्हा आहे'

In [None]:
word = input()

प्रदेश


Function to Get Parts of Speech of the Input text

In [None]:
def get_pos(text):
  # Remove unnecessary spaces
  #text = re.sub('\s+', ' ', string).strip()

  # Remove numbers
  #text = re.sub('[0-9]+', '', string)
  
  #Parts of speech tagging
  POS = {}
  token = word_tokenize(text)
  
  word_tags = unigram_tagger.tag(token)
  
  for w, tag in word_tags:
    if tag not in POS:
      POS[tag] = [w]
    else:
      POS[tag].append(w)
  
  return POS,word_tags

DataFrame for better visuals

In [None]:
def pos_df(text):
  token = word_tokenize(text)
  df = get_POS(token)

  return df


Function to Get Word of Interest Tags

In [None]:
def get_word_of_interest(POS):
  w=[]
  for token in POS:
    if(token[0] == word):
      w.append(token[1])
    else:
      continue

  wn_pos=['NN','VB','JJ','JJR','JJS','NNP','VBG','RB','VBD','VBP','VAUX','PRP','DEM']
  for i in range(len(w)):
    if w[i]=='VBD' or w[i]=='VB' or w[i]=='VBP':
      w[i]='VERB'

    elif w[i]=='VBG' or w[i]=='PRP':
      w[i]='NOUN'

    elif w[i]=='NN' or w[i]=='NNP' or 'N' or 'NNC':
      w[i]='NOUN'

    elif w[i]== 'JJ' or w[i]=='JJR' or w[i]=='JJS' or w[i]=='VAUX' or w[i]=='DEM':
      w[i]='ADJECTIVE'

    elif w[i]=='RB' or w[i]=='VM':
      w[i]='ADVERB'

  return w

Function to get synsets of the word of Interest 

In [None]:
def get_synsets(w):
  j = []  
  for i in range(len(w)):
    if len(w) == 1:
      if w[i] == "NOUN":
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.NOUN)))
        break
      elif w[i] == "ADJECTIVE":
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.ADJECTIVE)
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.ADJECTIVE)))
        break
      elif w[i] == "ADVERB":
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.ADVERB)
       j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.ADVERB)))
       break
      else:
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.VERB)
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.VERB)))
        break

    elif w[i] == w[i+1] == w[i+2]:
      if w[i] == "NOUN":
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.NOUN)
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.NOUN)))
        break
      elif w[i] == "ADJECTIVE":
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.ADJECTIVE)
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.ADJECTIVE)))
        break
      elif w[i] == "ADVERB":
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.ADVERB)
       j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.ADVERB)))
       break
      else:
      #all_synsets = iwn.synsets(word, pos=pyiwn.PosTag.VERB)
        j.append(str(iwn.synsets(word, pos=pyiwn.PosTag.VERB)))
        break


  all_synsets=[]
  for i in j:
    #for k in i:
    temp = i.split(",")
    all_synsets.append(temp)
  
  return all_synsets

Function to get the Index for Lookup

In [None]:
def get_index(synsets):
  idx = []
  
  #index idendification for lookup
  printable_chars = string.printable
  
  for line in synsets[0]:
    cleaned_text = "".join([char for char in line if char in printable_chars and char not in string.whitespace])
    n = re.findall('\d+', cleaned_text)
    idx.append(n)

  #returning the calculated results
  return idx

Get Parts of Speech Tags

In [None]:
#getting the parts od speech, synsets and index for the given text
pos, tags = get_pos(text)
print(pos)
print()
print(tags)

{'DEM': ['हा'], 'NN': ['लेख', 'पन्ना', 'जिल्ह्याविषयी', 'पन्ना', 'शहराविषयीचा', 'लेख', 'पन्ना', 'प्रदेश', 'राज्यातील'], 'VAUX': ['आहे', 'आहे', 'आहे'], 'SYM': ['.', '.'], 'PRP': ['येथे'], 'NNC': ['जिल्हा', 'जिल्हा'], 'NNP': ['भारतातील'], 'NNPC': ['मध्य'], 'QC': ['एक']}

[('हा', 'DEM'), ('लेख', 'NN'), ('पन्ना', 'NN'), ('जिल्ह्याविषयी', 'NN'), ('आहे', 'VAUX'), ('.', 'SYM'), ('पन्ना', 'NN'), ('शहराविषयीचा', 'NN'), ('लेख', 'NN'), ('येथे', 'PRP'), ('आहे', 'VAUX'), ('.', 'SYM'), ('पन्ना', 'NN'), ('जिल्हा', 'NNC'), ('भारतातील', 'NNP'), ('मध्य', 'NNPC'), ('प्रदेश', 'NN'), ('राज्यातील', 'NN'), ('एक', 'QC'), ('जिल्हा', 'NNC'), ('आहे', 'VAUX')]


In [None]:
df_pos = pos_df(text)

Get word of Interest Tag

In [None]:
woi = get_word_of_interest(tags, word)
print(woi)

['NOUN']


Get synsets for the Word of Interest

In [None]:
synsets = get_synsets(woi)

In [None]:
print(synsets)

[["[Synset('राज्य.noun.231')", " Synset('प्रदेश.noun.2022')", " Synset('राज्य.noun.26705')]"]]


Get Index of the Word of Interest to Lookup in Dictionary

In [None]:
idx = get_index(synsets)
print(idx)

[['231'], ['2022'], ['26705']]


##Final Result

In [None]:
print("Parts of Speech Tags for the Given Text")
print(df_pos)
print()
print("Related synsets = ", "\n", synsets)
print()
print("Related indexes = ", "\n", idx)
print()
for n in idx:
  print("Word ID", n," - ", dictionary.get(n[0])) 

Parts of Speech Tags for the Given Text
   Tags                                                                 Words  Count
0  DEM   हा                                                                    1    
1  NN    लेख पन्ना जिल्ह्याविषयी पन्ना शहराविषयीचा लेख पन्ना प्रदेश राज्यातील  9    
2  VAUX  आहे आहे आहे                                                           3    
3  SYM   . .                                                                   2    
4  PRP   येथे                                                                  1    
5  NNC   जिल्हा जिल्हा                                                         2    
6  NNP   भारतातील                                                              1    
7  NNPC  मध्य                                                                  1    
8  QC    एक                                                                    1    

Related synsets =  
 [["[Synset('राज्य.noun.231')", " Synset('प्रदेश.noun.2022')", " Synset('राज्य.noun.26705