<a href="https://colab.research.google.com/github/CharithReddy101/ADS_Experiential_Learning/blob/main/1700125C202_CharithReddy_ADS__Project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Extracting Multi Word Expressions using NLP in regional language
I've tried to implement the below research paper which proposed a hybrid approach to extract multi word expressions from a text. But this research paper was tried and tested for English language which has well implemented models and pos taggers. But I tried to implement the same for Telugu language. As there is very less work done for regional languages in NLP, I tried to work on a regional language and selected Telugu as it is my native language.
https://www.academia.edu/4705575/Hybrid_Approach_A_Solution_for_Extraction_of_Domain_Independent_Multiword_Expressions

The given article is a hybrid approach to extract domain independent multiword expressions. It is called hybrid approach because two techniques are used to extract the MWEs. More detailed explaination is given below.

In [None]:
#import necessary libs
import nltk
import numpy as numpy
import pandas as pa 
nltk.download('punkt')
from nltk import tokenize as tk
from nltk import word_tokenize, pos_tag
nltk.download('averaged_perceptron_tagger')
from nltk import RegexpParser
import matplotlib.pyplot as plt
from nltk.corpus import indian
from nltk.probability import FreqDist
nltk.download('indian')
from nltk.tag import tnt
train_data = indian.tagged_sents('telugu.pos')
tnt_pos_tagger = tnt.TnT()
tnt_pos_tagger.train(train_data)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package indian to /root/nltk_data...
[nltk_data]   Package indian is already up-to-date!


So coming to the Multi word expressions, they are small phrases which make a different
meaning when those words are used individually. And they also have a general meaning which is quiet straight
forward.


Eg: “అగ్ని కి అజ్య ం పోయు” 

Hindi translation - "जलती आग में तेल डालना"


If we read the above phrase normally, it means “use fuel to increase the fire intensity”. But
idiomatically, it means “to worsen a conflict between people”.
We use such phrases in our daily conversations but when it comes to NLP, the machine cannot
extract such idiomatic meanings. This article proposed a way to extract bigram and trigram
MWEs from the given data in English.


In [None]:
#this text includes bigram and trigram MWEs randomly placed.
text="రంగం సిద్ధం చేయు.కథలు జీవిత పాఠాలని నేర్పే మహత్తరమైన సాధనాలు.అమెరికా అధ్యక్ష ఎన్నిక ఫలితాలపై డొనాల్డ్ ట్రంప్ రాజీలేని పోరాటం చేస్తున్నారు. కీలకమైన పెన్సిల్వేనియా రాష్ట్ర ఫలితాలపై ట్రంప్ ఫైట్ చేస్తున్నారు. ఫెడరల్ కోర్టులో పిటిషన్ దాఖలు చేయగా ధర్మాసనం తిరస్కరించింది. ట్రంప్ వేసిన పిటిషన్‌ను తోసిపుచ్చింది. ఫలితాలను నిలిపివేయాలనే పిటిషన్‌ను డిస్ క్వాలిఫై చేసింది. అగ్నికి అజ్యం పోయు. ఇప్పుడే కాదు గత వారం కూడా ఇలాంటి అభియోగాలకు సంబంధించి పెన్సిల్వేనియా కోర్టు కూడా పిటిషన్‌ను తిరస్కరించింది. అయితే గత మంగళవారం పెన్సిల్వేనియాలో బిడెన్ విజయం సాధించారని ధృవీకరించిన సంగతి తెలిసిందే. కానీ ట్రంప్ మాత్రం రాజీలేకుండా పోరాటం చేస్తున్నారు. అయితే ఇవాళ మరొసారి చుక్కెదురు కావడం విశేషం. ముఖ్యంగా చిన్న పిల్లల పసి హృదయాలలో మంచి నడవడి ని గురించి, ధర్మా ధర్మాల గురించి, ప్రథమార్థం రెండు నిమిషాల్లో ముగుస్తుందనగా. ముంబై సిటీకి గట్టి ఎదురుదెబ్బ తగిలింది. దాంతో ముంబై జట్టు పదిమందికే పరిమితమైంది. చక్కటి ముద్ర వేసేవి ఈ చిన్ని నీతి కథలు. పిల్లలికి కథలంటే ఎంతో ఇష్టం. కడుపు చేతబట్టుకొను.  కథలు వింటూ ఊహాలోకంలో విహరిస్తారు.  నందిని పంది చేయు.  కథలో అంతర్గతంగా నీతి దాగి ఉంటుంది. మొసలి కన్నీళ్లు  విన్న కథనే ఎంతో ఆసక్తితో వినటం వలన అందులోని నీతి వారి మనస్సును హత్తుకు పోయే అవకాశం ఎక్కువే. అరటిపండు ఒల్చి నోట్లోపెట్టు."

Here is a summary of the technique followed:

• First the text is preprocessed to clean the data. It includes removing the
punctuations, mail ids, URLs, and other words which does not contribute to the
MWE concept like an abbreviation.

• The new data is then made into bigrams and trigrams. Now frequency of
individual words, trigrams and bigrams are calculated.
• These calculations are used in the statistical technique. Dice coefficient is used to
calculate the statistical score.

DC(w1w2) = 2f(w1w2) /f(w1) + f(w2) ---(1)

DC(w1w2w3) = 3f(w1w2w3) /(f(w1) + f(w2) + f(w3)) ---(2)

• Here f(w1w2),f(w1w2w3) are the frequencies of the bi and trigrams.
f(w1),f(w2),f(w3) are the individual frequencies of the individual words of the
particular bi/trigrams.

• Generally, MWEs have a high statistical score. So we need to extract the bi and
trigrams which have more dice coefficient than a give threshold value. This
threshold value, according to the article, is calculates using two methods. One is
minimizing the error in the classification and the other is maximizing the recall
value.

• After extracting the bigrams and trigrams from the statistical technique,
linguistic pattern technique is used to extract the most eligible MWEs.


• Generally, MWEs follow a pattern/ rule like Noun – Noun, Verb – Noun, Adjective –
Noun, Verb – Preposition, Verb – Adverb, and Noun – Preposition for bigrams. While the
rules for trigrams consist of: Adjective – Adjective – Noun, Adjective – Noun – Noun,
Noun – Adjective – Noun, Noun – Noun – Noun, and Noun – Preposition – Noun.

• All the bigrams and trigrams which we extracted from the statistical technique goes
through the pattern recognition where they are POS tagged.

• And the final bigrams and trigrams which follow any above pattern are extracted and
can be called as Multi word expressions.

In [None]:
#preprocessing
import re, string, collections
from nltk.util import ngrams # function for making ngrams
# get rid of all the XML markup
text = re.sub('<.*>','',text)

# get rid of the "ENDOFARTICLE." text
text = re.sub('ENDOFARTICLE.','',text)

# get rid of punctuation (except periods!)
punctuationNoPeriod = "[" + re.sub("\.","",string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)
print(text)

రంగం సిద్ధం చేయుకథలు జీవిత పాఠాలని నేర్పే మహత్తరమైన సాధనాలుఅమెరికా అధ్యక్ష ఎన్నిక ఫలితాలపై డొనాల్డ్ ట్రంప్ రాజీలేని పోరాటం చేస్తున్నారు కీలకమైన పెన్సిల్వేనియా రాష్ట్ర ఫలితాలపై ట్రంప్ ఫైట్ చేస్తున్నారు ఫెడరల్ కోర్టులో పిటిషన్ దాఖలు చేయగా ధర్మాసనం తిరస్కరించింది ట్రంప్ వేసిన పిటిషన్‌ను తోసిపుచ్చింది ఫలితాలను నిలిపివేయాలనే పిటిషన్‌ను డిస్ క్వాలిఫై చేసింది అగ్నికి అజ్యం పోయు ఇప్పుడే కాదు గత వారం కూడా ఇలాంటి అభియోగాలకు సంబంధించి పెన్సిల్వేనియా కోర్టు కూడా పిటిషన్‌ను తిరస్కరించింది అయితే గత మంగళవారం పెన్సిల్వేనియాలో బిడెన్ విజయం సాధించారని ధృవీకరించిన సంగతి తెలిసిందే కానీ ట్రంప్ మాత్రం రాజీలేకుండా పోరాటం చేస్తున్నారు అయితే ఇవాళ మరొసారి చుక్కెదురు కావడం విశేషం ముఖ్యంగా చిన్న పిల్లల పసి హృదయాలలో మంచి నడవడి ని గురించి ధర్మా ధర్మాల గురించి ప్రథమార్థం రెండు నిమిషాల్లో ముగుస్తుందనగా ముంబై సిటీకి గట్టి ఎదురుదెబ్బ తగిలింది దాంతో ముంబై జట్టు పదిమందికే పరిమితమైంది చక్కటి ముద్ర వేసేవి ఈ చిన్ని నీతి కథలు పిల్లలికి కథలంటే ఎంతో ఇష్టం కడుపు చేతబట్టుకొను  కథలు వింటూ ఊహాలోకంలో విహరిస్తారు  నందిని పంది చేయు  

In [None]:
#tokenization and frequency of words
tokenize = text.split()
termFreq = dict.fromkeys(set(tokenize), 0)
for i in tokenize:
    termFreq[i] += 1
print(termFreq)

{'కావడం': 1, 'వింటూ': 1, 'పెన్సిల్వేనియా': 2, 'చుక్కెదురు': 1, 'ఒల్చి': 1, 'ఎదురుదెబ్బ': 1, 'ఆసక్తితో': 1, 'మంగళవారం': 1, 'పోయు': 1, 'కోర్టులో': 1, 'ప్రథమార్థం': 1, 'ఇష్టం': 1, 'రాష్ట్ర': 1, 'అధ్యక్ష': 1, 'ధర్మాసనం': 1, 'కాదు': 1, 'ఫలితాలపై': 2, 'మరొసారి': 1, 'ఫైట్': 1, 'ధర్మాల': 1, 'సాధనాలుఅమెరికా': 1, 'మనస్సును': 1, 'చేస్తున్నారు': 3, 'గట్టి': 1, 'మహత్తరమైన': 1, 'సిద్ధం': 1, 'పంది': 1, 'దాఖలు': 1, 'చిన్ని': 1, 'నడవడి': 1, 'అందులోని': 1, 'జీవిత': 1, 'ట్రంప్': 4, 'అవకాశం': 1, 'పిల్లల': 1, 'డొనాల్డ్': 1, 'అభియోగాలకు': 1, 'ఇవాళ': 1, 'చిన్న': 1, 'రెండు': 1, 'రంగం': 1, 'కథలు': 2, 'కీలకమైన': 1, 'డిస్': 1, 'కడుపు': 1, 'పసి': 1, 'ఇలాంటి': 1, 'ఈ': 1, 'చేయు': 1, 'హత్తుకు': 1, 'అంతర్గతంగా': 1, 'కోర్టు': 1, 'పరిమితమైంది': 1, 'కథలంటే': 1, 'ని': 1, 'పాఠాలని': 1, 'చేతబట్టుకొను': 1, 'నందిని': 1, 'చక్కటి': 1, 'ఇప్పుడే': 1, 'దాంతో': 1, 'పోరాటం': 2, 'సాధించారని': 1, 'చేయగా': 1, 'వలన': 1, 'ఎన్నిక': 1, 'విహరిస్తారు': 1, 'మొసలి': 1, 'పిటిషన్': 1, 'తిరస్కరించింది': 2, 'ఊహాలోకంలో': 1, 'విన్న': 1, 'ఎక్కువే': 

In [None]:
#converting text to bigrams and frequency count of bigrams
#calculating dice coefficient for trigrams

bigrams = []
BiDiceCoeff = {}
for i in range(len(tokenize) - 1):
    bigrams.append(tokenize[i] + " " + tokenize[i + 1])
print(bigrams)
bigramsFreq = dict.fromkeys(set(bigrams),0)
for j in bigrams:
    bigramsFreq[j] +=1
print(bigramsFreq)
for i in range(len(tokenize)-1):
    BiDiceCoeff[(tokenize[i] + " " + tokenize[i + 1])] = (2 * bigramsFreq[(tokenize[i] + " " + tokenize[i + 1])])/(termFreq[tokenize[i]] + termFreq[tokenize[i+1]])


['రంగం సిద్ధం', 'సిద్ధం చేయుకథలు', 'చేయుకథలు జీవిత', 'జీవిత పాఠాలని', 'పాఠాలని నేర్పే', 'నేర్పే మహత్తరమైన', 'మహత్తరమైన సాధనాలుఅమెరికా', 'సాధనాలుఅమెరికా అధ్యక్ష', 'అధ్యక్ష ఎన్నిక', 'ఎన్నిక ఫలితాలపై', 'ఫలితాలపై డొనాల్డ్', 'డొనాల్డ్ ట్రంప్', 'ట్రంప్ రాజీలేని', 'రాజీలేని పోరాటం', 'పోరాటం చేస్తున్నారు', 'చేస్తున్నారు కీలకమైన', 'కీలకమైన పెన్సిల్వేనియా', 'పెన్సిల్వేనియా రాష్ట్ర', 'రాష్ట్ర ఫలితాలపై', 'ఫలితాలపై ట్రంప్', 'ట్రంప్ ఫైట్', 'ఫైట్ చేస్తున్నారు', 'చేస్తున్నారు ఫెడరల్', 'ఫెడరల్ కోర్టులో', 'కోర్టులో పిటిషన్', 'పిటిషన్ దాఖలు', 'దాఖలు చేయగా', 'చేయగా ధర్మాసనం', 'ధర్మాసనం తిరస్కరించింది', 'తిరస్కరించింది ట్రంప్', 'ట్రంప్ వేసిన', 'వేసిన పిటిషన్\u200cను', 'పిటిషన్\u200cను తోసిపుచ్చింది', 'తోసిపుచ్చింది ఫలితాలను', 'ఫలితాలను నిలిపివేయాలనే', 'నిలిపివేయాలనే పిటిషన్\u200cను', 'పిటిషన్\u200cను డిస్', 'డిస్ క్వాలిఫై', 'క్వాలిఫై చేసింది', 'చేసింది అగ్నికి', 'అగ్నికి అజ్యం', 'అజ్యం పోయు', 'పోయు ఇప్పుడే', 'ఇప్పుడే కాదు', 'కాదు గత', 'గత వారం', 'వారం కూడా', 'కూడా ఇలాంటి', 'ఇలాంటి అభియోగాలకు', 'అభియోగాలకు 

In [None]:
#converting text to triigrams and frequency count of trigrams
#calculating dice coefficient for trigrams
trigrams = []
TriDiceCoeff = {}
for i in range(len(tokenize) -2):
    trigrams.append(tokenize[i] + " " + tokenize[i + 1]+" "+ tokenize[i + 2])
print(trigrams)
trigramsFreq = dict.fromkeys(set(trigrams),0)
for j in trigrams:
    trigramsFreq[j] +=1
print(trigramsFreq)
for i in range(len(tokenize)-2):
    TriDiceCoeff[(tokenize[i] + " " + tokenize[i + 1] + " " + tokenize[i + 2])] = (3 * trigramsFreq[(tokenize[i] + " " + tokenize[i + 1] + " " + tokenize[i + 2])])/(termFreq[tokenize[i]] + termFreq[tokenize[i+1]] + termFreq[tokenize[i+2]])


['రంగం సిద్ధం చేయుకథలు', 'సిద్ధం చేయుకథలు జీవిత', 'చేయుకథలు జీవిత పాఠాలని', 'జీవిత పాఠాలని నేర్పే', 'పాఠాలని నేర్పే మహత్తరమైన', 'నేర్పే మహత్తరమైన సాధనాలుఅమెరికా', 'మహత్తరమైన సాధనాలుఅమెరికా అధ్యక్ష', 'సాధనాలుఅమెరికా అధ్యక్ష ఎన్నిక', 'అధ్యక్ష ఎన్నిక ఫలితాలపై', 'ఎన్నిక ఫలితాలపై డొనాల్డ్', 'ఫలితాలపై డొనాల్డ్ ట్రంప్', 'డొనాల్డ్ ట్రంప్ రాజీలేని', 'ట్రంప్ రాజీలేని పోరాటం', 'రాజీలేని పోరాటం చేస్తున్నారు', 'పోరాటం చేస్తున్నారు కీలకమైన', 'చేస్తున్నారు కీలకమైన పెన్సిల్వేనియా', 'కీలకమైన పెన్సిల్వేనియా రాష్ట్ర', 'పెన్సిల్వేనియా రాష్ట్ర ఫలితాలపై', 'రాష్ట్ర ఫలితాలపై ట్రంప్', 'ఫలితాలపై ట్రంప్ ఫైట్', 'ట్రంప్ ఫైట్ చేస్తున్నారు', 'ఫైట్ చేస్తున్నారు ఫెడరల్', 'చేస్తున్నారు ఫెడరల్ కోర్టులో', 'ఫెడరల్ కోర్టులో పిటిషన్', 'కోర్టులో పిటిషన్ దాఖలు', 'పిటిషన్ దాఖలు చేయగా', 'దాఖలు చేయగా ధర్మాసనం', 'చేయగా ధర్మాసనం తిరస్కరించింది', 'ధర్మాసనం తిరస్కరించింది ట్రంప్', 'తిరస్కరించింది ట్రంప్ వేసిన', 'ట్రంప్ వేసిన పిటిషన్\u200cను', 'వేసిన పిటిషన్\u200cను తోసిపుచ్చింది', 'పిటిషన్\u200cను తోసిపుచ్చింది ఫలితాలను', 'తోసిపుచ్చ

In [None]:
#extracting the bigrams and trigrams after calculating dice coefficients
bidice = []
for i in BiDiceCoeff:
    if BiDiceCoeff[i] > 0.95:
        bidice.append(i)
tridice = []
for i in TriDiceCoeff:
    if TriDiceCoeff[i] > 0.8:
        tridice.append(i)      
print(bidice)
#print(tridice)

['రంగం సిద్ధం', 'సిద్ధం చేయుకథలు', 'చేయుకథలు జీవిత', 'జీవిత పాఠాలని', 'పాఠాలని నేర్పే', 'నేర్పే మహత్తరమైన', 'మహత్తరమైన సాధనాలుఅమెరికా', 'సాధనాలుఅమెరికా అధ్యక్ష', 'అధ్యక్ష ఎన్నిక', 'ఫెడరల్ కోర్టులో', 'కోర్టులో పిటిషన్', 'పిటిషన్ దాఖలు', 'దాఖలు చేయగా', 'చేయగా ధర్మాసనం', 'తోసిపుచ్చింది ఫలితాలను', 'ఫలితాలను నిలిపివేయాలనే', 'డిస్ క్వాలిఫై', 'క్వాలిఫై చేసింది', 'చేసింది అగ్నికి', 'అగ్నికి అజ్యం', 'అజ్యం పోయు', 'పోయు ఇప్పుడే', 'ఇప్పుడే కాదు', 'ఇలాంటి అభియోగాలకు', 'అభియోగాలకు సంబంధించి', 'మంగళవారం పెన్సిల్వేనియాలో', 'పెన్సిల్వేనియాలో బిడెన్', 'బిడెన్ విజయం', 'విజయం సాధించారని', 'సాధించారని ధృవీకరించిన', 'ధృవీకరించిన సంగతి', 'సంగతి తెలిసిందే', 'తెలిసిందే కానీ', 'మాత్రం రాజీలేకుండా', 'ఇవాళ మరొసారి', 'మరొసారి చుక్కెదురు', 'చుక్కెదురు కావడం', 'కావడం విశేషం', 'విశేషం ముఖ్యంగా', 'ముఖ్యంగా చిన్న', 'చిన్న పిల్లల', 'పిల్లల పసి', 'పసి హృదయాలలో', 'హృదయాలలో మంచి', 'మంచి నడవడి', 'నడవడి ని', 'ధర్మా ధర్మాల', 'ప్రథమార్థం రెండు', 'రెండు నిమిషాల్లో', 'నిమిషాల్లో ముగుస్తుందనగా', 'సిటీకి గట్టి', 'గట్టి ఎదురుదెబ్బ

In [None]:
#using google translate api to replace the unknown pos tags with the possible pos tag
from googletrans import Translator
import re

translator = Translator()
sentence_id = 0
model_path = "/content/telugu.pos" 

def train_telugu_model(model_path):
    train_data = indian.tagged_sents(model_path)
    tnt_pos_tagger = tnt.TnT()
    tnt_pos_tagger.train(train_data)
    return tnt_pos_tagger


def get_sentId(model_path):
    ids = re.compile('<Sentence\sid=\d+>')
    with open(model_path, "r+") as temp_f:
        content = temp_f.readlines()
        for i in content:
            id_found = (ids.findall(i))
            if id_found:
                id_found = str(id_found).replace("['<Sentence id=", "").replace(">']", "")
                id = int(id_found)
    id = id + 1
    return id


def tag_words(model,text):
    tagged = (model.tag(nltk.word_tokenize(text)))
    return tagged


def handle_UNK(tagged_words, model_path, sentence_id):
    with open(model_path, "r+") as f1:
        result_list = []
        for nep_word, tag in tagged_words:
            if tag == "Unk":
                x = translator.translate(nep_word)
                if x is not None:
                    str1 = str(x)
                    new_str = str1.split()
                    for j in new_str:
                        if re.search('^text=', j, re.I):
                            word = j.replace("text=", ",").replace(",", "")
                            word = str(word)
                            # pos=nltk.pos_tag(word)
                            pos = nltk.tag.pos_tag([word])
                            # print (i, pos)
                            for en_word, tag in pos:
                                result = nep_word + "_" + (tag) + " "
                                result_list.append(result)

            else:
                result = nep_word + "_" + (tag) + " "
                result_list.append(result)

        writing_word = str("\n<Sentence id=") + str(sentence_id) + ">\n"
        output = writing_word + "".join(result_list) + "\n</Sentence>\n</Corpora>"
        for line in f1.readlines():
            f1.write(line.replace("</Corpora>", ""))
        f1.write(output)


sentence_id = (get_sentId(model_path))
print (sentence_id)

model = train_telugu_model(model_path)
tagged_words = tag_words(model,text)

print ("=================================Tagged words=================================\n",tagged_words,"\n")

handle_UNK(tagged_words,model_path,sentence_id)

#retrain the model
model = train_telugu_model(model_path)
new_tagged_words =  tag_words(model,text)
print ("=================================New Tagged words=================================\n",new_tagged_words,"\n")

1000
 [('రంగం', 'NN'), ('సిద్ధం', 'VB'), ('చేయుకథలు', 'NNS'), ('జీవిత', 'NN'), ('పాఠాలని', 'NNS'), ('నేర్పే', 'NN'), ('మహత్తరమైన', 'NN'), ('సాధనాలుఅమెరికా', 'NN'), ('అధ్యక్ష', 'NNP'), ('ఎన్నిక', 'NN'), ('ఫలితాలపై', 'IN'), ('డొనాల్డ్', 'NNP'), ('ట్రంప్', 'NN'), ('రాజీలేని', 'VBG'), ('పోరాటం', 'NN'), ('చేస్తున్నారు', 'VFM'), ('కీలకమైన', 'JJ'), ('పెన్సిల్వేనియా', 'NN'), ('రాష్ట్ర', 'NNC'), ('ఫలితాలపై', 'IN'), ('ట్రంప్', 'NN'), ('ఫైట్', 'NN'), ('చేస్తున్నారు', 'VFM'), ('ఫెడరల్', 'JJ'), ('కోర్టులో', 'IN'), ('పిటిషన్', 'NN'), ('దాఖలు', 'VBN'), ('చేయగా', 'IN'), ('ధర్మాసనం', 'JJ'), ('తిరస్కరించింది', 'VBN'), ('ట్రంప్', 'NN'), ('వేసిన', 'NN'), ('పిటిషన్\u200cను', 'NN'), ('తోసిపుచ్చింది', 'VBN'), ('ఫలితాలను', 'NN'), ('నిలిపివేయాలనే', 'TO'), ('పిటిషన్\u200cను', 'NN'), ('డిస్', 'NN'), ('క్వాలిఫై', 'VB'), ('చేసింది', 'VFM'), ('అగ్నికి', 'TO'), ('అజ్యం', 'NN'), ('పోయు', 'VB'), ('ఇప్పుడే', 'RB'), ('కాదు', 'NEG'), ('గత', 'JJ'), ('వారం', 'NN'), ('కూడా', 'CC'), ('ఇలాంటి', 'JJ'), ('అభియోగాలకు', 'TO'), ('

In [None]:
#using thr new pos tagged words to check the linguistic patterns of bigrams and trigrams and printing the possible MWEs in the given text
pval = {}
for i in new_tagged_words:
    pval[i[0]] = i[1]
multi_word_exp = []

for i in bidice:
    biWords = i.split()
    if (pval[biWords[0]] == "NN" and pval[biWords[0]] == "NN") or (pval[biWords[0]] == "VB" and pval[biWords[0]] == "NN") or (pval[biWords[0]] == "JJ" and pval[biWords[0]] == "NN") or (pval[biWords[0]] == "VB" and pval[biWords[0]] == "IN") or (pval[biWords[0]] == "VB" and pval[biWords[0]] == "RB") or (pval[biWords[0]] == "NN" and pval[biWords[0]] == "IN"):
        multi_word_exp.append(i)

for j in tridice:
    triWords = j.split()
    if (pval[triWords[0]] == "JJ" and pval[triWords[0]] == "JJ" and pval[triWords[2]] == "NN") or (pval[triWords[0]] == "JJ" and pval[triWords[0]] == "NN" and pval[triWords[2]] == "NN") or (pval[triWords[0]] == "NN" and pval[triWords[0]] == "NN" and pval[triWords[2]] == "NN") or (pval[triWords[0]] == "NN" and pval[triWords[0]] == "NN" and pval[triWords[2]] == "NN") or (pval[triWords[0]] == "NN" and pval[triWords[0]] == "IN" and pval[triWords[2]] == "NN"):
        multi_word_exp.append(j)

print("Multi word expressions",multi_word_exp)

Multi word expressions ['రంగం సిద్ధం', 'జీవిత పాఠాలని', 'నేర్పే మహత్తరమైన', 'మహత్తరమైన సాధనాలుఅమెరికా', 'సాధనాలుఅమెరికా అధ్యక్ష', 'పిటిషన్ దాఖలు', 'ఫలితాలను నిలిపివేయాలనే', 'డిస్ క్వాలిఫై', 'అజ్యం పోయు', 'విజయం సాధించారని', 'సంగతి తెలిసిందే', 'ఇవాళ మరొసారి', 'విశేషం ముఖ్యంగా', 'పసి హృదయాలలో', 'నడవడి ని', 'ధర్మా ధర్మాల', 'గట్టి ఎదురుదెబ్బ', 'ఎదురుదెబ్బ తగిలింది', 'తగిలింది దాంతో', 'జట్టు పదిమందికే', 'చక్కటి ముద్ర', 'ముద్ర వేసేవి', 'వేసేవి ఈ', 'కడుపు చేతబట్టుకొను', 'నందిని పంది', 'పంది చేయు', 'మొసలి కన్నీళ్లు', 'మనస్సును హత్తుకు', 'అవకాశం ఎక్కువే', 'ఒల్చి నోట్లోపెట్టు', 'జీవిత పాఠాలని నేర్పే', 'నేర్పే మహత్తరమైన సాధనాలుఅమెరికా', 'సాధనాలుఅమెరికా అధ్యక్ష ఎన్నిక', 'ఫెడరల్ కోర్టులో పిటిషన్', 'చిన్న పిల్లల పసి', 'గట్టి ఎదురుదెబ్బ తగిలింది', 'పరిమితమైంది చక్కటి ముద్ర', 'చక్కటి ముద్ర వేసేవి', 'వేసేవి ఈ చిన్ని']


The above results helps to confirm the multiword expressions through a two step
process. MWEs can be extracted through statistical methods and linguistic patterns but
combining both made the system more reliable and robust when compares to using them
individually.
Even after this, the f-score this system got is very low. The reason for this may be because of
the threshold value. As the threshold value cannot be directly decided, it made the system to
give few ngrams which are not MWEs. So according to me, to get the best threshold value, we
can use the same technique on a dataset which consists of only MWEs, we can guess the
threshold value which can be used on any other dataset. So if that data has more dice
coefficient than the threshold extracted from the original MWE dataset, we can improve the
performance of the model.