# Problem Statement- Implement POS tagging for simple sentences written Hindi or any Indian Language

Here I Used the news articles provided by the Marathi Corpus by the NLTK
library.I trained a Unigram POS Tagger provided by the NLTK library to train on
the Marathi corpus.

### Step 1: Necessary Dependancies

In [26]:
import nltk
import pandas as pd

from nltk import word_tokenize
from nltk.tag import untag
from nltk import UnigramTagger

pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', -1)

from nltk.corpus import indian
nltk.download('indian')

  # Remove the CWD from sys.path while we load stuff.
[nltk_data] Downloading package indian to /home/dell/nltk_data...
[nltk_data]   Package indian is already up-to-date!


True

### Step 2: Load Data

In [27]:
tagged_set = 'marathi.pos'
articles = indian.sents(tagged_set)

In [28]:
count = 0
for sentence in articles[0]:
    print(sentence)     #View the dataset

''
सनातनवाद्यांनी
व
प्रतिगाम्यांनी
समाज
रसातळाला
नेला
असताना
या
अंधारात
बाळशास्त्री
जांभेकर
यांनी
'दर्पण'च्या
माध्यमातून
पहिली
ज्ञानज्योत
तेववली
,
''
असे
प्रतिपादन
नटसम्राट
प्रभाकर
पणशीकर
यांनी
केले
.


In [29]:
count=len(articles)  #Size of dataset



We could therefore find POS tags for 1197 sentences.


Lets view the first article...


In [30]:
sentence1 = " ".join(articles[0])
sentence1

"'' सनातनवाद्यांनी व प्रतिगाम्यांनी समाज रसातळाला नेला असताना या अंधारात बाळशास्त्री जांभेकर यांनी 'दर्पण'च्या माध्यमातून पहिली ज्ञानज्योत तेववली , '' असे प्रतिपादन नटसम्राट प्रभाकर पणशीकर यांनी केले ."

In [31]:
print(count)

1197


### Step 3: Split dataset into training and testing

In [32]:
train_perc = .9
train_rows = int(train_perc*count)
test_rows = train_rows + 1
print(train_rows,test_rows)

1077 1078


In [33]:

data = indian.tagged_sents(tagged_set)
train_data = data[:train_rows] 
test_data = data[test_rows:]


### Step 4: Training the model

The Unigram tagger (n-gram, n = 1) is a simple statistical tagging algorithm. For each token, it assigns the tag that is most likely for that token. For example, it will
assign the tag ‘adj’ to any occurrence of the word ‘frequent’, since ‘frequent’ is used as an adjective (e.g. a frequent word) more often than it is used as a verb (e.g. I
frequent this cafe).


#### Simple unigram model without backoff tagger

In [34]:
# Train the unigram model
unigram_tag = UnigramTagger(train_data)

# Test it on a single sentence
unigram_tag.tag(untag(test_data[0]))

[('ज्या', 'PRP'),
 ('देशवासीयांकडे', None),
 ('केबल', 'NN'),
 ('नाही', 'VAUX'),
 (',', 'SYM'),
 ('त्यांना', 'PRP'),
 ('सात', 'QC'),
 ('मिनिटे', 'NN'),
 ('उशिरा', None),
 ('सामना', 'NN'),
 ('दाखवावा', None),
 ('लागत', 'VAUX'),
 ('असल्याने', 'VM'),
 ('निंबस', 'NNP'),
 ('अन्याय', 'NN'),
 ('करत', 'VM'),
 ('असल्याचे', 'VAUX'),
 ('मत', 'NN'),
 ('त्यांनी', 'PRP'),
 ('व्यक्त', 'JJ'),
 ('केले', 'VM'),
 ('होते', 'VAUX'),
 (';', 'SYM'),
 ('तसेच', 'CC'),
 ('त्याच', 'DEM'),
 ('वेळी', 'NN'),
 ('सरकारी', 'JJ'),
 ('पातळीवर', 'NN'),
 ('एक', 'QC'),
 ('विधेयक', 'NN'),
 ('मांडण्याचाही', None),
 ('विचार', 'NN'),
 ('बोलून', 'VM'),
 ('दाखविला', 'VAUX'),
 ('होता', 'VAUX'),
 ('.', 'SYM')]

In [35]:
unigram_tag.evaluate(test_data)   # Evaluation of model

0.5846774193548387

#### Combining unigram tagger with backoff tagging

Many words have been assigned a tag of 'None' because they were not among the most frequent words. It can pass the word on to the next backoff tagger. In these case, we assign 'Defualt Tag' of 'NN'. 
Here Default Tagger used backoff tagger.

In [36]:

# Train the unigram model
unigram_tagger = UnigramTagger(train_data,backoff=nltk.DefaultTagger('NN'))

# Test it on a single sentence
unigram_tagger.tag(untag(test_data[0]))


[('ज्या', 'PRP'),
 ('देशवासीयांकडे', 'NN'),
 ('केबल', 'NN'),
 ('नाही', 'VAUX'),
 (',', 'SYM'),
 ('त्यांना', 'PRP'),
 ('सात', 'QC'),
 ('मिनिटे', 'NN'),
 ('उशिरा', 'NN'),
 ('सामना', 'NN'),
 ('दाखवावा', 'NN'),
 ('लागत', 'VAUX'),
 ('असल्याने', 'VM'),
 ('निंबस', 'NNP'),
 ('अन्याय', 'NN'),
 ('करत', 'VM'),
 ('असल्याचे', 'VAUX'),
 ('मत', 'NN'),
 ('त्यांनी', 'PRP'),
 ('व्यक्त', 'JJ'),
 ('केले', 'VM'),
 ('होते', 'VAUX'),
 (';', 'SYM'),
 ('तसेच', 'CC'),
 ('त्याच', 'DEM'),
 ('वेळी', 'NN'),
 ('सरकारी', 'JJ'),
 ('पातळीवर', 'NN'),
 ('एक', 'QC'),
 ('विधेयक', 'NN'),
 ('मांडण्याचाही', 'NN'),
 ('विचार', 'NN'),
 ('बोलून', 'VM'),
 ('दाखविला', 'VAUX'),
 ('होता', 'VAUX'),
 ('.', 'SYM')]

In [37]:
unigram_tagger.evaluate(test_data)  #Evaluation of new model

0.7240783410138248

Accuracy of model has been increased from 58% to 72%

### Step 5: Formatting results into a table 

In [38]:
#Generalized function that would return the POS tags in a structured table format
from collections import defaultdict

def get_POS(article):

    POS = {}

    word_tags = unigram_tagger.tag(article)
    for word, tag in word_tags:
        if tag not in POS:
            POS[tag] = [word]
        else:
            POS[tag].append(word)
    
    DF = {'Tags':[], 'Words':[], 'Count':[]}


    for k in POS:
        DF['Tags'].append(k)
        DF['Words'].append(" ".join(POS[k]))
        DF['Count'].append(len(POS[k]))
    
    return pd.DataFrame(DF)



Testing on External article


In [39]:
list='डॉ. मानसी शिरीष कणेकर  या मराठी लेखिका, कवयित्री व गायिका होत्या. कणेकर संजीवनी मराठे यांची मुलगी होत. त्यांचे पती अनिल हवालदार आणि शिरीष कणेकर हे दोघेही लेखक होत. मानसी कणेकर यांचे इंग्रजी, मराठी, संस्कृत आणि उर्दू या भाषांवर प्रभुत्व होते. त्या गझल लिहीत आणि गातही. मानसी कणेकर यांनी २९व्या वर्षी अनुवादशास्त्रात पीएच.डी. मिळवली होती. लॉर्का या प्रसिद्ध स्पॅनिश नाटककाराची तीन नाटके त्यांनी मराठीत अनुवादित केली होती. त्यांनी ज्ञानेश्वरांच्या अभंगांचे आशयलेखन केले. सिम्बोलिझम या विषयाचा त्यांचा अभ्यास असून त्यांच्या पुस्तकांतून आध्यात्मिक चित्रकार शिवानंद यांची प्रतीकात्मक चित्रे असत.'

In [40]:
df = get_POS(word_tokenize(list))  #With the help of nltk.tokenize.word_tokenize() method, we are able to extract the tokens from string of characters
df

Unnamed: 0,Tags,Words,Count
0,NN,डॉ मानसी शिरीष कणेकर लेखिका कवयित्री गायिका कणेकर संजीवनी मुलगी पती हवालदार शिरीष कणेकर दोघेही लेखक मानसी कणेकर संस्कृत उर्दू भाषांवर प्रभुत्व गझल लिहीत गातही मानसी कणेकर २९व्या वर्षी अनुवादशास्त्रात पीएच.डी मिळवली लॉर्का स्पॅनिश नाटककाराची नाटके मराठीत अनुवादित ज्ञानेश्वरांच्या अभंगांचे आशयलेखन सिम्बोलिझम विषयाचा अभ्यास पुस्तकांतून आध्यात्मिक चित्रकार शिवानंद प्रतीकात्मक चित्रे,50
1,SYM,". , . . . , , . . . . . . .",14
2,DEM,या हे या त्या या या,6
3,JJ,मराठी मराठी प्रसिद्ध,3
4,CC,व अनिल आणि आणि आणि,5
5,VAUX,होत्या होते होती होती असून असत,6
6,NNP,मराठे इंग्रजी,2
7,PRP,यांची त्यांचे यांचे यांनी त्यांनी त्यांनी त्यांचा त्यांच्या यांची,9
8,VM,होत होत केली केले,4
9,QC,तीन,1


In [41]:
list1="जॉन 'माल्कम फ्रेझर' हा ऑस्ट्रेलियाचा बाविसावा पंतप्रधान होता. हा १९७५ ते १९८३ दरम्यान सत्तेवर होता."

In [42]:
df = get_POS(word_tokenize(list1))
df

Unnamed: 0,Tags,Words,Count
0,NN,जॉन माल्कम फ्रेझर ऑस्ट्रेलियाचा बाविसावा पंतप्रधान १९७५ सत्तेवर,8
1,SYM,' ' . .,4
2,DEM,हा हा,2
3,VAUX,होता होता,2
4,PRP,ते,1
5,NNP,१९८३,1
6,NST,दरम्यान,1
