# POS tagger for Malayalam text 





1. Data is extracted from Github.
1. Its is loaded on to a Pandas dataframe
1. The data is then cleaned, includes removing null values and unneccesary columns and giving the columns names.
1. Creating a function to prepare the data to be given to the model. It creates a list of tuples.
1. Model is imported from library. Here we are using Perceptron tagger.
1. Model is trained and evaluated with testing data. Accuracy is obtained.
1. Model is tested on some real world data.


In [2]:
import numpy as np
import pandas as pd


# Extracting the data

Data Extrated From the following link
*https://raw.githubusercontent.com/akhilkishore/Malayalam-Pos-Tagger/master/Malayalam_Tagged_Data.txt*

In [3]:
df = pd.read_csv(r"https://raw.githubusercontent.com/akhilkishore/Malayalam-Pos-Tagger/master/Malayalam_Tagged_Data.txt", sep=" ",header=None)

In [4]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,മഹാത്മാഗാന്ധി,,,,,,,,\N_NNP
1,രാഷ്ട്രപിതാവ്,,,,,,,,\N_NN
2,ലക്ഷ്യങ്ങളെല്ലാം,,,,,,,,\N_NN
3,കര്‍്മ്മഫലത്തിലെത്തിച്ച,,,,,,,,\V_VM_VNF
4,മഹാൻ,,,,,,,,\N_NN


# Cleaning the data

In [5]:
df.drop([1,2,3,4,5,6,7], axis = 1,inplace = True)
df.columns = ["Word","Tag"]

In [6]:
df.head()

Unnamed: 0,Word,Tag
0,മഹാത്മാഗാന്ധി,\N_NNP
1,രാഷ്ട്രപിതാവ്,\N_NN
2,ലക്ഷ്യങ്ങളെല്ലാം,\N_NN
3,കര്‍്മ്മഫലത്തിലെത്തിച്ച,\V_VM_VNF
4,മഹാൻ,\N_NN


## Handling for Null values

In [7]:
df.isna().sum()

Word    1
Tag     0
dtype: int64

In [8]:
# Dropping null values
df.dropna(inplace=True)

In [9]:
# viewing the shape of data
df.shape

(266067, 2)

# Preparing data from Model

#### This function takes in the dataframe and gives a list of tuples, where the first element of the word and the second element is the tag.

In [10]:
def create_sentences(df):
    sents = []
    for i,j in zip(df["Word"],df["Tag"]):
        sents.append((i,j.strip("\\")))
    return sents 

## Creating the training dataset

In [11]:
# We are using 200000 datapoints from the dataset to craete the training dataset
sents = create_sentences(df.iloc[:200000])

In [12]:
# viewing the data
sents[:10]

[('മഹാത്മാഗാന്ധി', 'N_NNP'),
 ('രാഷ്ട്രപിതാവ്', 'N_NN'),
 ('ലക്ഷ്യങ്ങളെല്ലാം', 'N_NN'),
 ('കര്\u200d്മ്മഫലത്തിലെത്തിച്ച', 'V_VM_VNF'),
 ('മഹാൻ', 'N_NN'),
 ('.', 'RD_PUNC'),
 ('ജീവിതത്തിന്\u200dറെ', 'N_NN'),
 ('എല്ലാ', 'QT_QTF'),
 ('മേഖലകളെയും', 'N_NN'),
 ('സമഗ്രമായി', 'RB')]

In [13]:
# importing the model to be used
from nltk import word_tokenize
from nltk.tag import perceptron

# Creating, Training and Testing Model

In [14]:
tagger = perceptron.PerceptronTagger(load=False) 
# training 
tagger.train([sents]) 
# evaluating
acc = tagger.evaluate([create_sentences(df.iloc[200000:210000])]) #data for testing 
print ("Accuracy of perceptron Tag",acc)

Accuracy of perceptron Tag 0.8685


# Testing with examples

In [15]:
tagger.tag(['എല്ലാ','ദിവസവും','രാവിലെ','എട്ടു','മണിക്','ഞാൻ','ചായ','കുടിക്കും','.'])

[('എല്ലാ', 'QT_QTF'),
 ('ദിവസവും', 'N_NN'),
 ('രാവിലെ', 'N_NN'),
 ('എട്ടു', 'QT_QTO'),
 ('മണിക്', 'N_NN'),
 ('ഞാൻ', 'N_NN'),
 ('ചായ', 'N_NN'),
 ('കുടിക്കും', 'V_VM_VF'),
 ('.', 'RD_PUNC')]

In [16]:
tagger.tag(input().split())

രാജ്യത്തെ കൊവിഡ് മരണസംഖ്യയിൽ പന്ത്രണ്ടാഴ്ചകൾക്ക് ശേഷം കുറവ് രേഖപ്പെടുത്തി


[('രാജ്യത്തെ', 'N_NN'),
 ('കൊവിഡ്', 'N_NN'),
 ('മരണസംഖ്യയിൽ', 'N_NN'),
 ('പന്ത്രണ്ടാഴ്ചകൾക്ക്', 'N_NN'),
 ('ശേഷം', 'PSP'),
 ('കുറവ്', 'N_NN'),
 ('രേഖപ്പെടുത്തി', 'V_VM_VNF')]

In [17]:
tagger.tag(input().split())

രാഷ്ട്രീയ പകപോക്കൽ അവസാനിപ്പിക്കണം, ഭരിക്കാൻ അനുവദിക്കണം,കാല് പിടിക്കാമെന്ന് മമത


[('രാഷ്ട്രീയ', 'JJ'),
 ('പകപോക്കൽ', 'N_NN'),
 ('അവസാനിപ്പിക്കണം,', 'N_NN'),
 ('ഭരിക്കാൻ', 'N_NN'),
 ('അനുവദിക്കണം,കാല്', 'N_NN'),
 ('പിടിക്കാമെന്ന്', 'V_VM_VNF'),
 ('മമത', 'N_NN')]