In [1]:
#my reference: https://pypi.org/project/conllu/


In [2]:
#!pip install psycopg2-binary

In [3]:
#Importing dependencies
from io import open
from conllu import parse_incr
import pandas as pd
import itertools
from sqlalchemy import create_engine
from config import db_password
import numpy as np


In [4]:
# Importing from file
file = 'TamilTB.v0.1\data\TamilTB.v0.1.utf8.conll'
data_file = open(file, "r", encoding="utf-8")


In [5]:
#Setting precision of dataframe as 0
pd.set_option('precision', 0)

#Setting Dataframe display to max
pd.set_option('display.max_rows', None)

In [6]:
#Converting conll to a dataframe
columns = ['id', 'form', 'lemma', 'upos', 'xpos', 'feats', 'head', 'Morpheme']
df = pd.DataFrame(columns = columns)
for tokenlist in parse_incr(data_file):
    for word in tokenlist:
        df = df.append({'id': word["id"], 
                        'form' : word["form"],
                        'lemma' : word["lemma"],
                        'upos' : word["upos"],
                        'xpos' : word["xpos"],
                        'feats' : word["feats"],
                        'head' : word["head"]},
                        ignore_index = True
                        )
df.head()

Unnamed: 0,id,form,lemma,upos,xpos,feats,head,Morpheme
0,1,சென்னை,சென்னை,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",2,
1,2,அருகே,அருகே,P,PP-------,,18,
2,3,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",4,
3,4,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,"{'Cas': 'L', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",18,
4,5,கிரீன்,கிரீன்,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",6,


In [7]:
#Function to extract the morphemes by stripping away the lemma
def morpheme_extract(lemmalist, wordlist):
    if len(lemmalist)<len(wordlist):
        for i in range(len(lemmalist)):
            if (wordlist[i] != lemmalist[i]):
                difference.append(wordlist[i])
        index = i
        for i in range(len(wordlist)):
            if i > index:
                difference.append(wordlist[i])
                morpheme = ''.join(difference)
                row["Morpheme"] = morpheme
    else:
        row["Morpheme"] = ""


In [8]:
# Going through each row in the dataframe and calling the function to strip away the morphemes
for index, row in df.iterrows():
    word = row["form"]
    wordlist = [ch for ch in word] 
    lemma = row["lemma"]
    lemmalist = [ch for ch in lemma] 
    difference = []
    morpheme_extract(lemmalist, wordlist)
    difference[:5]

In [9]:
df.head()

Unnamed: 0,id,form,lemma,upos,xpos,feats,head,Morpheme
0,1,சென்னை,சென்னை,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",2,
1,2,அருகே,அருகே,P,PP-------,,18,
2,3,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",4,
3,4,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,"{'Cas': 'L', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",18,ில்
4,5,கிரீன்,கிரீன்,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",6,


In [10]:
#Dropping id column
df.drop(columns='id', inplace=True)
df.head()

Unnamed: 0,form,lemma,upos,xpos,feats,head,Morpheme
0,சென்னை,சென்னை,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",2,
1,அருகே,அருகே,P,PP-------,,18,
2,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",4,
3,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,"{'Cas': 'L', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",18,ில்
4,கிரீன்,கிரீன்,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",6,


In [11]:
#Reading sentences csv 
file_path = "Sentence_index.csv"
sentence_df = pd.read_csv(file_path, encoding="utf-8")
sentence_df.dropna(inplace=True)
sentence_df.drop(columns='id', inplace=True)
sentence_df.reset_index(inplace=True)
sentence_df.head()

Unnamed: 0,index,NoSpaceAfter
0,0,0
1,1,0
2,2,0
3,3,0
4,4,0


In [12]:
#Adding NoSpaceAfter column to dataframe. The 'no_space_after' will be set to 1 if the following token is part of the current token.
#Whenever the splitting takes place this attribute will be set to 1 for the first token.
#For example, The 'no_space_after' attribute for pATukAkkap  will be 1. Whereas the 'no_space_after' attribute for um will be 0.  
df['NoSpaceAfter'] = sentence_df['NoSpaceAfter']
df.head(30)

Unnamed: 0,form,lemma,upos,xpos,feats,head,Morpheme,NoSpaceAfter
0,சென்னை,சென்னை,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",2,,0
1,அருகே,அருகே,P,PP-------,,18,,0
2,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",4,,0
3,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,"{'Cas': 'L', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",18,ில்,0
4,கிரீன்,கிரீன்,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",6,,0
5,பீல்டு,பீல்டு,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",11,,0
6,(,(,Z,Z:-------,,6,,0
7,நவீன,நவீனம்,J,JJ-------,,6,,0
8,),),Z,Z:-------,,6,,0
9,விமான,விமானம்,N,NO--3SN--,"{'Per': '3', 'Num': 'S', 'Gen': 'N'}",11,,0


In [13]:
#Adding postpositions and clitics to morpheme list
for i in range(0, len(df)):
    if df.loc[i,'NoSpaceAfter']==1:
        df.loc[i+1, 'Morpheme'] = df.loc[i+1, 'form']
        df.loc[i+1, 'NoSpaceAfter'] = 2


In [14]:
#Creating dataframe out of the frequencies of the morphemes
value_counts_df = pd.DataFrame(df["Morpheme"].value_counts())
value_counts_df.reset_index(inplace=True)
value_counts_df = value_counts_df.rename(columns = {'index':'Morpheme', 'Morpheme':'Counts'})
value_counts_df["Counts"][0]=0
value_counts_df.head(30)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,Morpheme,Counts
0,,0
1,கள்,220
2,உம்,209
3,யில்,164
4,ம்,144
5,ில்,136
6,ஆக,127
7,ப்,109
8,த்,83
9,ததில்,71


In [88]:
#Merging value counts with the original dataframe
merged_df = pd.merge(df, value_counts_df, on="Morpheme", how = "left")
merged_df.head()

Unnamed: 0,form,lemma,upos,xpos,feats,head,Morpheme,NoSpaceAfter,Counts
0,சென்னை,சென்னை,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",2,,0,0
1,அருகே,அருகே,P,PP-------,,18,,0,0
2,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",4,,0,0
3,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,"{'Cas': 'L', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",18,ில்,0,136
4,கிரீன்,கிரீன்,N,NEN-3SN--,"{'Cas': 'N', 'Per': '3', 'Num': 'S', 'Gen': 'N'}",6,,0,0


In [89]:
# Removing feats
merged_df.drop(columns='feats', inplace=True)
merged_df.head()

Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,சென்னை,சென்னை,N,NEN-3SN--,2,,0,0
1,அருகே,அருகே,P,PP-------,18,,0,0
2,ஸ்ரீ,ஸ்ரீ,N,NEN-3SN--,4,,0,0
3,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,18,ில்,0,136
4,கிரீன்,கிரீன்,N,NEN-3SN--,6,,0,0


In [17]:
db_string = f"postgres://postgres:{db_password}@indusscript.cljludlfcgoa.us-east-2.rds.amazonaws.com:5432/postgres"

In [18]:
# Sending df to csv and postgres. 
engine = create_engine(db_string)


In [19]:
# Sending df to csv and postgres - Commenting out because code is complete
#merged_df.to_sql(name ='completemorpheme', con=engine)
#merged_df.to_csv('Complete_words_with_morphemes.csv', encoding='utf-8-sig')

In [20]:
# Making noun and verb morpheme dataframe
noun_verb_df = merged_df
## Removing rows without morphemes
for index, row in noun_verb_df.iterrows():
    if row["Morpheme"] == '':
        noun_verb_df.drop(index, inplace=True)

## Removing everything expect nouns and verbs
for index, row in noun_verb_df.iterrows():
    if (row["upos"] != 'N') and (row["upos"] != 'V'):
        noun_verb_df.drop(index, inplace=True)

## Rearranging columns
noun_verb_df = noun_verb_df[['form', 'Morpheme', 'Counts', 'upos', 'xpos', 'NoSpaceAfter']]

## Drop duplicates but keep copies of no space after = 1 morphemes as well
noun_verb_df = noun_verb_df.drop_duplicates(subset = ['Morpheme'])

## Sort by counts
noun_verb_df = noun_verb_df.sort_values(by='Counts', ascending=False)

## Noun and  excluding postpostions
noun_verb_df = noun_verb_df[noun_verb_df['NoSpaceAfter']<2]
noun_verb_df.reset_index(drop=True, inplace=True)
noun_verb_df.head(20)

Unnamed: 0,form,Morpheme,Counts,upos,xpos,NoSpaceAfter
0,அகதிகள்,கள்,220,N,NNN-3PA--,1
1,வகையில்,யில்,164,N,NNL-3SN--,0
2,படும்,ம்,144,V,VR-F3SNPA,0
3,பெரும்புதூரில்,ில்,136,N,NEL-3SN--,0
4,நிறைவேற்றப்,ப்,109,V,Vu-T---AA,0
5,ஆய்வுத்,த்,83,N,NNN-3SN--,0
6,கர்நாடகத்தில்,ததில்,71,N,NEL-3SN--,1
7,எடுக்கப்,க்கப்,69,V,Vu-T---AA,0
8,வந்து,ந்து,63,V,VT-T---AA,0
9,கருத்துக்,க்,62,N,NNN-3SN--,0


In [21]:
# Making postpositions/clitics morpheme list
columns = ['form', 'Counts','upos', 'xpos', 'NoSpaceAfter']
clitics_df = pd.DataFrame(columns = columns)
clitics_df["form"] = merged_df["form"]
clitics_df["Counts"] = merged_df["Counts"]
clitics_df["upos"] = merged_df["upos"]
clitics_df["xpos"] = merged_df["xpos"]
clitics_df["NoSpaceAfter"] = merged_df["NoSpaceAfter"]
clitics_df = clitics_df[clitics_df['NoSpaceAfter']==2]
clitics_df = clitics_df.drop_duplicates(subset = 'form')
clitics_df.head()


Unnamed: 0,form,Counts,upos,xpos,NoSpaceAfter
23,உள்ளார்,31,V,VR-T3SHAA,2
79,பட்டு,19,V,VT-T---PA,2
105,ப்பட,7,V,VU-T---PA,2
126,உள்ளனர்,16,V,VR-T3PAAA,2
183,பகுதியில்,1,N,NNL-3SN--,2


In [22]:
#Sending clitics df to sql - Commenting out because code is complete
#clitics_df.to_sql(name ='clitics', con=engine)

# Getting Morpheme list for each type of noun and verb

In [23]:
# Creating function to make morphlist with counts
def morphcount(input_df):
    for i in range(len(input_df)):
        word = input_df.loc[i, 'Morpheme']
        a = [ch for ch in word]
        b= []
        n = len(a)
        for num_splits in range(n):
            for splits in itertools.combinations(range(1, n), num_splits):
                splices = zip([0] + list(splits), list(splits) + [n])
                b.append([a[i:j] for i, j in splices])

        df = pd.DataFrame.from_records(b)
        if i == 0:
            morphs = df[i]
        for j in range(len(df.columns)):
            morphs = morphs.append(df[j])
        
        morphs = morphs.map(lambda x: ''.join(x),na_action='ignore')
        morphs.dropna(inplace=True)


In [24]:
#Creating a function to separate a string and store it into the Morpheme Separated column
def separator(input_df):
    input_df['MorphemeSeparated'] = np.nan
    input_df['MorphemeSeparated'] = input_df['MorphemeSeparated'].astype(object)
    for i in range(len(input_df)):
        word = input_df.loc[i, 'Morpheme']
        a = [ch for ch in word]
        b = np.empty(1, dtype=object)
        b[0] = a
        input_df.loc[i, 'MorphemeSeparated'] = b
    

In [25]:
#Creating a function to create a morpheme dataframe
def morphemegen(input_df, splitmorph, re):
    i = len(input_df)
    morph = ''.join(splitmorph)
    input_df.loc[i+1, 'MorphemeSeparated'] = splitmorph
    input_df.loc[i+1, 'Morpheme'] = morph
    input_df.loc[i+1, 'xpos Regex'] = re
    

    

In [26]:
#Creating a function to make add counts to a column
def morphcount(input_df):
    value_counts_df = pd.DataFrame(input_df["Morpheme"].value_counts())
    value_counts_df.reset_index(inplace=True)
    value_counts_df = value_counts_df.rename(columns = {'index':'Morpheme', 'Morpheme':'Counts'})
    value_counts_df["Counts"][0]=0
    input_df = pd.merge(input_df, value_counts_df, on="Morpheme", how = "left")
    return(input_df)

In [27]:
#Creating a function to filter merged dataframe based on case
def casefilter(input_df):
    input_df.reset_index(drop=True, inplace=True)
    input_df.drop(columns='Counts', inplace=True)
    input_df.reset_index(drop=True, inplace=True)
    input_df = morphcount(input_df)
    input_df.drop_duplicates(subset=['Morpheme'], inplace=True)
    for index, row in input_df.iterrows():
        if row["Morpheme"] == '':
            input_df.drop(index, inplace=True)
    input_df.reset_index(drop=True, inplace=True)
    input_df = input_df.sort_values(by='Counts', ascending=False)
    separator(input_df)
    input_df.reset_index(drop=True, inplace=True)
    return(input_df)

## Noun - Accusative Case

Singular

In [28]:
#Creating singular noun accusative case morpheme list
re = '(N.A..S...)'
NAS_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NAS_df = casefilter(NAS_df)
NAS_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,தமிழகத்தை,தமிழகம்,N,NEA-3SN--,12,ததை,0,19,"[த, த, ை]"
1,ஜெயலலிதாவை,ஜெயலலிதா,N,NEA-3SH--,15,வை,0,12,"[வ, ை]"
2,சட்டத்தைய்,சட்டம்,N,NNA-3SN--,20,ததைய்,1,11,"[த, த, ை, ய, ்]"
3,பண்டிகையைய்,பண்டிகை,N,NNA-3SN--,3,யைய்,1,9,"[ய, ை, ய, ்]"
4,பாகிஸ்தானைச்,பாகிஸ்தான்,N,NEA-3SN--,10,ைச்,0,5,"[ை, ச, ்]"
5,படிப்பைப்,படிப்பு,N,NNA-3SN--,15,ைப்,0,4,"[ை, ப, ்]"
6,போக்கைக்,போக்கு,N,NNA-3SN--,7,ைக்,0,4,"[ை, க, ்]"
7,தோனியைத்,தோனி,N,NEA-3SH--,4,யைத்,1,4,"[ய, ை, த, ்]"
8,அதிரடிப்படையைச்,அதிரடிப்படை,N,NNA-3SN--,3,யைச்,0,3,"[ய, ை, ச, ்]"
9,பெருமையைப்,பெருமை,N,NNA-3SN--,14,யைப்,0,3,"[ய, ை, ப, ்]"


In [29]:
#Creating separate morpheme dataframe
columns = ['MorphemeSeparated', 'Morpheme', 'xpos Regex']
morph_df = pd.DataFrame(columns=columns)

In [30]:
#Adding an instance manually
splitmorph = NAS_df.loc[14, 'MorphemeSeparated']
ai = splitmorph[0]
ai

'ை'

In [31]:
#Adding morphemes to the dataframe one by one
splitmorph = NAS_df.loc[14, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
splitmorph = NAS_df.loc[29, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morphemegen(morph_df, ai, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)


Plural

In [32]:
#Creating plural noun accusative case morpheme list
re = '(N.A..P...)'
NAP_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NAP_df = casefilter(NAP_df)
NAP_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,நிலையங்களை,நிலையம்,N,NNA-3PN--,16,ஙகளை,0,14,"[ங, க, ள, ை]"
1,வீரர்களைய்,வீரர்,N,NNA-3PA--,29,களைய்,1,11,"[க, ள, ை, ய, ்]"
2,உரிமைகளைப்,உரிமை,N,NNA-3PN--,12,களைப்,0,7,"[க, ள, ை, ப, ்]"
3,குறைகளைக்,குறை,N,NNA-3PN--,16,களைக்,0,5,"[க, ள, ை, க, ்]"
4,அடையாளங்களைப்,அடையாளம்,N,NNA-3PN--,3,ஙகளைப்,0,4,"[ங, க, ள, ை, ப, ்]"
5,உபகரணங்களைய்,உபகரணம்,N,NNA-3PN--,16,ஙகளைய்,1,3,"[ங, க, ள, ை, ய, ்]"
6,வாழ்த்துகளைத்,வாழ்த்து,N,NNA-3PN--,9,களைத்,0,2,"[க, ள, ை, த, ்]"
7,தமிழர்களைச்,தமிழர்,N,NEA-3PA--,13,களைச்,0,2,"[க, ள, ை, ச, ்]"
8,எமெலேக்களை,எமெலே,N,NEA-3PA--,15,க்களை,0,2,"[க, ், க, ள, ை]"
9,குழுவினரைத்,குழுவினர்,N,NNA-3PA--,9,ைத்,0,1,"[ை, த, ்]"


## Noun - Dative Case

Singular

In [33]:
re = '(N.D..S...)'
NDS_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NDS_df = casefilter(NDS_df)
NDS_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,இந்தியாவுக்கு,இந்தியா,N,NED-3SN--,9,வுக்கு,0,14,"[வ, ு, க, ், க, ு]"
1,இலங்கைக்க்,இலங்கை,N,NED-3SN--,3,க்க்,1,14,"[க, ், க, ்]"
2,நுழைவாயிலுக்கு,நுழைவாயில்,N,NND-3SN--,4,ுக்கு,0,11,"[ு, க, ், க, ு]"
3,நிலையத்துக்கு,நிலையம்,N,NND-3SN--,15,ததுக்கு,0,11,"[த, த, ு, க, ், க, ு]"
4,மக்களுக்க்,மக்கள்,N,NND-3SN--,16,ுக்க்,1,8,"[ு, க, ், க, ்]"
5,லட்சத்துக்க்,லட்சம்,N,NND-3SN--,8,ததுக்க்,1,6,"[த, த, ு, க, ், க, ்]"
6,அமெரிக்காவுக்க்,அமெரிக்கா,N,NED-3SN--,13,வுக்க்,1,3,"[வ, ு, க, ், க, ்]"
7,ஊருக்குப்,ஊர்,N,NND-3SN--,9,ுக்குப்,0,3,"[ு, க, ், க, ு, ப, ்]"
8,பாகிஸ்தானுக்குச்,பாகிஸ்தான்,N,NED-3SN--,6,ுக்குச்,0,2,"[ு, க, ், க, ு, ச, ்]"
9,நூற்றுக்க்,நூறு,N,NND-3SN--,19,்றுக்க்,1,2,"[், ற, ு, க, ், க, ்]"


In [34]:
#Adding morphemes to the dataframe one by one
splitmorph = NDS_df.loc[1, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)


In [35]:
#Adding an instance manually
splitmorph = NDS_df.loc[0, 'MorphemeSeparated']
kku = splitmorph
kku.pop(0)
kku.pop(0)
kku

['க', '்', 'க', 'ு']

In [36]:
#Adding an instance manually
splitmorph = NDS_df.loc[24, 'MorphemeSeparated']
ku = splitmorph
ku.pop(0)
ku.pop(0)
ku.pop(0)
ku.pop(0)
ku

['க', 'ு']

In [37]:
morphemegen(morph_df, kku, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)


In [38]:
morphemegen(morph_df, ku, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)


Plural

In [39]:
re = '(N.D..P...)'
NDP_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NDP_df = casefilter(NDP_df)
NDP_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,வதந்திகளுக்க்,வதந்தி,N,NND-3PN--,12,களுக்க்,1,14,"[க, ள, ு, க, ், க, ்]"
1,மீறுவோருக்கு,மீறுவோர்,N,NPDF3PH-A,10,ுக்கு,0,7,"[ு, க, ், க, ு]"
2,மாதங்களுக்கு,மாதம்,N,NND-3PN--,10,ஙகளுக்கு,0,5,"[ங, க, ள, ு, க, ், க, ு]"
3,இடங்களுக்க்,இடம்,N,NND-3PN--,16,ஙகளுக்க்,1,4,"[ங, க, ள, ு, க, ், க, ்]"
4,ஆண்டுகளுக்குப்,ஆண்டு,N,NND-3PN--,4,களுக்குப்,0,3,"[க, ள, ு, க, ், க, ு, ப, ்]"
5,எம்பிக்களுக்க்,எம்பி,N,NED-3PA--,4,க்களுக்க்,1,2,"[க, ், க, ள, ு, க, ், க, ்]"
6,நிலையங்களுக்குத்,நிலையம்,N,NND-3PN--,8,ஙகளுக்குத்,0,2,"[ங, க, ள, ு, க, ், க, ு, த, ்]"
7,எம்பிக்களுக்கு,எம்பி,N,NED-3PA--,8,க்களுக்கு,0,1,"[க, ், க, ள, ு, க, ், க, ு]"
8,வாழ்வாதரங்களுக்கு,வாழ்வாதாரம்,N,NND-3PN--,8,ரங்களுக்கு,0,1,"[ர, ங, ், க, ள, ு, க, ், க, ு]"
9,தமிழர்களுக்குத்,தமிழர்,N,NED-3PA--,5,களுக்குத்,0,1,"[க, ள, ு, க, ், க, ு, த, ்]"


In [40]:
#Adding an instance manually
splitmorph = NDP_df.loc[0, 'MorphemeSeparated']
kalu = splitmorph
kalu.pop(3)
kalu.pop(3)
kalu.pop(3)
kalu.pop(3)
kalu

['க', 'ள', 'ு']

In [41]:
morphemegen(morph_df, kalu, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)


## Noun - Instrumental Case

In [42]:
re = '(N.I......)'
NIP_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NIP_df = casefilter(NIP_df)
NIP_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,சிவாச்சாரியர்களால்,சிவாச்சாரியர்,N,NEI-3PA--,43,களால்,0,3,"[க, ள, ா, ல, ்]"
1,முயற்சியால்,முயற்சி,N,NNI-3SN--,8,யால்,0,3,"[ய, ா, ல, ்]"
2,போரினால்,போர்,N,NNI-3SN--,3,ினால்,0,1,"[ி, ன, ா, ல, ்]"
3,நோயால்,நோய்,N,NNI-3SN--,11,ால்,0,1,"[ா, ல, ்]"
4,காரணத்தால்,காரணம்,N,NNI-3SN--,11,ததால்,0,0,"[த, த, ா, ல, ்]"


In [43]:
#Adding an instance manually
splitmorph = NIP_df.loc[0, 'MorphemeSeparated']
al = splitmorph
al.pop(0)
al.pop(0)
al

['ா', 'ல', '்']

In [44]:
morphemegen(morph_df, al, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)


## Noun - Genitive Case

In [45]:
re = '(N.G.*)'
NG_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NG_df = casefilter(NG_df)
NG_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,சட்டத்தின்,சட்டம்,N,NNG-3SN--,3,ததின்,0,28,"[த, த, ி, ன, ்]"
1,ஆய்வுத்துறையின்,ஆய்வுத்துறை,N,NNG-3SN--,7,யின்,0,26,"[ய, ி, ன, ்]"
2,இந்தியாவின்,இந்தியா,N,NEG-3SN--,3,வின்,0,19,"[வ, ி, ன, ்]"
3,அவர்களின்,அவர்,N,NNG-3PA--,15,களின்,0,13,"[க, ள, ி, ன, ்]"
4,வீட்டின்,வீடு,N,NNG-3SN--,32,்டின்,0,8,"[், ட, ி, ன, ்]"
5,பதக்கங்களின்,பதக்கம்,N,NNG-3PN--,7,ஙகளின்,0,3,"[ங, க, ள, ி, ன, ்]"
6,சட்டத்தின்,சட்டம்,N,NNG-3SN--,30,சட்டத்தின்,2,1,"[ச, ட, ், ட, த, ், த, ி, ன, ்]"
7,தீட்சித்தின்,தீட்சித்,N,NEG-3SH--,13,தின்,0,1,"[த, ி, ன, ்]"
8,அரசினுடைய,அரசு,N,NNG-3SN--,4,ினுடைய,0,1,"[ி, ன, ு, ட, ை, ய]"
9,பிறருடைய,பிறர்,N,NNG-3SH--,2,ுடைய,0,1,"[ு, ட, ை, ய]"


In [46]:
splitmorph = NG_df.loc[9, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
splitmorph = NG_df.loc[10, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
splitmorph = NG_df.loc[11, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)
9,"[ு, ட, ை, ய]",ுடைய,(N.G.*)
10,"[த, ு]",து,(N.G.*)


## Noun - Locative Case

In [47]:
re = '(N.L.*)'
NL_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NL_df = casefilter(NL_df)
NL_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,பெரும்புதூரில்,பெரும்புதூர்,N,NEL-3SN--,18,ில்,0,110,"[ி, ல, ்]"
1,கர்நாடகத்தில்,கர்நாடகம்,N,NEL-3SN--,5,ததில்,1,66,"[த, த, ி, ல, ்]"
2,மொழிகளில்,மொழி,N,NNL-3PN--,9,களில்,1,44,"[க, ள, ி, ல, ்]"
3,இந்தியாவில்,இந்தியா,N,NEL-3SN--,6,வில்,0,25,"[வ, ி, ல, ்]"
4,நகரங்களில்,நகரம்,N,NNL-3PN--,13,ஙகளில்,0,20,"[ங, க, ள, ி, ல, ்]"
5,நாட்டில்,நாடு,N,NNL-3SN--,21,்டில்,0,10,"[், ட, ி, ல, ்]"
6,வாசகர்களிடம்,வாசகர்,N,NNL-3PN--,27,களிடம்,0,5,"[க, ள, ி, ட, ம, ்]"
7,மக்களிடம்,மக்கள்,N,NNL-3PA--,6,ிடம்,0,3,"[ி, ட, ம, ்]"
8,உள்ளிட்டவற்றில்,உள்ளிட்டவை,N,NNL-3PN--,14,ற்றில்,0,2,"[ற, ், ற, ி, ல, ்]"
9,கிரிக்கெட்டில்,கிரிக்கெட்,N,NNL-3SN--,4,டில்,0,2,"[ட, ி, ல, ்]"


In [48]:
splitmorph = NL_df.loc[0, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )


In [49]:
splitmorph = NL_df.loc[19, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
splitmorph = NL_df.loc[7, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)
9,"[ு, ட, ை, ய]",ுடைய,(N.G.*)
10,"[த, ு]",து,(N.G.*)


## Noun - Sociative Case

In [50]:
re = '(N.S.*)'
NS_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NS_df = casefilter(NS_df)
NS_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,அவருடன்,அவர்,N,NNS-3SN--,16,ுடன்,0,3,"[ு, ட, ன, ்]"
1,துணையோடு,துணை,N,NNS-3SN--,24,யோடு,0,3,"[ய, ோ, ட, ு]"
2,தங்கப்பதக்கத்துடன்,தங்கப்பதக்கம்,N,NNS-3SN--,5,ததுடன்,0,2,"[த, த, ு, ட, ன, ்]"
3,மோசடியுடன்,மோசடி,N,NNS-3SN--,9,யுடன்,0,1,"[ய, ு, ட, ன, ்]"
4,அமைப்புடன்,அமைப்பு,N,NNS-3SN--,20,டன்,0,1,"[ட, ன, ்]"
5,மனிதாபிமானத்தோடு,மனிதாபிமானம்,N,NNS-3SN--,10,ததோடு,0,0,"[த, த, ோ, ட, ு]"


In [51]:
#Adding an instance manually
splitmorph = NS_df.loc[1, 'MorphemeSeparated']
ootu = splitmorph
ootu.pop(0)
ootu.pop(0)
ootu

['ட', 'ு']

In [52]:
splitmorph = NS_df.loc[0, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morphemegen(morph_df, ootu, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)
9,"[ு, ட, ை, ய]",ுடைய,(N.G.*)
10,"[த, ு]",து,(N.G.*)


# Noun - Participal

In [53]:
re = '(NP.......)'
NP_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
NP_df = casefilter(NP_df)
NP_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,சேர்ந்தவர்,சேர்,N,NPND3SH-A,0,ந்தவர்,0,3,"[ந, ், த, வ, ர, ்]"
1,என்பவர்,என்,N,NPNF3SH-A,8,பவர்,0,3,"[ப, வ, ர, ்]"
2,மீறுவோருக்கு,மீறுவோர்,N,NPDF3PH-A,10,ுக்கு,0,1,"[ு, க, ், க, ு]"
3,செய்தவர்களில்,செய்,N,NPLF3PH-A,6,தவர்களில்,0,1,"[த, வ, ர, ், க, ள, ி, ல, ்]"
4,செய்தவர்கள்,செய்,N,NPNF3PH-A,39,தவர்கள்,1,1,"[த, வ, ர, ், க, ள, ்]"
5,வாழ்ந்தவர்கள்,வாழ்,N,NPND3PH-A,11,ந்தவர்கள்,0,0,"[ந, ், த, வ, ர, ், க, ள, ்]"


In [54]:
#Adding an instance manually
splitmorph = NP_df.loc[1, 'MorphemeSeparated']
var = splitmorph
var.pop(0)
var

['வ', 'ர', '்']

In [55]:
morphemegen(morph_df, var, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)
9,"[ு, ட, ை, ய]",ுடைய,(N.G.*)
10,"[த, ு]",து,(N.G.*)


# Noun - Plural

In [56]:
re = '(N....P...)'
Np_df = merged_df[merged_df['xpos'].str.contains(rf'{re}')]
Np_df = casefilter(Np_df)
Np_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts,MorphemeSeparated
0,படிகளை,படி,N,NNA-3PN--,19,களை,0,46,"[க, ள, ை]"
1,மொழிகளில்,மொழி,N,NNL-3PN--,9,களில்,1,43,"[க, ள, ி, ல, ்]"
2,திட்டங்கள்,திட்டம்,N,NNN-3PN--,18,ஙகள்,0,36,"[ங, க, ள, ்]"
3,நகரங்களில்,நகரம்,N,NNL-3PN--,13,ஙகளில்,0,20,"[ங, க, ள, ி, ல, ்]"
4,அவர்களின்,அவர்,N,NNG-3PA--,15,களின்,0,20,"[க, ள, ி, ன, ்]"
5,ஆண்டுகளுக்கு,ஆண்டு,N,NND-3PN--,13,களுக்கு,0,16,"[க, ள, ு, க, ், க, ு]"
6,நிலையங்களை,நிலையம்,N,NNA-3PN--,16,ஙகளை,0,14,"[ங, க, ள, ை]"
7,வதந்திகளுக்க்,வதந்தி,N,NND-3PN--,12,களுக்க்,1,14,"[க, ள, ு, க, ், க, ்]"
8,வீரர்களைய்,வீரர்,N,NNA-3PA--,29,களைய்,1,11,"[க, ள, ை, ய, ்]"
9,நாட்கள்,நாள்,N,NNN-3PN--,5,டகள்,0,8,"[ட, க, ள, ்]"


In [57]:
splitmorph = Np_df.loc[55, 'MorphemeSeparated']
morphemegen(morph_df, splitmorph, re )
morph_df

Unnamed: 0,MorphemeSeparated,Morpheme,xpos Regex
1,"[ை, ய, ்]",ைய்,(N.A..S...)
2,"[ய, ை]",யை,(N.A..S...)
3,ை,ை,(N.A..S...)
4,"[க, ், க, ்]",க்க்,(N.D..S...)
5,"[க, ், க, ு]",க்கு,(N.D..S...)
6,"[க, ு]",கு,(N.D..S...)
7,"[க, ள, ு]",களு,(N.D..P...)
8,"[ா, ல, ்]",ால்,(N.I......)
9,"[ு, ட, ை, ய]",ுடைய,(N.G.*)
10,"[த, ு]",து,(N.G.*)


In [58]:
# Sending noun morphemes to SQL. Commenting out because code is complete
#morph_df.to_sql(name ='nounmorphemes', con=engine)

# Pronouns

In [90]:
P_df = merged_df[merged_df['upos']== 'R']
P_df = P_df[P_df['NoSpaceAfter']== 0]
P_df.reset_index(inplace=True)
P_df.drop_duplicates(subset = 'lemma', inplace=True)
P_df

Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,13,யாருக்கும்,யார்,R,RBD-3SA--,15,ுக்கும்,0,2
1,25,இது,இது,R,RpN-3SN--,2,,0,0
2,28,அவர்,அவர்,R,RpN-3SH--,6,,0,0
3,142,அதை,அது,R,RpA-3SN--,16,,0,0
6,276,தங்களின்,தன்,R,RhG-3PA--,9,ஙகளின்,0,4
7,322,அவற்றை,அவை,R,RpA-3PN--,14,ற்றை,0,2
8,527,நீங்கள்,நீங்கள்,R,RpN-2SH--,18,,0,0
17,1013,அனைவரும்,அனைவர்,R,RpN-3PA--,9,ும்,0,16
25,1323,தான்,தான்,R,RpN-3SA--,3,,0,0
44,2031,நான்,நான்,R,RpN-1SA--,11,,0,0


In [60]:
# Sending pronouns to SQL. Commenting out because code is complete
#P_df.to_sql(name ='pronouns', con=engine)

# Verbs - Indicative

### 1s

In [61]:
V1s_df = merged_df[merged_df['xpos'].str.contains(r'(V...1S...)')]
V1s_df.reset_index(inplace=True)
V1s_df.drop_duplicates(subset = 'lemma', inplace=True)
V1s_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,2036,கருதுகிறேன்,கருது,V,Vr-P1SAAA,16,கிறேன்,0,3
1,3581,மாட்டேன்,மாட்டு,V,VR-T1SAAA,11,ேன்,0,2
2,3646,உள்ளேன்,உள்,V,Vr-T1SAAA,0,ளேன்,0,1
4,3884,புறக்கணிக்கிறேன்,புறக்கணி,V,Vr-P1SAAA,0,க்கிறேன்,0,2
5,3901,கேட்டுக்கொள்கிறேன்,கேள்,V,Vr-P1SAAA,0,டடுக்கொள்கிறேன்,0,1
6,4215,கொள்கிறேன்,கொள்,V,Vr-P1SAAA,18,கிறேன்,0,3
7,5301,போனேன்,போ,V,VR-D1SAAA,5,னேன்,0,1
11,6515,இருக்கிறேன்,இரு,V,Vr-P1SAAA,19,க்கிறேன்,0,2
12,7640,மேற்கொண்டேன்,மேற்கொள்,V,Vr-D1SAAA,0,ணடேன்,0,1


### 2s

In [62]:
V2s_df = merged_df[merged_df['xpos'].str.contains(r'(V...2S...)')]
V2s_df.reset_index(inplace=True)
V2s_df.drop_duplicates(subset = 'lemma', inplace=True)
V2s_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,3634,கவலைப்படாதீர்கள்,கவலைப்படு,V,Vr-T2SH-N,0,ாதீர்கள்,0,1


### 3sm

In [63]:
V3SM_df = merged_df[merged_df['xpos'].str.contains(r'(V...3SM.)')]
V3SM_df.reset_index(inplace=True)
V3SM_df.drop_duplicates(subset = 'lemma', inplace=True)
V3SM_df

  return func(self, *args, **kwargs)


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts


### 3sf

In [64]:
V3SF_df = merged_df[merged_df['xpos'].str.contains(r'(V...3SF.)')]
V3SF_df.reset_index(inplace=True)
V3SF_df.drop_duplicates(subset = 'lemma', inplace=True)
V3SF_df

  return func(self, *args, **kwargs)


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts


### 3sn

Past

In [65]:
VD3SN_df = merged_df[merged_df['xpos'].str.contains(r'(V..D3SN.)')]
VD3SN_df.reset_index(inplace=True)
VD3SN_df.drop_duplicates(subset = 'lemma', inplace=True)
VD3SN_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,61,செய்தது,செய்,V,Vr-D3SNAA,27,தது,0,9
1,365,போராடியதைப்,போராடு,V,VzAD3SNAA,11,ியதைப்,0,1
2,410,தொகுத்ததில்,தொகு,V,VzLD3SNAA,23,த்ததில்,0,3
3,538,பட்டது,படு,V,VR-D3SNPA,27,பட்டது,2,24
4,544,கிடைத்ததில்,கிடை,V,VzLD3SNAA,8,த்ததில்,0,3


Present

In [66]:
VP3SN_df = merged_df[merged_df['xpos'].str.contains(r'(V..P3SN.)')]
VP3SN_df.reset_index(inplace=True)
VP3SN_df.drop_duplicates(subset = 'lemma', inplace=True)
VP3SN_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,781,நடைபெறுகிறது,நடைபெறு,V,Vr-P3SNAA,0,கிறது,0,32
1,1056,படுகிறது,படு,V,VR-P3SNPA,26,கிறது,0,32
2,2056,தெரிகிறது,தெரி,V,Vr-P3SNAA,0,கிறது,0,32
3,2222,வருகிறது,வரு,V,VR-P3SNAA,26,கிறது,0,32
4,2279,அறிவிக்கிறது,அறிவி,V,Vr-P3SNAA,0,க்கிறது,0,8
6,2353,நிலவுகிறது,நிலவு,V,Vr-P3SNAA,0,கிறது,0,32
11,2908,இருக்கிறது,இரு,V,Vr-P3SNAA,6,இருக்கிறது,2,4
13,2978,கூறுகிறது,கூறு,V,Vr-P3SNAA,0,கிறது,0,32
18,3745,அளிக்கிறது,அளி,V,Vr-P3SNAA,0,க்கிறது,0,8
19,3847,கண்டிக்கிறது,கண்டி,V,Vr-P3SNAA,0,க்கிறது,0,8


Future

In [67]:
VF3SN_df = merged_df[merged_df['xpos'].str.contains(r'(V..F3SN.)')]
VF3SN_df.reset_index(inplace=True)
VF3SN_df.drop_duplicates(subset = 'lemma', inplace=True)
VF3SN_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,18,படும்,படு,V,VR-F3SNPA,18,ம்,0,144
1,145,வேண்டும்,வேண்டு,V,VR-F3SNAA,16,ம்,0,144
2,180,உருவாவதற்கு,உருவாகு,V,VzDF3SNAA,6,வதற்கு,0,11
3,323,இடிப்பதற்க்,இடி,V,VzDF3SNAA,17,ப்பதற்க்,1,3
4,345,வாழ்வதற்கு,வாழ்,V,VzDF3SNAA,7,வதற்கு,0,11


Tenseless - has negatives

In [68]:
VT3SN_df = merged_df[merged_df['xpos'].str.contains(r'(V..T3SN.)')]
VT3SN_df.reset_index(inplace=True)
VT3SN_df.drop_duplicates(subset = 'lemma', inplace=True)
VT3SN_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,141,உள்ளதால்,உள்,V,VzLT3SNAA,24,ளதால்,0,2
4,338,மாட்டாது,மாட்டு,V,VR-T3SN-N,7,ாது,0,6
12,891,கூடாது,கூடு,V,VR-T3SN-N,4,ாது,0,6
36,3417,பெற்றுள்ளது,பெறு,V,VR-T3SNAA,7,்றுள்ளது,0,2
41,3637,வேண்டாம்,வேண்டு,V,VR-T3SN-N,1,ாம்,0,3


### 3sh

In [69]:
V3SH_df = merged_df[merged_df['xpos'].str.contains(r'(V...3SH.)')]
V3SH_df.reset_index(inplace=True)
V3SH_df.drop_duplicates(subset = 'lemma', inplace=True)
V3SH_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,23,உள்ளார்,உள்,V,VR-T3SHAA,23,உள்ளார்,2,31
2,579,பிடித்தார்,பிடி,V,Vr-D3SHAA,24,த்தார்,0,37
3,708,இருந்தார்,இரு,V,VR-D3SHAA,10,இருந்தார்,2,5
4,739,பேசினார்,பேசு,V,Vr-D3SHAA,15,ினார்,0,27
6,885,விடுத்துள்ளார்,விடு,V,Vr-D3SHAA,0,த்துள்ளார்,0,1


### 1pl

In [70]:
V1P_df = merged_df[merged_df['xpos'].str.contains(r'(V...1P..)')]
V1P_df.reset_index(inplace=True)
V1P_df.drop_duplicates(subset = 'lemma', inplace=True)
V1P_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,966,உள்ளோம்,உள்,V,VR-T1PAAA,11,உள்ளோம்,2,1
1,2275,கட்டுவோம்,கட்டு,V,Vr-F1P-AA,11,வோம்,0,6
5,2461,செய்வோம்,செய்,V,Vr-F1P-AA,13,வோம்,0,6
6,3859,வற்புறுத்துகிறோம்,வற்புறுத்து,V,Vr-P1P-AA,0,கிறோம்,0,5
8,4614,வைப்போம்,வை,V,Vr-F1P-AA,8,ப்போம்,0,1
9,6156,இருக்கிறோம்,இரு,V,VR-P1PAAA,33,க்கிறோம்,0,2
10,6281,ஆற்றுகிறோம்,ஆற்று,V,Vr-P1P-AA,23,கிறோம்,0,5
11,6297,நிறைவேற்றுவோம்,நிறைவேற்று,V,Vr-F1P-AA,8,வோம்,0,6
12,7451,எதிர்க்கிறோம்,எதிர்,V,Vr-P1PAAA,0,க்கிறோம்,0,2
14,7503,போட்டியிடுகிறோம்,போட்டியிடு,V,Vr-P1P-AA,0,கிறோம்,0,5


### 2pl

In [71]:
V2P_df = merged_df[merged_df['xpos'].str.contains(r'(V...2P..)')]
V2P_df.reset_index(inplace=True)
V2P_df.drop_duplicates(subset = 'lemma', inplace=True)
V2P_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,532,விரும்புகிறீர்கள்,விரும்பு,V,Vr-P2PHAA,25,கிறீர்கள்,0,3
1,3653,இருங்கள்,இரு,V,Vj-T2PAAA,0,ங்கள்,0,1
2,4595,வருகிறீர்கள்,வரு,V,Vr-P2PAAA,8,கிறீர்கள்,0,3
4,7388,அஞ்சுகிறீர்கள்,அஞ்சு,V,Vr-P2PAAA,0,கிறீர்கள்,0,3


### 3plmf

Past

In [72]:
VD3PH_df = merged_df[merged_df['xpos'].str.contains(r'(V..D3PH.)')]
VD3PH_df.reset_index(inplace=True)
VD3PH_df.drop_duplicates(subset = 'lemma', inplace=True)
VD3PH_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,96,விட்டனர்,விடு,V,VR-D3PHAA,12,்டனர்,0,6
1,187,வந்தனர்,வா,V,VR-D3PHAA,11,ந்தனர்,0,12
2,675,தெரிவித்தனர்,தெரிவி,V,Vr-D3PHAA,0,த்தனர்,0,8
3,696,சந்தித்தனர்,சந்தி,V,Vr-D3PHAA,0,த்தனர்,0,8
5,1028,சென்றனர்,செல்,V,Vr-D3PHAA,9,னறனர்,0,3
6,1266,பட்டனர்,படு,V,VR-D3PHPA,10,்டனர்,0,6
7,1627,வரவேற்றனர்,வரவேல்,V,Vr-D3PHAA,0,றறனர்,0,2
8,1640,அளித்தனர்,அளி,V,Vr-D3PHAA,0,த்தனர்,0,8
10,2523,காண்பித்தனர்,காண்பி,V,Vr-D3PHAA,0,த்தனர்,0,8
12,2884,தயாராகினர்,தயாராகு,V,Vr-D3PHAA,0,ினர்,0,2


Present

In [73]:
VP3PH_df = merged_df[merged_df['xpos'].str.contains(r'(V..P3PH.)')]
VP3PH_df.reset_index(inplace=True)
VP3PH_df.drop_duplicates(subset = 'lemma', inplace=True)
VP3PH_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,1318,படுகின்றனர்,படு,V,VR-P3PHPA,13,கின்றனர்,0,18
1,2870,இருக்கினறனர்,இரு,V,VR-P3PHAA,16,இருக்கினறனர்,2,1
3,3291,வருகின்றனர்,வரு,V,VR-P3PHAA,13,கின்றனர்,0,18
5,4156,தெரிவிக்கின்றனர்,தெரிவி,V,Vr-P3PHAA,0,க்கின்றனர்,0,3
7,5435,நடத்துகின்றனர்,நடத்து,V,Vr-P3PHAA,13,கின்றனர்,0,18
9,6582,வழிபடுகிறார்கள்,வழிபடு,V,Vr-P3PHAA,0,கிறார்கள்,0,1
12,8355,உயிரிழக்கின்றனர்,உயிரிழ,V,Vr-P3PHAA,0,க்கின்றனர்,0,3


Future

In [74]:
VF3PH_df = merged_df[merged_df['xpos'].str.contains(r'(V..F3PH.)')]
VF3PH_df.reset_index(inplace=True)
VF3PH_df.drop_duplicates(subset = 'lemma', inplace=True)
VF3PH_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,308,படுவார்கள்,படு,V,VR-F3PHPA,39,வார்கள்,0,3
2,3018,திரும்புவார்கள்,திரும்பு,V,Vr-F3PHAA,5,வார்கள்,0,3
3,9267,நடத்துவர்,நடத்து,V,Vr-F3PHAA,0,வர்,0,1


Tenseless

In [75]:
VT3PH_df = merged_df[merged_df['xpos'].str.contains(r'(V..T3PH.)')]
VT3PH_df.reset_index(inplace=True)
VT3PH_df.drop_duplicates(subset = 'lemma', inplace=True)
VT3PH_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,1442,மாட்டார்கள்,மாட்டு,V,VR-T3PHAA,9,ார்கள்,0,1


### 3pln

In [76]:
V3PN_df = merged_df[merged_df['xpos'].str.contains(r'(V...3PN.)')]
V3PN_df.reset_index(inplace=True)
V3PN_df.drop_duplicates(subset = 'lemma', inplace=True)
V3PN_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,81,படுகின்றன,படு,V,VR-P3PNPA,18,கின்றன,0,15
1,174,உள்ளன,உள்,V,VR-T3PNAA,12,ளன,0,13
2,256,இல்லை,இல்,V,Vr-T3PNAA,17,லை,0,7
6,509,வந்தன,வா,V,VR-D3PNAA,15,ந்தன,0,8
9,953,வருகின்றன,வரு,V,VR-P3PNAA,10,கின்றன,0,15
10,1084,தெரிவித்தன,தெரிவி,V,Vr-D3PNAA,0,த்தன,0,7
19,2314,கிடைக்காது,கிடை,V,Vr-T3PNAA,0,க்காது,0,2
28,3960,கட்டுப்படுத்தாது,கட்டுப்பாடு,V,Vr-T3PNAA,0,டுத்தாது,0,1
34,4831,போட்டியிடுகின்றன,போட்டியிடு,V,Vr-P3PNAA,0,கின்றன,0,15
37,4978,விட்டன,விடு,V,VR-D3PNAA,18,்டன,0,3


In [77]:
VIN_df = merged_df[merged_df['xpos'].str.contains(r'(V....P...)')]
VIN_df.reset_index(inplace=True)
VIN_df.drop_duplicates(subset = 'lemma', inplace=True)
VIN_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,81,படுகின்றன,படு,V,VR-P3PNPA,18,கின்றன,0,15
1,96,விட்டனர்,விடு,V,VR-D3PHAA,12,்டனர்,0,6
2,126,உள்ளனர்,உள்,V,VR-T3PAAA,28,உள்ளனர்,2,16
4,187,வந்தனர்,வா,V,VR-D3PHAA,11,ந்தனர்,0,12
5,256,இல்லை,இல்,V,Vr-T3PNAA,17,லை,0,7


# Verb - Infinitive

In [78]:
Vu_df = merged_df[merged_df['xpos'].str.contains(r'(Vu.......)')]
Vu_df.reset_index(inplace=True)
Vu_df.drop_duplicates(subset = 'lemma', inplace=True)
Vu_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,17,எடுக்கப்,எடு,V,Vu-T---AA,20,க்கப்,0,69
1,49,விரிவுபடுத்தவ்,விரிவுபடுத்து,V,Vu-T---AA,24,வ்,1,27
2,56,அமைக்கவ்,அமை,V,Vu-T---AA,24,க்கவ்,1,8
3,78,உருவாக்கப்,உருவாகு,V,Vu-T---AA,18,்கப்,1,2
4,80,நிறைவேற்றப்,நிறைவேற்று,V,Vu-T---AA,0,ப்,0,109
6,143,திரும்பப்,திரும்பு,V,Vu-T---AA,19,ப்,0,109
7,163,பாதுகாக்க,பாதுகா,V,Vu-T---AA,12,க்க,0,48
9,172,இயற்றப்,இயற்று,V,Vu-T---AA,0,ப்,1,109
11,281,செய்யவ்,செய்,V,Vu-T---AA,12,யவ்,1,2
12,307,தண்டிக்கப்,தண்டி,V,Vu-T---AA,0,க்கப்,0,69


# Verb - Participle

In [79]:
VT_df = merged_df[merged_df['xpos'].str.contains(r'(VT.......)')]
VT_df.reset_index(inplace=True)
VT_df.drop_duplicates(subset = 'lemma', inplace=True)
VT_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,79,பட்டு,படு,V,VT-T---PA,16,பட்டு,2,19
1,95,கொண்டு,கொள்,V,VT-T---AA,12,ணடு,0,20
4,217,வந்து,வா,V,VT-T---AA,28,ந்து,0,63
9,439,பிடித்த்,பிடு,V,VT-T---AA,25,ித்த்,1,7
26,1709,இருந்து,இரு,V,VT-T---AA,7,இருந்து,2,2
28,1777,விட்டு,வீடு,V,VT-T---AA,9,ி்டு,0,5
57,6043,வைத்து,வை,V,VT-T---AA,37,த்து,0,41
92,9144,செய்து,செய்,V,VT-T---AA,11,து,0,39


# Verb - Conditional

In [80]:
VW_df = merged_df[merged_df['xpos'].str.contains(r'(VW.......)')]
VW_df.reset_index(inplace=True)
VW_df.drop_duplicates(subset = 'lemma', inplace=True)
VW_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,320,இருப்பின்,இரு,V,VW-T---AA,9,ப்பின்,0,1
1,870,வந்தால்,வா,V,VW-T---AA,10,ந்தால்,0,3
3,2298,பட்டால்,படு,V,VW-T---PA,3,்டால்,0,7
5,3666,வைத்தால்,வை,V,VW-T---AA,11,த்தால்,1,4
7,6405,விட்டால்,விடு,V,VW-T---AA,4,்டால்,1,7


In [81]:
Vw_df = merged_df[merged_df['xpos'].str.contains(r'(Vw.......)')]
Vw_df.reset_index(inplace=True)
Vw_df.drop_duplicates(subset = 'lemma', inplace=True)
Vw_df

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,294,கட்டினால்,கட்டு,V,Vw-T---AA,39,ினால்,1,4
1,2045,பெற்றால்,பெறு,V,Vw-T---AA,14,்றால்,1,2
2,2162,உடைத்தால்,உடை,V,Vw-T---AA,7,த்தால்,0,4
4,3658,விதித்தால்,விதி,V,Vw-T---AA,5,த்தால்,1,4
5,4165,கலந்தால்,கல,V,Vw-T---AA,12,ந்தால்,0,3
7,6176,இருந்தால்,இரு,V,Vw-T---AA,38,இருந்தால்,2,3
10,7414,ஆனால்,ஆனால்,V,Vw-T---AA,9,ஆனால்,2,2
12,8778,ஏற்பட்டால்,ஏற்படு,V,Vw-T---AA,15,்டால்,0,7
14,9014,நிறைவேற்றினால்,நிறைவேற்று,V,Vw-T---AA,22,ினால்,0,4


# Verb - Adjectival Participle

In [82]:
Vd_df = merged_df[merged_df['xpos'].str.contains(r'(.d.......)')]
Vd_df.reset_index(inplace=True)
Vd_df.drop_duplicates(subset = 'lemma', inplace=True)
Vd_df

  return func(self, *args, **kwargs)


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts


# Verb - Verbal nouns

In [83]:
Vz_df = merged_df[merged_df['xpos'].str.contains(r'(Vz.......)')]
Vz_df.reset_index(inplace=True)
Vz_df.drop_duplicates(subset = 'lemma', inplace=True)
Vz_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,141,உள்ளதால்,உள்,V,VzLT3SNAA,24,ளதால்,0,2
1,180,உருவாவதற்கு,உருவாகு,V,VzDF3SNAA,6,வதற்கு,0,11
2,323,இடிப்பதற்க்,இடி,V,VzDF3SNAA,17,ப்பதற்க்,1,3
3,345,வாழ்வதற்கு,வாழ்,V,VzDF3SNAA,7,வதற்கு,0,11
4,365,போராடியதைப்,போராடு,V,VzAD3SNAA,11,ியதைப்,0,1


# Verb - Participal Nouns

In [84]:
VP_df = merged_df[merged_df['xpos'].str.contains(r'(.P.......)')]
VP_df.reset_index(inplace=True)
VP_df.drop_duplicates(subset = 'lemma', inplace=True)
VP_df.head()

  return func(self, *args, **kwargs)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,index,form,lemma,upos,xpos,head,Morpheme,NoSpaceAfter,Counts
0,184,வாழ்ந்தவர்கள்,வாழ்,N,NPND3PH-A,11,ந்தவர்கள்,0,6
1,258,மீறுவோருக்கு,மீறுவோர்,N,NPDF3PH-A,10,ுக்கு,0,23
2,1789,சேர்ந்தவர்,சேர்,N,NPND3SH-A,0,ந்தவர்,0,3
3,1816,தெரிந்தவர்,தெரி,N,NPND3SH-A,0,ந்தவர்,0,3
4,4307,செய்தவர்களில்,செய்,N,NPLF3PH-A,6,தவர்களில்,0,1


# Cardinals

# Personal Pronouns

In [85]:
##Next steps
## make a list based on what you see for each tense (noun - stem+plural+case  verb - stem+tense+PNG)
##Read the grammar textbook again make sure theres nothing missing