In [76]:
import pandas as pd
from pathlib import Path

# ---------- CONFIG ----------
DB_FOLDER_NAME = "MarathiWN_1_3/database"
DATA_FILE = 'data_txt'
POS_MAP = {'01':'noun', '02':'adjective', '03':'verb', '04':'adverb'}

# ---------- LOCATE DATABASE ----------
cwd = Path.cwd()
db_folder = cwd / DB_FOLDER_NAME
data_path = db_folder / DATA_FILE
if not data_path.exists():
    raise FileNotFoundError(f"Database file not found: {data_path}")
print(f"Found MarathiWN data file at: {data_path}")

# ---------- PARSE DATA.TXT ----------
records = []

with open(data_path, 'r', encoding='utf-8', errors='ignore') as f:
    for line in f:
        line = line.strip()
        if not line or line.startswith('#') or '|' not in line:
            continue
        left, gloss = line.split('|', maxsplit=1)
        left_parts = left.split()
        if len(left_parts) < 3:
            continue
        pos_code = left_parts[1]  # 2nd column = POS code
        pos_name = POS_MAP.get(pos_code, 'unknown')
        # 4th column onwards is the Marathi word(s)
        word_field = left_parts[3]
        # words can be ':' separated
        words = word_field.split(':')
        # synset ID is always the last numeric field
        synset_id = next((p for p in reversed(left_parts) if p.isdigit()), '')
        for w in words:
            records.append({
                'marathi_word': w,
                'pos': pos_name,
                'synset_id': synset_id,
                'gloss': gloss.strip()
            })

df = pd.DataFrame(records)
out_csv = Path.cwd() / 'marathi_lexicon_correct_pos.csv'
df.to_csv(out_csv, index=False, encoding='utf-8')
print(f"Saved CSV with correct POS and glosses: {out_csv}")
print(df.head(20))


Found MarathiWN data file at: c:\LLM's_for_SA\MarathiWN_1_3\database\data_txt
Saved CSV with correct POS and glosses: c:\LLM's_for_SA\marathi_lexicon_correct_pos.csv
     marathi_word        pos synset_id  \
0          अजन्मा  adjective  00000101   
1            अशुभ  adjective  00000101   
2           अमंगळ  adjective  00000101   
3       अप्रविष्ट  adjective  00000111   
4       पुण्यभूमी    unknown  00000037   
5      पवित्रभूमी    unknown  00000037   
6      पुण्यस्थान    unknown  00000037   
7     पवित्रस्थान    unknown  00000037   
8       पावनस्थान    unknown  00000037   
9          शिवालय       noun  00000037   
10       शिवमंदिर       noun  00000037   
11  अपवित्र_स्थान       noun  00000037   
12          आलेला  adjective  00000101   
13            आगत  adjective  00000101   
14       जन्मलेला  adjective  00000101   
15        जलमलेला  adjective  00000101   
16       जल्मलेला  adjective  00000101   
17        सत्कर्म       noun  00000058   
18          सुकृत       noun  000000

In [77]:
df[50:100]



Unnamed: 0,marathi_word,pos,synset_id,gloss
50,खाद्यपदार्थ,noun,29,"खाण्याजोगी वस्तू:""दूध आणि दुधाचे इतर पदार्थ उद..."
51,खाद्य_पदार्थ,noun,29,"खाण्याजोगी वस्तू:""दूध आणि दुधाचे इतर पदार्थ उद..."
52,खाद्यवस्तू,noun,29,"खाण्याजोगी वस्तू:""दूध आणि दुधाचे इतर पदार्थ उद..."
53,खाद्य_वस्तू,noun,29,"खाण्याजोगी वस्तू:""दूध आणि दुधाचे इतर पदार्थ उद..."
54,अन्नपदार्थ,noun,29,"खाण्याजोगी वस्तू:""दूध आणि दुधाचे इतर पदार्थ उद..."
55,अननुभवी,adjective,101,"अनुभव नसलेला:""तो ह्या बाबतीत अजून अननुभवी आहे"""
56,नवखा,adjective,101,"अनुभव नसलेला:""तो ह्या बाबतीत अजून अननुभवी आहे"""
57,नवा,adjective,101,"अनुभव नसलेला:""तो ह्या बाबतीत अजून अननुभवी आहे"""
58,कच्चा,adjective,101,"अनुभव नसलेला:""तो ह्या बाबतीत अजून अननुभवी आहे"""
59,अकुशल,adjective,101,"कुशल नसलेला:""अकुशल व अर्धकुशल कामगार कनिष्ठ स्..."


In [57]:
df[df['marathi_word']=='अंगहीन']

Unnamed: 0,marathi_word,pos,gloss
5028,अंगहीन,verb,"एखादा अवयव नसलेला:""अपघातात पाय तुटल्याने तो अप..."


In [79]:
df.groupby('marathi_word')['pos'].unique().head(20)

marathi_word
-आत                                   [adverb]
-गत                                [adjective]
-ग्रस्त                            [adjective]
-च्या_वाट्याला_जाणे                     [verb]
-च्या_वाट्याला_येणे                     [verb]
-च्याकडे_जाणे                           [verb]
-ज                                 [adjective]
-जन्य                              [adjective]
-तरंग                                   [noun]
-धारा                                   [noun]
-निर्मित                           [adjective]
-मान्य                             [adjective]
-वर                                   [adverb]
-वरती                                 [adverb]
-सारखा                                  [noun]
0000                                    [noun]
0001                   [noun, verb, adjective]
1000000                      [adjective, noun]
10000000                                [noun]
100000000                    [noun, adjective]
Name: pos, dtype: object