In [63]:
import os

import pandas as pd
import json
from tqdm import tqdm
import glob
import nltk

In [64]:
with open("../config.json","r") as f0:
    config = json.load(f0)

JSON_SAVE_LOC = "json_data"

list_files = [x for x in os.listdir(JSON_SAVE_LOC) if ".json" in x]

def datagen(file_list:list) -> dict:
    for f in file_list:
        with open(os.path.join(JSON_SAVE_LOC,f),"r") as fileO:
            data = json.load(fileO)

        yield data

In [65]:
tk = nltk.tokenize.WhitespaceTokenizer()
sinhala_keys = ["Song Name","Metaphor","Lyrics"]

In [66]:
total_words = {}
for d in datagen(list_files):
    d = d["_source"]
    for k,v in d.items():
        if k in sinhala_keys:
            sin_word = tk.tokenize(v)
            for w in sin_word:
                try:
                    total_words[w] += 1
                except KeyError:
                    total_words[w] = 1

In [67]:
import operator

sorted_d = dict( sorted(total_words.items(), key=operator.itemgetter(1),reverse=True))

In [68]:
sorted_d

{'ඔබ': 338,
 'මා': 319,
 'මට': 192,
 'නා': 159,
 'වගේ': 148,
 'මේ': 104,
 'මගේ': 101,
 'වෙලා': 92,
 'ඒ': 90,
 'මම': 80,
 'ආදරේ': 79,
 'නුඹ': 77,
 'මගෙ': 71,
 'සේ': 66,
 'මල්\u200c': 65,
 'නෑ': 63,
 'ඔබෙ': 63,
 'මල්': 63,
 'හද': 62,
 'මං': 62,
 'වී': 59,
 'අපි': 55,
 'සඳ': 52,
 'යන්න': 51,
 'ඔබේ': 50,
 'ඔය': 48,
 'වාගේ': 46,
 'සිත': 43,
 'හිත': 40,
 'අහසේ': 39,
 'එන්න': 38,
 'ඉන්න': 38,
 'යමු': 38,
 'දුර': 37,
 'ඉර': 36,
 'යන': 36,
 'තරු': 34,
 'තරම්': 34,
 'ගී': 34,
 'සලා': 34,
 'මාගේ': 32,
 'ළඟ': 32,
 'ආ': 32,
 'පායා': 31,
 'හිරු': 31,
 'දිය': 31,
 'එපා': 30,
 'පොඩි': 30,
 'මලක්\u200c': 30,
 'නැති': 29,
 'එක': 28,
 'ඔබට': 28,
 'අතරේ': 27,
 'සුළං': 27,
 'රෑ': 26,
 'සඳක්': 26,
 'මලක්': 26,
 'වන': 26,
 'පුර': 26,
 'කල': 26,
 'මතකයි': 26,
 '-': 25,
 'ජීවිතේ': 25,
 'නම්': 25,
 'ගියා': 25,
 'මුදු': 25,
 'එන': 24,
 'දෙන': 24,
 'ගඟක්': 24,
 'සුවඳ': 24,
 'ගං': 24,
 'පා': 24,
 'තිබෙන': 24,
 'අප': 23,
 'ඇයි': 23,
 'සුව': 23,
 'නම්\u200c': 23,
 'ළඳේ': 23,
 'අහස': 23,
 'කමක්නෑ': 23,
 'ගෙන': 22,
 '

In [69]:
with open("stop_words.txt","w", encoding="utf-8") as f0:
    f0.write("\n".join(list(sorted_d.keys())))

In [58]:
filter_word_list = []
for k in sorted_d.keys():
    if len(k.split("\u200c"))>1:
        filter_word_list.append(k.split("\u200c")[0])
    else:
        filter_word_list.append(k)

In [59]:
for r in ["/",".","\u200d","(",")"]:
    filter_word_list = [x for x in filter_word_list if r not in x]

In [60]:
filter_word_list

['ඔබ',
 'මා',
 'මට',
 'නා',
 'වගේ',
 'මේ',
 'මගේ',
 'වෙලා',
 'ඒ',
 'මම',
 'ආදරේ',
 'නුඹ',
 'මගෙ',
 'සේ',
 'මල්',
 'නෑ',
 'ඔබෙ',
 'මල්',
 'හද',
 'මං',
 'වී',
 'අපි',
 'සඳ',
 'යන්න',
 'ඔබේ',
 'ඔය',
 'වාගේ',
 'සිත',
 'හිත',
 'අහසේ',
 'එන්න',
 'ඉන්න',
 'යමු',
 'දුර',
 'ඉර',
 'යන',
 'තරු',
 'තරම්',
 'ගී',
 'සලා',
 'මාගේ',
 'ළඟ',
 'ආ',
 'පායා',
 'හිරු',
 'දිය',
 'එපා',
 'පොඩි',
 'මලක්',
 'නැති',
 'එක',
 'ඔබට',
 'අතරේ',
 'සුළං',
 'රෑ',
 'සඳක්',
 'මලක්',
 'වන',
 'පුර',
 'කල',
 'මතකයි',
 '-',
 'ජීවිතේ',
 'නම්',
 'ගියා',
 'මුදු',
 'එන',
 'දෙන',
 'ගඟක්',
 'සුවඳ',
 'ගං',
 'පා',
 'තිබෙන',
 'අප',
 'ඇයි',
 'සුව',
 'නම්',
 'ළඳේ',
 'අහස',
 'කමක්නෑ',
 'ගෙන',
 'තනි',
 'වූ',
 'කලේ',
 'සැලේ',
 'ලස්සන',
 'නෙත්',
 'නුඹෙ',
 'අපේ',
 'විට',
 'සෙනෙහස',
 'සිරිමා',
 'බෝ',
 'සාමිනි',
 'පිරිමි',
 'පුතෙක්',
 'බැරි',
 'දෑස',
 'ගියේ',
 'ඇය',
 'අරණේ',
 'පිපේවී',
 'රැලක්',
 'පිස',
 'හමාවී',
 'දිලේවී',
 'එළියේ',
 'ආදරයේ',
 'විහිදෙන',
 'අද',
 'කියා',
 'ඔබගේ',
 'ලොව',
 'ඕනේ',
 'පාවී',
 'සිසිලක්',
 'ලෙසින්',
 'වූවා',
 '~',
 

In [61]:
from sinling import SinhalaStemmer

stemmer = SinhalaStemmer()

stem_words = []
for k in filter_word_list:
    stem = stemmer.stem(k)
    if stem[0]:
        stem_words.append(f"{k} => {stem[0]}")

stem_words

['ඔබ => ඔබ',
 'මා => ම',
 'මගේ => ම',
 'වෙලා => වෙ',
 'ඒ => ඒ',
 'මම => ම',
 'ආදරේ => ආදර',
 'නුඹ => නුඹ',
 'මගෙ => ම',
 'සේ => ස',
 'මල් => මල',
 'නෑ => නෑ',
 'ඔබෙ => ඔබ',
 'මල් => මල',
 'හද => හ',
 'මං => මං',
 'වී => ව',
 'අපි => අපි',
 'සඳ => සඳ',
 'යන්න => ය',
 'ඔබේ => ඔබ',
 'ඔය => ඔ',
 'සිත => සිත',
 'හිත => හිත',
 'අහසේ => අහස',
 'එන්න => එ',
 'ඉන්න => ඉ',
 'යමු => ය',
 'දුර => දුර',
 'ඉර => ඉර',
 'යන => ය',
 'තරු => තර',
 'තරම් => තර',
 'ගී => ග',
 'සලා => ස',
 'මාගේ => ම',
 'ළඟ => ළඟ',
 'ආ => ආ',
 'පායා => පා',
 'හිරු => හිර',
 'දිය => ද',
 'එපා => එප',
 'පොඩි => පොඩි',
 'මලක් => මල',
 'නැති => නැ',
 'එක => එක',
 'ඔබට => ඔබ',
 'අතරේ => අතර',
 'සුළං => සුළං',
 'රෑ => රෑ',
 'සඳක් => සඳ',
 'මලක් => මල',
 'වන => ව',
 'පුර => පුර',
 'කල => ක',
 'මතකයි => මතක',
 '- => -',
 'ජීවිතේ => ජීවිත',
 'නම් => න',
 'ගියා => ගි',
 'මුදු => මුද',
 'එන => එ',
 'දෙන => දෙ',
 'ගඟක් => ගඟ',
 'සුවඳ => සුවඳ',
 'ගං => ගං',
 'පා => ප',
 'තිබෙන => තිබෙ',
 'අප => අප',
 'ඇයි => ඇ',
 'සුව => ස',
 'නම් => න

In [62]:
with open("stem_words.txt","w", encoding="utf-8") as f0:
    f0.write("\n".join(stem_words))