In [190]:
!pip install pandas



In [210]:
import json
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import unicodeblock.blocks
import re
from tqdm import tqdm
from random import random

In [211]:
links = {}
expected_unicodes = {}

with open('language-pairs.json', 'r') as f:
    pairs = json.loads(f.read())
    
    for pair in pairs:
        expected_unicodes[pair] = pairs[pair]['source']['unicode']
        links[pair] = pairs[pair]['wiki']

links, expected_unicodes

({'Assamese-Sanskrit': 'https://en.m.wiktionary.org/wiki/Category:Assamese_terms_borrowed_from_Sanskrit',
  'Bengali-Sanskrit': 'https://en.m.wiktionary.org/wiki/Category:Bengali_terms_borrowed_from_Sanskrit'},
 {'Assamese-Sanskrit': 'Devanagari', 'Bengali-Sanskrit': 'Devanagari'})

In [212]:
# expected Unicode blocks for certain scripts
unicode_block_map = {
    "Latin" : ['BASIC_LATIN', 'LATIN_1_SUPPLEMENT', 'LATIN_EXTENDED_LETTER', 'LATIN_EXTENDED_A', 'LATIN_EXTENDED_B',\
               'LATIN_EXTENDED_C'],
    "Greek" : ['GREEK'],
    "Cyrillic" : ['CYRILLIC', 'CYRILLIC_SUPPLEMENTARY', 'CYRILLIC_EXTENDED_A', 'CYRILLIC_EXTENDED_B'],
    "Arabic" : ['ARABIC', 'ARABIC_SUPPLEMENT', 'ARABIC_PRESENTATION_FORMS_A', 'ARABIC_PRESENTATION_FORMS_B'],
    "Devanagari" : ['DEVANAGARI', 'VEDIC_EXTENSIONS', 'DEVANAGARI_EXTENDED', 'BENGALI'],
    "Bengali" : ['BENGALI'],
    "Gurmukhi" : ['GURMUKHI'],
    "Tamil" : ['TAMIL'],
    "Telugu" : ['TELUGU'],
    "Malayalam" : ['MALAYALAM'],
    "Myanmar" : ['MYANMAR', 'MYANMAR_EXTENDED_A'],
    "Chinese" : ['CJK_RADICALS_SUPPLEMENT', 'CJK_SYMBOLS_AND_PUNCTUATION', 'CJK_STROKES',\
                 'ENCLOSED_CJK_LETTERS_AND_MONTHS', 'CJK_COMPATIBILITY', 'CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A',\
                 'CJK_UNIFIED_IDEOGRAPHS', 'CJK_COMPATIBILITY_IDEOGRAPHS', 'CJK_COMPATIBILITY_FORMS',\
                 'CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B', 'CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C',\
                 'CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D', 'CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT']
}

In [213]:
def get_all_borrowed_words(dest, source, expected_unicode, invalid=["Unsupported titles/"]):
    title = f"Category:{dest}_terms_borrowed_from_{source}"
    params = {
        'action': 'query',
        'format': 'json',
        'prop': 'extracts',
        'exintro': True,
        'explaintext': True,
    }

    url = f"https://en.wiktionary.org/w/api.php?action=query&list=categorymembers&cmtitle={title}&cmlimit=max"
    
    borrowed_words = []
    while(True):
        r = requests.get(url,params)
        try:
            for cmember in r.json()['query']['categorymembers']:
                if len(cmember['title']) > 1 and \
                    not cmember['title'].startswith('-') and \
                    not cmember['title'].endswith('-') and \
                    not any(inv in cmember['title'] for inv in invalid) and \
                    not any(c.isdigit() for c in cmember['title']) and \
                    not cmember['title'].isupper() and \
                    unicodeblock.blocks.of(cmember['title'][0]) not in ['BASIC_PUNCTUATION']:
                    borrowed_words.append(cmember['title'])
                    if len(borrowed_words) % 1000 == 0:
                        print(f"Got {len(borrowed_words)}")
            cmcontinue = r.json()['continue']['cmcontinue']
            url = url.split("&cmcontinue")[0]
            url+=f"&cmcontinue={cmcontinue}"
        except KeyError:
            break
    print(f"Done, {len(borrowed_words)}")
    return borrowed_words

In [219]:
'''
def get_all_loans_and_homonyms:
    for each word in borrowed words:
        1. get word page from wiktionary
        2. extract source word from source language
        3. extract homonyms from language!=source language

    return loan_pairs, homonyms
'''

def get_source_word(soup, src_lang, expected_unicode, lst_invalid_words):
    for src_soup in soup.find_all("span", class_="etyl"):
        if src_soup != None and src_soup.find(lambda tag: tag.name == 'a' and src_lang.lower() in tag.text.lower()):
            
            src_soup_final = src_soup.find_next("i")
            src_word = src_soup_final.text if src_soup_final != None else ''
            if any(inv in src_word for inv in lst_invalid_words):
                src_soup_final = src_soup.find_next("strong")
                src_word = src_soup_final.text if src_soup_final != None else ''
                source_word = re.split('[/,]',src_word)[0].strip()
            else:
                source_word = re.split('[/,]',src_word)[0].strip()                
                
            if [unicodeblock.blocks.of(c) in unicode_block_map[expected_unicode] for c in source_word].count(True) < len(source_word)*.8:
                source_word = ''
                
            return source_word
    
    return ''

def get_synonym(borrowed_word, soup, lst_invalid_words):
    all_synonyms = []
    for header in soup.find_all("span", class_ ="nyms synonym"):
        for synonym_header in header.find_all("span", class_ ="Beng"):
            synonym = synonym_header.text
            print(synonym)
            all_synonyms.append([borrowed_word, synonym])
    return all_synonyms
    
    
    
    
def get_homonym(borrowed_word, soup, src_lang, dest_lang, lst_invalid_words):
    all_homonyms = []
    for header in soup.find_all("h2", id=True):
        if dest_lang.lower() in [header.get('id').lower(), header.text.lower()]:
            try:
                for next_header in header.parent.find_all('h3'):
                    if re.match("Etymology [1-9]",next_header.text):
                        # get next sibling and then find_all span etyl?
                        next_sibs = next_header.find_next_siblings()
                        if len(next_sibs) > 0:
                            all_etyms = next_sibs[0].find_all("span", class_="etyl")
                            if len(all_etyms) > 0:
                                etym = all_etyms[0]
                                for tag in etym.find(lambda tag: tag.name == 'a'):

                                    if src_lang.lower() not in tag.text.lower():
                                        homonym_soup = etym.find_next("i")
                                        ff_word = homonym_soup.text if homonym_soup != None else ''
                                        ff_word = re.split('[,;:]',ff_word)[0].strip()
                                        if any(inv in ff_word for inv in lst_invalid_words):
                                            homonym_soup = etym.find_next("strong")
                                            ff_word = homonym_soup.text if homonym_soup != None else ''
                                            ff_word = re.split('[,;:]',ff_word)[0].strip()

                                        meaning = etym.parent.parent.find_all('ol')[0].text.split('\n')[0]
                                        meaning = re.sub(r'\(.+?\)',r'',meaning)
                                        meaning = re.sub(r'\[.+?\]',r'',meaning)
                                        meaning = meaning.replace('  ', ' ')
                                        meaning = re.split('[.;:]',meaning)[0].strip()

                                        all_homonyms.append([borrowed_word,ff_word,tag.text.lower(),meaning])
            except:
                pass
    
    return all_homonyms

            
def get_all_loans_and_homonyms(borrowed_words, dest_lang, src_lang, expected_unicode, lst_invalid_words=['plural', 'not comparable', 'uncountable', ' spelling', '-person possessive'], min_timeout=5, timeout_after_words=200):
    loan_pairs = [] # [[borrowed_word, source_word]]
    homonyms = [] # 
    synonyms = []
    p_bar = tqdm(borrowed_words)
    for i, word in enumerate(p_bar):
        while True:
            try:
                params = {
                    'action': 'query',
                    'format': 'json',
                    'prop': 'extracts',
                    'exintro': True,
                    'explaintext': True,
                }

                url = 'https://en.wiktionary.org/w/rest.php/v1/page/' + word + '/html'

                response = requests.get(url, params, timeout=300)

                soup = BeautifulSoup(response.content, 'html.parser')
                source_word = get_source_word(
                    soup, src_lang, expected_unicode, lst_invalid_words)
                #homonym = get_homonym(
                #    word, soup, src_lang, dest_lang, lst_invalid_words)
                if source_word != '':
                    loan_pairs.append([word, source_word])
                #homonyms.extend(homonym)
                synonym = get_synonym(word, soup, lst_invalid_words)
                synonyms.extend(synonym)
                p_bar.set_description("Processed word: {}".format(word))
                if i > 0 and i % timeout_after_words == 0:
                    sleep_time = (random() * min_timeout) + min_timeout
                    p_bar.set_description("Collected {} word pairs, sleeping for {} seconds".format(i, sleep_time))
                    time.sleep(sleep_time)
                break
            except Exception as e:
                p_bar.set_description("Word: {}, Error: {}, sleeping for 1 minute".format(word, e))
                time.sleep(60)

    return loan_pairs, homonyms, synonyms

In [220]:
for pair in links:
    [dest, src] = pair.split('-')
    print(pair)
    words = get_all_borrowed_words(dest, src, expected_unicodes[pair])
    
    overwrite_loans = None
    overwrite_ff = None
    overwrite_synonym = None
    
    if os.path.exists("results/{}_tatsamas.csv".format(pair)):
        overwrite_loans = input("{}_tatsamas.csv exists. Overwrite existing file? (y/n) ".format(pair))
    else:
        overwrite_loans = "y"
        
#     if os.path.exists("results/{}_homonyms.csv".format(pair)):
#         overwrite_ff = input("{}_homonyms.csv exists. Overwrite existing file? (y/n) ".format(pair))
#     else:
#         overwrite_ff = "y"
    
#     if os.path.exists("results/{}_synonyms.csv".format(pair)):
#         overwrite_synonyms = input("{}_synonyms.csv exists. Overwrite existing file? (y/n) ".format(pair))
#     else:
#         overwrite_synonyms = "y"
    
    if overwrite_loans == "y" or overwrite_ff == "y" or overwrite_synonyms == "y":
        print("Getting loan pairs and homonym: {} candidates".format(len(words)))
        loan_words, homonyms, synonyms = get_all_loans_and_homonyms(words, dest, src, expected_unicodes[pair])
        print(synonyms)
        df_loans = pd.DataFrame(loan_words, columns=['loan_word', 'original_word'])
        #df_homonyms = pd.DataFrame(homonyms, columns=['loan_word', 'original_word', 'other_etymology', 'other_meaning'])
        #df_synonyms = pd.DataFrame(synonyms, columns = ['word', 'synonym'])
        if overwrite_loans == "y":
            df_loans.to_csv("results/{}_tatsamas.csv".format(pair), index=False)
            
        #if overwrite_ff == "y":
            #df_homonyms.to_csv("results/{}_homonyms.csv".format(pair), index=False)
        #if overwrite_synonyms == "y":
            #df_synonyms.to_csv("results/{}_synonyms.csv".format(pair), index=False)
    print(pair, "done\n")
    print()
        

Assamese-Sanskrit
Done, 203
Assamese-Sanskrit_tatsamas.csv exists. Overwrite existing file? (y/n) y
Getting loan pairs and homonym: 203 candidates


Processed word: অক্ষ:   2%|███▋                                                                                                                                                                                      | 4/203 [00:01<01:04,  3.08it/s]

পাশা
অক্ষক্রীড়া
অক্ষরেখা
মেরুরেখা
অক্ষাংশ
অক্ষি
রুদ্রাক্ষ


Processed word: অগ্নি:   2%|████▌                                                                                                                                                                                    | 5/203 [00:01<01:03,  3.11it/s]

আগুন
তেজ
জঠরাগ্নি
অগ্নিকোণ


Processed word: অনুবাদ:   5%|█████████                                                                                                                                                                              | 10/203 [00:03<01:05,  2.93it/s]

তর্জমা


Processed word: অনুমতি:   5%|█████████▉                                                                                                                                                                             | 11/203 [00:03<01:05,  2.95it/s]

ইজাজত


Processed word: অস্থি:  10%|███████████████████                                                                                                                                                                     | 21/203 [00:06<00:54,  3.34it/s]

হাড়


Processed word: আকাশ:  12%|█████████████████████▊                                                                                                                                                                   | 24/203 [00:07<01:00,  2.98it/s]

আসমান


Processed word: উপন্যাস:  16%|█████████████████████████████▌                                                                                                                                                        | 33/203 [00:10<00:55,  3.08it/s]

নভেল


Processed word: একতা:  18%|█████████████████████████████████▋                                                                                                                                                       | 37/203 [00:12<00:52,  3.14it/s]

ঐক্য
একত্ব


Processed word: কৃষ্ণ:  26%|████████████████████████████████████████████████                                                                                                                                        | 53/203 [00:17<00:55,  2.71it/s]

কানাই
কানু


Processed word: গুহা:  30%|██████████████████████████████████████████████████████▋                                                                                                                                  | 60/203 [00:20<00:51,  2.79it/s]

গুফা
গুফা


Processed word: দ্বীপ:  46%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 94/203 [00:31<00:36,  3.00it/s]

জিঞ্জিরা


Processed word: নতুন:  50%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 102/203 [00:34<00:35,  2.86it/s]

নয়া


Processed word: পুষ্প:  53%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 107/203 [00:36<00:33,  2.85it/s]

ফুল
কুসুম
পুষ্পক
বৌল


Processed word: বাল:  60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 122/203 [00:41<00:26,  3.01it/s]

বালক
ছেলে
বাল্য


Processed word: ভাগ:  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 139/203 [00:47<00:27,  2.36it/s]

অংশ


Processed word: ভাষা:  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 141/203 [00:48<00:22,  2.72it/s]

জবান


Processed word: মাংস:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 154/203 [00:52<00:15,  3.12it/s]

গোশত


Processed word: মৃত্যু:  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 158/203 [00:54<00:15,  2.86it/s]

ওফাত
ইন্তেকাল
মরা


Processed word: মেঘ:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 159/203 [00:54<00:17,  2.47it/s]

আবর
বাদল
বৃষ্টি
ঝড়ি
বাদল


Processed word: শব্দ:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 167/203 [00:57<00:12,  2.95it/s]

লফজ
আওয়াজ
কথা


Processed word: সিংহ:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 185/203 [01:03<00:06,  2.74it/s]

শের
হায়দর


Processed word: স্বাধীনতা:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 191/203 [01:05<00:04,  2.74it/s]

আজাদি
স্বাতন্ত্র্য
মুক্তি
নাজাত


Processed word: Category:Assamese semi-learned borrowings from Sanskrit: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 203/203 [01:16<00:00,  2.67it/s]


[['অক্ষ', 'পাশা'], ['অক্ষ', 'অক্ষক্রীড়া'], ['অক্ষ', 'অক্ষরেখা'], ['অক্ষ', 'মেরুরেখা'], ['অক্ষ', 'অক্ষাংশ'], ['অক্ষ', 'অক্ষি'], ['অক্ষ', 'রুদ্রাক্ষ'], ['অগ্নি', 'আগুন'], ['অগ্নি', 'তেজ'], ['অগ্নি', 'জঠরাগ্নি'], ['অগ্নি', 'অগ্নিকোণ'], ['অনুবাদ', 'তর্জমা'], ['অনুমতি', 'ইজাজত'], ['অস্থি', 'হাড়'], ['আকাশ', 'আসমান'], ['উপন্যাস', 'নভেল'], ['একতা', 'ঐক্য'], ['একতা', 'একত্ব'], ['কৃষ্ণ', 'কানাই'], ['কৃষ্ণ', 'কানু'], ['গুহা', 'গুফা'], ['গুহা', 'গুফা'], ['দ্বীপ', 'জিঞ্জিরা'], ['নতুন', 'নয়া'], ['পুষ্প', 'ফুল'], ['পুষ্প', 'কুসুম'], ['পুষ্প', 'পুষ্পক'], ['পুষ্প', 'বৌল'], ['বাল', 'বালক'], ['বাল', 'ছেলে'], ['বাল', 'বাল্য'], ['ভাগ', 'অংশ'], ['ভাষা', 'জবান'], ['মাংস', 'গোশত'], ['মৃত্যু', 'ওফাত'], ['মৃত্যু', 'ইন্তেকাল'], ['মৃত্যু', 'মরা'], ['মেঘ', 'আবর'], ['মেঘ', 'বাদল'], ['মেঘ', 'বৃষ্টি'], ['মেঘ', 'ঝড়ি'], ['মেঘ', 'বাদল'], ['শব্দ', 'লফজ'], ['শব্দ', 'আওয়াজ'], ['শব্দ', 'কথা'], ['সিংহ', 'শের'], ['সিংহ', 'হায়দর'], ['স্বাধীনতা', 'আজাদি'], ['স্বাধীনতা', 'স্বাতন্ত্র্য'], ['স্বাধীনতা', 'মুক্তি'], ['স্বাধীনত

Processed word: অকাম্য:   4%|██████▍                                                                                                                                                                                | 11/312 [00:03<01:08,  4.39it/s]

অকাম্য
নিষ্কাম


Processed word: অক্ষটি:   6%|███████████▏                                                                                                                                                                           | 19/312 [00:05<01:12,  4.06it/s]

পাশা
অক্ষক্রীড়া
অক্ষরেখা
মেরুরেখা
অক্ষাংশ
অক্ষি
রুদ্রাক্ষ


Processed word: অক্ষরবৃত্ত:   7%|████████████                                                                                                                                                                       | 21/312 [00:05<01:11,  4.06it/s]

বর্ণ


Processed word: অগস্ত্য:   8%|██████████████                                                                                                                                                                        | 24/312 [00:06<01:18,  3.66it/s]

অগস্ত্যমুনি
ক্যানোপাস


Processed word: অগ্র:   8%|███████████████▍                                                                                                                                                                         | 26/312 [00:07<01:16,  3.75it/s]

আগুন
তেজ
জঠরাগ্নি
অগ্নিকোণ


Processed word: অঙ্ক:   9%|█████████████████▏                                                                                                                                                                       | 29/312 [00:07<01:10,  4.01it/s]

সংখ্যা
আঁক


Processed word: অঙ্কুশ:  11%|███████████████████▎                                                                                                                                                                   | 33/312 [00:08<01:08,  4.08it/s]

আঁকশি
ডাঙ্গশ


Processed word: অঙ্কুশী:  11%|███████████████████▊                                                                                                                                                                  | 34/312 [00:09<01:07,  4.14it/s]

আঁকশি


Processed word: অঞ্চল:  12%|█████████████████████▊                                                                                                                                                                  | 37/312 [00:09<01:10,  3.92it/s]

ময়াল
পাইথন


Processed word: অত্যাচার:  12%|██████████████████████▋                                                                                                                                                              | 39/312 [00:10<01:08,  3.98it/s]

জোরাজুরি
জুলুম


Processed word: অত্যাচারী:  13%|███████████████████████▋                                                                                                                                                            | 41/312 [00:11<01:07,  4.00it/s]

মজলুম
জালিম
জুলুমকারী
জালিম


Processed word: অনুবাদ:  14%|██████████████████████████▍                                                                                                                                                            | 45/312 [00:12<01:15,  3.55it/s]

তর্জমা


Processed word: অনুস্বর:  15%|████████████████████████████                                                                                                                                                          | 48/312 [00:12<01:04,  4.10it/s]

ইজাজত


Processed word: অবশ্য:  17%|██████████████████████████████▋                                                                                                                                                         | 52/312 [00:13<00:59,  4.40it/s]

এন্তেজার
আলবৎ


Processed word: অভদ্র:  17%|███████████████████████████████▊                                                                                                                                                        | 54/312 [00:14<01:00,  4.25it/s]

অশিষ্ট
অসভ্য
বেতমিজ


Processed word: অরবিন্দ:  19%|█████████████████████████████████▊                                                                                                                                                    | 58/312 [00:15<01:01,  4.15it/s]

পদ্ম


Processed word: অর্থাৎ:  20%|███████████████████████████████████▊                                                                                                                                                   | 61/312 [00:15<00:52,  4.77it/s]

মানে


Processed word: অস্ত্রচিকিৎসা:  21%|████████████████████████████████████▋                                                                                                                                           | 65/312 [00:16<00:55,  4.49it/s]

অভদ্র
অমার্জিত


Processed word: অস্থি:  21%|██████████████████████████████████████▉                                                                                                                                                 | 66/312 [00:17<01:08,  3.59it/s]

হাড়


Processed word: আখাত:  23%|██████████████████████████████████████████▋                                                                                                                                              | 72/312 [00:18<01:01,  3.88it/s]

আসমান


Processed word: আত্মহত্যা:  24%|███████████████████████████████████████████▎                                                                                                                                        | 75/312 [00:19<00:57,  4.12it/s]

আত্মঘাত
আত্মহনন
ইচ্ছামৃত্যু
খোদকুশি
গলাত দাও দেওন


Processed word: আর্দ্র:  26%|██████████████████████████████████████████████▉                                                                                                                                        | 80/312 [00:20<00:51,  4.52it/s]

স্ত্রীরজঃ
মরশুমি
মৌসুমি


Processed word: উপভাষা:  28%|██████████████████████████████████████████████████▍                                                                                                                                    | 86/312 [00:22<00:53,  4.24it/s]

নভেল


Processed word: উপাসনা:  28%|███████████████████████████████████████████████████                                                                                                                                    | 87/312 [00:22<01:02,  3.62it/s]

ইবাদত
প্রার্থনা
নামাজ
দোয়া


Processed word: এবং:  29%|██████████████████████████████████████████████████████▎                                                                                                                                   | 91/312 [00:23<00:59,  3.70it/s]

ঐক্য
একত্ব
আর


Processed word: কটাহ:  30%|███████████████████████████████████████████████████████▏                                                                                                                                 | 93/312 [00:24<00:59,  3.68it/s]

কড়াই


Processed word: কফ:  31%|█████████████████████████████████████████████████████████▌                                                                                                                                 | 96/312 [00:25<00:55,  3.90it/s]

কখনও
কদাচ
কদাচন
কদাচ
কদাচন
শ্লেষ্মা
কফ


Processed word: কাক:  32%|███████████████████████████████████████████████████████████                                                                                                                               | 99/312 [00:25<00:54,  3.88it/s]

বায়স
বলিভুক
কাগ
খঞ্জ
কাগ


Processed word: কৃষ্ণ:  32%|██████████████████████████████████████████████████████████▋                                                                                                                            | 100/312 [00:26<00:55,  3.79it/s]

কানাই
কানু


Processed word: গুহা:  34%|███████████████████████████████████████████████████████████████                                                                                                                         | 107/312 [00:28<00:58,  3.51it/s]

গুফা
গুফা


Processed word: গেরাম:  35%|███████████████████████████████████████████████████████████████▎                                                                                                                       | 108/312 [00:28<00:53,  3.84it/s]

গ্রাম


Processed word: গোষ্ঠী:  35%|████████████████████████████████████████████████████████████████▏                                                                                                                     | 110/312 [00:28<00:48,  4.12it/s]

চোনা
খানদান


Processed word: গ্রীষ্ম:  36%|█████████████████████████████████████████████████████████████████▌                                                                                                                   | 113/312 [00:29<00:41,  4.76it/s]

গ্রাম
গরমকাল


Processed word: চান:  37%|████████████████████████████████████████████████████████████████████▊                                                                                                                    | 116/312 [00:30<00:46,  4.26it/s]

গোসল
বুড়
স্নান
চন্দ্র
মাহতাব


Processed word: জীবিত:  39%|████████████████████████████████████████████████████████████████████████▏                                                                                                              | 123/312 [00:32<00:44,  4.29it/s]

দরুন
লাগি
জীবন্ত
জিন্দা


Processed word: জ্যোৎস্না:  40%|███████████████████████████████████████████████████████████████████████▋                                                                                                           | 125/312 [00:32<00:41,  4.54it/s]

শুক্রবার


Processed word: দীপাবলি:  43%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 134/312 [00:34<00:39,  4.46it/s]

দেওয়ালি
দীপালি
দীপোৎসব


Processed word: দুর্গজয়:  44%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 136/312 [00:35<00:42,  4.18it/s]

কেল্লাফতে


Processed word: ধর্ষণ:  45%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 139/312 [00:35<00:36,  4.69it/s]

বলাৎকার
রেপ


Processed word: নতুন:  45%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 141/312 [00:36<00:49,  3.44it/s]

নয়া


Processed word: নষ্ট:  46%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 144/312 [00:37<00:45,  3.69it/s]

বরবাদ
খারাপ
ধস
ধ্বংস


Processed word: নিবেদন:  47%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 146/312 [00:37<00:39,  4.15it/s]

নাগকেশর
কনক
কাঞ্চন
আর্জী
দরখাস্ত


Processed word: নিমন্ত্রণ:  47%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 147/312 [00:38<00:43,  3.79it/s]

দাওয়াত


Processed word: নিসর্গ:  48%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 150/312 [00:38<00:37,  4.27it/s]

ইন্তেখাব


Processed word: পটোল:  48%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 151/312 [00:38<00:36,  4.43it/s]

পটল
নাগফল


Processed word: পরিবার:  49%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 152/312 [00:39<00:43,  3.68it/s]

খানদান
গোষ্ঠী


Processed word: পানীয়:  49%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 154/312 [00:39<00:38,  4.14it/s]

অবস্থা


Processed word: পায়ু:  50%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 156/312 [00:40<00:39,  3.94it/s]

মলদ্বার


Processed word: পারদ:  50%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 157/312 [00:40<00:37,  4.11it/s]

পারা


Processed word: পিতা:  51%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 159/312 [00:40<00:32,  4.66it/s]

ওয়ালেদ
বাপ
আবু
বাবা
আব্বা
আব্বু


Processed word: পুরস্কার:  52%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 161/312 [00:41<00:36,  4.16it/s]

ইনাম


Processed word: পুষ্টিকর:  52%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 163/312 [00:41<00:33,  4.45it/s]

মরদামি


Processed word: পূর্ব:  53%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 165/312 [00:42<00:35,  4.14it/s]

প্রাচী
পুব
প্রাচ্য
পৌর্ব
পুবে


Processed word: প্রসব:  54%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 168/312 [00:43<00:30,  4.79it/s]

হর
কুল
তামাম
জনন
গর্ভমোচন
জন্ম
উৎপত্তি
জাতি
ভূতি
আওলাদ
ফরজন্দ
সন্তান
প্রজা
সন্ততি
বংশ
ফল
ফল
পুষ্প
ফুল
কুসুম
নিমিত্ত
হেতু


Processed word: প্রাক্তন:  55%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 172/312 [00:44<00:31,  4.50it/s]

মূত্র
সাবেক
ভূতপূর্ব
পূর্বতন


Processed word: প্রাতরাশ:  56%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 174/312 [00:44<00:32,  4.21it/s]

পুরোনো
কদীম
ছোট হাজরি
নাশ্তা
নাস্তা
নাশতা


Processed word: বজ্র:  56%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 176/312 [00:44<00:30,  4.50it/s]

ইবাদত
উপাসনা
নামাজ
দোয়া
বাজ
অশনি
কুলিশ
বিদ্যুৎ
তড়িৎ
সৌদামিনী


Processed word: বয়ঃসন্ধি:  57%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 177/312 [00:45<00:28,  4.72it/s]

বয়ঃসন্ধিকাল


Processed word: বিনোদ:  58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 181/312 [00:46<00:28,  4.56it/s]

বাঁদর


Processed word: বিশেষজ্ঞ:  59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 183/312 [00:46<00:29,  4.30it/s]

দক্ষ
বিজ্ঞ
ওস্তাদ


Processed word: বিসর্গ:  60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 186/312 [00:47<00:25,  4.89it/s]

বৃহস্পতিবার


Processed word: বুভুক্ষা:  60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 188/312 [00:47<00:27,  4.50it/s]

ক্ষুধা


Processed word: বৃহস্পতিবার:  61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 190/312 [00:48<00:25,  4.70it/s]

গুরুবার
বিষ্যুদবার


Processed word: ভাষা:  65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 202/312 [01:01<04:18,  2.35s/it]

জবান


Processed word: মতি:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 205/312 [01:01<01:41,  1.05it/s]

কুজবার
ভৌমবার
বুদ্ধি
মেধা
জ্ঞান
মগজ


Processed word: মহিষ:  67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 209/312 [01:02<00:40,  2.53it/s]

ভইষ


Processed word: মাংস:  67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 210/312 [01:03<00:37,  2.69it/s]

গোশত


Processed word: মাতা:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 211/312 [01:03<00:44,  2.25it/s]

ওয়ালেদা
মা
আম্মা
আম্মু
মাত করা
কথা কওয়া
কথা বলা


Processed word: মিত্র:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 216/312 [01:04<00:26,  3.58it/s]

বন্ধু
দোস্ত
মিতা


Processed word: মূল:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 220/312 [01:06<00:23,  3.86it/s]

প্রস্রাব


Processed word: মূল্য:  71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 221/312 [01:06<00:26,  3.45it/s]

দাম


Processed word: মৃত:  71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 223/312 [01:07<00:29,  3.04it/s]

মরা
মুর্দা


Processed word: মৃত্যু:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 224/312 [01:07<00:34,  2.58it/s]

ওফাত
ইন্তেকাল
মরা


Processed word: রচনা:  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 228/312 [01:09<00:31,  2.66it/s]

সৃজন
সৃষ্টি
নির্মাণ
গঠন


Processed word: রিষ্ট:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 237/312 [01:11<00:20,  3.68it/s]

অকল্যাণকর
পাপজনক
মঙ্গল
শুভ
কল্যাণ
রিষ্টি
পাপ
রিষ্টি
কলুষ
খড়গ
রিষ্টি


Processed word: লোহিত:  77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 240/312 [01:12<00:20,  3.57it/s]

রক্তবর্ণ
লাল
রক্তবর্ণ
লাল


Processed word: শত:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 242/312 [01:13<00:18,  3.71it/s]

শ


Processed word: শিশির:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 248/312 [01:15<00:16,  3.91it/s]

অধ্যাপক
মুয়াল্লিম
ওস্তাদ
মাস্টার


Processed word: শ্লেষ্মা:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 254/312 [01:16<00:15,  3.80it/s]

কফ
কফ


Processed word: সংশয়:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 255/312 [01:17<00:16,  3.54it/s]

সন্দেহ


Processed word: সত্য:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 258/312 [01:17<00:11,  4.60it/s]

তমদ্দুন
রসম
রেওয়াজ


Processed word: সন্ধ্যা:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 260/312 [01:18<00:12,  4.22it/s]

সাঁঝ


Processed word: সপ্তাহ:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 261/312 [01:18<00:12,  4.15it/s]

হপ্তা


Processed word: সমস্ত:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 263/312 [01:18<00:13,  3.67it/s]

সব
সকল
গোটা
সম্পূর্ণ
সমগ্র
তামাম


Processed word: সমৃদ্ধ:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 266/312 [01:19<00:10,  4.30it/s]

সমৃদ্ধিশালী


Processed word: সম্পাদক:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 268/312 [01:20<00:10,  4.10it/s]

দৌলত
ধন


Processed word: সম্মতি:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 269/312 [01:20<00:10,  4.00it/s]

ইজাব


Processed word: সায়ন:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 275/312 [01:21<00:07,  4.63it/s]

তামাদ্দুনিক
রসমী
রেওয়াজী


Processed word: সিংহ:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 277/312 [01:22<00:09,  3.71it/s]

শের
হায়দর


Processed word: সুন্দর:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 282/312 [01:23<00:07,  3.96it/s]

খুবসুরত
হাসিন


Processed word: সোমবার:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 285/312 [01:24<00:06,  4.01it/s]

তপন
রবি


Processed word: সোয়াদ:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 286/312 [01:24<00:06,  4.04it/s]

স্বাদ


Processed word: স্ত্রী:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 289/312 [01:25<00:05,  4.00it/s]

নারী
মহিলা
বউ
বধূ


Processed word: স্বপন:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 291/312 [01:25<00:05,  4.19it/s]

গোসল
বুড়
খোয়াব


Processed word: স্বপ্ন:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 292/312 [01:26<00:04,  4.51it/s]

খোয়াব


Processed word: স্বাদ:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 293/312 [01:26<00:04,  3.95it/s]

সোয়াদ


Processed word: স্বাভাবিক:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 295/312 [01:26<00:04,  4.21it/s]

আজাদি
স্বাতন্ত্র্য
মুক্তি
নাজাত


Processed word: হপন:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 299/312 [01:27<00:03,  3.99it/s]

খোয়াব


Processed word: হাল:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 303/312 [01:28<00:02,  3.91it/s]

অবস্থা


Processed word: হিনান:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 304/312 [01:29<00:01,  4.10it/s]

গোসল
বুড়


Processed word: হিমাচল:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 306/312 [01:29<00:01,  4.13it/s]

হিমালয়


Processed word: হোয়াদ:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 309/312 [01:30<00:00,  4.71it/s]

কলব
হৃৎপিন্ড
হিয়া
হার্ট
স্বাদ


Processed word: Category:Bengali semi-learned borrowings from Sanskrit: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 312/312 [01:31<00:00,  3.43it/s]

[['অকাম', 'অকাম্য'], ['অকাম', 'নিষ্কাম'], ['অক্ষ', 'পাশা'], ['অক্ষ', 'অক্ষক্রীড়া'], ['অক্ষ', 'অক্ষরেখা'], ['অক্ষ', 'মেরুরেখা'], ['অক্ষ', 'অক্ষাংশ'], ['অক্ষ', 'অক্ষি'], ['অক্ষ', 'রুদ্রাক্ষ'], ['অক্ষর', 'বর্ণ'], ['অগস্ত্য', 'অগস্ত্যমুনি'], ['অগস্ত্য', 'ক্যানোপাস'], ['অগ্নি', 'আগুন'], ['অগ্নি', 'তেজ'], ['অগ্নি', 'জঠরাগ্নি'], ['অগ্নি', 'অগ্নিকোণ'], ['অঙ্ক', 'সংখ্যা'], ['অঙ্ক', 'আঁক'], ['অঙ্কুশ', 'আঁকশি'], ['অঙ্কুশ', 'ডাঙ্গশ'], ['অঙ্কুশী', 'আঁকশি'], ['অজগর', 'ময়াল'], ['অজগর', 'পাইথন'], ['অত্যাচার', 'জোরাজুরি'], ['অত্যাচার', 'জুলুম'], ['অত্যাচারিত', 'মজলুম'], ['অত্যাচারী', 'জালিম'], ['অত্যাচারী', 'জুলুমকারী'], ['অত্যাচারী', 'জালিম'], ['অনুবাদ', 'তর্জমা'], ['অনুমতি', 'ইজাজত'], ['অপেক্ষা', 'এন্তেজার'], ['অবশ্য', 'আলবৎ'], ['অভদ্র', 'অশিষ্ট'], ['অভদ্র', 'অসভ্য'], ['অভদ্র', 'বেতমিজ'], ['অরবিন্দ', 'পদ্ম'], ['অর্থাৎ', 'মানে'], ['অসভ্য', 'অভদ্র'], ['অসভ্য', 'অমার্জিত'], ['অস্থি', 'হাড়'], ['আকাশ', 'আসমান'], ['আত্মহত্যা', 'আত্মঘাত'], ['আত্মহত্যা', 'আত্মহনন'], ['আত্মহত্যা', 'ইচ্ছামৃত্যু'], ['আত্মহত্




In [128]:
import numpy as np
asm_skt_syn = pd.read_csv('results/Assamese-Sanskrit_synonyms.csv')
ben_skt_syn = pd.read_csv('results/Bengali-Sanskrit_synonyms.csv')
asm_ben_int = pd.read_csv('../Assamese-Bengali-intersection.csv')

In [129]:
asm_list = [w for w in list(asm_skt_syn['word']) if w in list(asm_ben_int['Assamese'])]

In [130]:
ben_list = [w for w in list(ben_skt_syn['word']) if w in list(asm_ben_int['Bengali'])]

In [131]:
asm_skt_syn.loc[asm_skt_syn['word'].isin(asm_list)]

Unnamed: 0,word,synonym
0,অংক,গণিত
8,অনুবাদ,ভাঙনি
9,অনুবাদ,তৰ্জমা
10,অনুবাদ,পৰিভাষা
11,অনুবাদ,ভাষান্তৰণ
...,...,...
1444,ৰঙা,ৰাতা
1445,ৰঙা,ৰাতুল
1446,ৰঙা,লাল
1450,ৰাং,টিং


In [132]:
ben_skt_syn.loc[ben_skt_syn['word'].isin(ben_list)]

Unnamed: 0,word,synonym
5,অংশু,অংশুক
6,অংশু,অংশুপট্ট
43,অক্ষ,পাশা
44,অক্ষ,অক্ষক্রীড়া
45,অক্ষ,অক্ষরেখা
...,...,...
1344,হিয়া,হার্ট
1349,হৃদয়,কলব
1350,হৃদয়,হৃৎপিন্ড
1351,হৃদয়,হিয়া


In [137]:
ben_words = ben_skt_syn.loc[ben_skt_syn['word'].isin(ben_list)]
concat_syns = []
for w in ben_words.iterrows():
    word = w[1]['word']
    syn = w[1]['synonym']
    asm_words = [i[1] for i in list(asm_ben_int.loc[asm_ben_int['Bengali'] == word]['Assamese'].items())]
    for aw in asm_words:
        concat_syns.extend([[aw,syn]])
#print(np.array(concat_syns))
df = pd.DataFrame(np.array(concat_syns), columns = ['loan_word','original_word'])
df

Unnamed: 0,loan_word,original_word
0,আঁহ,অংশুক
1,আঁহ,অংশুপট্ট
2,অক্ষ,পাশা
3,অক্ষ,অক্ষক্রীড়া
4,অক্ষ,অক্ষরেখা
...,...,...
367,হিয়া,হার্ট
368,হিয়া,কলব
369,হিয়া,হৃৎপিন্ড
370,হিয়া,হিয়া


In [139]:
df.to_csv('Assamese-Bengali-Synonyms.csv')

In [208]:
L1 = 'Assamese'
L2 = 'Bengali'
filename = f'../{L1}-{L2}-Cognates.csv'
df = pd.read_csv(filename)
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Synonyms.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["plain Levenshtein"] == 0])
df = df[df["plain Levenshtein"] != 0]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Hard-Negatives.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["loan_english"] == df["original_english"]])
df = df[df["loan_english"] != df["original_english"]]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Randoms.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["loan_english"] == df["original_english"]])
df = df[df["loan_english"] != df["original_english"]]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

(366, 16)
    loan_word original_word loan_word_epitran original_word_epitran  \
217   বৃশ্চিক       বৃশ্চিক           bɽixsik             bɽiʃt͡ɕik   

    loan_english original_english  Fast Levenshtein Distance Div Maxlen  \
217      Scorpio          Scorpio                              0.444444   

     Dolgo Prime Distance Div Maxlen  Feature Edit Distance Div Maxlen  \
217                         0.285714                          0.050595   

     Hamming Feature Distance Div Maxlen  \
217                             0.053571   

     Weighted Feature Distance Div Maxlen  \
217                                 0.625   

     Partial Hamming Feature Distance Div Maxlen  plain Levenshtein  \
217                                     0.050595                  0   

    loan_unicode original_unicode    label  
217      Bengali          Bengali  synonym  
(365, 16)
(878, 16)
    loan_word original_word loan_word_epitran original_word_epitran  \
0         আঁহ           আঁশ               ã

In [209]:
L1 = 'Bengali'
L2 = 'Assamese'
filename = f'../{L1}-{L2}-Cognates.csv'
df = pd.read_csv(filename)
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Synonyms.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["plain Levenshtein"] == 0])
df = df[df["plain Levenshtein"] != 0]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Hard-Negatives.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["loan_english"] == df["original_english"]])
df = df[df["loan_english"] != df["original_english"]]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

filename = f'../{L1}-{L2}-Randoms.csv'
df = pd.read_csv(filename)
print(df.shape)
print(df[df["loan_english"] == df["original_english"]])
df = df[df["loan_english"] != df["original_english"]]
print(df.shape)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df = df.loc[:, ~df.columns.str.contains('^index')]
df.reset_index(drop=True).to_csv(filename)

(353, 16)
    loan_word original_word loan_word_epitran original_word_epitran  \
211   বৃশ্চিক       বৃশ্চিক         bɽiʃt͡ɕik               bɽixsik   

    loan_english original_english  Fast Levenshtein Distance Div Maxlen  \
211      Scorpio          Scorpio                              0.444444   

     Dolgo Prime Distance Div Maxlen  Feature Edit Distance Div Maxlen  \
211                         0.285714                          0.050595   

     Hamming Feature Distance Div Maxlen  \
211                             0.053571   

     Weighted Feature Distance Div Maxlen  \
211                                 0.625   

     Partial Hamming Feature Distance Div Maxlen  plain Levenshtein  \
211                                     0.050595                  0   

    loan_unicode original_unicode    label  
211      Bengali          Bengali  synonym  
(352, 16)
(813, 16)
    loan_word original_word loan_word_epitran original_word_epitran  \
13       আঁকা          আঁকা               ã

In [189]:
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
df.to_csv(filename)

In [341]:
ben_skt = pd.read_csv(f'results/Bengali-Sanskrit_tatsamas.csv')
asm_skt = pd.read_csv(f'results/Assamese-Sanskrit_tatsamas.csv')

In [342]:
tatsama = pd.merge(ben_skt, asm_skt, how='inner', on=['loan_word', 'original_word'])
tatsama

Unnamed: 0,loan_word,original_word
0,অক্ষ,अक्ष
1,অগ্নি,अग्नि
2,অনুবাদ,अनुवाद
3,অনুমতি,अनुमति
4,অশোক,अशोक
5,অস্থি,अस्थि
6,আকাশ,आकाश
7,ইতিহাস,इतिहास
8,উপত্যকা,उपत्यका
9,উপন্যাস,उपन्यास


In [343]:
ben_tatsama = pd.merge(ben_skt, tatsama, how='inner', on=['loan_word'])
ben_tatsama = ben_tatsama.rename(columns={'loan_word' : 'Bengali'})

In [344]:
asm_tatsama = pd.merge(asm_skt, tatsama, how='inner', on=['loan_word'])
asm_tatsama = asm_tatsama.rename(columns={'loan_word' : 'Assamese'})

In [345]:
tatsama = pd.concat([asm_tatsama,ben_tatsama],axis=1)
tatsama = tatsama.loc[:, ~tatsama.columns.str.contains('^original_word')]
tatsama

Unnamed: 0,Assamese,Bengali
0,অক্ষ,অক্ষ
1,অগ্নি,অগ্নি
2,অনুবাদ,অনুবাদ
3,অনুমতি,অনুমতি
4,অশোক,অশোক
5,অস্থি,অস্থি
6,আকাশ,আকাশ
7,ইতিহাস,ইতিহাস
8,উপত্যকা,উপত্যকা
9,উপন্যাস,উপন্যাস


In [350]:
train = pd.read_csv('production_train_test/Assamese-Bengali/alldata/Assamese-Bengali-train_production_alldata.csv')
test = pd.read_csv('production_train_test/Assamese-Bengali/alldata/Assamese-Bengali-test_production_alldata.csv')


In [351]:
train.loc[train['loan_word'].isin(tatsama['Assamese']) & \
          train['original_word'].isin(tatsama['Bengali']) & \
          train['label_bin'] == 1,'label_bin'] = 4
train.loc[train['label_bin'] == 1,'label_bin'] = 3
train.loc[train['label'] == 'random','label_bin'] = 0
train.loc[train['label'] == 'synonym','label_bin'] = 1
train.loc[train['label'] == 'hard_negative','label_bin'] = 2
train.loc[train['label_bin'] == 3,'label'] = 'tadbhava'
train.loc[train['label_bin'] == 4,'label'] = 'tatsama'
train.to_csv('production_train_test/Assamese-Bengali/alldata/Assamese-Bengali-train_production_alldata-5way.csv')

test.loc[test['loan_word'].isin(tatsama['Assamese']) & \
          test['original_word'].isin(tatsama['Bengali']) & \
          test['label_bin'] == 1,'label_bin'] = 4
test.loc[test['label_bin'] == 1,'label_bin'] = 3
test.loc[test['label'] == 'random','label_bin'] = 0
test.loc[test['label'] == 'synonym','label_bin'] = 1
test.loc[test['label'] == 'hard_negative','label_bin'] = 2
test.loc[test['label_bin'] == 3,'label'] = 'tadbhava'
test.loc[test['label_bin'] == 4,'label'] = 'tatsama'
test.to_csv('production_train_test/Assamese-Bengali/alldata/Assamese-Bengali-test_production_alldata-5way.csv')

In [352]:
train = pd.read_csv('production_train_test/Bengali-Assamese/alldata/Bengali-Assamese-train_production_alldata.csv')
test = pd.read_csv('production_train_test/Bengali-Assamese/alldata/Bengali-Assamese-test_production_alldata.csv')


In [353]:
train.loc[train['loan_word'].isin(tatsama['Assamese']) & \
          train['original_word'].isin(tatsama['Bengali']) & \
          train['label_bin'] == 1,'label_bin'] = 4
train.loc[train['label_bin'] == 1,'label_bin'] = 3
train.loc[train['label'] == 'random','label_bin'] = 0
train.loc[train['label'] == 'synonym','label_bin'] = 1
train.loc[train['label'] == 'hard_negative','label_bin'] = 2
train.loc[train['label_bin'] == 3,'label'] = 'tadbhava'
train.loc[train['label_bin'] == 4,'label'] = 'tatsama'
train.to_csv('production_train_test/Bengali-Assamese/alldata/Bengali-Assamese-train_production_alldata-5way.csv')

test.loc[test['loan_word'].isin(tatsama['Assamese']) & \
          test['original_word'].isin(tatsama['Bengali']) & \
          test['label_bin'] == 1,'label_bin'] = 4
test.loc[test['label_bin'] == 1,'label_bin'] = 3
test.loc[test['label'] == 'random','label_bin'] = 0
test.loc[test['label'] == 'synonym','label_bin'] = 1
test.loc[test['label'] == 'hard_negative','label_bin'] = 2
test.loc[test['label_bin'] == 3,'label'] = 'tadbhava'
test.loc[test['label_bin'] == 4,'label'] = 'tatsama'
test.to_csv('production_train_test/Bengali-Assamese/alldata/Bengali-Assamese-test_production_alldata-5way.csv')