# Processing raw data

In [1]:
import json

In [2]:
raw_loanwords_file = 'data/raw_loanwords.txt'

loanwords = []
descriptions = []
with open(raw_loanwords_file, 'r') as f:
    lines = f.readlines()
    for line in lines:
        first_space_idx = line.find(' ')
        if first_space_idx != -1:
            loanwords.append(line[:first_space_idx])
            descriptions.append(line[first_space_idx + 1:])

In [3]:
len(loanwords), len(descriptions)

(862, 862)

Note that some words are homonyms so we cannot use the words as dict keys, for example:

In [4]:
for w, v in zip(loanwords[:-1], loanwords[1:]):
    if w == v:
        print(w)

կուզ
սազ
սաղ


In [5]:
armenian_file = 'data/armenian.txt'

def read_lines_from_file(file):
    with open(file, 'r') as f:
        lines = [ws[:-1] for ws in f.readlines()]
    return lines

armenian = read_lines_from_file(armenian_file)

In [6]:
len(armenian)

865

In Armenian words we have filtered the homonyms:

In [7]:
assert len(set(armenian)) == len(armenian)

## Processing syllables

In [8]:
loanword_syllables_file = 'data/loanword_syllables.txt'
armenian_syllables_file = 'data/armenian_syllables.txt'

loanword_syllables = read_lines_from_file(loanword_syllables_file)
armenian_syllables = read_lines_from_file(armenian_syllables_file)

In [9]:
def process_syllables(syllable_list):
    syllable_set = set()
    syllable_variants_list = []
    for item in syllable_list:
        variants = item.split('+')
        syllable_variants_list.append(variants)
        for v in variants:
            v_syllables = v.split()
            syllable_set.update(v_syllables)
    return syllable_variants_list, syllable_set

In [10]:
loanword_syllable_variants, loanword_syllable_set = process_syllables(loanword_syllables)
armenian_syllable_variants, armenian_syllable_set = process_syllables(armenian_syllables)

print(f'{len(loanword_syllable_set)} loanword syllables', list(loanword_syllable_set)[:15], '\n', sep='\n')
print(f'{len(armenian_syllable_set)} Armenian word syllables', list(armenian_syllable_set)[:15], sep='\n')

828 loanword syllables
['րագ', 'պի', 'հու', 'կուշտ', 'մախք', 'չաղ', 'ղե', 'լո', 'րիչ', 'խին', 'աճ', 'զարդ', 'ժոխք', 'քար', 'պ[ը]ս']


795 Armenian word syllables
['կաց', 'ցեղ', 'ղե', 'դառ', 'հետք', 'տղել', 'լո', 'սուտ', '[վ]ել', 'նյարդ', 'զարդ', 'ձեղկ', 'քար', 'որթ', 'գուտ']


In [11]:
def syllables_with_sound(syllables, sound):
    result = []
    for syllable in syllables:
        if sound in syllable:
            result.append(syllable)
    return result

print(f'Loanword syllables with [ը]: {syllables_with_sound(loanword_syllable_set, '[ը]')}\n')
print(f'Armenian word syllables with [ը]: {syllables_with_sound(armenian_syllable_set, '[ը]')}')

Loanword syllables with [ը]: ['պ[ը]ս', 'պ[ը]', 'վ[ը]ս', 'ղ[ը]', 'բ[ը]լ', 'ն[ը]շ', 'ճ[ը]', 'ց[ը]ղ', 'խ[ը]', 'դ[ը]', 'կ[ը]ն', 'մ[ը]', 'կ[ը]ղ', 'թ[ը]շ', 'պ[ը]ղ', 'ն[ը]', 'դ[ը]ժ', 'մ[ը]տ', 'բ[ը]', 'ղ[ը]ս', 'ս[ը]ն', 'վ[ը]', 'ք[ը]', 'զ[ը]խ', 'ն[ը]ժ', 'ս[ը]ռ', 'գ[ը]մ', 'տ[ը]զ', 'շ[ը]ն', 'գ[ը]ր', 'ս[ը]ր', 'ծ[ը]', 'ջ[ը]', 'զ[ը]ն', 'տ[ը]ր', 'տ[ը]', 'կ[ը]ր', 'ճ[ը]ս', 'դ[ը]ր', 'շ[ը]ղ', 'ս[ը]', 'պ[ը]ր', 'զ[ը]մ', 'թ[ը]ր', 'գ[ը]', 'հ[ը]', 'զ[ը]', 'թ[ը]', 'մ[ը]կ', 'թ[ը]զ', 'պ[ը]ն', 'կ[ը]']

Armenian word syllables with [ը]: ['ք[ը]ր', 'ձ[ը]', 'լ[ը]ց', 'պ[ը]', 'մ[ը]ր', 'թ[ը]նկ', 'բ[ը]լ', 'փ[ը]ս', 'փ[ը]', 'լ[ը]', 'թ[ը]ռ', 'փ[ը]ռթ', 'խ[ը]', 'ծ[ը]ն', 'լ[ը]լ', 'պ[ը]լ', 'մ[ը]ռ', 'դ[ը]', 'գ[ը]տ', 'ս[ը]խ', 'դ[ը]ն', 'կ[ը]ն', 'թ[ը]ն', 'մ[ը]', 'կ[ը]ղ', 'պ[ը]ղ', 'ն[ը]', 'թ[ը]մ', 'բ[ը]', 'ջ[ը]ն', 'փ[ը]լ', 'խ[ը]լ', 'լ[ը]ն', 'վ[ը]', 'ք[ը]', 'մ[ը]լ', 'գ[ը]ռ', 'շ[ը]', 'չ[ը]', 'ռ[ը]ն', 'ղ[ը]ր', 'տ[ը]ղ', 'ն[ը]ս', 'տ[ը]զ', 'կ[ը]ս', 'գ[ը]ր', 'ս[ը]ր', 'ծ[ը]', 'ջ[ը]', 'ս[ը]ղ', 'տ[ը]ր', 'կ[ը]մ', 'կ[ը]ր', 'դ[ը]ր', 'փ[ը]ր', 'մ[

In [12]:
# save word-syllables pairs

# loanword_data_file = 'data/loanword_data.json'
# armenian_data_file = 'data/armenian_data.json'

# with open(armenian_data_file, 'r') as f:
#     d = json.load(f)

# for i in range(len(d)):
#     d[i]['syllables'] = armenian_syllable_variants[i]

# d = []
# for w, ws in zip(loanwords, loanword_syllable_variants):
#     d.append({'word': w, 'syllables': ws})

# with open('data/armenian_data1.json', 'w+') as f:
#     json.dump(d, f, indent=4, ensure_ascii=False)

## Processing languages

In [13]:
def clean_word(w):
    w = w.strip('()՝,.').lower()
    w = w.replace('րէն', 'րեն')
    w = w.replace('ից', '')
    return w

In [14]:
loanword_langs = []

for i in range(len(loanwords)):
    word = loanwords[i]
    
    items = descriptions[i].split()
    if len(items) == 0:
        print(i, word, descriptions[i])
        continue
    
    loanword_langs.append(set())
    for item in items:
        if 'րեն' in item or 'րէն' in item:
            cleaned = clean_word(item)
            if cleaned in ['պարեն', 'օրենք', 'հաւանօրեն', 'հայերենի']:
                continue
            cleaned_ones = cleaned.split('-')
            loanword_langs[i].update(cleaned_ones)
        else:
            for lang in ['իրանական', 'իրանեան', 'քարթուէլեան', 'սանսկրիտ', 'կովկասեան']:
                if lang in item:
                    cleaned = clean_word(item)
                    loanword_langs[i].add(cleaned)
    
    loanword_langs[i] = list(loanword_langs[i])
    i += 1

In [15]:
list(zip(loanwords, loanword_langs))

[('աբեղա', ['ասորերեն']),
 ('ադաթ', ['արաբերեն', 'տաճկերեն']),
 ('ադամանդ', ['յունարեն']),
 ('ազապ', ['արաբերեն', 'տաճկերեն']),
 ('ազատ', ['պարսկերեն', 'պահլաւերեն']),
 ('ազգ', ['պահլաւերեն']),
 ('ազիզ', ['տաճկերեն']),
 ('աժդահա', ['պարսկերեն']),
 ('աիբ', ['արաբերեն']),
 ('ալ', ['թուրքերեն']),
 ('ալամ', ['արաբերեն']),
 ('ալմաստ', ['պարսկերեն', 'թրքերեն']),
 ('ալոե', ['յունարեն']),
 ('ալվան', ['արաբերեն']),
 ('ախմախ', ['արաբերեն', 'տաճկերեն']),
 ('ախոռ', ['պարսկերեն', 'պահլաւերեն']),
 ('ախորժ', ['իրանական']),
 ('աղա', ['տաճկերեն']),
 ('աղախին', ['պարսկերեն']),
 ('աճպարար', ['արաբերեն']),
 ('աման', ['տաճկերեն']),
 ('ամբար', ['պարսկերեն', 'պահլաւերեն']),
 ('ամբարտավան', ['պարսկերեն']),
 ('ամբոխ', ['պարսկերեն']),
 ('ամեհի', ['պարսկերեն']),
 ('ամեն', ['եբրայեցերեն']),
 ('ամիրա', ['արաբերեն', 'ասորերեն']),
 ('անագ', ['ասուրերեն', 'սանսկրիտերեն']),
 ('անանուխ', ['պարսկերեն', 'ասորերեն', 'յունարեն']),
 ('անապատ', ['պահլաւերեն']),
 ('անդամ', ['պարսկերեն']),
 ('անդրի', ['յունարեն']),
 ('անկյուն'

In [16]:
# lines containing neither 'րեն' and 'րէն'
for i, (w, wl) in enumerate(zip(loanwords, loanword_langs)):
    if wl == []:
        print(i, w, descriptions[i][:-1], sep='\t')

# original output
# 16	ախորժ	(իրանական ✽ a-xuarza, xuarzist, քաղցրագոյն)
# 63	ատրճանակ	(իրանական aturġanak)
# 64	ատրուշան	(իրանեան atur և ?) - զոհասեղան
# 98	բավ	(իրանական bav, զօրեղ, առատ լինել՝ կարող լինել)
# 299	ժանտ	(իրանեան ✽ žant, հոտ, վատ հոտ)
# 603	ոչխար	(քարթուէլեան լեզուներից, սկզբնական նշանակութեամբ՝ կենդանի)
# 655	պարմանի	(իրանեան ծագում ?)
# 751	վանք	(սանսկրիտ vanc, տուն)
# 834	քած	(կովկասեան լեզուներից)

In [17]:
def lang_set(lang_lists):
    lang_set = set()
    for ls in lang_lists:
        lang_set.update(ls)
    return lang_set

langs = lang_set(loanword_langs)
print(langs)

{'բուլգարերեն', 'գերմաներեն', 'ույղուրերեն', 'սանսկրիտ', 'կովկասեան', 'սանսկրիտերեն', 'զանդկերեն', 'տաճկերեն', 'զենտերեն', 'նախահայերեն', 'ֆրանսերեն', 'պարսկերեն', 'եբրայեցերեն', 'թրքերեն', 'խալդերեն', 'պահլաւերեն', 'իրանական', 'պազենդերեն', 'արամերեն', 'պարթևերեն', 'թաթարերեն', 'իրանեան', 'ռուսերեն', 'իտալերեն', 'սումերերեն', 'փռիւգերեն', 'վրացերեն', 'ադրբեջաներեն', 'թիպեթերեն', 'արաբերեն', 'զենդերեն․', 'լազերեն', 'քարթուէլեան', 'ասորերեն', 'լատիներեն', 'քրդերեն', 'յունարեն', 'հունարեն', 'բաբելացերեն', 'թիբետերեն', 'ասուրերեն', 'զենդերեն', 'թուրքերեն', 'սոգդիարեն', 'ինգուշերեն'}


In [18]:
len(langs)

45

In [19]:
lang_replace_dict = {
    'ադրբեջաներեն': 'ադրբեջաներեն',
    'ասորերեն': 'ասորերեն',
    'ասուրերեն': 'ասորերեն',
    'արաբերեն': 'արաբերեն',
    'արամերեն': 'արամերեն',
    'բաբելացերեն': 'բաբելացերեն',
    'բուլգարերեն': 'բուլղարերեն',
    'գերմաներեն': 'գերմաներեն',
    'եբրայեցերեն': 'եբրայերեն',
    'զանդկերեն': 'զենդերեն',
    'զենդերեն': 'զենդերեն',
    'զենդերեն․': 'զենդերեն',
    'զենտերեն': 'զենդերեն',
    'թաթարերեն': 'թաթարերեն',
    'թիբետերեն': 'տիբեթերեն',
    'թիպեթերեն': 'տիբեթերեն',
    'թուրքերեն': 'թուրքերեն',
    'թրքերեն': 'թուրքերեն',
    'ինգուշերեն': 'ինգուշերեն',
    'իտալերեն': 'իտալերեն',
    'իրանական': 'իրանական',
    'իրանեան': 'իրանական',
    'լազերեն': 'լազերեն',
    'լատիներեն': 'լատիներեն',
    'խալդերեն': 'խալդերեն',
    'կովկասեան': 'կովկասյան',
    'հունարեն': 'հունարեն',
    'յունարեն': 'հունարեն',
    'նախահայերեն': 'նախահայերեն',
    'ույղուրերեն': 'ույղուրերեն',
    'պազենդերեն': 'պազենդերեն',
    'պահլաւերեն': 'պահլավերեն',
    'պարթևերեն': 'պարթևերեն',
    'պարսկերեն': 'պարսկերեն',
    'ռուսերեն': 'ռուսերեն',
    'սանսկրիտ': 'սանսկրիտերեն',
    'սանսկրիտերեն': 'սանսկրիտերեն',
    'սոգդիարեն': 'սոգդիարեն',
    'սումերերեն': 'շումերերեն',
    'վրացերեն': 'վրացերեն',
    'տաճկերեն': 'տաճկերեն',
    'փռիւգերեն': 'փռյուգերեն',
    'քարթուէլեան': 'քարթվելյան',
    'քրդերեն': 'քրդերեն',
    'ֆրանսերեն': 'ֆրանսերեն'
}

In [20]:
for wl in loanword_langs:
    for i in range(len(wl)):
        wl[i] = lang_replace_dict[wl[i]]
    wl = list(set(wl))

In [21]:
langs = lang_set(loanword_langs)
print(langs)

{'շումերերեն', 'գերմաներեն', 'ույղուրերեն', 'քարթվելյան', 'սանսկրիտերեն', 'բուլղարերեն', 'կովկասյան', 'տաճկերեն', 'նախահայերեն', 'ֆրանսերեն', 'պարսկերեն', 'եբրայերեն', 'խալդերեն', 'փռյուգերեն', 'իրանական', 'պազենդերեն', 'պահլավերեն', 'արամերեն', 'պարթևերեն', 'թաթարերեն', 'ռուսերեն', 'տիբեթերեն', 'իտալերեն', 'վրացերեն', 'ադրբեջաներեն', 'արաբերեն', 'լազերեն', 'ասորերեն', 'հունարեն', 'լատիներեն', 'քրդերեն', 'բաբելացերեն', 'զենդերեն', 'թուրքերեն', 'սոգդիարեն', 'ինգուշերեն'}


In [22]:
len(langs)

36

In [23]:
lang_counts = {lang: 0 for lang in langs}

for wl in loanword_langs:
    for lang in wl:
        lang_counts[lang] += 1

In [24]:
dict(sorted(lang_counts.items(), key=lambda item: -item[1]))

{'պարսկերեն': 361,
 'պահլավերեն': 222,
 'տաճկերեն': 118,
 'արաբերեն': 111,
 'հունարեն': 97,
 'ասորերեն': 75,
 'զենդերեն': 36,
 'թուրքերեն': 19,
 'վրացերեն': 14,
 'լատիներեն': 14,
 'ռուսերեն': 13,
 'սանսկրիտերեն': 12,
 'իրանական': 12,
 'ֆրանսերեն': 10,
 'եբրայերեն': 9,
 'քրդերեն': 6,
 'թաթարերեն': 5,
 'սոգդիարեն': 5,
 'արամերեն': 4,
 'գերմաներեն': 3,
 'պազենդերեն': 3,
 'իտալերեն': 3,
 'ադրբեջաներեն': 3,
 'կովկասյան': 2,
 'տիբեթերեն': 2,
 'լազերեն': 2,
 'բաբելացերեն': 2,
 'շումերերեն': 1,
 'ույղուրերեն': 1,
 'քարթվելյան': 1,
 'բուլղարերեն': 1,
 'նախահայերեն': 1,
 'խալդերեն': 1,
 'փռյուգերեն': 1,
 'պարթևերեն': 1,
 'ինգուշերեն': 1}

In [25]:
# save word-syllables-langs triples

# loanword_data_file = 'data/loanword_data.json'

# with open('data/loanword_data.json', 'r') as f:
#     d = json.load(f)

# for i in range(len(d)):
#     d[i]['langs'] = word_langs[i]

# with open('data/loanword_data.json', 'w+') as f:
#     json.dump(d, f, indent=4, ensure_ascii=False)