In [43]:
# install packages
import string
import copy
import re
import pandas as pd
import numpy as np
import seaborn as sns

from tqdm import tqdm
from matplotlib import pyplot as plt
from collections import defaultdict, Counter

pd.options.mode.chained_assignment = None  # default='warn'%

In [92]:
# read in existing western armenian dictionary
words_df = pd.read_csv('western_armenian_words.csv')
words_df.head()

Unnamed: 0,category,subcategory,english word,հայերէնի բար,pronounciation,lesson
0,food,drinks,tea,թէյ,tey,6.0
1,things,music,song,երգ,yerk,7.0
2,food,drinks,coffee,սուրճ,soorj,4.0
3,food,drinks,wine,գինի,kini,6.0
4,food,drinks,herbal tea,խոտաբոյսերու թէյ,khodapooyserov tey,7.0


In [144]:
aypoopen_upper = ['Ա','Բ','Գ','Դ','Ե','Զ','Է','Ը','Թ','Ժ','Ի','Լ','Խ','Ծ','Կ','Հ','Ձ','Ղ','Ճ','Մ','Յ','Ն','Շ','Ո','Չ','Պ','Ջ','Ռ','Ս','Վ','Տ','Ր','Ց','Ւ','Փ','Ք','Օ','Ֆ','և']
aypoopen_lower = ['ա','բ','գ','դ','ե','զ','է','ը','թ','ժ','ի','լ','խ','ծ','կ','հ','ձ','ղ','ճ','մ','յ','ն','շ','ո','չ','պ','ջ','ռ','ս','վ','տ','ր','ց','ւ','փ','ք','օ','ֆ','և']
# aypoopen_df = pd.DataFrame(
#     {'upper': aypoopen_upper,
#      'lower': aypoopen_lower})
# aypoopen_df
aypoopen_dict = {aypoopen_lower[i]: aypoopen_upper[i] for i in range(len(aypoopen_lower))}
aypoopen_dict

{'ա': 'Ա',
 'բ': 'Բ',
 'գ': 'Գ',
 'դ': 'Դ',
 'ե': 'Ե',
 'զ': 'Զ',
 'է': 'Է',
 'ը': 'Ը',
 'թ': 'Թ',
 'ժ': 'Ժ',
 'ի': 'Ի',
 'լ': 'Լ',
 'խ': 'Խ',
 'ծ': 'Ծ',
 'կ': 'Կ',
 'հ': 'Հ',
 'ձ': 'Ձ',
 'ղ': 'Ղ',
 'ճ': 'Ճ',
 'մ': 'Մ',
 'յ': 'Յ',
 'ն': 'Ն',
 'շ': 'Շ',
 'ո': 'Ո',
 'չ': 'Չ',
 'պ': 'Պ',
 'ջ': 'Ջ',
 'ռ': 'Ռ',
 'ս': 'Ս',
 'վ': 'Վ',
 'տ': 'Տ',
 'ր': 'Ր',
 'ց': 'Ց',
 'ւ': 'Ւ',
 'փ': 'Փ',
 'ք': 'Ք',
 'օ': 'Օ',
 'ֆ': 'Ֆ',
 'և': 'և'}

In [152]:
# def caps(df):
#     for old, new in aypoopen_dict.items():
#         df['հայերէնի բար'] = df['հայերէնի բար'].str.replace(old, new, regex=False)
#     return df

def caps(df):
    df['հայերէնի բար'] = df['հայերէնի բար'].replace(aypoopen_dict, regex=True)
    return df

In [161]:
# keep only the armenian words and the english translation
hay_df = words_df[['հայերէնի բար', 'english word']]
# keep only 5 character words
five_df = hay_df.loc[hay_df['հայերէնի բար'].str.len() == 5]
# remove words with non-letter characters
non_letter_df = five_df[~five_df['հայերէնի բար'].str.contains('։|՞|-')]
# make all characters capital
caps_df = caps(non_letter_df)
# get letters in each position
letter_pos = ['1l','2l','3l','4l','5l']
parig_df[letter_pos] = caps_df['հայերէնի բար'].str.split('',expand=True).iloc[:, 1:-1]
parig_df = parig_df.sort_values('հայերէնի բար')
parig_df.head()

Unnamed: 0,հայերէնի բար,english word,1l,2l,3l,4l,5l
185,Ապրիլ,April,Ա,Պ,Ր,Ի,Լ
186,Մայիս,May,Մ,Ա,Յ,Ի,Ս
410,ականջ,ear,Ա,Կ,Ա,Ն,Ջ
450,ակնոց,glasses,Ա,Կ,Ն,Ո,Ց
76,աղջիկ,girl,Ա,Ղ,Ջ,Ի,Կ
