In [53]:
from re import compile
from glob import iglob
from numpy import nan
from pandas import concat, DataFrame, read_csv
from openiti.helper.ara import denormalize

from eis1600.gazetteers.Spellings import Spellings
from eis1600.gazetteers.Toponyms import Toponyms
from eis1600.helper.markdown_patterns import WORD, NOISE_ELEMENTS
from eis1600.helper.repo import MIU_REPO, TOPO_REPO
from eis1600.processing.preprocessing import get_yml_and_miu_df, get_tokens_and_tags
from eis1600.processing.postprocessing import merge_tagslists, reconstruct_miu_text_with_tags

In [65]:
sheets = iglob('../../' + TOPO_REPO + 'sheet_*.csv')
sheets_df = DataFrame(None, columns=['MIU', 'MODIFIABLE', 'STATUS'])

for sheet in sheets:
    tmp = read_csv(sheet, usecols=['MIU', 'MODIFIABLE', 'STATUS'])
    sheets_df = concat([sheets_df, tmp])

sheets_df.dropna(how='all', inplace=True)
sheets_df.drop_duplicates(inplace=True)

In [66]:
sheets_df['STATUS'].loc[sheets_df['STATUS'].notna() & sheets_df['STATUS'].str.fullmatch('TOPOPONYM|CORRECT')] = 'TOPONYM'
sheets_df['STATUS'].loc[sheets_df['STATUS'].notna() & sheets_df['STATUS'].str.fullmatch('ODD|INCOMPLETE')] = nan

In [67]:
sheets_df.dropna().value_counts(subset=['MIU'])

MIU                                                           
1341CabdHayyTalibi.IclamBiMan.Shamela0001584-ara1.403877938380    5
0804IbnMulaqqin.CiqdMudhahhab.Sham19Y0016664-ara1.902245132377    4
1341CabdHayyTalibi.IclamBiMan.Shamela0001584-ara1.780509654571    4
0681IbnKhallikan.WafayatAcyan.JK001318-ara2.412769875429          4
1089IbnCimad.Shadharat.Shamela0012398-ara1.548296207136           3
                                                                 ..
0723IbnFuwati.MajmacAdab.Sham19Y0014075-ara1.747106270547         1
0723IbnFuwati.MajmacAdab.Sham19Y0014075-ara1.747005565281         1
0723IbnFuwati.MajmacAdab.Sham19Y0014075-ara1.740378555331         1
0723IbnFuwati.MajmacAdab.Sham19Y0014075-ara1.726554181602         1
1405CaliShahrudi.Mustadrakat.Shia002984Vols-ara1.487562692965     1
Length: 1459, dtype: int64

In [68]:
sheets_df.loc[sheets_df['MIU'] == '0681IbnKhallikan.WafayatAcyan.JK001318-ara2.412769875429'].value_counts(subset=['STATUS'], dropna=False)

STATUS 
NaN        8
TOPONYM    4
dtype: int64

In [69]:
def get_infile_path(miu: str) -> str:
    author, text, version, uid = miu.split('.')
    return '../../' + MIU_REPO + 'data/' + '/'.join([author, '.'.join([author, text])]) + '/MIUs/' + miu + '.EIS1600'

In [73]:
entries = sheets_df.loc[sheets_df['STATUS'].notna() & sheets_df['STATUS'].str.fullmatch('TOPONYM|NISBA')]
df_by_files = DataFrame(entries.groupby('MIU').agg(list)).reset_index()
df_by_files.loc[df_by_files['MIU'] == '0681IbnKhallikan.WafayatAcyan.JK001318-ara2.412769875429']

Unnamed: 0,MIU,MODIFIABLE,STATUS
346,0681IbnKhallikan.WafayatAcyan.JK001318-ara2.41...,"[ شهرستان قصبة ناحية سابور من ارض فارس, مدينة...","[TOPONYM, TOPONYM, TOPONYM, TOPONYM]"


In [35]:
infiles = [get_infile_path(miu) for miu in df_by_files['MIU'].to_list()]

In [36]:
row = df_by_files.iloc[0]
row

MIU           0398AbuNasrKalabadhi.HidayaWaIrshad.Shamela001...
MODIFIABLE                               [ حمير وهي قرية بدمشق]
Name: 0, dtype: object

In [20]:
entries = sheets_df.loc[sheets_df['STATUS'].isna()]
df_by_files = DataFrame(entries.groupby('MIU')['MODIFIABLE'].apply(list)).reset_index()
infiles = [get_infile_path(miu) for miu in df_by_files['MIU'].to_list()]

df_by_files['infile'] = infiles

Unnamed: 0,MIU,MODIFIABLE
0,0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....,[هاشم بن عبد مناف استشهد بسفوان من ناحية البصر...
1,0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....,[يكنى أبا عتاب قتل بعقبة الطين من ناحية فارس س...
2,0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....,[عبيد وهو رجل من أهل رامهرمز من قرية يقال لها ...
3,0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....,[الله صلى الله عليه استشهد بكربلاء من ناحية ال...
4,0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....,[بن عبيد بن أبي عبيد الدراوردي وهي قرية بخراسا...
...,...,...
24757,1450AkramFaluji.MucjamSaghir.Shamela0029982-ar...,[المدني ، مولده بالحميمة من أرض الشراة ، من نا...
24758,1450AkramFaluji.MucjamSaghir.Shamela0029982-ar...,[الأول سنة إحدى عشرة ومائتين ، من العاشرة ، مح...
24759,1450AkramFaluji.MucjamSaghir.Shamela0029982-ar...,"[مولى آل عمر بن الخطاب ، أصله من ناحية البصرة,..."
24760,1450AkramFaluji.MucjamSaghir.Shamela0029982-ar...,[عمير ، الطائي ، الكوفي ، من الثالثة ، تابعي ،...


In [4]:
row = df_by_files.iloc[0]
row

MIU           0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1....
MODIFIABLE    [هاشم بن عبد مناف استشهد بسفوان من ناحية البصر...
infile        ../../EIS1600_MIUs/data/0240KhalifaIbnKhayyat/...
Name: 0, dtype: object

In [5]:
place_terms = ['كورة', 'كور', 'قرية', 'قرى', 'مدينة', 'مدن', 'ناحية', 'نواح', 'نواحي', 'محلة', 'محال', 'محلات', 'بلد',
               'بلاد', 'ارباع', 'رستاق', 'رساتيق', 'أعمال']  # 'ربع'
technical_terms = ['من', 'بين',
                   'نسبة',
                   'يوم', 'يوما',
                   'مرحلة', 'مرحلتان', 'مرحلتين', 'مراحل',
                   'فرسخ', 'فرسخا', 'فراسخ',
                   'ميل', 'ميلا', 'أميال']
dn_pt = [denormalize(t) for t in place_terms]
dn_tt = [denormalize(t) for t in technical_terms]
dn_spelling = Spellings.instance().get_denormalized_list()
dn_toponyms = Toponyms.instance().total()

PLACES_REGEX = compile(
        r'(?P<context>(?:' + WORD + NOISE_ELEMENTS +
        r'(?P<spelling> [وب]?(?:ال)?(?:' + '|'.join(dn_spelling) + ')(?:ها)?' + NOISE_ELEMENTS + r')*){1,10})'
        r' (?P<place_term>' + '|'.join(dn_pt) + r')(?P<more_context>' + WORD + NOISE_ELEMENTS + r'){1,7}'
)

TT_REGEX = compile(r'|'.join(dn_pt + dn_tt + dn_spelling + dn_toponyms))

In [6]:
infile = row['infile']
outfile = '../../' + TOPO_REPO + 'MIUs/' + row['MIU'] + '.EIS1600'
with open(infile, 'r', encoding='utf-8') as miu_file_object:
    yml_handler, df = get_yml_and_miu_df(miu_file_object)

text = ' '.join(df['TOKENS'].loc[df['TOKENS'].notna()].to_list())
text_updated = text

if PLACES_REGEX.search(text_updated):
        m = PLACES_REGEX.search(text_updated)
        while m:
            start = m.start()
            end = m.end()
            if len(TT_REGEX.findall(m.group(0))) >= 3:
                p = m.group(0).strip()
                tag = 'TPD' + str(len(p.split())) + ' '
                text_updated = text_updated.replace(p, tag + p)
                m = PLACES_REGEX.search(text_updated, end + len(tag))
            else:
                m = PLACES_REGEX.search(text_updated, end)

الزبير بن العوام بن خويلد بن أسد بن عبد العزى يكنى أبا عبد الله أمه صفية TPD17 بنت عبد المطلب بن هاشم بن عبد مناف استشهد بسفوان من ناحية البصرة سنة ست وثلاثين وأخوه


In [7]:
tokens, tags = get_tokens_and_tags(text_updated)

df.loc[df['TOKENS'].notna(), 'TPD_TAGS'] = tags
df['TAGS_LISTS'] = df.apply(lambda x: merge_tagslists(x['TAGS_LISTS'], x['TPD_TAGS']), axis=1)

updated_text = reconstruct_miu_text_with_tags(df[['SECTIONS', 'TOKENS', 'TAGS_LISTS']])
updated_text

'_ء_#=435133874943= $\n\n_ء_=533398029058= ::UNDEFINED:: ~\n_ء_ الزبير بن العوام بن خويلد بن أسد بن عبد العزى\n\n_ء_=416360170249= ::UNDEFINED:: ~\n_ء_ يكنى أبا عبد الله أمه صفية TPD17 بنت عبد المطلب بن هاشم بن عبد مناف استشهد بسفوان من ناحية البصرة سنة ست وثلاثين\n\n_ء_=465567744777= ::UNDEFINED:: ~\n_ء_ وأخوه\n\n'

In [9]:
with open(outfile, 'w', encoding='utf-8') as outfile_h:
    outfile_h.write(str(yml_handler) + updated_text)


../../Topo_Data/MIUs/0240KhalifaIbnKhayyat.Tabaqat.Shia003056-ara1.435133874943.EIS1600
