In [1]:
from typing import List

import pandas as pd

from openiti.helper.ara import denoise

In [2]:
def cmt_rplc(cmt: str) -> str:
    cmt_updtd = cmt.replace(' ؟', '')
    cmt_updtd = cmt_updtd.replace('؟', '')
    cmt_updtd = cmt_updtd.replace('%', '')

    return cmt_updtd.strip()

In [3]:
df = pd.read_csv('../../OnomasticonArabicum2020/oa2020/oa2020.csv')
df['category'].astype('category')
df.loc[df['content'].notna(), 'content'] = df.loc[df['content'].notna(), 'content'].apply(denoise).apply(cmt_rplc)
df.loc[df['comment'].notna(), 'comment'] = df.loc[df['comment'].notna(), 'comment'].apply(denoise).apply(cmt_rplc)
df['comment'] = df['comment'].mask(df['comment'] == '')
df['content'] = df['content'].mask(df['content'] == '')

In [4]:
print(df['category'].unique())

['ISM' 'IAB' 'GAD' 'NSB' 'SIF' 'SWM' 'UMT' 'MAT' 'REF' 'DIN' 'SUH' 'HAL'
 'KUN' 'HDR' 'LAQ' 'ABG' 'GAG' 'GGG' 'LQB' 'HDF' 'HRI' 'HWL' 'HMT' 'SRK'
 'WLD' 'AHL' 'SMT' 'AKH' 'TRH' 'GNS' 'GAD0' 'HRB' 'ABG0' 'HAQ' 'GAG0'
 'IAB0' 'AHL0' 'HDR0' 'WLD0' 'NSB0' 'SNF' 'ISM0' 'MIN' 'TRH0' 'ILA' 'HAQ0'
 'SWM0' 'HAL0' 'LQB0' 'EGL' 'KUN0' 'MAT0' 'SUH0' 'HDF0' 'AQB' 'SNF0'
 'SMT0' 'HMT0' 'HRI0' 'HWL0' 'DIN0' 'UMT0']


In [5]:
ism_cats = ['ISM', 'IAB', 'GAD', 'ABG', 'GAG', 'IAB0', 'GAD0', 'ABG0', 'GAG0']
isms = df.loc[df['category'].isin(ism_cats)]
ism_vc = isms['content'].value_counts().rename('ISM')
ism_vc.to_csv('../../OnomasticonArabicum2020/oa2020/ism.csv')
ism_vc.to_csv('../../OnomasticonArabicum2020/oa2020/ism.tsv', sep='\t')
ism_vc

محمد        8845
أحمد        4480
علي         3759
عبد الله    2758
أأأ         1840
            ... 
زوطي           1
ماه            1
مرقي           1
قياما          1
سرية           1
Name: ISM, Length: 4999, dtype: int64

In [6]:
ism_com = isms.loc[isms['comment'].notna()]
ism_com[['content', 'comment']].value_counts().to_csv('../../OnomasticonArabicum2020/oa2020/ism_com.csv')
ism_com[['content', 'comment']].value_counts().to_csv('../../OnomasticonArabicum2020/oa2020/ism_com.tsv', sep='\t')

In [7]:
kun_cats = ['KUN', 'KIN0']
kuns = df.loc[df['category'].isin(kun_cats)]
kun_vc = kuns['content'].value_counts().rename('KUN')
kun_vc.to_csv('../../OnomasticonArabicum2020/oa2020/kun.csv')
kun_vc.to_csv('../../OnomasticonArabicum2020/oa2020/kun.tsv', sep='\t')
kun_vc

أبو عبد الله    1046
أبو الحسن        973
أبو محمد         888
أبو بكر          696
أبو القاسم       609
                ... 
أبو جابر           1
أبو حافظ           1
أبو الجماهر        1
أبو الضوء          1
أبو مخرم           1
Name: KUN, Length: 722, dtype: int64

In [8]:
nsb_cats = ['NSB']
nsbs = df.loc[df['category'].isin(nsb_cats)]
nsb_vc = nsbs['content'].value_counts().rename('NSB')
nsb_vc.to_csv('../../OnomasticonArabicum2020/oa2020/nsb.csv')
nsb_vc.to_csv('../../OnomasticonArabicum2020/oa2020/nsb.tsv', sep='\t')
nsb_vc

البغدادي     868
الدمشقي      759
المصري       602
البصري       395
الكوفي       392
            ... 
اليونارتي      1
الحطيني        1
كتكاني         1
الديلي         1
النيسابور      1
Name: NSB, Length: 3344, dtype: int64

In [9]:
laq_cats = ['LAQ', 'LAQ0', 'LQB', 'LQB0']
laqs = df.loc[df['category'].isin(laq_cats)]
laq_vc = laqs['content'].value_counts().rename('LAQ')
laq_vc.to_csv('../../OnomasticonArabicum2020/oa2020/laq.csv')
laq_vc.to_csv('../../OnomasticonArabicum2020/oa2020/laq.tsv', sep='\t')
laq_vc

الملس               568
شمس الدين           533
سيد                 395
شهاب الدين          348
جمال الدين          302
                   ... 
القطب النيسابوري      1
إمام الربوة           1
الكذاب                1
قراد                  1
منلا                  1
Name: LAQ, Length: 1899, dtype: int64

In [10]:
swm_cats = ['SWM', 'SWM0']
swms = df.loc[df['category'].isin(swm_cats)]
swm_vc = swms['content'].value_counts().rename('SWM')
swm_vc.to_csv('../../OnomasticonArabicum2020/oa2020/swm.csv')
swm_vc.to_csv('../../OnomasticonArabicum2020/oa2020/swm.tsv', sep='\t')
swm_vc

شاعر       3146
محدث       2510
فقيه       1875
مصنف       1732
قاضي       1280
           ... 
البأآر        1
زيات          1
الجلآري       1
حبر           1
طريب          1
Name: SWM, Length: 1212, dtype: int64

In [11]:
swm_com = swms[['content', 'comment']]
swm_com_vc = swm_com.value_counts()
swm_com_vc.to_csv('../../OnomasticonArabicum2020/oa2020/swm_com.csv')
swm_com_vc.to_csv('../../OnomasticonArabicum2020/oa2020/swm_com.tsv', sep='\t')
swm_com_vc

content    comment               
محدث       سمع                       191
مدرس       درس                       118
مفتي       أفتى                      103
نائب       ناب في الحكم              102
محدث       سمع؛حدث                    92
                                    ... 
شيخ        الإسلام بدمشق               1
           الإسلام بالديارالمصرية      1
           الإسلام ; المرجع            1
           الأطباء؛بالعراق             1
ولي العهد  ولي عهد أبيه ووزيره         1
Length: 8840, dtype: int64

In [12]:
suh_cats = ['SUH', 'SUH0']
suhs = df.loc[df['category'].isin(suh_cats)]
suh_vc = suhs['content'].value_counts().rename('SUH')
suh_vc.to_csv('../../OnomasticonArabicum2020/oa2020/suh.csv')
suh_vc.to_csv('../../OnomasticonArabicum2020/oa2020/suh.tsv', sep='\t')

In [13]:
suh_com_vc = suhs['comment'].value_counts().rename('EXP')
suh_com_vc.to_csv('../../OnomasticonArabicum2020/oa2020/suh_com.csv')
suh_com_vc.to_csv('../../OnomasticonArabicum2020/oa2020/suh_com.tsv', sep='\t')
suh_com_vc

المعروف به                    855
يعرف به                       272
الملقب به                      40
معروف به                       37
يلقب به                        30
                             ... 
معنا طويل سكوت                  1
تعرف به عائلته                  1
إلى جده لأمه صفي الدين          1
بلغة الأندلس الأبيض الأشقر      1
المشهور به في دياره             1
Name: EXP, Length: 260, dtype: int64

In [14]:
hal_cats = ['HAQ', 'HDF', 'HDR', 'HMT', 'HRB', 'HRI', 'HWL', 'HDR0', 'HAQ0', 'HAL0', 'HDF0', 'HMT0', 'HWL0']
hals = df.loc[df['category'].isin(hal_cats)]
hal_vc = hals['content'].value_counts().rename('HAL')
hal_vc.to_csv('../../OnomasticonArabicum2020/oa2020/hal.csv')
hal_vc.to_csv('../../OnomasticonArabicum2020/oa2020/hal.tsv', sep='\t')
hal_vc

بغداد                               1132
دمشق                                 922
مكة                                  880
مصر                                  802
الأندلس                              397
                                    ... 
سخاو                                   1
العنبرانية                             1
الرباط                                 1
هرث                                    1
سافر مع السلطان إلى قتال الأعاجم       1
Name: HAL, Length: 2956, dtype: int64

In [15]:
def get_topo_as_list(topos_str: str) -> List[str]:
    return topos_str.split('، ')

In [16]:
thurayya = pd.read_csv('../../OnomasticonArabicum2020/oa2020/toponyms_extended.csv', converters={'toponyms': get_topo_as_list})
known_toponyms = thurayya['toponyms'].explode(ignore_index=True).to_list()

In [17]:
toponyms = hals['content']
unknown_toponyms = toponyms.loc[~toponyms.isin(known_toponyms)]
unknown_toponyms_vc = unknown_toponyms.value_counts()
unknown_toponyms_vc.to_csv('../../OnomasticonArabicum2020/oa2020/unknown_toponyms.csv')
unknown_toponyms_vc.to_csv('../../OnomasticonArabicum2020/oa2020/unknown_toponyms.tsv', sep='\t')

In [18]:
def get_as_data(row, category):
    return category, row.name, row[category]

In [19]:
elements = [ism_vc, kun_vc, laq_vc, nsb_vc, suh_vc, swm_vc, suh_com_vc]

In [20]:
# CATEGORY, CONTENT/COMMENT, COUNT
data = []
for s in elements:
    data.extend(pd.DataFrame(s).apply(get_as_data, category=s.name, axis=1).to_list())

In [21]:
gazetteer = pd.DataFrame(data, columns=['CATEGORY', 'TEXT', 'COUNT'])

In [22]:
gazetteer.to_csv('../../OnomasticonArabicum2020/oa2020/ono_gazetteer.csv', index=False)
gazetteer.to_csv('../../OnomasticonArabicum2020/oa2020/ono_gazetteer.tsv', sep='\t', index=False)

In [23]:
gazetteer

Unnamed: 0,CATEGORY,TEXT,COUNT
0,ISM,محمد,8845
1,ISM,أحمد,4480
2,ISM,علي,3759
3,ISM,عبد الله,2758
4,ISM,أأأ,1840
...,...,...,...
16152,EXP,معنا طويل سكوت,1
16153,EXP,تعرف به عائلته,1
16154,EXP,إلى جده لأمه صفي الدين,1
16155,EXP,بلغة الأندلس الأبيض الأشقر,1
