In [1]:
import glob
import tqdm
import lxml.etree as ET
import csv
import collections
import os
from typing import List

# Parse data

In [2]:
models = ['data0',
         'data-bad3',
         'data-bad2',
         'data1',
         'data-bad1',
         'data2',
         'data-bad0',
         'data-CREMMA-Medieval',
         'data-manumffrench2']

COLS = ["model", "lang", "manuscript", "file", 
                                     "page_id", "line_id", 
                                     "baseline", 
                                     "transcription"]
Row = collections.namedtuple("Row", ["model", "lang", "manuscript", "file", 
                                     "page_id", "line_id", 
                                     "baseline", 
                                     "transcription"])

PageIds = collections.defaultdict(dict)
LineIds = collections.defaultdict(lambda: collections.defaultdict(dict))

def read_file(file: str, split_string: str = ".transc", model=None, lang=None) -> List[Row]:
    if not lang:
        lang, infered_model, manuscript, *_ = file.split(os.sep)
    else:
        manuscript = os.path.dirname(file).split(os.sep)[-1]
        
    if not model:
        model = infered_model
    data = []
    try:
        xml = ET.parse(file)
        fname = os.path.basename(file).split(split_string)[0]
        # Page ID
        if fname in PageIds[manuscript]:
            pid = PageIds[manuscript][fname]
        else:
            pid = PageIds[manuscript][fname] = len(PageIds[manuscript])
            
        for line in xml.findall("//{*}TextBlock/{*}TextLine"):
                
                
            text = " ".join([str(content.attrib.get("CONTENT", "")) or "" for content in line.findall(".//{*}String")])
            
            if not text:
                continue
            
            baseline = str(line.attrib["BASELINE"])
            # Line ID
            if baseline in LineIds[manuscript][fname]:
                lid = LineIds[manuscript][fname][baseline]
            else:
                lid = LineIds[manuscript][fname][baseline] = len(LineIds[manuscript][fname])
                
            data.append(Row(
                model,
                lang,
                manuscript,
                fname,
                pid,
                lid,
                baseline,
                text or ""))
    except Exception as E:
        print(E)
    return data

inputs = [
    file
    for file in glob.glob(f"*/*/*/*transc*.xml")
]
data = []
for file in tqdm.tqdm(inputs):
    data.extend(read_file(file))

  2%|███▏                                                                                                                                                                       | 80/4371 [00:00<00:16, 256.86it/s]

Document is empty, line 1, column 1 (e-codices_kba-WettF0015_109v_max.transc-manumffrench2.xml, line 1)


  4%|███████▌                                                                                                                                                                  | 193/4371 [00:01<00:22, 185.12it/s]

Document is empty, line 1, column 1 (e-codices_kba-WettF0015_109v_max.transc-0.xml, line 1)


  8%|█████████████▏                                                                                                                                                            | 339/4371 [00:02<00:35, 113.44it/s]

Document is empty, line 1, column 1 (BIS_00_00615_0447.transc-CREMMA-Medieval.xml, line 1)
Document is empty, line 1, column 1 (e-codices_kba-WettF0015_109v_max.transc-2.xml, line 1)


 19%|████████████████████████████████▌                                                                                                                                         | 838/4371 [00:05<00:20, 169.80it/s]

Document is empty, line 1, column 1 (e-codices_kba-WettF0015_109v_max.transc-1.xml, line 1)


 26%|████████████████████████████████████████████                                                                                                                             | 1140/4371 [00:07<00:21, 152.49it/s]

Document is empty, line 1, column 1 (BIS_00_00615_0450.transc-1.xml, line 1)
Document is empty, line 1, column 1 (e-codices_kba-WettF0015_109v_max.transc-0.xml, line 1)


 31%|████████████████████████████████████████████████████▌                                                                                                                    | 1359/4371 [00:08<00:16, 187.13it/s]

Document is empty, line 1, column 1 (42_4b433_default.transc-manumffrench2.mlmodel.xml, line 1)


 32%|██████████████████████████████████████████████████████                                                                                                                   | 1398/4371 [00:08<00:17, 168.40it/s]

Document is empty, line 1, column 1 (f.157r.transc-manumffrench2.mlmodel.xml, line 1)


 36%|████████████████████████████████████████████████████████████▏                                                                                                            | 1558/4371 [00:09<00:14, 192.66it/s]

Document is empty, line 1, column 1 (136_9a3bb_default.transc-manumffrench2.mlmodel.xml, line 1)


 38%|████████████████████████████████████████████████████████████████▋                                                                                                        | 1673/4371 [00:10<00:13, 198.31it/s]

Document is empty, line 1, column 1 (f.157r.transc-bad_0.mlmodel.xml, line 1)


 44%|██████████████████████████████████████████████████████████████████████████▍                                                                                              | 1924/4371 [00:11<00:13, 180.12it/s]

Document is empty, line 1, column 1 (f.157r.transc-CREMMA-Medieval.mlmodel.xml, line 1)


 50%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 2186/4371 [00:13<00:13, 159.39it/s]

Document is empty, line 1, column 1 (f.157r.transc-cremma-medieval_2.mlmodel.xml, line 1)


 56%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 2462/4371 [00:15<00:08, 234.92it/s]

Document is empty, line 1, column 1 (43_f552a_default.transc-bad_3.mlmodel.xml, line 1)


 57%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 2509/4371 [00:15<00:10, 175.26it/s]

Document is empty, line 1, column 1 (f.157r.transc-bad_3.mlmodel.xml, line 1)


 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 2717/4371 [00:16<00:08, 202.21it/s]

Document is empty, line 1, column 1 (20_eaf8f_default.transc-bad_2.mlmodel.xml, line 1)


 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 2759/4371 [00:17<00:09, 166.82it/s]

Document is empty, line 1, column 1 (f.157r.transc-bad_2.mlmodel.xml, line 1)


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 2975/4371 [00:18<00:05, 247.26it/s]

Document is empty, line 1, column 1 (43_f552a_default.transc-lat_only_5.mlmodel.xml, line 1)
Document is empty, line 1, column 1 (46_fe906_default.transc-lat_only_5.mlmodel.xml, line 1)
Document is empty, line 1, column 1 (33_e90ae_default.transc-lat_only_5.mlmodel.xml, line 1)
Document is empty, line 1, column 1 (39_6ebce_default.transc-lat_only_5.mlmodel.xml, line 1)


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3023/4371 [00:18<00:07, 187.85it/s]

Document is empty, line 1, column 1 (f.157r.transc-lat_only_5.mlmodel.xml, line 1)


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3278/4371 [00:20<00:06, 175.70it/s]

Document is empty, line 1, column 1 (f.157r.transc-cremma-medieval_1.mlmodel.xml, line 1)


 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 3495/4371 [00:21<00:03, 239.34it/s]

Document is empty, line 1, column 1 (reg-lat-1616_109v.transc-cremma-medieval_1.mlmodel.xml, line 1)


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3562/4371 [00:21<00:04, 170.15it/s]

Document is empty, line 1, column 1 (f.157r.transc-lat_only_4.mlmodel.xml, line 1)


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 3843/4371 [00:23<00:02, 212.70it/s]

Document is empty, line 1, column 1 (f.157r.transc-bad_1.mlmodel.xml, line 1)


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4116/4371 [00:25<00:01, 167.13it/s]

Document is empty, line 1, column 1 (f.157r.transc-cremma-medieval_0.mlmodel.xml, line 1)


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4371/4371 [00:26<00:00, 163.78it/s]


## Retrieve GT

In [3]:
for file in tqdm.tqdm(glob.glob(f"../cremma/CREMMA-Medieval-LAT/data/*/*mufi*.xml")):
    data.extend(read_file(file, split_string=".mufi", model="GT", lang="lat"))
    
for file in tqdm.tqdm(glob.glob(f"../cremma-medieval/*/*mufi*.xml")):
    
    data.extend(read_file(file, split_string=".mufi", model="GT", lang="fro"))

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 1996.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 263/263 [00:00<00:00, 1703.20it/s]


# Export

In [4]:
import pandas as pd

df = pd.DataFrame(data, columns=COLS)
df.to_csv("annotations.csv.gzip", compression="gzip")

In [5]:
df.head()

Unnamed: 0,model,lang,manuscript,file,page_id,line_id,baseline,transcription
0,data-lat_only_3.mlmodel,lat,SBB_PK_Hdschr25,SBB_PK_Hdschr25_047v,0,0,175 203 417 206 640 204,a ⁊utl
1,data-lat_only_3.mlmodel,lat,SBB_PK_Hdschr25,SBB_PK_Hdschr25_047v,0,1,292 254 681 254,t ut t̃ ps p
2,data-lat_only_3.mlmodel,lat,SBB_PK_Hdschr25,SBB_PK_Hdschr25_047v,0,2,286 309 677 306,tas t̃
3,data-lat_only_3.mlmodel,lat,SBB_PK_Hdschr25,SBB_PK_Hdschr25_047v,0,3,177 357 461 360 674 356,e ult ut p̃ t
4,data-lat_only_3.mlmodel,lat,SBB_PK_Hdschr25,SBB_PK_Hdschr25_047v,0,4,173 408 670 409,ba tt ss ttta


In [6]:
df.tail()

Unnamed: 0,model,lang,manuscript,file,page_id,line_id,baseline,transcription
357897,GT,fro,vaticane_reg_lat_1616_otinel,reg-lat-1616_095r,22,30,302 2713 1269 2713,s ire dit il Otes li sarrasins
357898,GT,fro,vaticane_reg_lat_1616_otinel,reg-lat-1616_095r,22,31,321 2785 1255 2790,⁊ sui fiz galien au fier vis
357899,GT,fro,vaticane_reg_lat_1616_otinel,reg-lat-1616_095r,22,32,294 2862 1613 2878,m oie est ⁊ la marche ⁊ trestot le pais
357900,GT,fro,vaticane_reg_lat_1616_otinel,reg-lat-1616_095r,22,33,310 2952 1415 2960,⁊ benoas qͥ tant est de haut pͥs
357901,GT,fro,vaticane_reg_lat_1616_otinel,reg-lat-1616_095r,22,34,305 3032 1316 3037,u ne contree qͥ ml̃t est posteis


In [7]:
df.manuscript.unique()

array(['SBB_PK_Hdschr25', 'Mazarine915', 'Arras-861', 'Latin16195',
       'H318', 'LaurentianusPluteus39.34', 'PalLat373', 'CCCC-MSS-236',
       'Latin8236', 'WettF0015', 'LaurentianusPluteus53.09', 'CLM13027',
       'Egerton821', 'LaurentianusPluteus33.31', 'CCCC-MSS-165',
       'LaurentianusPluteus53.08', 'Latin6395', 'Phi_10a135', 'BIS-193',
       'BnF_17229_saintLambert_microfilm',
       'bnf__arsenal3516_imagedumonde', 'bnf_fr_412_wauchier',
       'bnf_fr_844_manuscrit_du_roi',
       'BnF_fr_13496_saintJerome_microfilm', 'bodmer_168_otinel',
       'bnf_fr_22549_sept_sages',
       'university_of_pennsylvania_660_pelerinage_mademoiselle_sapience',
       'BnF_fr_411_saintLambert_microfilm',
       'uni_of_pennsylvania_ms_codex_909_Eneide',
       'bnf_fr_24428_bestiaire', 'BnF_fr_25516',
       'vaticane_reg_lat_1616_otinel'], dtype=object)