# Preparing data for passim
Prepare data (xml from eScriptorium and ground truth texts) for passim.
Formatting of data from eScriptorium and digital witnesses for processing with Passim (alignment)
The result is a json file containing the OCR data and the digital cookies
Data from eScriptorium are xml altos containing the result of OCR with kraken
Digital witnesses can be txt files containing concatenated texts, or json files.

### Importing Required Libraries

In [1]:
import json # To work with JSON data
import jsonlines # To write data in JSON Lines format
import os # To interact with the operating system
import glob # To search for files in a directory
from xml.etree import ElementTree # To parse XML files

### Define Output and Input File Paths

In [2]:
# ground trhuth files / pathes
text_file_1 = "digital_editions/01MT_NoVoc.json" # path to the digital witness files
text_file_2 = "digital_editions/haggadah/Pesach_Haggadah.txt" # path to the digital witness files
text_file_3 = "digital_editions/siddur_Ashkenaz/Siddur_Ashkenaz.txt" # path to the digital witness files

# xmls files from eScriptorium (OCR results) /path
xmls_directory_path = "xmls_from_eSc/export_doc3585_1col_05_alto_202403260856"

# output file / path for the JSON file that will be used as input for Passim
output_file = "json_for_passim/passim_input.json" # path for the output JSON file. This file will be used as input for Passim.




### Initializing Output Data and ID Counters

In [3]:
# Initialize the data to be stored in the output file
output_data = []
# starting values for alto_id and text_id
#text_id = 1
# alto_id = 1
# text_id = alto_id 
# In case the ids kept from the alto file are not usefull

### Loop through XML files to extract TextLine elements' text and ID

In [5]:
import glob
import os
from xml.etree import ElementTree

# Path to directory containing XML files
# xmls_directory_path = "xmls_from_eSc/export_doc3585_1col_05_alto_202403260856"

# Initialize alto_id
alto_id = 1

# Loop through all the XML files in the directory
for filename in glob.glob(os.path.join(xmls_directory_path, "*.xml")):
    # Get the name of each file
    basename = os.path.splitext(os.path.basename(filename))[0]

    # Get the series name from the filename (without extension)
    series_name = os.path.splitext(os.path.basename(filename))[0][:2]

    # Parse the XML file
    tree = ElementTree.parse(filename)
    root = tree.getroot()

    # Loop through all the TextLine elements in the XML file
    for text_line in root.iter("{http://www.loc.gov/standards/alto/ns-v4#}TextLine"):
        # Get the ID from the ID attribute of the TextLine element
        output_id = text_line.get("ID") + '_' + basename
        # Get the text content from the Unicode element within the TextLine element
        text = text_line.find("{http://www.loc.gov/standards/alto/ns-v4#}String").get("CONTENT").strip()
        # Add the data to the output list
        output_data.append({"id": output_id, "series": series_name, "text": text})
        alto_id += 1
        print(f"Added to output: {output_id}, {series_name}, {text}")


Added to output: eSc_line_f9a46912_IE30411733_00064, IE, —(מה) -
Added to output: eSc_line_961a31d5_IE30411733_00064, IE, .69 .5
Added to output: eSc_line_5e2eeeef_IE30411733_00064, IE, אעלליך זינד אונגעפעהר פאלגנדע:
Added to output: eSc_line_c8beaa3f_IE30411733_00064, IE, א) דיא גאטטונגס . אונד אייגענען נאמען דער נאטיאנען, אלט:
Added to output: eSc_line_dfdd18e9_IE30411733_00064, IE, גו"י, עם איין פאלק, לאם ואטיאן, שראל,
Added to output: eSc_line_a99a7c91_IE30411733_00064, IE, מצרים, עמלק, אשור א' .. וו
Added to output: eSc_line_2da825c1_IE30411733_00064, IE, ב) דיא נאמען דער מעערע אונד פליסע, אלם: "ם אעער,
Added to output: eSc_line_55c5e599_IE30411733_00064, IE, נחל במך, נהר סטראם, יאר פלפ, חדקל
Added to output: eSc_line_3ba1ad76_IE30411733_00064, IE, פרת, ירדן, אהוא א. ". 1ו.
Added to output: eSc_line_c698c9e6_IE30411733_00064, IE, ג) דער בערגע אונד היגעל, אלט: הר בערג, גבע
Added to output: eSc_line_9d837fae_IE30411733_00064, IE, היגעל, סיני, תבור, חרמון, חרב, הת,
Added to output: e

### From json File to Single String - MT
Preparing a ground truth file: from json to jsonl


In [6]:
# Get the name of the text file (without extension)
text_file_name = os.path.splitext(os.path.basename(text_file_1))[0]

# Read the whole text file as a single string
with open(text_file_1, 'r', encoding="utf-8") as f:
    texte = f.read()
print(f"Name of the text file: {text_file_name}")

Name of the text file: 01MT_NoVoc


In [7]:
# Concatenate the lines of each chapter of each book in the digital edition
# Load JSON file
with open(text_file_1, 'r') as f:
    books = json.load(f)

text = ''

# Parse all books
for book in books:
    # Parse all chapters
    for chapter in book['chapter']:
        # Concatenate all chapter lines into a single string
        text += ' '.join(chapter) + ' '
      
print(text)

בראשית ברא אלהים את השמים ואת הארץ : והארץ היתה תהו ובהו וחשך על פני תהום ורוח אלהים מרחפת על פני המים : ויאמר אלהים יהי אור ויהי אור : וירא אלהים את האור כי טוב ויבדל אלהים בין האור ובין החשך : ויקרא אלהים לאור יום ולחשך קרא לילה ויהי ערב ויהי בקר יום אחד : ויאמר אלהים יהי רקיע בתוך המים ויהי מבדיל בין מים למים : ויעש אלהים את הרקיע ויבדל בין המים אשר מתחת לרקיע ובין המים אשר מעל לרקיע ויהי כן : ויקרא אלהים לרקיע שמים ויהי ערב ויהי בקר יום שני : ויאמר אלהים יקוו המים מתחת השמים אל מקום אחד ותראה היבשה ויהי כן : ויקרא אלהים ליבשה ארץ ולמקוה המים קרא ימים וירא אלהים כי טוב : ויאמר אלהים תדשא הארץ דשא עשב מזריע זרע עץ פרי עשה פרי למינו אשר זרעו בו על הארץ ויהי כן : ותוצא הארץ דשא עשב מזריע זרע למינהו ועץ עשה פרי אשר זרעו בו למינהו וירא אלהים כי טוב : ויהי ערב ויהי בקר יום שלישי : ויאמר אלהים יהי מארת ברקיע השמים להבדיל בין היום ובין הלילה והיו לאתת ולמועדים ולימים ושנים : והיו למאורת ברקיע השמים להאיר על הארץ ויהי כן : ויעש אלהים את שני המארת הגדלים את המאור הגדל לממשלת היום ואת המאור הק

In [9]:
# display the first 40 characters of the string
print(f"40 first chars: {text[:40]}")
# display the last 40 characters of the string
print(f"40 last chars: {text[-40:]}")

40 first chars: בראשית ברא אלהים את השמים ואת הארץ : והא
40 last chars: ים מזמנות ולבכורים זכרה לי אלהי לטובה : 


In [10]:
# Add the whole text file as a single line to the output list
output_data.append({"id": str(text_file_name), "series": 'GT', "text": text.strip()})


print(f"Added to output: Ground Truth: {text_file_name}, {text}")

Added to output: Ground Truth: 01MT_NoVoc, בראשית ברא אלהים את השמים ואת הארץ : והארץ היתה תהו ובהו וחשך על פני תהום ורוח אלהים מרחפת על פני המים : ויאמר אלהים יהי אור ויהי אור : וירא אלהים את האור כי טוב ויבדל אלהים בין האור ובין החשך : ויקרא אלהים לאור יום ולחשך קרא לילה ויהי ערב ויהי בקר יום אחד : ויאמר אלהים יהי רקיע בתוך המים ויהי מבדיל בין מים למים : ויעש אלהים את הרקיע ויבדל בין המים אשר מתחת לרקיע ובין המים אשר מעל לרקיע ויהי כן : ויקרא אלהים לרקיע שמים ויהי ערב ויהי בקר יום שני : ויאמר אלהים יקוו המים מתחת השמים אל מקום אחד ותראה היבשה ויהי כן : ויקרא אלהים ליבשה ארץ ולמקוה המים קרא ימים וירא אלהים כי טוב : ויאמר אלהים תדשא הארץ דשא עשב מזריע זרע עץ פרי עשה פרי למינו אשר זרעו בו על הארץ ויהי כן : ותוצא הארץ דשא עשב מזריע זרע למינהו ועץ עשה פרי אשר זרעו בו למינהו וירא אלהים כי טוב : ויהי ערב ויהי בקר יום שלישי : ויאמר אלהים יהי מארת ברקיע השמים להבדיל בין היום ובין הלילה והיו לאתת ולמועדים ולימים ושנים : והיו למאורת ברקיע השמים להאיר על הארץ ויהי כן : ויעש אלהים את שני המארת הג

### From text File to Single String - Haggadah
Preparing a ground truth file: from txt to jsonl

In [11]:
# Get the name of the text file (without extension)
text_file_name_2 = os.path.splitext(os.path.basename(text_file_2))[0]

In [12]:
# load the text file
with open(text_file_2, 'r', encoding="utf-8") as f:
    texte_2 = f.read()

print(f"Name of the text file: {text_file_name_2}")
print(f"Content of the text file: {texte_2}")

Name of the text file: Pesach_Haggadah
Content of the text file: הגדה של פסח

קדש

מוזגים כוס ראשון. המצּות מכוסות.
קַדֵּשׁ
בְּשַׁבָּת מַתְחִילִין
וַיְהִי עֶרֶב וַיְהִי בֹקֶר יוֹם הַשִּׁשִּׁי. וַיְכֻלּוּ הַשָּׁמַיִם וְהָאָרֶץ וְכָל־צְבָאָם. וַיְכַל אֱלֹהִים בַּיּוֹם הַשְּׁבִיעִי מְלַאכְתּוֹ אֲשֶׁר עָשָׂה וַיִּשְׁבֹּת בַּיּוֹם הַשְּׁבִיעִי מִכָּל מְלַאכְתּוֹ אֲשֶׁר עָשָׂה. וַיְבָרֵךְ אֱלֹהִים אֶת יוֹם הַשְּׁבִיעִי וַיְקַדֵּשׁ אוֹתוֹ כִּי בוֹ שָׁבַת מִכָּל־מְלַאכְתּוֹ אֲשֶׁר בָּרָא אֱלֹהִים לַעֲשׂוֹת.
בחול מתחילין:
סַבְרִי מָרָנָן וְרַבָּנָן וְרַבּוֹתַי. בָּרוּךְ אַתָּה ה', אֱלֹהֵינוּ מֶלֶךְ הָעוֹלָם בּוֹרֵא פְּרִי הַגָּפֶן.
בָּרוּךְ אַתָּה ה', אֱלהֵינוּ מֶלֶךְ הָעוֹלָם אֲשֶׁר בָּחַר בָּנוּ מִכָּל־עָם וְרוֹמְמָנוּ מִכָּל־לָשׁוֹן וְקִדְּשָׁנוּ בְּמִצְוֹתָיו. וַתִּתֶּן לָנוּ ה' אֱלֹהֵינוּ בְּאַהֲבָה ( לשבת: שַׁבָּתוֹת לִמְנוּחָה וּ) מוֹעֲדִים לְשִׂמְחָה, חַגִּים וּזְמַנִּים לְשָׂשוֹן, ( לשבת: אֶת יוֹם הַשַּׁבָּת הַזֶּה וְ) אֶת יוֹם חַג הַמַּצּוֹת הַזֶּה זְמַן חֵרוּתֵנוּ, ( לשבת: בְּאַהֲבָה

In [13]:
# Remove empty lines from text text_2
texte_2 = os.linesep.join([s for s in texte_2.splitlines() if s])
print(f"Content of the text file: {texte_2}")

# concatenate lines of text text_2 into a single line
texte_2 = texte_2.replace("\n", " ")

print(f"Content of the text file: {texte_2}")

Content of the text file: הגדה של פסח
קדש
מוזגים כוס ראשון. המצּות מכוסות.
קַדֵּשׁ
בְּשַׁבָּת מַתְחִילִין
וַיְהִי עֶרֶב וַיְהִי בֹקֶר יוֹם הַשִּׁשִּׁי. וַיְכֻלּוּ הַשָּׁמַיִם וְהָאָרֶץ וְכָל־צְבָאָם. וַיְכַל אֱלֹהִים בַּיּוֹם הַשְּׁבִיעִי מְלַאכְתּוֹ אֲשֶׁר עָשָׂה וַיִּשְׁבֹּת בַּיּוֹם הַשְּׁבִיעִי מִכָּל מְלַאכְתּוֹ אֲשֶׁר עָשָׂה. וַיְבָרֵךְ אֱלֹהִים אֶת יוֹם הַשְּׁבִיעִי וַיְקַדֵּשׁ אוֹתוֹ כִּי בוֹ שָׁבַת מִכָּל־מְלַאכְתּוֹ אֲשֶׁר בָּרָא אֱלֹהִים לַעֲשׂוֹת.
בחול מתחילין:
סַבְרִי מָרָנָן וְרַבָּנָן וְרַבּוֹתַי. בָּרוּךְ אַתָּה ה', אֱלֹהֵינוּ מֶלֶךְ הָעוֹלָם בּוֹרֵא פְּרִי הַגָּפֶן.
בָּרוּךְ אַתָּה ה', אֱלהֵינוּ מֶלֶךְ הָעוֹלָם אֲשֶׁר בָּחַר בָּנוּ מִכָּל־עָם וְרוֹמְמָנוּ מִכָּל־לָשׁוֹן וְקִדְּשָׁנוּ בְּמִצְוֹתָיו. וַתִּתֶּן לָנוּ ה' אֱלֹהֵינוּ בְּאַהֲבָה ( לשבת: שַׁבָּתוֹת לִמְנוּחָה וּ) מוֹעֲדִים לְשִׂמְחָה, חַגִּים וּזְמַנִּים לְשָׂשוֹן, ( לשבת: אֶת יוֹם הַשַּׁבָּת הַזֶּה וְ) אֶת יוֹם חַג הַמַּצּוֹת הַזֶּה זְמַן חֵרוּתֵנוּ, ( לשבת: בְּאַהֲבָה) מִקְרָא קֹדֶשׁ זֵכֶר לִיצִיאַת מִצְרָיִ

In [14]:
# Add the whole text file as a single line to the output list
output_data.append({"id": str(text_file_name_2), "series": 'GT', "text": texte_2.strip()})


print(f"Added to output: Ground Truth: {text_file_name_2}, {texte_2}")

Added to output: Ground Truth: Pesach_Haggadah, הגדה של פסח קדש מוזגים כוס ראשון. המצּות מכוסות. קַדֵּשׁ בְּשַׁבָּת מַתְחִילִין וַיְהִי עֶרֶב וַיְהִי בֹקֶר יוֹם הַשִּׁשִּׁי. וַיְכֻלּוּ הַשָּׁמַיִם וְהָאָרֶץ וְכָל־צְבָאָם. וַיְכַל אֱלֹהִים בַּיּוֹם הַשְּׁבִיעִי מְלַאכְתּוֹ אֲשֶׁר עָשָׂה וַיִּשְׁבֹּת בַּיּוֹם הַשְּׁבִיעִי מִכָּל מְלַאכְתּוֹ אֲשֶׁר עָשָׂה. וַיְבָרֵךְ אֱלֹהִים אֶת יוֹם הַשְּׁבִיעִי וַיְקַדֵּשׁ אוֹתוֹ כִּי בוֹ שָׁבַת מִכָּל־מְלַאכְתּוֹ אֲשֶׁר בָּרָא אֱלֹהִים לַעֲשׂוֹת. בחול מתחילין: סַבְרִי מָרָנָן וְרַבָּנָן וְרַבּוֹתַי. בָּרוּךְ אַתָּה ה', אֱלֹהֵינוּ מֶלֶךְ הָעוֹלָם בּוֹרֵא פְּרִי הַגָּפֶן. בָּרוּךְ אַתָּה ה', אֱלהֵינוּ מֶלֶךְ הָעוֹלָם אֲשֶׁר בָּחַר בָּנוּ מִכָּל־עָם וְרוֹמְמָנוּ מִכָּל־לָשׁוֹן וְקִדְּשָׁנוּ בְּמִצְוֹתָיו. וַתִּתֶּן לָנוּ ה' אֱלֹהֵינוּ בְּאַהֲבָה ( לשבת: שַׁבָּתוֹת לִמְנוּחָה וּ) מוֹעֲדִים לְשִׂמְחָה, חַגִּים וּזְמַנִּים לְשָׂשוֹן, ( לשבת: אֶת יוֹם הַשַּׁבָּת הַזֶּה וְ) אֶת יוֹם חַג הַמַּצּוֹת הַזֶּה זְמַן חֵרוּתֵנוּ, ( לשבת: בְּאַהֲבָה) מִקְרָא קֹדֶשׁ זֵ

### From text File to Single String - Siddur
Preparing a ground truth file: from txt to jsonl


In [15]:
# Get the name of the text file (without extension)
text_file_name_3 = os.path.splitext(os.path.basename(text_file_3))[0]

In [16]:
# charger le fichier digital_editions/siddur_Ashkenaz/Siddur_Ashkenaz.txt
with open(text_file_3, 'r', encoding="utf-8") as f:
    texte_3 = f.read()

print(f"Name of the text file: {text_file_name_3}")
print(f"Content of the text file: {texte_3}")

Name of the text file: Siddur_Ashkenaz
Content of the text file: סידור אשכנז

ימי חול

תפילת שחרית

הכנה לתפילה

מודה אני



נטילת ידים



אשר יצר



אלהי נשמה



ציצית



ברכות התורה



לימוד תורה



טלית



תפילין



מה טובו



אדון עולם



יגדל



ברכות השחר



עקדה



עול מלכות שמים



קרבנות

פרשת הכיור



פרשת תרומת הדשן



פרשת קרבן תמיד



פרשת הקטורת



סדר המערכה



דיני זבחים



ברייתא דרבי ישמעאל



קדיש דרבנן



פסוקי דזמרה

מזמור שיר



קדיש יתום



ברוך שאמר



הודו



מזמור לתודה



יהי כבוד



אשרי



תהילים קמו



תהילים קמז



תהילים קמח



תהילים קמט



תהילים קנ



ברוך ה׳



ויברך דוד



אתה הוא



אז ישיר



ישתבח



תהילים קל



חצי קדיש



ברכות קריאת שמע

ברכו



יוצר אור



אהבת ישראל



שמע



גאל ישראל



עמידה

אבות



גבורות



קדושת השם



קדושה



דעת



תשובה



סליחה



גאולה



רפואה



ברכת השנים



קבוץ גליות



משפט



ברכת המינים



על הצדיקים



בנין ירושלים



מלכות בית דוד



שומע תפילה



עבודה



מודים



ברכת כוהנים



שים שלום



אלוהי נצו

In [17]:
# Supprimer les lignes vides du texte texte_3
texte_3 = os.linesep.join([s for s in texte_3.splitlines() if s])
print(f"Content of the text file: {texte_3}")

# concaténer les lignes du texte texte_3 en une seule ligne
texte_3 = texte_3.replace("\n", " ")
print(f"Content of the text file: {texte_3}")

Content of the text file: סידור אשכנז
ימי חול
תפילת שחרית
הכנה לתפילה
מודה אני
נטילת ידים
אשר יצר
אלהי נשמה
ציצית
ברכות התורה
לימוד תורה
טלית
תפילין
מה טובו
אדון עולם
יגדל
ברכות השחר
עקדה
עול מלכות שמים
קרבנות
פרשת הכיור
פרשת תרומת הדשן
פרשת קרבן תמיד
פרשת הקטורת
סדר המערכה
דיני זבחים
ברייתא דרבי ישמעאל
קדיש דרבנן
פסוקי דזמרה
מזמור שיר
קדיש יתום
ברוך שאמר
הודו
מזמור לתודה
יהי כבוד
אשרי
תהילים קמו
תהילים קמז
תהילים קמח
תהילים קמט
תהילים קנ
ברוך ה׳
ויברך דוד
אתה הוא
אז ישיר
ישתבח
תהילים קל
חצי קדיש
ברכות קריאת שמע
ברכו
יוצר אור
אהבת ישראל
שמע
גאל ישראל
עמידה
אבות
גבורות
קדושת השם
קדושה
דעת
תשובה
סליחה
גאולה
רפואה
ברכת השנים
קבוץ גליות
משפט
ברכת המינים
על הצדיקים
בנין ירושלים
מלכות בית דוד
שומע תפילה
עבודה
מודים
ברכת כוהנים
שים שלום
אלוהי נצור
אחר העמידה
וידוי וי"ג מידות
אבינו מלכנו
תחנון
והוא רחום
נפילת אפיים
ה אל׳ ישראל
שומר ישראל
חצי קדיש
קריאת התורה
הוצאת ספר תורה
אל ארך אפים
ויהי בנסוע
בריך שמה
לך השם
אב הרחמים
ותגלה ותראה
קריאת התורה
ברכת התורה
ברכת הגומל
חצי קדיש
הגבהה
יהי רצון
הכנ

In [18]:
# Add the whole text file as a single line to the output list
output_data.append({"id": str(text_file_name_3), "series": 'GT', "text": texte_3.strip()})


print(f"Added to output: Ground Truth: {text_file_name_3}, {texte_3}")

Added to output: Ground Truth: Siddur_Ashkenaz, סידור אשכנז ימי חול תפילת שחרית הכנה לתפילה מודה אני נטילת ידים אשר יצר אלהי נשמה ציצית ברכות התורה לימוד תורה טלית תפילין מה טובו אדון עולם יגדל ברכות השחר עקדה עול מלכות שמים קרבנות פרשת הכיור פרשת תרומת הדשן פרשת קרבן תמיד פרשת הקטורת סדר המערכה דיני זבחים ברייתא דרבי ישמעאל קדיש דרבנן פסוקי דזמרה מזמור שיר קדיש יתום ברוך שאמר הודו מזמור לתודה יהי כבוד אשרי תהילים קמו תהילים קמז תהילים קמח תהילים קמט תהילים קנ ברוך ה׳ ויברך דוד אתה הוא אז ישיר ישתבח תהילים קל חצי קדיש ברכות קריאת שמע ברכו יוצר אור אהבת ישראל שמע גאל ישראל עמידה אבות גבורות קדושת השם קדושה דעת תשובה סליחה גאולה רפואה ברכת השנים קבוץ גליות משפט ברכת המינים על הצדיקים בנין ירושלים מלכות בית דוד שומע תפילה עבודה מודים ברכת כוהנים שים שלום אלוהי נצור אחר העמידה וידוי וי"ג מידות אבינו מלכנו תחנון והוא רחום נפילת אפיים ה אל׳ ישראל שומר ישראל חצי קדיש קריאת התורה הוצאת ספר תורה אל ארך אפים ויהי בנסוע בריך שמה לך השם אב הרחמים ותגלה ותראה קריאת התורה ברכת התורה ברכת הגומל חצי ק

### Looping through text file to create a line by line JSON output

In [19]:
# # Loop through the lines of the text file and add them to the output list
# for line in text_lines:
#     # Strip any trailing whitespace from the line
#     line = line.strip()
#     # Add the data to the output list, using an auto-incremented ID and the text file name as the series name
#     output_data.append({"id": str(text_id), "series": text_file_name, "text": line})
#     text_id += 1
#     print(f"Added to output: {text_id}, {text_file_name}, {line}")


### Writing Data to JSONLines File in Compact Format without ASCII Encoding

In [20]:
# Open the output file in write mode
with open(output_file, "w", encoding="utf-8") as f:
    # Create a jsonlines writer object that writes to the output file
    writer = jsonlines.Writer(f)
    # Loop through each item in the output_data list
    for item in output_data:
        # Write the current item to the output file using the jsonlines writer
        writer.write(item)