### Importing Required Libraries

In [1]:
import json # To work with JSON data
import jsonlines # To write data in JSON Lines format
import os # To interact with the operating system
import glob # To search for files in a directory
from xml.etree import ElementTree # To parse XML files

### Define Output and Input File Paths

In [2]:
output_file = "path/output.json" # path for the output JSON file
text_file = "path/text.txt" # path to the input text file

### Initializing Output Data and ID Counters

In [3]:
# Initialize the data to be stored in the output file
output_data = []
# starting values for alto_id and text_id
#text_id = 1
alto_id = 1
text_id = alto_id 
# In case the ids kept from the alto file are not usefull 

### Reading input text File as a Single String

In [4]:
# Get the name of the text file (without extension)
text_file_name = os.path.splitext(os.path.basename(text_file))[0]

# Read the whole text file as a single string
with open(text_file, 'r', encoding="utf-8") as f:
    texte = f.read()

### Loop through XML files to extract TextLine elements' text and ID

In [5]:
# Loop through all the XML files in the directory
for filename in glob.glob("path/files.xml"):
    # Get the series name from the filename (without extension)
    series_name = os.path.splitext(os.path.basename(filename))[0][:3] 
    
    # Only takes the three first char of the file name to keep all the line in the same series
    
    # Parse the XML file
    tree = ElementTree.parse(filename)
    root = tree.getroot()
    
    # Loop through all the TextLine elements in the XML file
    for text_line in root.iter("{http://www.loc.gov/standards/alto/ns-v4#}TextLine"):
        # Get the ID from the ID attribute of the TextLine element
        output_id = text_line.get("ID")
        # Get the text content from the Unicode element within the TextLine element
        text = text_line.find("{http://www.loc.gov/standards/alto/ns-v4#}String").get("CONTENT").strip()
        # Add the data to the output list
        output_data.append({"id": output_id, "series": series_name, "text": text})
        alto_id += 1
        print(f"Added to output: {output_id}, {series_name}, {text}")

Added to output: eSc_line_dd7ab4a6, zum, بسم الله الرحمان الرحيم
Added to output: eSc_line_3e6325a7, zum, تنزيل الكتاب من الله العزيز الحكيم
Added to output: eSc_line_de603fc8, zum, 
Added to output: eSc_line_0edf6b7b, zum, إنا أنزلنا إليك الكتاب بالحق فاعبد الله مخلصا له الدين
Added to output: eSc_line_a5ea6cb6, zum, ألا لله الدين الخالص
Added to output: eSc_line_f2ecf63f, zum, الدين الخالص ۚ والذين اتخذوا
Added to output: eSc_line_d39926db, zum, من دونه أولياء ما نعبدهم
Added to output: eSc_line_4f66c77d, zum, ليقربونا إلى الله زلفى إن الله
Added to output: eSc_line_1d5e8403, zum, يحكم بينهم في ما هم فيه يختلفون
Added to output: eSc_line_d766525f, zum, إن الله لا يهدي من هو كاذب
Added to output: eSc_line_f0409d60, zum, أولو الألباب أفمن حق عليه
Added to output: eSc_line_94851ed3, zum, لمة العذاب أفأنت تنقذ م
Added to output: eSc_line_9bdf4374, zum, 
Added to output: eSc_line_a21d7271, zum, النار لكن الذين اتقوا
Added to output: eSc_line_122223c1, zum, ربهم لهم غرف من
Added to output:

### Looping through text file to create a line by line JSON output

In [6]:
# # Loop through the lines of the text file and add them to the output list
# for line in text_lines:
#     # Strip any trailing whitespace from the line
#     line = line.strip()
#     # Add the data to the output list, using an auto-incremented ID and the text file name as the series name
#     output_data.append({"id": str(text_id), "series": text_file_name, "text": line})
#     text_id += 1
#     print(f"Added to output: {text_id}, {text_file_name}, {line}")


### Adding Whole Text File as a Single Line to Output List

In [7]:
# Add the whole text file as a single line to the output list
output_data.append({"id": str(text_id), "series": text_file_name, "text": texte.strip()})
text_id += 1

print(f"Added to output: {text_id}, {text_file_name}, {texte}")

Added to output: 2, zumur, تنزيل الكتاب من الله العزيز الحكيم
إنا أنزلنا إليك الكتاب بالحق فاعبد الله مخلصا له الدين
ألا لله الدين الخالص ۚ والذين اتخذوا من دونه أولياء ما نعبدهم إلا ليقربونا إلى الله زلفى إن الله يحكم بينهم في ما هم فيه يختلفون ۗ إن الله لا يهدي من هو كاذب كفار
لو أراد الله أن يتخذ ولدا لاصطفى مما يخلق ما يشاء ۚ سبحانه ۖ هو الله الواحد القهار
خلق السماوات والأرض بالحق ۖ يكور الليل على النهار ويكور النهار على الليل ۖ وسخر الشمس والقمر ۖ كل يجري لأجل مسمى ۗ ألا هو العزيز الغفار
خلقكم من نفس واحدة ثم جعل منها زوجها وأنزل لكم من الأنعام ثمانية أزواج ۚ يخلقكم في بطون أمهاتكم خلقا من بعد خلق في ظلمات ثلاث ۚ ذلكم الله ربكم له الملك ۖ لا إله إلا هو ۖ فأنى تصرفون
إن تكفروا فإن الله غني عنكم ۖ ولا يرضى لعباده الكفر ۖ وإن تشكروا يرضه لكم ۗ ولا تزر وازرة وزر أخرى ۗ ثم إلى ربكم مرجعكم فينبئكم بما كنتم تعملون ۚ إنه عليم بذات الصدور
وإذا مس الإنسان ضر دعا ربه منيبا إليه ثم إذا خوله نعمة منه نسي ما كان يدعو إليه من قبل وجعل لله أندادا ليضل عن سبيله ۚ قل تمتع بكفرك قليلا ۖ إنك من أصحا

### Writing Data to JSONLines File in Compact Format without ASCII Encoding

In [8]:
# Open the output file in write mode
with open(output_file, "w", encoding="utf-8") as f:
    # Create a jsonlines writer object that writes to the output file
    writer = jsonlines.Writer(f)
    # Loop through each item in the output_data list
    for item in output_data:
        # Write the current item to the output file using the jsonlines writer
        writer.write(item)