In [1]:
import json

def list_key_hierarchy(json_file, indent=0, prefix=""):
    """
    Reads a JSON file and prints the hierarchy of keys.

    Args:
        json_file (str): Path to the JSON file.
        indent (int): Current indentation level (for nested structures).
        prefix (str): Prefix for the current level of keys (for hierarchy).
    """
    try:
        with open(json_file, 'r') as f:
            data = json.load(f)
            _explore_json(data, indent, prefix)
    except FileNotFoundError:
        print(f"Error: File not found at '{json_file}'")
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON format in '{json_file}'")

def _explore_json(data, indent, prefix):
    """
    Recursively explores the JSON data to list key hierarchy.

    Args:
        data (dict or list): The current level of JSON data.
        indent (int): Current indentation level.
        prefix (str): Prefix for the current level of keys.
    """
    if isinstance(data, dict):
        for key, value in data.items():
            current_prefix = f"{prefix}{key}"
            print("  " * indent + f"- {current_prefix}")
            _explore_json(value, indent + 1, current_prefix + ".")
    elif isinstance(data, list):
        for i, item in enumerate(data):
            _explore_json(item, indent + 1, f"{prefix}[{i}].")


file_path = '../output/json/results.json'  # Replace with the actual path to your JSON file
list_key_hierarchy(file_path)

- page_89_only
    - page_89_only.[0].text_lines
        - page_89_only.[0].text_lines.[0].polygon
        - page_89_only.[0].text_lines.[0].confidence
        - page_89_only.[0].text_lines.[0].text
        - page_89_only.[0].text_lines.[0].bbox
        - page_89_only.[0].text_lines.[1].polygon
        - page_89_only.[0].text_lines.[1].confidence
        - page_89_only.[0].text_lines.[1].text
        - page_89_only.[0].text_lines.[1].bbox
        - page_89_only.[0].text_lines.[2].polygon
        - page_89_only.[0].text_lines.[2].confidence
        - page_89_only.[0].text_lines.[2].text
        - page_89_only.[0].text_lines.[2].bbox
        - page_89_only.[0].text_lines.[3].polygon
        - page_89_only.[0].text_lines.[3].confidence
        - page_89_only.[0].text_lines.[3].text
        - page_89_only.[0].text_lines.[3].bbox
        - page_89_only.[0].text_lines.[4].polygon
        - page_89_only.[0].text_lines.[4].confidence
        - page_89_only.[0].text_lines.[4].text
        - pag

In [11]:
def extract_right_column_text_bbox(json_file, right_column_threshold=355.0):
    """
    Reads a JSON file and extracts text from the right column based on
    the x-coordinates of the bounding box (bbox). Assumes the bbox is
    in (x1, y1, x2, y2) format.

    Args:
        json_file (str): Path to the JSON file.
        right_column_threshold (float): Horizontal threshold for the right column.

    Returns:
        list: Extracted text from the right column.
    """
    right_column_text = []
    try:
        with open(json_file, 'r') as f:
            data = json.load(f)
            if isinstance(data, dict) and 'page_89_only' in data and isinstance(data['page_89_only'], list):
                for item in data['page_89_only']:
                    if isinstance(item, dict) and 'text_lines' in item and isinstance(item['text_lines'], list):
                        for line in item['text_lines']:
                            if isinstance(line, dict) and 'bbox' in line and isinstance(line['bbox'], list) and len(line['bbox']) == 4 and 'text' in line:
                                x1, y1, x2, y2 = line['bbox']
                                # You can choose to use x1, x2, or their average for the threshold
                                # Using the average might be more robust
                                # avg_x = (x1 + x2) / 2
                                if x2 > right_column_threshold:
                                    right_column_text.append(line['text'])
            else:
                print("Warning: 'page_89_only' key not found or has unexpected structure.")
    except FileNotFoundError:
        print(f"Error: File not found at '{json_file}'")
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON format in '{json_file}'")
    return right_column_text


file_path = '../output/json/results.json' 
right_column_content = extract_right_column_text_bbox(file_path, right_column_threshold=380.0)

if right_column_content:
    print("Extracted text from the right column:")
    for text in right_column_content:
        print(text)
else:
    print("No text extracted from the right column.")

Extracted text from the right column:
المُخَجَرَالِ شَتقاقٌ الْمَوْصَّل
Sabellaci
وأظهرتٌ. ومثلها ما في [النازعات: ٣٦٦]. ❀ وَتَرَى ٱلْأَرْضَ
بَارزَةٌ ۞ [الكهف::٤٧]. وما لا يتضح فيه قيدٌ «الجهد» في
ﺍﻻﺳﺘﻌﻬﺎﻻﺕ ﺍﻷﺧﻴﺮﺓ، ﻓﻬﻮ ﻣﻦ ﺇﺳﻘﺎﻁ ﺍﻟﻘﻴﺪ.
• (بَسْرَ نَحْ) •
َ بَدْنَمُمَا بَرْزَمٌ لَّا يَبَغِيَانِ ۞ [الرحمن: ٢٠٠]
قالــوا عــن الــبرزخ: «هــو مــا بــين كلَ شــيئين»،
أو «الحاجــز بــين الشــيئين»، كالــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
والأخـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
وفسروه في الآية بالحاجــز، ولا نوافقهم؛ لأن الحاجز     حـركة: داء؟ وهو بياض يقع في الجسد».
يمنع الاتصال.
وبالنظــر إلى مــا ســبق في (بــرز) مــن دلالتها على
خلــوص الــشىء من بين مــا يكتنفــه، ولســـاح الخاء 
صوتيًّـا بهذا الخلــوص. مع إضافة أن الحـــاء تعــّر عن
شيء من التخلخل يتحرَّ

In [13]:
file_path = '../output/json/results_HG.json' 

ext_text = []
with open(file_path, 'r') as f:
    data = json.load(f)
    if isinstance(data, dict) and 'hg' in data and isinstance(data['hg'], list):
        for item in data['hg']:
            if isinstance(item, dict) and 'text_lines' in item and isinstance(item['text_lines'], list):
                for line in item['text_lines']:
                    ext_text.append(line['text'])

for text in ext_text:
        print(text)

● (بأر ):
هُ وَبِنْرِ مُعَطَلَةٍ وَقَضْرِمَشِيليٍ ﴾ [الحج: 10 ]
«البئر: القليب. ويقال لإرةِ النار: بُؤرة. وبَأَرْتُ (منع): حفرت بؤرة يطبخ
فيها». (الإرَةٌ: حُفرة كانوا يوقدون النار فيها حتى لا تبعثرها الربح).
■ المعنى المحوري هو: حَفَر في ظاهر الأرض ممتد إلى جوفها: كالبنر
والبُؤرة ﴿ وَبْحِ مُعطَلَةٍ ﴾ [الحج: ٤٥]. ومنه «بأر الشيءَ وابتأره: خَبَأَه وادّخره »
(كأنيا في بئر). ومنه ما ذكر في (بور) #بار ما عند فلان: اختبره، وبار الفحل
الناقة: جعل يَتَشَمَّمُها لينظر ألاقح هى أم لا # فهها من النفاذ إلى العمق.
● (وير ):
﴿ وَمِنْ أَصْوَافِهَا وَأَوْتَارِهَا وَأَشْعَارِهَآ أَنْتَنَا وَمَتَنعًا إِلَىٰ حِينِ ﴾ [النحل: ٨٠]
«الوبر - محركة: صُوف الإبل والأرانب ونحوها. قالوا وكذلك وَبَر
السّمُّور والثعلب والفَنَكَ».
7 المعنى المحوري: تغطن ظاهر الشيء بأجرام دقيقة ناعمة كالشعر تنفذ
منه مسترسلة: كالوَبَر على الجلد ﴿وَمِنْ أَصْوَافِهَا وَأُوْبَارِهَا وَأَشْعَارِهَآ أَثْتُا ﴾
[النحل: ۶۰]. ومن ملحظ التغطية في المعنى المحوري: «وَبّروا آثارهم – ض:
عَقَوْها وَعَـَوٌها. ووَتِرِ فلان الأمرَ عَلَى فلان: عَـَاه».
T

In [15]:
ext_text

['● (بأر ):',
 'هُ وَبِنْرِ مُعَطَلَةٍ وَقَضْرِمَشِيليٍ ﴾ [الحج: 10 ]',
 '«البئر: القليب. ويقال لإرةِ النار: بُؤرة. وبَأَرْتُ (منع): حفرت بؤرة يطبخ',
 'فيها». (الإرَةٌ: حُفرة كانوا يوقدون النار فيها حتى لا تبعثرها الربح).',
 '■ المعنى المحوري هو: حَفَر في ظاهر الأرض ممتد إلى جوفها: كالبنر',
 'والبُؤرة ﴿ وَبْحِ مُعطَلَةٍ ﴾ [الحج: ٤٥]. ومنه «بأر الشيءَ وابتأره: خَبَأَه وادّخره »',
 '(كأنيا في بئر). ومنه ما ذكر في (بور) #بار ما عند فلان: اختبره، وبار الفحل',
 'الناقة: جعل يَتَشَمَّمُها لينظر ألاقح هى أم لا # فهها من النفاذ إلى العمق.',
 '● (وير ):',
 '﴿ وَمِنْ أَصْوَافِهَا وَأَوْتَارِهَا وَأَشْعَارِهَآ أَنْتَنَا وَمَتَنعًا إِلَىٰ حِينِ ﴾ [النحل: ٨٠]',
 '«الوبر - محركة: صُوف الإبل والأرانب ونحوها. قالوا وكذلك وَبَر',
 'السّمُّور والثعلب والفَنَكَ».',
 '7 المعنى المحوري: تغطن ظاهر الشيء بأجرام دقيقة ناعمة كالشعر تنفذ',
 'منه مسترسلة: كالوَبَر على الجلد ﴿وَمِنْ أَصْوَافِهَا وَأُوْبَارِهَا وَأَشْعَارِهَآ أَثْتُا ﴾',
 '[النحل: ۶۰]. ومن ملحظ التغطية في المعنى المحوري: «وَبّروا آثارهم – ض:',
 'ع

In [26]:
import re

text = "هُ وَبِنْرِ مُعَطَلَةٍ وَقَضْرِمَشِيليٍ ﴾ [الحج: 10 ]'"
pattern = r"\[(.*?:.*?)\]"
match = re.search(pattern, text)

if match:
    print(text)
    extracted_text = match.group(1)
    print(f"Extracted text: {extracted_text}")
else:
    print("Pattern not found.")

هُ وَبِنْرِ مُعَطَلَةٍ وَقَضْرِمَشِيليٍ ﴾ [الحج: 10 ]'
Extracted text: الحج: 10 


In [22]:
import re

text1 = "(بأر ):"
text2 = "● (بأر ):"

pattern = r"\((.*?)\)\s*:"

match1 = re.search(pattern, text1)
if match1:
    extracted_letters1 = match1.group(1)
    print(f"Text 1 - Extracted letters: {extracted_letters1}")
else:
    print("Text 1 - Pattern not found.")

match2 = re.search(pattern, text2)
if match2:
    extracted_letters2 = match2.group(1)
    print(f"Text 2 - Extracted letters: {extracted_letters2}")
else:
    print("Text 2 - Pattern not found.")

Text 1 - Extracted letters: بأر 
Text 2 - Extracted letters: بأر 


In [31]:
import re
import pandas as pd

def extract_text_to_dataframe(text_list):
    """
    Extracts specific patterns from a list of text strings and organizes them into a pandas DataFrame.
    Each text in the list is processed into a single row in the DataFrame.

    Args:
        text_list (list): A list of text strings to be processed.

    Returns:
        pandas.DataFrame: A DataFrame with four columns:
            - col1: Single word within parentheses followed by a colon.
            - col2: Text within square brackets followed by a colon.
            - col3: Text starting from "المعنى المحوري"
            - col4: Text between col2 and col3.
            Each text string in the input list becomes a single row.
            Returns an empty DataFrame if the input list is empty.
    """

    data = []
    col1_pattern = r"\((.*?)\)\s*:"#r"\(([^)]+)\) :"
    col2_pattern = r"\[(.*?:.*?)\]"#r"\[([^\]]+)\] :"
    col3_start = "المعنى المحوري"

    for text in text_list:
        col1_match = re.search(col1_pattern, text)
        col2_match = re.search(col2_pattern, text)

        col1_text = col1_match.group(1).strip() if col1_match else ""
        col2_text = col2_match.group(1).strip() if col2_match else ""
        col3_text = ""
        col4_text = ""

        col3_start_index = text.find(col3_start)
        if col3_start_index != -1:
            col3_text = text#[col3_start_index + len(col3_start):].strip()

        # Extract col4: Text between col2 and col3.
        if col2_text and col3_text:
            col2_end_index = text.find("]", text.find(col2_text))
            col4_start_index = col2_end_index + 1
            col4_end_index = col3_start_index if col3_start_index != -1 else len(text)
            col4_text = text[col4_start_index:col4_end_index].strip()

        data.append([col1_text, col2_text, col3_text, col4_text])

    df = pd.DataFrame(data, columns=['col1', 'col2', 'col3', 'col4'])
    return df


df = extract_text_to_dataframe(ext_text)
df

Unnamed: 0,col1,col2,col3,col4
0,بأر,,,
1,,الحج: 10,,
2,منع,,,
3,,,,
4,,,■ المعنى المحوري هو: حَفَر في ظاهر الأرض ممتد ...,
5,,الحج: ٤٥,,
6,,,,
7,,,,
8,وير,,,
9,,النحل: ٨٠,,
