In [47]:
import os
import base64
import requests
from time import sleep
from dotenv import load_dotenv


# Load variables from .env file
load_dotenv()
API_KEY = os.environ.get("MY_API_KEY")


def process_document(file_name):
    url = "https://app.docupipe.ai/document"
    
    payload = {"document": {"file": {
        "contents": base64.b64encode(open(file_name, 'rb').read()).decode(),
        "filename": file_name
    }}}
    headers = {
        "accept": "application/json",
        "content-type": "application/json",
        "X-API-Key": API_KEY
    }
    
    response = requests.post(url, json=payload, headers=headers)
    return response.json()['documentId']


def check_result(document_id):
    url = f"https://app.docupipe.ai/document/{document_id}"

    headers = {
        "accept": "application/json",
        "X-API-Key": API_KEY
    }

    response = requests.get(url, headers=headers)
    return response.json()


def extract_text_from_json(json_response):
    # Navigate to the result object which contains the actual document content
    if 'result' in json_response:
        json_data = json_response['result']
    else:
        json_data = json_response
    
    # Otherwise, we need to extract and combine text from each page
    combined_text = []
    
    if 'pages' in json_data:
        for i, page in enumerate(json_data['pages']):
            # If the page has a complete text field, use it
            if 'text' in page and page['text']:
                # Add page number header for multi-page documents
                if json_data.get('numPages', 1) > 1:
                    combined_text.append(f"Page {i+1}:\n===\n")
                combined_text.append(page['text'])
            # Otherwise combine text from sections
            elif 'sections' in page:
                page_text = []
                for section in page['sections']:
                    if 'text' in section and section['text']:
                        page_text.append(section['text'])
                
                if page_text:
                    # Add page number header for multi-page documents
                    if json_data.get('numPages', 1) > 1:
                        combined_text.append(f"Page {i+1}:\n===\n")
                    combined_text.append("\n\n".join(page_text))
    
    return "\n\n".join(combined_text) if combined_text else "No text found in the JSON response."


def do_ocr(file_name):
    document_id = process_document(file_name)
    print (document_id)
    sleep(5)
    result = check_result(document_id)
    
    while (result['status'] == 'processing'):
        print ("Processing...")
        sleep (5)
        result = check_result(document_id)
    
    full_text = extract_text_from_json(result)
    print(full_text)

In [48]:
do_ocr("Archives_OCR.pdf")

115227fa
Page 1:
===


30 39

JaD' wild west faly

13WENT Taip Te 9900 1/3/2,N /N /3 PoJN-N.3N 2 15 + 1969

5/25/6/12 /NO/3 Pp To pera pd >(?)

שם תיק: ארכיון אליעזר רפאל מלאכי -קובץ לזכר גליה ירדני

מזהה פיזי:

פ-2446/30 001nder

מזהה פריט:

כתובת

2-109-1-13-3

תאריד הדפסה 06/05/2021

Page 3:
===


ההסתדרות הכללית של העובדים בארץ ישראל

הוצאת ספרים של הקיבוץ המאוחד בע״מ

רח׳ פומבדיתא 17 - טלפון 220402 - ת. ד. 1,6040 תל־אביב

יום.

7 במאי 1969

לא״ר מלאכי שלום רב,

כמי שהוטל עליו להתקין קובץ לזכרה של גליה ירדני הנני פונה אליך בזה בבקשה להמציא לנו את תרומתך לקובץ הזה, שיכיל שלושה מדורים: א) דברים על גליה ועל עבודתה המדעית; ב) חיבורים, מקשש הקשורים במישרין עם נושא מחקרה על הישוב בא״י בכלל ועל ירושלים בפרט; ב) מאמרים שלה, בעניינים שונים, שראו אור בזמנם.

מדבריו של שמואל אגמון למדתי כי מוכנות אצלך הן רשימה על אישיותה של גליה והן עבודה מדעית מקיפה, הראויות לבוא שתיהן בקובץ הזה. אודה לך איפוא אם תואיל לשלוח לי את כתביהיד בהקדם.

Image With Text:
בברכה,
אנPA גר מן

Image

Page 5:
===


Image