In [3]:
import subprocess

def ocr_pdf(input_pdf, output_pdf, language="ara"):
    """
    This function runs ocrmypdf to perform OCR on a PDF with the specified language.
    
    Args:
    input_pdf (str): Path to the input PDF.
    output_pdf (str): Path to the output PDF with OCR.
    language (str): Language code for OCR. Default is 'ara' for Arabic.
    
    Returns:
    bool: True if OCR is successful, False otherwise.
    """
    try:
        # Construct the ocrmypdf command
        command = [
            "ocrmypdf",
            "--language", language,   # Specify the OCR language
            input_pdf,                # Input PDF file
            output_pdf                # Output PDF file
        ]
        
        # Run the command
        result = subprocess.run(command, check=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
        
        # Check if the command was successful
        if result.returncode == 0:
            print(f"OCR completed successfully for {input_pdf}. Output saved to {output_pdf}.")
            return True
        else:
            print(f"OCR failed for {input_pdf}.")
            print(result.stderr.decode('utf-8'))
            return False
    
    except subprocess.CalledProcessError as e:
        print(f"An error occurred: {e.stderr.decode('utf-8')}")
        return False

# Example usage
input_pdf = "short_story.pdf"   # Replace with your input PDF path
output_pdf =input_pdf+".pdf"    # Replace with your output PDF path

# Run OCR with Arabic language
ocr_pdf(input_pdf, output_pdf, language="ara")


OCR completed successfully for short_story.pdf. Output saved to short_story.pdf.pdf.


True

In [5]:
import pdfplumber
from docx import Document

def pdf_to_docx(pdf_path, docx_path):
    """
    Converts a PDF file to a Word document (.docx).
    
    Args:
    pdf_path (str): Path to the input PDF file.
    docx_path (str): Path to save the output Word document.
    """
import pdfplumber
from docx import Document

def pdf_to_docx_with_layout(pdf_path, docx_path):
    """
    Converts a PDF file to a Word document (.docx) with improved text layout handling.
    
    Args:
    pdf_path (str): Path to the input PDF file.
    docx_path (str): Path to save the output Word document.
    """
    # Create a new Word document
    doc = Document()
    
    # Open the PDF
    with pdfplumber.open(pdf_path) as pdf:
        # Loop through all the pages
        for page_num, page in enumerate(pdf.pages):
            # Extract text with layout preservation
            text = page.extract_text(layout=True)
            if text:
                # Add the text to the Word document with formatting
                doc.add_paragraph(text)
            else:
                doc.add_paragraph(f"[Page {page_num + 1} has no extractable text]")
    
    # Save the Word document
    doc.save(docx_path)
    print(f"PDF converted to DOCX and saved as: {docx_path}")

# Example usage
pdf_path = output_pdf   # Replace with the path to your PDF
docx_path = "output.docx" # Replace with the path to save the DOCX

pdf_to_docx_with_layout(pdf_path, docx_path)






PDF converted to DOCX and saved as: output.docx


ا حم ال
: : , > الكو لمم من_اداتدك لد #ليى انخددال يا
| اليل ام الى رةه اسان ف رمخ + 0 ٍِ : 5
ّ! ل 1
: 2 ء. ينا : - ب" > ده تابه
ل ما ٍ 0 0 0 : بس جو *, ًِ ِ
: ساك شاي علد تحن انها ميت ادك ب :
: ب و اليب اذ لك لاح الس سس |
للها ال اند لان لتتحبب عي أ ا 8 إٍ
:
|4 |
ا
: إً
1 ل ,
1 |
ٍ : ل برا !
ل ِ ص : ب اع ماد ).
1 ديرا لاء لأها ماك اللخ رخ ا
8 اس أت ود خلك بلصت زر عاد جب رك 7 : |
1 ون ب وليب .
‎١ 0 1‏ اا ل ا ب اح ل لحب 1
1 لاج د” (حضية لسع و با حم اح ل ى ض
1 نا لج تبسح !ات ب ل
1 ثرا رأ مين لكل الاك لخر ميا الات :
1 ٍ مرا ع |
1 0 0 ل« ري > يلحال 1
: ل لحان 7. : : ب
. قات 8 ل “واس . دارزل 1 ات ب : نخدم ٍ
1 نم لحك اا ل فر (... ا رابيث 2 1 ‎١‏
‏لا داشا رس إلهى لمع مر ب ‎٠#”‏ - ِ!
ع ٍ - |
ٍ ل ‎١‏ ايل ا ونساهيا ما لالد مها إٍِ
ٍ بي أن (سا_بحاك :تقل ) برح تي ان
ل 8 ل لحي 8 + +
0 ٍِ ع2 لا اع يد ٍ : : : |
: ب : ذا ا لاي 4 انث ؟ ورحك يسن : قا منج
1 شري لماعي تخلالهة ل*# نر ا ب ا
. 0 1 ا ا لا ا ًّ -
,عد حيث نحتما زول قربا عد النجره جر ء تن حي ا
‎١ . 1‏ ليم
الا اند اا الاين ل
اال ل الي

