# Pytesseract

In [None]:
import io
import os
import fitz
import pytesseract
from PIL import Image

def ocr_pdf_to_text(pdf_path, output_txt_path, lang="kor+eng", dpi=400) :
    if not os.path.exists(pdf_path) :
        print(f"{pdf_path} 경로 없음")
        return
    
    extracted_text = []

    try :
        pdf_document = fitz.open(pdf_path)

        for page_num in range(len(pdf_document)) :
            page = pdf_document.load_page(page_num)

            pix = page.get_pixmap(matrix=fitz.Matrix(dpi/72, dpi/72))

            image_byte_arr = io.BytesIO(pix.tobytes("png"))
            img = Image.open(image_byte_arr)

            text = pytesseract.image_to_string(img, lang=lang, config="--psm 3 --oem 3")
            extracted_text.append(f"--- Page {page_num + 1} --- \n")
            extracted_text.append(text)
            extracted_text.append("\n\n")
            print(f"페이지 {page_num + 1} OCR 완료")

    except Exception as e :
        print(f"PDF 처리 중 오류 : {e}")
        return
    
    finally :
        if "pdf_document" in locals() and pdf_document :
            pdf_document.close()

    try :
        with open(output_txt_path, 'w', encoding="utf-8") as f :
            f.writelines(extracted_text)
        print(f"텍스트 추출 완료 : {output_txt_path}")
    except IOError as e :
        print(f"파일 저장 중 오류 : {e}")

if __name__ == "__main__" :
    input_pdf_file = "./data/KEPIC/KEPIC_FULL.pdf"
    for i in [500, 600] :
        output_text_file = f"./data/KEPIC/kepic_tesseract_{i}.txt"
        ocr_pdf_to_text(input_pdf_file, output_text_file, lang="kor+eng", dpi=i)

    if os.path.exists(output_text_file) :
        with open(output_text_file, 'r', encoding="utf-8") as f :
            print(f.read())

페이지 1 OCR 완료
페이지 2 OCR 완료
페이지 3 OCR 완료
페이지 4 OCR 완료
페이지 5 OCR 완료
페이지 6 OCR 완료
페이지 7 OCR 완료
페이지 8 OCR 완료
페이지 9 OCR 완료
페이지 10 OCR 완료
페이지 11 OCR 완료
페이지 12 OCR 완료
페이지 13 OCR 완료
페이지 14 OCR 완료
페이지 15 OCR 완료
페이지 16 OCR 완료
페이지 17 OCR 완료
페이지 18 OCR 완료
페이지 19 OCR 완료
페이지 20 OCR 완료
페이지 21 OCR 완료
페이지 22 OCR 완료
페이지 23 OCR 완료
페이지 24 OCR 완료
페이지 25 OCR 완료
페이지 26 OCR 완료
페이지 27 OCR 완료
페이지 28 OCR 완료
페이지 29 OCR 완료
페이지 30 OCR 완료
페이지 31 OCR 완료
페이지 32 OCR 완료
페이지 33 OCR 완료
페이지 34 OCR 완료
페이지 35 OCR 완료
페이지 36 OCR 완료
페이지 37 OCR 완료
페이지 38 OCR 완료
페이지 39 OCR 완료
페이지 40 OCR 완료
페이지 41 OCR 완료
페이지 42 OCR 완료
페이지 43 OCR 완료
페이지 44 OCR 완료
페이지 45 OCR 완료
페이지 46 OCR 완료
페이지 47 OCR 완료
페이지 48 OCR 완료
페이지 49 OCR 완료
페이지 50 OCR 완료
페이지 51 OCR 완료
페이지 52 OCR 완료
페이지 53 OCR 완료
페이지 54 OCR 완료
페이지 55 OCR 완료
페이지 56 OCR 완료
페이지 57 OCR 완료
페이지 58 OCR 완료
페이지 59 OCR 완료
페이지 60 OCR 완료
페이지 61 OCR 완료
페이지 62 OCR 완료
페이지 63 OCR 완료
페이지 64 OCR 완료
페이지 65 OCR 완료
페이지 66 OCR 완료
페이지 67 OCR 완료
페이지 68 OCR 완료
페이지 69 OCR 완료
페이지 70 OCR 완료
페이지 71 OCR 완료
페이지 72 OCR 완료
페

# PaddleOCR

In [None]:
import io
import os
import fitz 
from PIL import Image
from paddleocr import PaddleOCR 

def ocr_pdf_to_text_paddle(pdf_path, output_txt_path, lang="en", dpi=400):
    if not os.path.exists(pdf_path):
        print(f"{pdf_path} 경로 없음")
        return

    extracted_text = []

    ocr_model = PaddleOCR(use_angle_cls=True, lang=lang) 

    try:
        pdf_document = fitz.open(pdf_path)

        for page_num in range(len(pdf_document)):
            page = pdf_document.load_page(page_num)

            pix = page.get_pixmap(matrix=fitz.Matrix(dpi/72, dpi/72))
            
            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)

            result = ocr_model.ocr(img, cls=True)
            
            page_text = []
            if result and result[0]: 
                for line in result[0]:
                    if line:
                        page_text.append(line[1][0]) 

            extracted_text.append(f"--- Page {page_num + 1} --- \n")
            extracted_text.append("\n".join(page_text)) 
            extracted_text.append("\n\n")
            print(f"페이지 {page_num + 1} OCR 완료 (PaddleOCR)")

    except Exception as e:
        print(f"PDF 처리 중 오류 (PaddleOCR): {e}")
        return
    
    finally:
        if "pdf_document" in locals() and pdf_document:
            pdf_document.close()

    try:
        with open(output_txt_path, 'w', encoding="utf-8") as f:
            f.writelines(extracted_text)
        print(f"텍스트 추출 완료 (PaddleOCR): {output_txt_path}")
    except IOError as e:
        print(f"파일 저장 중 오류 (PaddleOCR): {e}")

if __name__ == "__main__":
    input_pdf_file = "./data/KEPIC/KEPIC_FULL.pdf"
    for i in [500, 600] :
        output_text_file_paddle = f"./data/KEPIC/kepic_paddleocr_{i}.txt"
        ocr_pdf_to_text_paddle(input_pdf_file, output_text_file_paddle, lang="korean", dpi=i)
    
    if os.path.exists(output_text_file_paddle):
        with open(output_text_file_paddle, 'r', encoding="utf-8") as f:
            print(f.read())

Connecting to https://paddle-model-ecology.bj.bcebos.com/paddlex/PaddleX3.0/fonts/PingFang-SC-Regular.ttf ...
Downloading PingFang-SC-Regular.ttf ...
Connecting to https://paddle-model-ecology.bj.bcebos.com/paddlex/PaddleX3.0/fonts/simfang.ttf ...
Downloading simfang.ttf ...


  ocr_model = PaddleOCR(use_angle_cls=True, lang=lang, show_log=False)


ValueError: Unknown argument: show_log

# TrOCR

In [None]:
import io
import os
import fitz 
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel 
import torch 

def ocr_pdf_to_text_trocr(pdf_path, output_txt_path, dpi=400):
    if not os.path.exists(pdf_path):
        print(f"{pdf_path} 경로 없음")
        return

    extracted_text = []

    model_name = "nlpconnect/vit-base-patch16-224-multilingual-gec" 
    processor = TrOCRProcessor.from_pretrained(model_name)
    model = VisionEncoderDecoderModel.from_pretrained(model_name)

    device = "cuda" if torch.cuda.is_available() else "cpu"
    model.to(device)
    print(f"TrOCR using device: {device} (Model: {model_name})")

    try:
        pdf_document = fitz.open(pdf_path)

        for page_num in range(len(pdf_document)):
            page = pdf_document.load_page(page_num)

            pix = page.get_pixmap(matrix=fitz.Matrix(dpi/72, dpi/72))
            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)

            pixel_values = processor(images=img, return_tensors="pt").pixel_values
            pixel_values = pixel_values.to(device)

            generated_ids = model.generate(pixel_values)
            generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

            extracted_text.append(f"--- Page {page_num + 1} --- \n")
            extracted_text.append(generated_text)
            extracted_text.append("\n\n")
            print(f"페이지 {page_num + 1} OCR 완료 (TrOCR)")

    except Exception as e:
        print(f"PDF 처리 중 오류 (TrOCR): {e}")
        return
    
    finally:
        if "pdf_document" in locals() and pdf_document:
            pdf_document.close()

    try:
        with open(output_txt_path, 'w', encoding="utf-8") as f:
            f.writelines(extracted_text)
        print(f"텍스트 추출 완료 (TrOCR): {output_txt_path}")
    except IOError as e:
        print(f"파일 저장 중 오류 (TrOCR): {e}")

if __name__ == "__main__":
    input_pdf_file = "./data/KEPIC/KEPIC_FULL.pdf" 
    for i in [500, 600] :
        output_text_file_trocr = f"./data/KEPIC/kepic_trocr_{i}.txt"
        ocr_pdf_to_text_trocr(input_pdf_file, output_text_file_trocr, dpi=i)
    
    if os.path.exists(output_text_file_trocr):
        with open(output_text_file_trocr, 'r', encoding="utf-8") as f:
            print("\n--- TrOCR Extracted Text Sample ---")
            print(f.read()[:2000]) 

페이지 1 OCR 완료
페이지 2 OCR 완료
페이지 3 OCR 완료
페이지 4 OCR 완료
페이지 5 OCR 완료
페이지 6 OCR 완료
페이지 7 OCR 완료
페이지 8 OCR 완료
페이지 9 OCR 완료
페이지 10 OCR 완료
페이지 11 OCR 완료
페이지 12 OCR 완료
페이지 13 OCR 완료
페이지 14 OCR 완료
페이지 15 OCR 완료
페이지 16 OCR 완료
페이지 17 OCR 완료
페이지 18 OCR 완료
페이지 19 OCR 완료
페이지 20 OCR 완료
페이지 21 OCR 완료
페이지 22 OCR 완료
페이지 23 OCR 완료
페이지 24 OCR 완료
페이지 25 OCR 완료
페이지 26 OCR 완료
페이지 27 OCR 완료
페이지 28 OCR 완료
페이지 29 OCR 완료
페이지 30 OCR 완료
페이지 31 OCR 완료
페이지 32 OCR 완료
페이지 33 OCR 완료
페이지 34 OCR 완료
페이지 35 OCR 완료
페이지 36 OCR 완료
페이지 37 OCR 완료
페이지 38 OCR 완료
페이지 39 OCR 완료
페이지 40 OCR 완료
페이지 41 OCR 완료
페이지 42 OCR 완료
페이지 43 OCR 완료
페이지 44 OCR 완료
페이지 45 OCR 완료
페이지 46 OCR 완료
페이지 47 OCR 완료
페이지 48 OCR 완료
페이지 49 OCR 완료
페이지 50 OCR 완료
페이지 51 OCR 완료
페이지 52 OCR 완료
페이지 53 OCR 완료
페이지 54 OCR 완료
페이지 55 OCR 완료
페이지 56 OCR 완료
페이지 57 OCR 완료
페이지 58 OCR 완료
페이지 59 OCR 완료
페이지 60 OCR 완료
페이지 61 OCR 완료
페이지 62 OCR 완료
페이지 63 OCR 완료
페이지 64 OCR 완료
페이지 65 OCR 완료
페이지 66 OCR 완료
페이지 67 OCR 완료
페이지 68 OCR 완료
페이지 69 OCR 완료
페이지 70 OCR 완료
페이지 71 OCR 완료
페이지 72 OCR 완료
페

: 