In [None]:
import fitz  # PyMuPDF
from PIL import Image
import pytesseract

# Tesseract OCR 경로 설정 (필요 시)
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def pdf_to_images(pdf_path, output_folder):
    """
    PDF 파일을 이미지로 변환 및 저장
    """
    doc = fitz.open(pdf_path)
    image_paths = []

    for page_num in range(len(doc)):
        # 각 페이지를 이미지로 변환
        pix = doc[page_num].get_pixmap()
        image_path = f"{output_folder}/page_{page_num + 1}.png"
        pix.save(image_path)
        image_paths.append(image_path)

    return image_paths

def crop_image(image_path, coordinates, cropped_path):
    """
    이미지에서 특정 영역을 잘라내기
    coordinates: (x1, y1, x2, y2)
    """
    with Image.open(image_path) as img:
        cropped_img = img.crop(coordinates)
        cropped_img.save(cropped_path)
        return cropped_path

def perform_ocr(image_path):
    """
    OCR 수행
    """
    with Image.open(image_path) as img:
        text = pytesseract.image_to_string(img, lang="eng")  # 한국어는 "kor"로 변경
    return text

# PDF 슬라이싱 및 OCR 수행
pdf_path = "example.pdf"
output_folder = "./output"

# 1. PDF를 이미지로 변환
images = pdf_to_images(pdf_path, output_folder)

# 2. 특정 영역 잘라내기 (슬라이싱)
# 좌표는 PDF의 특정 영역에 따라 지정 (예: x1, y1, x2, y2)
coordinates = (50, 50, 400, 400)  # 예시 좌표
cropped_image_path = crop_image(images[0], coordinates, "./output/cropped_page_1.png")

# 3. OCR 수행
extracted_text = perform_ocr(cropped_image_path)
print("추출된 텍스트:", extracted_text)
