In [1]:
%pip install pypdf

Collecting pypdf
  Downloading pypdf-5.4.0-py3-none-any.whl.metadata (7.3 kB)
Downloading pypdf-5.4.0-py3-none-any.whl (302 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.4.0
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from pypdf import PdfReader, PdfWriter
import os
import math

def split_pdf_into_chunks(input_pdf_path, output_dir, chunk_size=10):
    """
    PDF 파일을 지정된 페이지 수(chunk_size) 단위로 분할합니다.

    Args:
        input_pdf_path (str): 원본 PDF 파일 경로
        output_dir (str): 분할된 PDF 파일들을 저장할 디렉토리 경로
        chunk_size (int): 각 파일에 포함될 최대 페이지 수 (기본값: 10)
    """
    try:
        reader = PdfReader(input_pdf_path)
        total_pages = len(reader.pages)
        print(f"Total pages in PDF: {total_pages}")

        # 출력 디렉토리 생성 (없으면)
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
            print(f"Created output directory: {output_dir}")

        # 파일 이름 설정을 위한 원본 파일명 (확장자 제외)
        base_filename = os.path.splitext(os.path.basename(input_pdf_path))[0]

        # 페이지 단위로 분할 작업 수행
        num_chunks = math.ceil(total_pages / chunk_size)
        print(f"Splitting into {num_chunks} chunks of max {chunk_size} pages...")

        for i in range(num_chunks):
            start_page = i * chunk_size
            # 마지막 페이지 인덱스는 (end_page - 1) 이므로, 실제 end_page는 min 값보다 1 커야 함
            end_page = min(start_page + chunk_size, total_pages)

            writer = PdfWriter()

            # 현재 청크에 해당하는 페이지 추가
            for page_num in range(start_page, end_page):
                writer.add_page(reader.pages[page_num])

            # 출력 파일 이름 생성 (예: original_p1-10.pdf, original_p11-20.pdf)
            output_filename = f"{base_filename}_p{start_page + 1}-{end_page}.pdf"
            output_filepath = os.path.join(output_dir, output_filename)

            # 분할된 PDF 파일 저장
            with open(output_filepath, "wb") as output_pdf:
                writer.write(output_pdf)

            print(f"  Saved chunk {i+1}: {output_filename} (Pages {start_page + 1} to {end_page})")

        print("PDF splitting completed successfully.")

    except FileNotFoundError:
        print(f"Error: Input PDF file not found at {input_pdf_path}")
    except Exception as e:
        print(f"An error occurred during PDF splitting: {e}")

input_pdf = "셀트리온 공시자료\\[셀트리온]분기보고서(2024.11.14).pdf"  # <<<< 원본 PDF 파일 경로 입력
output_directory = "셀트리온 공시자료"       # <<<< 분할된 파일 저장할 폴더 이름
pages_per_chunk = 10                  # <<<< 페이지 단위

split_pdf_into_chunks(input_pdf, output_directory, pages_per_chunk)

Total pages in PDF: 240
Splitting into 24 chunks of max 10 pages...
  Saved chunk 1: [셀트리온]분기보고서(2024.11.14)_p1-10.pdf (Pages 1 to 10)
  Saved chunk 2: [셀트리온]분기보고서(2024.11.14)_p11-20.pdf (Pages 11 to 20)
  Saved chunk 3: [셀트리온]분기보고서(2024.11.14)_p21-30.pdf (Pages 21 to 30)
  Saved chunk 4: [셀트리온]분기보고서(2024.11.14)_p31-40.pdf (Pages 31 to 40)
  Saved chunk 5: [셀트리온]분기보고서(2024.11.14)_p41-50.pdf (Pages 41 to 50)
  Saved chunk 6: [셀트리온]분기보고서(2024.11.14)_p51-60.pdf (Pages 51 to 60)
  Saved chunk 7: [셀트리온]분기보고서(2024.11.14)_p61-70.pdf (Pages 61 to 70)
  Saved chunk 8: [셀트리온]분기보고서(2024.11.14)_p71-80.pdf (Pages 71 to 80)
  Saved chunk 9: [셀트리온]분기보고서(2024.11.14)_p81-90.pdf (Pages 81 to 90)
  Saved chunk 10: [셀트리온]분기보고서(2024.11.14)_p91-100.pdf (Pages 91 to 100)
  Saved chunk 11: [셀트리온]분기보고서(2024.11.14)_p101-110.pdf (Pages 101 to 110)
  Saved chunk 12: [셀트리온]분기보고서(2024.11.14)_p111-120.pdf (Pages 111 to 120)
  Saved chunk 13: [셀트리온]분기보고서(2024.11.14)_p121-130.pdf (Pages 121 to 130)
  Saved chunk 14: [

In [4]:
input_pdf = "셀트리온 공시자료\\[셀트리온]주식등의대량보유상황보고서(일반)(2024.09.09).pdf"  # <<<< 원본 PDF 파일 경로 입력
output_directory = "셀트리온 공시자료"       # <<<< 분할된 파일 저장할 폴더 이름
pages_per_chunk = 10                  # <<<< 페이지 단위

split_pdf_into_chunks(input_pdf, output_directory, pages_per_chunk)

Total pages in PDF: 23
Splitting into 3 chunks of max 10 pages...
  Saved chunk 1: [셀트리온]주식등의대량보유상황보고서(일반)(2024.09.09)_p1-10.pdf (Pages 1 to 10)
  Saved chunk 2: [셀트리온]주식등의대량보유상황보고서(일반)(2024.09.09)_p11-20.pdf (Pages 11 to 20)
  Saved chunk 3: [셀트리온]주식등의대량보유상황보고서(일반)(2024.09.09)_p21-23.pdf (Pages 21 to 23)
PDF splitting completed successfully.
