# PDF Power Hacks: Everything You Didn’t Know You Could Do with Python and Your PDF Files  
### 🛡️ DIY in AI: Protect your data. Don’t upload it anywhere.

# 🐍 Python | Split a PDF by Chapters using PyPDF2 📄✂️  

## ❓Got a huge PDF like a thesis or technical manual and want to split it into manageable parts? 🙃  
With Python and PyPDF2, you can do it quickly and easily without uploading anything to the cloud.  

## 👉 Solution  
📂 Split a PDF into multiple files by specific page intervals.  
📚 Perfect for organizing long documents and sharing only what you need.  

## 🔧 How does it work?  
🐍 PyPDF2 is a Python library for PDF manipulation.  
📄 Load the document, select page ranges, and save each part as a separate PDF file.  

## 🔎 Why does it matter?  
🚀 Boosts productivity when working with large documents.  
🛡️ Keeps your data safe without relying on external services.  
🤖 Useful for data scientists, engineers, and analysts working with extensive reports.  

## ✨ Real-world example:  
📖 Imagine a 30-page thesis divided into 3 chapters:  
🔹 Chapter 1: pages 1-10  
🔹 Chapter 2: pages 11-20  
🔹 Chapter 3: pages 21-30  
With Python, you can extract and save each chapter automatically as separate PDFs.  

## ⚙️ Business impact:  
💡 Optimizes document management  
💡 Makes collaboration easier by sharing only needed sections  
💡 Automates manual workflows to save time  

## 📊 Code summary  
📝 Creates a sample PDF with 30 numbered pages  
📂 Defines page ranges for chapters  
🔗 Uses PyPDF2 to split the PDF and save each chapter separately  

## 🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Thought:  
How would you organize your long documents to make your workflow more efficient? What other PDF files would you automate with Python?

🔑 #Python #DataScience #PyPDF2 #MachineLearning #PDFprocessing #Automation #AI #TechForGood #CareerGrowth #TechCareers #DataPrivacy  

🔁 If you found this post useful, feel free to share it with your network.  
⚠️ Please do not copy or repost it as your own. Respect original work.

---

# PDF Power Hacks: Todo lo que no sabías que podías hacer con Python y tus archivos PDF  
### 🛡️ DIY en IA: Cuida tus datos. No los subas a ningún sitio.

# 🐍 Python | Separar un PDF por capítulos usando PyPDF2 📄✂️  

## ❓¿Tienes un PDF enorme, como una tesis o manual técnico, y quieres dividirlo en partes manejables? 🙃  
Con Python y PyPDF2 puedes hacerlo rápido y sin complicaciones, sin subir nada a la nube.  

## 👉 Solución  
📂 Divide un PDF en varios archivos por intervalos de páginas específicos.  
📚 Ideal para organizar documentos largos y compartir solo lo que necesitas.  

## 🔧 ¿Cómo funciona?  
🐍 PyPDF2 es una librería de Python para manipular PDFs.  
📄 Carga el documento, selecciona rangos de páginas y guarda cada parte como un PDF independiente.  

## 🔎 ¿Por qué importa?  
🚀 Aumenta tu productividad al manejar grandes documentos.  
🛡️ Mantén tus datos seguros sin depender de servicios externos.  
🤖 Útil para científicos de datos, ingenieros y analistas que trabajan con reportes extensos.  

## ✨ Ejemplo real o Caso práctico:  
📖 Imagina una tesis con 30 páginas dividida en 3 capítulos:  
🔹 Capítulo 1: páginas 1-10  
🔹 Capítulo 2: páginas 11-20  
🔹 Capítulo 3: páginas 21-30  
Con Python, puedes extraer y guardar cada capítulo en un archivo PDF separado automáticamente.  

## ⚙️ Impacto en el negocio:  
💡 Optimiza la gestión documental  
💡 Facilita la colaboración al compartir solo la sección necesaria  
💡 Automatiza procesos manuales para ahorrar tiempo  

## 📊 Resumen de qué se hace en el código  
📝 Crea un PDF de muestra con 30 páginas numeradas  
📂 Define rangos de páginas para capítulos  
🔗 Usa PyPDF2 para dividir el PDF y guardar cada capítulo por separado  

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Reflexión:  
¿Cómo organizarías tus documentos largos para que tu flujo de trabajo sea más eficiente? ¿Qué otros archivos PDF te gustaría automatizar con Python?

🔑 #Python #DataScience #PyPDF2 #MachineLearning #PDFprocessing #Automatización #CienciaDeDatos #IA #TechForGood #DesarrolloProfesional #CarreraTech #PrivacidadDeDatos  

🔁 Si te ha parecido útil, siéntete libre de compartir esta publicación con tu red.  
⚠️ Por favor, no la copies ni la publiques como propia. Respeta el trabajo original.

![image.png](attachment:df3d8d09-2eef-43c7-b330-05a26ad2509e.png)

In [1]:
import os
from PyPDF2 import PdfReader, PdfWriter

# Function to split a PDF into parts based on page ranges
def split_pdf_by_chapters(input_pdf_path, output_prefix, output_folder, chapters):
    """
    Split PDF file into multiple PDFs by specified page ranges.

    Parameters:
    input_pdf_path (str): Path to the original PDF file.
    output_prefix (str): Prefix for output PDF filenames.
    output_folder (str): Folder where output PDFs will be saved.
    chapters (list of tuples): List of (start_page, end_page) tuples, pages are 1-indexed.
    """
    # Create output folder if it does not exist
    os.makedirs(output_folder, exist_ok=True)
    
    # Open the PDF to read
    reader = PdfReader(input_pdf_path)
    
    # Loop through each chapter page range
    for i, (start_page, end_page) in enumerate(chapters, start=1):
        writer = PdfWriter()  # Create a new PDF writer for each chapter
        
        # Add pages to writer for the current chapter
        for page_num in range(start_page - 1, end_page):  # Zero-based index for pages
            writer.add_page(reader.pages[page_num])
        
        # Define output filename with prefix and folder
        output_filename = os.path.join(output_folder, f"{output_prefix}_Chapter_{i}.pdf")
        
        # Write the chapter PDF to a file
        with open(output_filename, "wb") as output_pdf:
            writer.write(output_pdf)
        print(f"Saved chapter {i} as {output_filename}")

# Create a sample PDF file with numbered pages using reportlab
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

def create_sample_pdf(filename, total_pages=30):
    """
    Generate a PDF file with specified number of pages.
    Each page shows its page number centered.
    """
    c = canvas.Canvas(filename, pagesize=letter)
    width, height = letter
    
    for page in range(1, total_pages + 1):
        c.setFont("Helvetica-Bold", 40)
        c.drawCentredString(width / 2, height / 2, f"Page {page}")
        c.showPage()  # Create a new page
    c.save()

# Generate sample PDF with 30 pages
sample_pdf_path = "20250617_document.pdf"
create_sample_pdf(sample_pdf_path, total_pages=30)


# Define chapter page intervals as (start_page, end_page)
chapter_ranges = [(1, 10), (11, 20), (21, 30)]

# Set prefix and output folder as requested
prefix = "20250617"
output_folder = "20250617_pdf_files"

# Split the sample PDF into chapters
split_pdf_by_chapters(sample_pdf_path, prefix, output_folder, chapter_ranges)


Saved chapter 1 as 20250617_pdf_files\20250617_Chapter_1.pdf
Saved chapter 2 as 20250617_pdf_files\20250617_Chapter_2.pdf
Saved chapter 3 as 20250617_pdf_files\20250617_Chapter_3.pdf
