# PDF Power Hacks: Everything You Didn’t Know You Could Do with Python and Your PDF Files  
### 🛡️ DIY in AI: Protect your data. Don’t upload it anywhere.

# 🐍 Python | Delete Unwanted Pages with PdfWriter 📄🗑️  

## ❓Ever had a PDF with pages that should never be sent? 🙃  
With Python, you can clean your file locally, keeping only what’s needed — no cloud upload required.  

## 👉 Solution  
🧹 Remove specific pages from a PDF in your notebook.  
💡 Useful for protecting sensitive info or reducing file size.  

## 🔧 How does it work?  
📄 We generate a sample PDF using `reportlab`.  
✂️ Identify which pages to delete by index.  
📥 Use `PyPDF2` to create a clean version of the PDF.  

## 🔎 Why does it matter?  
🛡️ Avoid leaking confidential or unnecessary data.  
📉 Reduce document weight for sharing.  
🚀 Enhance your data workflow without third-party tools.  

## ✨ Real-world example:  
📑 Imagine you prepared a report, but pages 2 and 4 contain internal notes.  
🔒 Before sending it out, you clean it with Python — safely and automatically.  

## ⚙️ Business impact:  
💼 Protects data privacy  
📬 Shares only what matters  
⏱️ Saves time in repetitive tasks  

## 📊 Code summary  
📝 Creates a 5-page numbered PDF  
🗑️ Removes pages 2 and 4 (indexes 1 and 3)  
📄 Saves a clean PDF without uploading it anywhere  

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Thought:  
How do you clean your PDFs before sharing? What would you automate to streamline document workflows?

🔑 #Python #DataScience #PyPDF2 #Automation #PDFprocessing #AI #DataPrivacy #TechCareers #CareerGrowth #TechForGood  

🔁 If you found this post useful, feel free to share it with your network.  
⚠️ Please do not copy or repost it as your own. Respect original work.

---

# PDF Power Hacks: Todo lo que no sabías que podías hacer con Python y tus archivos PDF  
### 🛡️ DIY en IA: Cuida tus datos. No los subas a ningún sitio.

# 🐍 Python | Elimina páginas innecesarias con PdfWriter 📄🗑️  

## ❓¿Te ha pasado que quieres compartir un PDF pero algunas páginas no deberían ir? 🙃  
Con Python puedes limpiar ese archivo fácilmente y mantener solo lo importante, sin subir nada a la nube.  

## 👉 Solución  
🧹 Quita páginas específicas de un PDF directamente desde tu notebook.  
💡 Útil para proteger información sensible o reducir el tamaño de documentos extensos.  

## 🔧 ¿Cómo funciona?  
📄 Generamos un PDF de ejemplo con `reportlab`.  
✂️ Seleccionamos qué páginas eliminar (por su índice).  
📥 Creamos un nuevo archivo limpio con `PyPDF2`.  

## 🔎 ¿Por qué importa?  
🛡️ Evita compartir datos innecesarios o confidenciales.  
📉 Disminuye el peso de tus archivos.  
🚀 Mejora tu flujo de trabajo documental y mantiene el control de tus datos.  

## ✨ Ejemplo real o Caso práctico:  
📑 Imagina que preparaste un reporte mensual, pero las páginas 2 y 4 contienen notas internas.  
🔒 Antes de enviarlo al cliente, puedes eliminarlas directamente con Python.  

## ⚙️ Impacto en el negocio:  
💼 Protege la privacidad del negocio  
📬 Comparte solo lo relevante con stakeholders  
⏱️ Ahorra tiempo en procesos repetitivos  

## 📊 Resumen de qué se hace en el código  
📝 Crea un PDF con 5 páginas numeradas  
🗑️ Elimina las páginas 2 y 4 (índices 1 y 3)  
📄 Guarda un nuevo archivo limpio sin subir nada a servidores externos  

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Reflexión:  
¿Cómo gestionas tus PDFs antes de compartirlos? ¿Qué automatizarías para tener más control sobre tus documentos?

🔑 #Python #DataScience #PyPDF2 #Automatización #PDFprocessing #CienciaDeDatos #IA #DataPrivacy #DesarrolloProfesional #TechCareers #TechForGood  

🔁 Si te ha parecido útil, siéntete libre de compartir esta publicación con tu red.  
⚠️ Por favor, no la copies ni la publiques como propia. Respeta el trabajo original.
![image.png](attachment:bbe2c4df-2800-48ad-ad59-5e743a584ef3.png)

In [2]:
from PyPDF2 import PdfWriter, PdfReader
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import io

# Create a sample PDF with numbered pages for demonstration
def create_sample_pdf(path, total_pages=5):
    writer = PdfWriter()
    for i in range(1, total_pages + 1):
        # Create a temporary in-memory PDF for each page
        packet = io.BytesIO()
        can = canvas.Canvas(packet, pagesize=letter)
        can.drawString(100, 750, f"Page {i}")  # Write page number
        can.save()
        packet.seek(0)
        # Read the generated single-page PDF and add it to the writer
        new_pdf = PdfReader(packet)
        writer.add_page(new_pdf.pages[0])
    # Write the complete multi-page PDF to disk
    with open(path, "wb") as f:
        writer.write(f)

# Path where the sample PDF will be saved
sample_pdf_path = "20250618_sample.pdf"
# Generate a 5-page sample PDF
create_sample_pdf(sample_pdf_path)

# Load the created PDF using PdfReader
reader = PdfReader(sample_pdf_path)

# Define the indices of the pages to remove
pages_to_remove = [1, 3]  # Remove pages 2 and 4 (index starts at 0)

# Create a new PdfWriter object to store the cleaned PDF
output_writer = PdfWriter()

# Loop through all pages and keep only those not in the removal list
for i in range(len(reader.pages)):
    if i not in pages_to_remove:
        output_writer.add_page(reader.pages[i])

# Save the cleaned version of the PDF
with open("20250618_cleaned_sample.pdf", "wb") as f:
    output_writer.write(f)
