# PDF Power Hacks: Everything You Didn’t Know You Could Do with Python and Your PDF Files  
### 🛡️ DIY in AI: Protect your data. Don’t upload it anywhere.

# 🐍 Python | Compress PDF files without losing quality using fitz 🗜️📄  

## ❓Ever had to send a PDF that was way too big? 🙃  
With Python, you can reduce file size **without compromising quality** — and without relying on online tools.  

## 👉 Solution  
🧠 Use `PyMuPDF (fitz)` to compress embedded images.  
🚫 No visible quality loss.  
💡 Especially useful when you need to meet strict file size limits like the 5MB cap many administrative platforms require.  

## 🔧 How does it work?  
📄 Load a sample PDF.  
🖼️ Resize and recompress internal images.  
📥 Save a new, optimized version locally.  

## 🔎 Why does it matter?  
⚖️ Government platforms often limit PDF size.  
📧 Share complete reports that meet file limits.  
🛡️ Full local processing — your data stays with you.  

## ✨ Real-world example:  
📑 You're submitting a funding proposal to a public agency and the portal only accepts files under 5MB.  
🗜️ You shrink your original 12MB file to 2.4MB with no visible degradation.  
🚫 No online compression tools — just Python in your notebook.  

## ⚙️ Business impact:  
📬 Speeds up administrative submissions.  
💼 Meets technical requirements without sacrificing content.  
🛠️ Full control over document processing with no third-party risk.  

## 📊 Code summary  
📂 Loads a sample PDF (bundled in Python libraries)  
🖼️ Identifies and downscales embedded images  
🗜️ Saves an optimized PDF file locally  

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Thought:  
How often do file size limits slow you down? What else would you automate in your document workflows?

🔑 #Python #DataScience #PyMuPDF #Automation #PDFprocessing #PDFcompress #AI #DataPrivacy #TechCareers #CareerGrowth #TechForGood  

🔁 If you found this post useful, feel free to share it with your network.  
⚠️ Please do not copy or repost it as your own. Respect original work.

----
# PDF Power Hacks: Todo lo que no sabías que podías hacer con Python y tus archivos PDF  
### 🛡️ DIY en IA: Cuida tus datos. No los subas a ningún sitio.

# 🐍 Python | Comprime archivos PDF sin perder calidad con fitz 🗜️📄  

## ❓¿Alguna vez has querido enviar un informe pero el PDF era demasiado pesado? 🙃  
Con Python puedes reducir su tamaño manteniendo la calidad — sin usar herramientas online ni arriesgar tus datos.  

## 👉 Solución  
🧠 Utilizamos `PyMuPDF (fitz)` para comprimir las imágenes embebidas en el PDF.  
🚫 Sin pérdida de calidad visual perceptible.  
💡 Ideal cuando necesitas cumplir con límites estrictos de tamaño, como los 5MB que exigen muchas entidades administrativas.  

## 🔧 ¿Cómo funciona?  
📄 Cargamos un archivo PDF de ejemplo.  
🖼️ Reducimos la resolución de las imágenes internas.  
📥 Guardamos un nuevo archivo optimizado.  

## 🔎 ¿Por qué importa?  
⚖️ Muchos portales públicos o institucionales tienen límites de carga.  
📧 Puedes enviar informes completos sin preocuparte por el peso.  
🛡️ Todo el procesamiento se hace localmente.  

## ✨ Ejemplo real o Caso práctico:  
📑 Presentas un proyecto a una entidad pública que solo acepta archivos PDF menores a 5MB.  
🗜️ Comprimiste tu informe original de 12MB a 2.4MB sin perder calidad.  
🚫 No usaste servicios en línea, lo hiciste directamente en tu notebook con Python.  

## ⚙️ Impacto en el negocio:  
📬 Acelera la entrega de documentos clave.  
💼 Cumple con requisitos técnicos sin comprometer contenido.  
🛠️ Control total sobre tus archivos sin depender de terceros.  

## 📊 Resumen de qué se hace en el código  
📂 Se carga un PDF de ejemplo (disponible en Python)  
🖼️ Se identifican y procesan imágenes para bajar su resolución  
🗜️ Se guarda un nuevo PDF comprimido y optimizado  

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)  

## 💭 Reflexión:  
¿Cuántas veces has tenido que comprimir un archivo para enviarlo a tiempo? ¿Qué otra tarea documental automatizarías hoy?

🔑 #Python #DataScience #PyMuPDF #Automatización #PDFprocessing #PDFcompress #CienciaDeDatos #AI #DataPrivacy #DesarrolloProfesional #TechCareers #TechForGood  

🔁 Si te ha parecido útil, siéntete libre de compartir esta publicación con tu red.  
⚠️ Por favor, no la copies ni la publiques como propia. Respeta el trabajo original.





In [19]:
import fitz  # PyMuPDF
import os
from PIL import Image
from io import BytesIO

# Step 1: Create large PNG images (larger size for heavier PDF)
def generate_large_images(image_count=5, width=3000, height=3000):
    images = []
    for i in range(image_count):
        img = Image.new("RGB", (width, height), (i * 30 % 255, i * 60 % 255, i * 90 % 255))
        img_bytes = BytesIO()
        # Guardar como PNG sin compresión para aumentar tamaño
        img.save(img_bytes, format='PNG', compress_level=0)
        img_bytes.seek(0)
        images.append(img_bytes.getvalue())
    return images

# Step 2: Create the original PDF with PNG images (bigger file)
def create_heavy_pdf(images, output_path="20250623_original_file.pdf"):
    doc = fitz.open()
    for img_bytes in images:
        img = Image.open(BytesIO(img_bytes))
        rect = fitz.Rect(0, 0, img.width, img.height)
        page = doc.new_page(width=img.width, height=img.height)
        page.insert_image(rect, stream=img_bytes)
    doc.save(output_path)
    doc.close()

# Step 3: Compress the PDF with JPEG and resizing
def compress_pdf(input_path, output_path, image_quality=50, image_scale=0.4):
    doc = fitz.open(input_path)
    for page_index in range(len(doc)):
        page = doc[page_index]
        images = page.get_images(full=True)
        for img in images:
            xref = img[0]
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]
            image = Image.open(BytesIO(image_bytes))

            # Resize and compress
            width, height = image.size
            new_size = (int(width * image_scale), int(height * image_scale))
            image = image.resize(new_size, Image.Resampling.LANCZOS).convert("RGB")

            compressed_image_bytes = BytesIO()
            image.save(compressed_image_bytes, format="JPEG", quality=image_quality)

            rect = page.rect
            page.clean_contents()
            page.insert_image(rect, stream=compressed_image_bytes.getvalue())

    doc.save(output_path, deflate=True)
    doc.close()

# Run the process
images = generate_large_images()
create_heavy_pdf(images, "20250623_original_file.pdf")

input_pdf = "20250623_original_file.pdf"
output_pdf = "20250623_compressed_file.pdf"

compress_pdf(input_pdf, output_pdf)

# Display results
original_size = os.path.getsize(input_pdf) / (1024 * 1024)
compressed_size = os.path.getsize(output_pdf) / (1024 * 1024)

print(f"Original file size: {original_size:.2f} MB")
print(f"Compressed file size: {compressed_size:.2f} MB")


Original file size: 128.75 MB
Compressed file size: 0.25 MB
