# PDF Power Hacks: Everything You Didn’t Know You Could Do with Python and Your PDF Files  
### 🛡️ DIY in AI: Protect your data. Don’t upload it anywhere.

# 🐍 Python | Create Uncropped PNG→PDF & OCR Extract 🖼️➡️📄🔍

## ❓Ever found your generated PNGs cropped and OCR failing? 😤  
Small misalignments or negative offsets can cut off letters, wrecking your text extraction.

## 👉 Solution  
📐 Use `textbbox` + padding to render uncropped PNG, embed same-size in PDF, then OCR with `pdf2image` + `pytesseract`.

## 🔧 How does it work?  
💡 Measure text bounds with `textbbox` (captures negative offsets).  
📏 Add symmetrical padding to prevent cropping.  
📄 Draw shifted text at `(-x0, -y0)` origin.  
🔄 Embed PNG into PDF without scaling.  
🔍 Convert PDF→images and extract text via OCR.

## 🔎 Why does it matter?  
🔒 Fully local, no cloud—total data control.  
⚡ Perfect letter rendering boosts OCR accuracy.  
🛠️ Automates end‑to‑end PNG→PDF→text in one notebook.

## ✨ Real-world example:  
🏢 A compliance team digitizes signatures. Ensuring no glyph is cut off yields 100 % OCR capture and audit readiness.

## ⚙️ Business impact:  
💼 Guarantees data integrity  
⏱️ Eliminates manual crop checks  
📉 Reduces post‑OCR cleanup

## 📊 Code summary  
📏 Captures exact text bbox & padding  
🖼️ Renders uncropped PNG  
📑 Embeds same-size PDF  
🔄 Converts pages→images  
📝 Runs OCR & saves text

🔗 [GitHub](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)

## 💭 Thought:  
What padding strategy would you adopt for multi‑line text to ensure no loss?

🔑 #Python #DataScience #OCR #Automation #PDFprocessing #AI #DataPrivacy #TechCareers #CareerGrowth #TechForGood

🔁 If you found this useful, feel free to share it with your network.  
⚠️ Please do not copy or repost it as your own. Respect original work.

---

# PDF Power Hacks: Todo lo que no sabías que podías hacer con Python y tus archivos PDF  
### 🛡️ DIY en IA: Cuida tus datos. No los subas a ningún sitio.

# 🐍 Python | PNG sin recorte → PDF & extracción OCR 🖼️➡️📄🔍

## ❓¿Te frustran PNG recortados y OCR impreciso? 😤  
Desajustes de origen y offsets negativos cortan letras y arruinan tu extracción de texto.

## 👉 Solución  
📐 Usar `textbbox` + padding para PNG sin recorte, incrustar PDF a mismo tamaño y OCR con `pdf2image` + `pytesseract`.

## 🔧 ¿Cómo funciona?  
💡 Medir caja de texto con `textbbox` (incluye offsets negativos).  
📏 Añadir padding simétrico para evitar recortes.  
📄 Dibujar texto desplazado en `(-x0, -y0)`.  
🔄 Incrustar PNG en PDF sin escalar.  
🔍 Convertir PDF→imágenes y extraer texto con OCR.

## 🔎 ¿Por qué importa?  
🔒 Procesamiento 100 % local: máximo control.  
⚡ Letras intactas mejoran precisión OCR.  
🛠️ Automatiza PNG→PDF→texto en un solo notebook.

## ✨ Caso práctico:  
🏢 Un equipo de cumplimiento digitaliza firmas. Letras completas garantizan 100 % de captura OCR y trazabilidad.

## ⚙️ Impacto en el negocio:  
💼 Asegura integridad de datos  
⏱️ Elimina revisiones manuales  
📉 Reduce correcciones post‑OCR

## 📊 Resumen de código  
📏 Captura bbox exacto + padding  
🖼️ Genera PNG sin recorte  
📑 Crea PDF idéntico  
🔄 Convierte páginas→imágenes  
📝 Ejecuta OCR y guarda texto

🔗 [GitHub](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main/PDF%20Power%20Hacks)

## 💭 Reflexión:  
¿Qué estrategia de padding usarías para textos de varias líneas y no perder nada?

🔑 #Python #CienciaDeDatos #OCR #Automatización #PDFprocessing #IA #Privacidad #CarreraTecnológica #CrecimientoProfesional #TechForGood

🔁 Si te ha parecido útil, siéntete libre de compartir esta publicación con tu red.  
⚠️ Por favor, no la copies ni la publiques como propia. Respeta el trabajo original.



In [None]:
# 20250701_png_to_pdf_ocr.py
# Generate a large-font PNG (uncropped), embed it in a PDF at same size, convert back to image and OCR extract text.

from PIL import Image, ImageDraw, ImageFont
from reportlab.pdfgen import canvas
from pdf2image import convert_from_path
import pytesseract

# 1. Create PNG with big text
text = "Hello OCR!"
font_size = 100

# Try loading a TTF; fallback to default if unavailable
try:
    font = ImageFont.truetype("arial.ttf", font_size)
except (OSError, IOError):
    font = ImageFont.load_default()

# Measure text bounding box (may include negative offsets)
tmp_img = Image.new("RGB", (1, 1))
tmp_draw = ImageDraw.Draw(tmp_img)
x0, y0, x1, y1 = tmp_draw.textbbox((0, 0), text, font=font)
w, h = x1 - x0, y1 - y0
padding = 10

# Create final image with padding and correct origin
img = Image.new("RGB", (w + padding*2, h + padding*2), "white")
draw = ImageDraw.Draw(img)
draw.text((padding - x0, padding - y0), text, fill="black", font=font)  # shift by -x0,-y0 to avoid cropping

png_path = "20250701_big_text.png"
img.save(png_path)

# 2. Embed PNG in PDF at its native size
pdf_path = "20250701_big_text.pdf"
c = canvas.Canvas(pdf_path, pagesize=(w + padding*2, h + padding*2))
c.drawImage(png_path, 0, 0, width=w + padding*2, height=h + padding*2)
c.showPage()
c.save()

# 3. Convert PDF back to images
pages = convert_from_path(pdf_path)

# 4. OCR each page and save text
ocr_text = ""
for page in pages:
    ocr_text += pytesseract.image_to_string(page) + "\n"

txt_path = "20250701_ocr_output.txt"
with open(txt_path, "w", encoding="utf-8") as f:
    f.write(ocr_text)

print(f"Generated: {png_path}, {pdf_path}, {txt_path}")

