OCR + Indización de PDFs

Proyecto para extraer nombres desde PDFs (primera página) utilizando TrOCR y subir los resultados a PostgreSQL.

Resumen

Extrae texto de la primera página de PDF, aplica limpieza (eliminación de líneas) y correcciones con regex, e inserta/actualiza la indización en la base de datos.
Modelo OCR: microsoft/trocr-large-printed.

Requisitos

Python 3.8 o superior
Poppler (requerido por pdf2image). En Windows puede instalarse desde: http://blog.alivate.com.au/poppler-windows/

Instalación rápida

python -m venv .venv
.venv\Scripts\activate  # Windows

pip install -r requirements.txt
# Instale torch adecuado para su entorno (CPU/GPU) según https://pytorch.org
pip install torch

copy .env.example .env
# editar .env con credenciales DB

Variables de entorno (ejemplo en .env.example)

Esquema de base de datos Se incluyen instrucciones en schema.sql para crear las tablas mínimas documento e indizacion.

Uso

python ocr.py

Notas

Por defecto el script procesa sólo la primera página de cada PDF.
La indización usa metadataid=3. Cambia si tus metadatos difieren.
Ajusta recorte_nombre dentro de OCRProcessor para cambiar la zona recortada.

Mejoras sugeridas

Soporte Si necesitas ayuda adicional para adaptar, integrar en pipelines o pruebas, puedo ayudarte.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.idea		.idea
.env		.env
.env.example		.env.example
README.md		README.md
ocr.py		ocr.py
procesado_PPLF00105368-05-0326-182955.png		procesado_PPLF00105368-05-0326-182955.png
requirements.txt		requirements.txt
schema.sql		schema.sql

Provide feedback