# *1. ¿Qué es Docling?*

Herramienta/librería para extraer información de PDFs.

Convierte documentos a:

* Texto plano

* Tablas

* Diccionarios (dict) y JSON estructurado


Útil en proyectos de Data Science, automatización y minería de documentos


---



# *2. ¿Por qué es útil?*


* ✅ Automatiza la lectura de documentos.
* ✅ Convierte PDFs en datos listos para procesar.
* ✅ Compatible con texto y tablas.
* ✅ Fácil de usar en Python y en Google Colab.


---



# 🔍 Comparación entre Docling y otras herramientas

* Docling es más integral: combina la extracción de texto + tablas + estructura
del documento y entrega todo en JSON listo para análisis.

* PyMuPDF es más rápido y bajo nivel - te da acceso a texto/imágenes/páginas pero tú tienes que estructurar los datos.

* PDF.js sirve más para visualización en navegador, no tanto para análisis automatizado.

* Camelot es muy bueno si solo te interesan las tablas.


---



**PyMuPDF (fitz) 📖**:

Parser PDF ligero y rápido (Python)

Ventajas:
- Muy rápido y flexible
- Extrae texto, imágenes, metadatos
- Permite manipular páginas, anotaciones, etc.

Limitaciones:
- El texto suele salir “plano” (sin estructura)
- Tablas no se detectan solas
---

PDF.js 🌐

Renderizador PDF en el navegador (JavaScript)

Ventajas:

- Funciona en cualquier navegador
- Ideal para ver PDFs en web apps
- Puede extraer texto en cliente (JS)

Limitaciones:
- No exporta a JSON estructurado
- No extrae tablas fácilmente
- Enfocado en visualización más que análisis


---

Camelot 📊

Extracción solo de tablas

Ventajas:
- Muy bueno para convertir tablas de PDFs a DataFrames o CSV
- Fácil de usar en análisis de datos

Limitaciones:
- Solo sirve si el PDF tiene tablas
- No extrae texto general ni imágenes

In [None]:
!pip install docling



In [None]:
from docling.document_converter import DocumentConverter
from pathlib import Path
import json
from google.colab import files

In [None]:
print("Sube tu archivo PDF: 👇🏻")
uploaded = files.upload()  # Se abre un cuadro para subir el archivo

# Tomamos el primer archivo que se suba
pdf_filename = list(uploaded.keys())[0]
pdf_path = Path(f"/content/{pdf_filename}")

# ==============================
# 4. Convertir el PDF
# ==============================
converter = DocumentConverter()
result = converter.convert(pdf_path)

# ==============================
# 5. Extraer texto del PDF
# ==============================
texto = result.document.export_to_text()
print("=== Texto extraído (primeros 1000 caracteres) ===\n")
print(texto[:1000])  # Mostramos solo los primeros 1000 caracteres

# ==============================
# 6. Extraer tablas
# ==============================
tablas = result.document.tables
print("\n=== Tablas detectadas ===")
print("Cantidad de tablas:", len(tablas))

# ==============================
# 7. Exportar a JSON (corregido)
# ==============================
# Convertir el documento en diccionario (pydantic)
doc_dict = result.document.model_dump()

# Convertir a JSON con indentación
json_data = json.dumps(doc_dict, indent=2, ensure_ascii=False)

# Guardar el JSON en un archivo
json_file = "/content/output.json"
with open(json_file, "w", encoding="utf-8") as f:
    f.write(json_data)

print("\n✅ Archivo JSON generado en:", json_file)

# ==============================
# 8. Mostrar JSON bonito en pantalla
# ==============================
print("\n=== Vista previa del JSON ===\n")
print(json_data[:2000])  # Mostramos solo los primeros 2000 caracteres

# ==============================
# 9. Descargar JSON a tu PC
# ==============================
files.download(json_file)

Sube tu archivo PDF: 👇🏻


Saving INV_2025_00001 (1).pdf to INV_2025_00001 (1) (3).pdf




=== Texto extraído (primeros 1000 caracteres) ===

edu-adminproyectos1

, México

## Azure Interior, Brandon

## Factura INV/2025/00001

| Fecha de factura                   | Fecha límite   | Fecha de entrega   | Origen    |          |
|------------------------------------|----------------|--------------------|-----------|----------|
| 05/04/2025                         | 05/04/2025     | 06/04/2025         | S00001    |          |
| Descripción                        | Cantidad       | Precio unitario    | Impuestos | Importe  |
| Escritorio grande                  | 3,00 Unidades  | 220,00             | IVA(16%)  | $ 660,00 |
|                                    |                | Subtotal           |           | $ 660,00 |
| Referencia de pago: INV/2025/00001 |                | IVA 16%            |           | $ 105,60 |
|                                    |                | Total              |           | $ 765,60 |

Importe total con letra:

SETECIENTOS SESENTA Y CINCO PESOS 60

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>