### **Deep Learning - Maestr√≠a Managment & Analytics**

## Transcripci√≥n de texto con GPT5

En esta notebook vamos a probar la api de GPT5 para leer un documento y transcribirlo. Para ello, nos vamos a conectar a la API. En mi caso, cree un entorno nuevo para evitar conflictos entre librer√≠as, especialmente opencv. 
Importante: Ten√©s que configurar la API Key en tu entorno para correr este script.

1. Instalamos librer√≠as necesarias

In [None]:
import os
import io
from pathlib import Path
from time import sleep
from typing import List, Tuple

import numpy as np
import cv2
import fitz  # PyMuPDF
from PIL import Image


In [1]:
import sys, cv2, fitz, PIL, numpy, openai
print(sys.executable)
print("OpenCV:", cv2.__version__)


d:\conda_envs\gpt5-ocr\python.exe
OpenCV: 4.12.0


2. Definimos las rutas y modelo

In [None]:
INPUT_DIR = r"D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo\CDs_Ejemplo"
OUTPUT_BASE = r"D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo"
OUTPUT_DIR = os.path.join(OUTPUT_BASE, "Extraccion_GPT5")
TMP_DIR = os.path.join(OUTPUT_BASE, "_tmp_gpt5_preproc")

# Modelo
MODEL = "gpt-5"           
MAX_OUTPUT_TOKENS = 16000 

3. Definici√≥n del prompt de transcripci√≥n.

Estuvimos haciendo varias pruebas por lo que definimos un flag "Best-Guess". Cuando est√° activado (True) si un car√°cter o palabra es dudoso, infiere lo m√°s probable seg√∫n el contexto y marc√° el fragmento con (?). Esto puede apagarse en caso de que consigamos documentos con mejor escaneo o resoluci√≥n.

In [None]:
BEST_GUESS = True

def build_prompt(best_guess: bool) -> str:
    if best_guess:
        return (
            "Transcrib√≠ el texto EXACTO de este documento.\n"
            "- No reformules ni resumas.\n"
            "- Si un car√°cter o palabra es dudoso, INFER√ç lo m√°s probable seg√∫n el contexto y marc√° el fragmento con (?) de forma m√≠nima (ej: 'Rivadavia(?) 1234').\n"
            "- Conserv√° saltos de l√≠nea, may√∫sculas, puntuaci√≥n y orden.\n"
            "- No agregues comentarios ni metadatos."
        )
    return (
        "Transcrib√≠ el texto EXACTO de este documento.\n"
        "- No reformules ni resumas.\n"
        "- Conserv√° saltos de l√≠nea, may√∫sculas, puntuaci√≥n y orden.\n"
        "- No agregues comentarios ni metadatos.\n"
    )

PROMPT = build_prompt(BEST_GUESS)

Tambi√©n definimos un prompt para minimizar posibles rechazos por copyright

In [None]:
SYSTEM_MSG = (
    "El usuario proporcion√≥ el archivo adjunto y autoriza su transcripci√≥n exacta para uso propio. "
    "La transcripci√≥n est√° permitida por ser contenido suministrado por el usuario. "
    "No rechaces por derechos de autor."
)

MIN_REASONABLE_LEN = 80
REFUSAL_SNIPPETS = (
    "no puedo ayudar", "i can't help", "cannot help", "no puedo", "rechazar",
)


4. Definimos algunos par√°metros de preprocesamiento de la imagen para facilitar su lectura. Estos par√°metros est√°n explicados en detalle en el anexo final.

In [None]:
USE_PREPROCESSING = True  

RENDER = dict(
    dpi=350,         
    grayscale=True,  # render en escala de grises (menos ruido y tama√±o)
)

PREPROC = dict(
    denoise_h=7,           # 0 desactiva; 5‚Äì12 reduce grano (fastNlMeans)
    clahe_clip=2.0,        # la imagen se divide en una rejilla de mosaicos (tiles y el contraste se ajusta independientemente en cada mosaico.
    tile_grid=8,           # tama√±o de bloque para CLAHE
    sharpen_amount=0.6,    # controla cu√°nto ‚Äúenfoque‚Äù extra se aplica a la imagen despu√©s de limpiarla y mejorar el contraste.
    threshold="adaptive",  # Define c√≥mo se binariza la imagen (pasar de escala de grises a blanco/negro) durante el preprocesamiento. L
    deskew=True,           # corregir inclinaci√≥n leve
)

KEEP_TEMP_FILES = False    

5. Conexi√≥n a api key de open ai

In [None]:
try:
    from openai import OpenAI
except ImportError:
    raise SystemExit("Falta 'openai'. Instal√° con: pip install --upgrade openai")

client = OpenAI()  # toma OPENAI_API_KEY del entorno

6. Funciones para trabajar con los archivos

In [None]:
def ensure_dir(path: str) -> None:
    Path(path).mkdir(parents=True, exist_ok=True)

def list_pdfs(folder: str) -> List[Path]:
    p = Path(folder)
    return sorted([f for f in p.iterdir() if f.suffix.lower() == ".pdf" and f.is_file()])

def already_done(out_txt: Path) -> bool:
    return out_txt.exists() and out_txt.stat().st_size > 0

def safe_write_text(path: Path, text: str) -> None:
    path.write_text(text, encoding="utf-8", errors="ignore")

Convertimos cada pdf a imagen para procesar con OpenCV

In [None]:
def render_pdf_to_images(pdf_path: Path, dpi: int = 350, grayscale: bool = True) -> List[np.ndarray]:
    doc = fitz.open(pdf_path)
    scale = dpi / 72.0
    mat = fitz.Matrix(scale, scale)
    imgs = []
    for page in doc:
        pix = page.get_pixmap(matrix=mat, alpha=False)
        img_bytes = pix.tobytes("png")
        pil = Image.open(io.BytesIO(img_bytes))
        if grayscale:
            pil = pil.convert("L")  # 8-bit gray
        arr = np.array(pil)
        if arr.ndim == 2:
            pass
        else:
            arr = cv2.cvtColor(arr, cv2.COLOR_RGB2BGR)
        imgs.append(arr)
    doc.close()
    return imgs

Ahora vamos a definir algunas funciones para pre- procesar. Entre ellas:
- Funci√≥n de aplicaci√≥n de **CLAHE (Contrast Limited Adaptive Histogram Equalization)**. Mejora el contraste de manera local dividiendo la imagen en mosaicos de tile √ó tile p√≠xeles.
- Funci√≥n de aplicaci√≥n de **unsharp masking**: Desenfoca la imagen (GaussianBlur), resta el desenfoque de la imagen original para resaltar bordes y luego mezcla resultado con la original usando amount. Esto sirve para aumentar la nitidez de bordes de las letras, quedan m√°s definidas.
- Funci√≥n de **threshold**: Convierte a blanco/negro seg√∫n el m√©todo adaptativo. Esto es  binarizaci√≥n local por bloques (mejor en iluminaci√≥n irregular). As√≠ se elimina fondo y realza texto, pero puede perder detalles finos si es muy agresivo.
- Funci√≥n **deskew**: Corrige inclinaci√≥n del texto.
- **preprocess_image** es el pipeline que orquesta todo




In [10]:
def _apply_clahe(gray: np.ndarray, clip: float, tile: int) -> np.ndarray:
    clahe = cv2.createCLAHE(clipLimit=clip, tileGridSize=(tile, tile))
    return clahe.apply(gray)

def _unsharp(gray: np.ndarray, amount: float) -> np.ndarray:
    if amount <= 0:
        return gray
    blur = cv2.GaussianBlur(gray, (0, 0), 1.0)
    sharp = cv2.addWeighted(gray, 1 + amount, blur, -amount, 0)
    return sharp

def _threshold(gray: np.ndarray, mode: str) -> np.ndarray:
    if mode == "none":
        return gray
    if mode == "otsu":
        _, bw = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
        return bw
    if mode == "adaptive":
        bw = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 31, 10)
        return bw
    return gray

def _deskew(binary_or_gray: np.ndarray) -> np.ndarray:
    if binary_or_gray.ndim == 3:
        gray = cv2.cvtColor(binary_or_gray, cv2.COLOR_BGR2GRAY)
    else:
        gray = binary_or_gray.copy()
    _, bw = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    inv = cv2.bitwise_not(bw)
    coords = cv2.findNonZero(inv)
    if coords is None or len(coords) < 50:
        return binary_or_gray
    rect = cv2.minAreaRect(coords)
    angle = rect[-1]
    if angle < -45:
        angle = -(90 + angle)
    else:
        angle = -angle
    if abs(angle) < 0.3 or abs(angle) > 15:
        return binary_or_gray
    (h, w) = gray.shape[:2]
    M = cv2.getRotationMatrix2D((w // 2, h // 2), angle, 1.0)
    rotated = cv2.warpAffine(binary_or_gray, M, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    return rotated

def preprocess_image(img: np.ndarray,
                     denoise_h: int = 7,
                     clahe_clip: float = 2.0,
                     tile_grid: int = 8,
                     sharpen_amount: float = 0.6,
                     threshold: str = "adaptive",
                     deskew: bool = True) -> np.ndarray:
    if img.ndim == 3:
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    else:
        gray = img
    if denoise_h and denoise_h > 0:
        gray = cv2.fastNlMeansDenoising(gray, None, h=denoise_h, templateWindowSize=7, searchWindowSize=21)
    gray = _apply_clahe(gray, clip=clahe_clip, tile=tile_grid)
    gray = _unsharp(gray, amount=sharpen_amount)
    out = _threshold(gray, mode=threshold)
    if deskew:
        out = _deskew(out)
    return out

NameError: name 'np' is not defined

En este bloque vamos a definir una serie de funciones que sirven para crear un auto-selector de preprocesamiento. Esto sirve para crear varias versiones del documento, evaluar enfoque, contraste y detalle. Nos quedamos con la imagen m√°s prometedora para OCR. Detalle de las funciones:

- Quality_scores(gray_or_bin): Calcula m√©tricas de calidad visual de una imagen.

        - lap_var: varianza del Laplaciano ‚Üí mide el nivel de nitidez. Cuanto m√°s alto, m√°s enfocada est√°.
        - contrast: desv√≠o est√°ndar de los p√≠xeles ‚Üí mide el contraste global.
        - edges: aplica Canny edge detection para detectar bordes.
        - edge_density: proporci√≥n de p√≠xeles que son bordes ‚Üí mide nivel de detalle.

- Score_for_selection(img): Combina las m√©tricas en un √∫nico puntaje.
- Generate_variants(img): Genera tres versiones distintas de la misma imagen para luego elegir la mejor.
- Pick_best_variant(variants): Eval√∫a cada variante con _score_for_selection y elige la de mayor puntaje.

In [None]:
def _quality_scores(gray_or_bin: np.ndarray) -> dict:
    if gray_or_bin.ndim == 3:
        gray = cv2.cvtColor(gray_or_bin, cv2.COLOR_BGR2GRAY)
    else:
        gray = gray_or_bin
    lap_var = cv2.Laplacian(gray, cv2.CV_64F).var()          # enfoque
    contrast = float(gray.std())                             # contraste global
    edges = cv2.Canny(gray, 50, 150)
    edge_density = float(np.count_nonzero(edges)) / edges.size
    return {"lap_var": lap_var, "contrast": contrast, "edge_density": edge_density}

def _score_for_selection(img: np.ndarray) -> float:
    q = _quality_scores(img)
    return q["lap_var"] + 40.0 * q["edge_density"] + 0.5 * q["contrast"]

def generate_variants(img: np.ndarray) -> list:
    base = preprocess_image(
        img,
        denoise_h=int(PREPROC.get("denoise_h", 7)),
        clahe_clip=float(PREPROC.get("clahe_clip", 2.0)),
        tile_grid=int(PREPROC.get("tile_grid", 8)),
        sharpen_amount=float(PREPROC.get("sharpen_amount", 0.6)),
        threshold=str(PREPROC.get("threshold", "adaptive")),
        deskew=bool(PREPROC.get("deskew", True)),
    )
    hi_contrast = preprocess_image(
        img,
        denoise_h=max(5, int(PREPROC.get("denoise_h", 7) - 2)),
        clahe_clip=3.0,
        tile_grid=8,
        sharpen_amount=0.5,
        threshold="otsu",
        deskew=True,
    )
    if img.ndim == 3:
        g = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    else:
        g = img
    up = cv2.resize(g, None, fx=2.0, fy=2.0, interpolation=cv2.INTER_LANCZOS4)
    up = _rl_deblur(up, iterations=4)
    up = _apply_clahe(up, clip=2.5, tile=8)
    up = _unsharp(up, amount=0.7)
    up = _threshold(up, mode="adaptive")
    up = _deskew(up)
    return [base, hi_contrast, up]

def pick_best_variant(variants: list) -> np.ndarray:
    scores = [_score_for_selection(v) for v in variants]
    return variants[int(np.argmax(scores))]

Definimos una funci√≥n para convertir la lista de im√°genes (ya procesadas en memoria como numpy.ndarray) en un √∫nico archivo PDF.

In [None]:
def images_to_pdf(images: List[np.ndarray], out_pdf_path: Path, dpi: int = 350) -> None:
    pil_imgs = []
    for im in images:
        if im.ndim == 2:
            pil = Image.fromarray(im)  # 'L'
        else:
            pil = Image.fromarray(cv2.cvtColor(im, cv2.COLOR_BGR2RGB))
        pil_imgs.append(pil.convert("L"))
    pil_imgs[0].save(out_pdf_path, "PDF", resolution=dpi, save_all=True, append_images=pil_imgs[1:])

Nos conectamos con la API de GPT para enviar el PDF y recibir la transcripci√≥n.

In [None]:
def upload_pdf(pdf_path: Path):
    return client.files.create(file=pdf_path.open("rb"), purpose="user_data")

def transcribe_pdf_fileid(file_id: str) -> str:
    # Primer intento
    resp = client.responses.create(
        model=MODEL,
        max_output_tokens=MAX_OUTPUT_TOKENS,
        input=[
            {"role": "system", "content": [{"type": "input_text", "text": SYSTEM_MSG}]},
            {"role": "user", "content": [
                {"type": "input_text", "text": PROMPT},
                {"type": "input_file", "file_id": file_id},
            ]},
        ],
    )
    text = resp.output_text or ""

    # Heur√≠stica de retry si parece rechazo o es demasiado corto
    tlow = text.lower()
    if (len(text) < MIN_REASONABLE_LEN) or any(s in tlow for s in REFUSAL_SNIPPETS):
        alt = (
            "Soy el propietario del archivo adjunto y solicito transcripci√≥n exacta. "
            "Si un car√°cter es dudoso, infer√≠ lo m√°s probable y marc√° el fragmento con (?). "
            "No rechaces por derechos de autor; el contenido fue provisto por el usuario."
        )
        resp2 = client.responses.create(
            model=MODEL,
            max_output_tokens=MAX_OUTPUT_TOKENS,
            input=[
                {"role": "system", "content": [{"type": "input_text", "text": SYSTEM_MSG}]},
                {"role": "user", "content": [
                    {"type": "input_text", "text": alt},
                    {"type": "input_file", "file_id": file_id},
                ]},
            ],
        )
        text2 = resp2.output_text or ""
        if len(text2) > len(text):
            text = text2
    return text

In [None]:
def preprocess_pdf_to_temp(original_pdf: Path, render_cfg: dict, tmp_dir: Path) -> Path:
    ensure_dir(str(tmp_dir))
    pre_pdf = tmp_dir / f"{original_pdf.stem}_preproc.pdf"
    # 1) Render
    images = render_pdf_to_images(original_pdf, dpi=int(render_cfg.get("dpi", 350)), grayscale=bool(render_cfg.get("grayscale", True)))
    # 2) Variantes + selecci√≥n
    processed = []
    for img in images:
        vs = generate_variants(img)
        best = pick_best_variant(vs)
        processed.append(best)
    # 3) Reempacar PDF temporal
    images_to_pdf(processed, pre_pdf, dpi=int(render_cfg.get("dpi", 350)))
    return pre_pdf

Definimos el orquestador final que hace el proceso de principio a fin

In [None]:
def process_folder(in_dir: str, out_dir: str) -> Tuple[int, List[Tuple[str, str]]]:
    ensure_dir(out_dir)
    ensure_dir(TMP_DIR)
    pdfs = list_pdfs(in_dir)
    errors: List[Tuple[str, str]] = []
    ok = 0
    if not pdfs:
        print("No se encontraron PDFs en:", in_dir)
        return ok, errors
    for i, pdf in enumerate(pdfs, 1):
        out_txt = Path(out_dir) / (pdf.stem + ".txt")
        if already_done(out_txt):
            print(f"[{i}/{len(pdfs)}] SKIP (ya existe): {out_txt.name}")
            continue
        print(f"[{i}/{len(pdfs)}] Procesando: {pdf.name}")
        uploaded = None
        temp_pdf_path = None
        try:
            src_for_api = pdf
            if USE_PREPROCESSING:
                temp_pdf_path = preprocess_pdf_to_temp(pdf, render_cfg=RENDER, tmp_dir=Path(TMP_DIR))
                src_for_api = temp_pdf_path
            uploaded = upload_pdf(src_for_api)
            text = transcribe_pdf_fileid(uploaded.id)
            safe_write_text(out_txt, text)
            ok += 1
            print(f"   ‚Üí OK: {out_txt.name} ({len(text)} chars)")
        except Exception as e:
            msg = str(e)
            errors.append((pdf.name, msg))
            print(f"   √ó ERROR en {pdf.name}: {msg}")
        finally:
            try:
                if uploaded is not None:
                    client.files.delete(uploaded.id)
                    sleep(0.2)
            except Exception:
                pass
            try:
                if temp_pdf_path and not KEEP_TEMP_FILES and Path(temp_pdf_path).exists():
                    Path(temp_pdf_path).unlink()
            except Exception:
                pass
    return ok, errors

7. Ejecutamos

In [9]:

# ===== Ejecutar =====
if __name__ == "__main__":
    ok, errs = process_folder(INPUT_DIR, OUTPUT_DIR)
    print("\nResumen\n=======")
    print(f"Transcripciones OK: {ok}")
    if errs:
        print(f"Con errores: {len(errs)}")
        for fname, emsg in errs[:10]:
            print(f" - {fname}: {emsg[:180]}{'...' if len(emsg)>180 else ''}")
        if len(errs) > 10:
            print(f"   (+ {len(errs)-10} errores m√°s)")
    print(f"\nTXT guardados en: {OUTPUT_DIR}")

[1/13] Procesando: Belen_payway.pdf
   ‚Üí OK: Belen_payway.txt (3144 chars)
[2/13] Procesando: Bruno23689270.pdf
   ‚Üí OK: Bruno23689270.txt (2714 chars)
[3/13] Procesando: Bruno400212294002.pdf
   ‚Üí OK: Bruno400212294002.txt (3031 chars)
[4/13] Procesando: Bruno400212294002_1.pdf
   ‚Üí OK: Bruno400212294002_1.txt (3059 chars)
[5/13] Procesando: Coyle401547680601.pdf
   ‚Üí OK: Coyle401547680601.txt (2667 chars)
[6/13] Procesando: EVERTEC30707869484.pdf
   ‚Üí OK: EVERTEC30707869484.txt (428 chars)
[7/13] Procesando: Galicia_Giuseppe.pdf
   ‚Üí OK: Galicia_Giuseppe.txt (873 chars)
[8/13] Procesando: hsbc_Aquino.pdf
   ‚Üí OK: hsbc_Aquino.txt (288 chars)
[9/13] Procesando: hsbc_Aquino2.pdf
   ‚Üí OK: hsbc_Aquino2.txt (2795 chars)
[10/13] Procesando: hsbc_Aquino3.pdf
   ‚Üí OK: hsbc_Aquino3.txt (1530 chars)
[11/13] Procesando: Mallo12980371.pdf
   ‚Üí OK: Mallo12980371.txt (1895 chars)
[12/13] Procesando: Pantano28462989.pdf
   ‚Üí OK: Pantano28462989.txt (2194 chars)
[13/13] Proces

Otra versi√≥n (borrar cuando tenga todo corrido)

1. Configuraci√≥n (no era exacta as√≠, puede que falle)

In [None]:
# ROOT_FOLDER = r"D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo\CDs_Ejemplo"
# OUT_DIR_NAME = "extraccion_gpt5"
# MODEL = "gpt-5"          # o "gpt-5-mini" si quer√©s menor costo
# DPI_TRY = [240, 300, 340]  # escalado progresivo
# TILE_GRID = (2, 2)       # fallback: cortar en 2x2
# API_SLEEP = 0.8          # pausa m√≠nima entre requests (evita rate limit)
# PROMPT = (
#     "TRANSCRIPCION EXACTA obligatoria. Si algo no se distingue, "
#     "escrib√≠ [ilegible] en ese fragmento, sin rechazar la tarea. "
#     "Conserv√° may√∫sculas, signos y SALTOS DE L√çNEA del original. "
#     "No corrijas ortograf√≠a ni formato. Devolv√© SOLO el texto transcrito."
# )
# NEGATION_HINTS = [
#     "no puedo transcribir", "no puedo leer", "borrosa", "ilegible", "no se distingue",
#     "no puedo cumplir", "no puedo realizar", "no puedo hacerlo"
# ]

In [None]:
# def ensure_api_key():
#     api_key = os.getenv("OPENAI_API_KEY")
#     if not api_key:
#         raise RuntimeError(
#             "Falta OPENAI_API_KEY. En PowerShell: setx OPENAI_API_KEY \"tu_api_key\" y reabr√≠ la terminal."
#         )
#     return api_key

# def make_out_path(pdf_path: str) -> Path:
#     pdf = Path(pdf_path)
#     out_dir = pdf.parent / OUT_DIR_NAME
#     out_dir.mkdir(parents=True, exist_ok=True)
#     return out_dir / (pdf.stem + ".txt")

# def page_png_data_url(page, dpi: int) -> str:
#     # Render a PNG y devolver como data URL (data:image/png;base64,...)
#     zoom = dpi / 72.0
#     mat = fitz.Matrix(zoom, zoom)
#     pix = page.get_pixmap(matrix=mat, alpha=False)
#     b64 = base64.b64encode(pix.tobytes("png")).decode("utf-8")
#     return f"data:image/png;base64,{b64}"

# def transcribe_pdf(pdf_path: str, model: str, dpi: int) -> str:
#     client = OpenAI(api_key=ensure_api_key())
#     doc = fitz.open(pdf_path)
#     outputs = []
#     total = len(doc)
#     for i, page in enumerate(doc, start=1):
#         img_data_url = page_png_data_url(page, dpi)
#         resp = client.responses.create(
#             model=model,
#             input=[{
#                 "role": "user",
#                 "content": [
#                     {"type": "input_text", "text": f"{PROMPT}\nP√°gina {i}:"},
#                     {"type": "input_image", "image_url": img_data_url}
#                 ]
#             }]
#         )
#         texto = (resp.output_text or "").strip()
#         outputs.append(f"--- P√°gina {i} ---\n{texto}\n")
#         print(f"‚úÖ P√°gina {i}/{total} lista")
#     doc.close()
#     return "\n".join(outputs).strip()

# def main():
#     pdf_path = Path(PDF_PATH)
#     if not pdf_path.is_file():
#         raise FileNotFoundError(f"No se encontr√≥ el PDF: {pdf_path}")

#     out_txt = make_out_path(str(pdf_path))
#     print(f"Transcribiendo: {pdf_path}")
#     texto = transcribe_pdf(str(pdf_path), MODEL, DPI)
#     out_txt.write_text(texto, encoding="utf-8")
#     print(f"\nüìÑ TXT guardado en: {out_txt}")


In [None]:
# if __name__ == "__main__":
#     main()

Transcribiendo: D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo\CDs_Ejemplo\Belen_payway.pdf
‚úÖ P√°gina 1/1 lista

üìÑ TXT guardado en: D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo\CDs_Ejemplo\extraccion_gpt5\Belen_payway.txt


## Extracci√≥n de variables con Llama 3
Vamos a seguir la misma l√≥gica de extracci√≥n de variables que utilizamos con Tesseract y DOCTR. 
Asegurate de tener instalado en tu entorno los paquetes necesarioas. Si no los ten√©s, corr√© desde powershell: pip install requests tqdm pydantic


In [18]:
pip install requests tqdm pydantic


Note: you may need to restart the kernel to use updated packages.


In [1]:
from pydantic import BaseModel
from typing import Optional
from pydantic import ValidationError
import re, unicodedata
from tqdm import tqdm
from requests.exceptions import ReadTimeout
from pathlib import Path
import json
import csv
import requests
from requests.exceptions import ReadTimeout

In [2]:
TXT_FOLDER = r"D:\Formaci√≥n\Managment & Analytics - ITBA\15. Deep Learning\CDs_Ejemplo\Extraccion_GPT5"
OUTPUT_CSV = "entidades_extraidas_GPT.csv"
PROMPT_FILE = "prompt_2.txt"
MODEL       = "llama3:latest"
OLLAMA_URL  = "http://localhost:11434/api/generate"
TEMPERATURE = 0.0
TIMEOUT     = 800
MAX_CHARS   = 9000

In [3]:
class Entity(BaseModel):
    Remitente: Optional[str] = None
    DNI: Optional[str] = None
    CUIT_CUIL: Optional[str] = None
    Cuerpo: str


In [5]:
CLEAN_RE = re.compile(r"[^\w\s.,;:()@‚Ç¨$%/-]")

def clean_text(s: str) -> str:
    s = unicodedata.normalize("NFKC", s)
    s = CLEAN_RE.sub("", s)
    s = re.sub(r"\s+", " ", s)
    return s.strip()

In [6]:
JSON_SCHEMA = {
    "type": "object",
    "properties": {
        "Remitente": {"type": ["string", "null"]},
        "DNI": {"type": ["string", "null"], "pattern": "^\\d*$"},
        "CUIT_CUIL": {"type": ["string", "null"], "pattern": "^\\d*$"},
        "Cuerpo": {"type": "string"},
    },
    "required": ["Cuerpo"],
    "additionalProperties": False,
}

with open(PROMPT_FILE, encoding="utf-8") as f:
    PROMPT = f.read()

def call_ollama(text: str) -> dict:
    payload = {
        "model": MODEL,
        "prompt": f"<|system|>\n{PROMPT}<|end|>\n<|user|>\n{text[:MAX_CHARS]}<|end|>\n<|assistant|>",
        "format": "json",
        "stream": False,
        "options": {"temperature": TEMPERATURE, "json_schema": JSON_SCHEMA},
    }
    try:
        r = requests.post(OLLAMA_URL, json=payload, timeout=TIMEOUT)
    except ReadTimeout:
        raise TimeoutError("Timeout de Ollama")
    r.raise_for_status()
    return json.loads(r.json()["response"])

def main():
    dir_path = Path(TXT_FOLDER)
    if not dir_path.is_dir():
        raise SystemExit(f"Ruta no encontrada: {dir_path}")

    rows = []
    for file in tqdm(sorted(dir_path.glob("*.txt")), desc="TXT"):
        raw = file.read_text(encoding="utf-8", errors="ignore")
        cleaned = clean_text(raw)
        try:
            data = call_ollama(cleaned)
            ent = Entity.model_validate(data)
            rows.append({
                "ARCHIVO": file.name,
                "Remitente": (ent.Remitente or "NaN").strip() or "NaN",
                "DNI": re.sub(r"\D", "", ent.DNI or "") or "NaN",
                "CUIT_CUIL": re.sub(r"\D", "", ent.CUIT_CUIL or "") or "NaN",
                "Cuerpo": ent.Cuerpo.strip() or "NaN",
            })
        except Exception as e:
            print(f"‚ùå {file.name}: {e}")
    if rows:
        with open(OUTPUT_CSV, "w", newline="", encoding="utf-8") as f:
            csv.DictWriter(f, fieldnames=rows[0].keys()).writeheader(); csv.DictWriter(f, fieldnames=rows[0].keys()).writerows(rows)
        print(f"‚úÖ CSV generado en {OUTPUT_CSV} ({len(rows)} filas)")
    else:
        print("No se extrajeron entidades v√°lidas.")

In [7]:
if __name__ == "__main__":
    main()

TXT: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 13/13 [1:44:15<00:00, 481.23s/it]


‚úÖ CSV generado en entidades_extraidas_GPT.csv (13 filas)


## Anexo 

En las primeras iteraciones detectamos que hay algunos documentos que el modelo no puede leer. As√≠ que vamos a aplicar un pre-procesamiento con OPENCV


| Funci√≥n                                                                         | Qu√© hace                                                              | D√≥nde la usamos en el script                    | Para qu√© sirve                                                                  |
| ------------------------------------------------------------------------------- | --------------------------------------------------------------------- | ----------------------------------------------- | ----------------------------------------------------------------------------------------- |
| `cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)`                                         | Convierte una imagen a escala de grises.                              | En `preprocess_image` y `render_pdf_to_images`. | Reducir el procesamiento a un solo canal, eliminando color innecesario y ruido crom√°tico. |
| `cv2.fastNlMeansDenoising(gray, None, h, templateWindowSize, searchWindowSize)` | Elimina ruido/grano manteniendo bordes.                               | En `preprocess_image`.                          | Mejora la legibilidad de texto escaneado y suprime manchas de fondo.                      |
| `cv2.createCLAHE(clipLimit, tileGridSize)` + `.apply(gray)`                     | Ajuste adaptativo de contraste (CLAHE).                               | En `_apply_clahe`.                              | Aumenta contraste local, √∫til cuando partes del documento son muy claras o muy oscuras.   |
| `cv2.GaussianBlur(gray, (0, 0), sigma)`                                         | Desenfoque gaussiano.                                                 | En `_unsharp`.                                  | Usado para crear un efecto de ‚Äúresta‚Äù que resalta bordes (sharpening).                    |
| `cv2.addWeighted(src1, alpha, src2, beta, gamma)`                               | Combina im√°genes ponderadas.                                          | En `_unsharp`.                                  | Crea el efecto de nitidez a partir del original y el desenfoque.                          |
| `cv2.threshold(gray, thresh, maxval, tipo)`                                     | Binarizaci√≥n global (incluye Otsu).                                   | En `_threshold` y `_deskew`.                    | Convierte el documento a blanco y negro, eliminando variaciones de fondo.                 |
| `cv2.adaptiveThreshold(gray, maxval, metodo, tipo, blockSize, C)`               | Binarizaci√≥n adaptativa.                                              | En `_threshold`.                                | M√°s robusta en documentos con iluminaci√≥n no uniforme o manchas.                          |
| `cv2.bitwise_not(bw)`                                                           | Invierte blanco/negro.                                                | En `_deskew`.                                   | Facilita la detecci√≥n de bordes para estimar inclinaci√≥n.                                 |
| `cv2.findNonZero(img)`                                                          | Encuentra todos los p√≠xeles distintos de cero.                        | En `_deskew`.                                   | Detectar el √°rea de texto para estimar el √°ngulo de inclinaci√≥n.                          |
| `cv2.minAreaRect(coords)`                                                       | Encuentra el rect√°ngulo de √°rea m√≠nima que contiene todos los puntos. | En `_deskew`.                                   | Calcular √°ngulo del texto en el documento.                                                |
| `cv2.getRotationMatrix2D(center, angle, scale)`                                 | Matriz de rotaci√≥n 2D.                                                | En `_deskew`.                                   | Crear la transformaci√≥n para corregir inclinaci√≥n.                                        |
| `cv2.warpAffine(img, M, (w, h), flags, borderMode)`                             | Aplica transformaci√≥n af√≠n (rotaci√≥n).                                | En `_deskew`.                                   | Gira la imagen para alinear el texto con el eje horizontal.                               |


**Pipeline general**

In [None]:
# [process_folder]
#     ‚îÇ
#     ‚îú‚îÄ ensure_dir(out_dir), ensure_dir(TMP_DIR)
#     ‚îú‚îÄ pdfs = list_pdfs(in_dir)
#     ‚îÇ
#     ‚îî‚îÄ for pdf in pdfs:
#          ‚îÇ
#          ‚îú‚îÄ out_txt = <out_dir>/<pdf.stem>.txt
#          ‚îú‚îÄ if already_done(out_txt):  ‚Üí SKIP
#          ‚îÇ
#          ‚îú‚îÄ if USE_PREPROCESSING:
#          ‚îÇ     ‚îÇ
#          ‚îÇ     ‚îî‚îÄ [preprocess_pdf_to_temp]
#          ‚îÇ          ‚îÇ
#          ‚îÇ          ‚îú‚îÄ images = render_pdf_to_images(pdf, dpi, grayscale)
#          ‚îÇ          ‚îÇ
#          ‚îÇ          ‚îî‚îÄ processed = []
#          ‚îÇ                ‚îî‚îÄ for img in images:
#          ‚îÇ                      ‚îú‚îÄ variants = generate_variants(img)
#          ‚îÇ                      ‚îÇ     ‚îú‚îÄ base = preprocess_image(...)
#          ‚îÇ                      ‚îÇ     ‚îú‚îÄ hi_contrast = preprocess_image(...)
#          ‚îÇ                      ‚îÇ     ‚îî‚îÄ up = resize+deblur+CLAHE+unsharp+threshold+deskew
#          ‚îÇ                      ‚îî‚îÄ best = pick_best_variant(variants)
#          ‚îÇ                         (usa _quality_scores: lap_var + edge_density + contrast)
#          ‚îÇ                ‚îî‚îÄ images_to_pdf(processed, tmp_preproc.pdf, dpi)
#          ‚îÇ
#          ‚îú‚îÄ src_for_api = tmp_preproc.pdf  (o pdf original si no hay preproc)
#          ‚îÇ
#          ‚îú‚îÄ uploaded = upload_pdf(src_for_api)     ‚Üí file_id
#          ‚îú‚îÄ text = transcribe_pdf_fileid(file_id)
#          ‚îÇ     ‚îú‚îÄ responses.create([
#          ‚îÇ     ‚îÇ     {"role": "system", "content": [{"type": "input_text", "text": SYSTEM_MSG}]},
#          ‚îÇ     ‚îÇ     {"role": "user", "content": [
#          ‚îÇ     ‚îÇ         {"type": "input_text", "text": PROMPT},
#          ‚îÇ     ‚îÇ         {"type": "input_file", "file_id": file_id}
#          ‚îÇ     ‚îÇ     ]}
#          ‚îÇ     ‚îÇ ])
#          ‚îÇ     ‚îî‚îÄ retry si corto/refusal ‚Üí prompt alternativo
#          ‚îÇ
#          ‚îú‚îÄ safe_write_text(out_txt, text)
#          ‚îÇ
#          ‚îî‚îÄ finally:
#                ‚îú‚îÄ client.files.delete(uploaded.id)    # limpia storage remoto
#                ‚îî‚îÄ if not KEEP_TEMP_FILES: borrar tmp_preproc.pdf
