# 📚 Transcripción Automática de Documentos Históricos

Este notebook transcribe documentos históricos del siglo XIX usando OCR y los limpia con IA.

**Proceso:** PDF → OCR → Limpieza con Gemini → Documento Word


### Requisitos previos:
- Python 3.11+
- Tesseract OCR instalado
- Poppler instalado
- Librerías Python: `pytesseract`, `pdf2image`, `Pillow`, `tqdm`



## 📦 Paso 1: Instalación de Dependencias

Esta celda instala todas las librerías necesarias para el proceso de transcripción OCR.


In [1]:
pip install -r requirements.txt

Collecting pytesseract>=0.3.10 (from -r requirements.txt (line 7))
  Downloading pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Note: you may need to restart the kernel to use updated packages.


ERROR: Ignored the following yanked versions: 1.13.0
ERROR: Could not find a version that satisfies the requirement pdf2image>=3.1.0 (from versions: 0.1.0, 0.1.1, 0.1.2, 0.1.3, 0.1.4, 0.1.5, 0.1.6, 0.1.7, 0.1.9, 0.1.10, 0.1.11, 0.1.12, 0.1.13, 0.1.14, 1.0.0, 1.1.0, 1.2.0, 1.2.1, 1.3.0, 1.3.1, 1.4.0, 1.4.1, 1.4.2, 1.5.0, 1.5.1, 1.5.2, 1.5.3, 1.5.4, 1.6.0, 1.7.0, 1.7.1, 1.8.0, 1.9.0, 1.10.0, 1.11.0, 1.12.1, 1.13.1, 1.14.0, 1.15.0, 1.15.1, 1.16.0, 1.16.2, 1.16.3, 1.17.0)
ERROR: No matching distribution found for pdf2image>=3.1.0


## 🔧 Paso 2: Código de Transcripción OCR

Esta celda contiene la función principal que:
- Convierte PDF a imágenes de alta calidad
- Aplica OCR con configuración optimizada para documentos históricos
- Procesa página por página con barra de progreso
- Genera archivo Markdown con el texto transcrito


In [4]:
%pip install pytesseract pdf2image Pillow tqdm google-generativeai python-docx

Collecting pytesseract
  Using cached pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Collecting pdf2image
  Downloading pdf2image-1.17.0-py3-none-any.whl.metadata (6.2 kB)
Collecting Pillow
  Downloading pillow-12.0.0-cp311-cp311-win_amd64.whl.metadata (9.0 kB)
Collecting tqdm
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Collecting google-generativeai
  Downloading google_generativeai-0.8.5-py3-none-any.whl.metadata (3.9 kB)
Collecting python-docx
  Downloading python_docx-1.2.0-py3-none-any.whl.metadata (2.0 kB)
Collecting google-ai-generativelanguage==0.6.15 (from google-generativeai)
  Downloading google_ai_generativelanguage-0.6.15-py3-none-any.whl.metadata (5.7 kB)
Collecting google-api-core (from google-generativeai)
  Downloading google_api_core-2.26.0-py3-none-any.whl.metadata (3.2 kB)
Collecting google-api-python-client (from google-generativeai)
  Downloading google_api_python_client-2.185.0-py3-none-any.whl.metadata (7.0 kB)
Collecting google-auth>=2.15.



In [None]:
# ==============================================================================
# CÓDIGO DE TRANSCRIPCIÓN PARA JUPYTER NOTEBOOK LOCAL
# ==============================================================================
import pdf2image
from pdf2image import convert_from_path
import pytesseract
import os
from tqdm import tqdm
import platform

# Configuración específica para Windows
if platform.system() == "Windows":
    # Configurar rutas de Tesseract y Poppler para Windows
    # Ajusta estas rutas según tu instalación
    pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
    
    # Configurar Poppler para Windows (ajusta la ruta según tu instalación)
    poppler_path = r'C:\poppler\bin'  # Cambia esta ruta si es diferente
    if os.path.exists(poppler_path):
        os.environ['PATH'] = poppler_path + os.pathsep + os.environ['PATH']

def transcribir_documento_simple(pdf_path, output_path, pagina_inicio=1, pagina_fin=None):
    """
    Versión simplificada sin configuraciones complejas que causan errores
    Optimizada para documentos históricos del siglo XIX
    """
    print("🔄 Convirtiendo PDF a imágenes...")

    try:
        # Para documentos históricos, usar DPI más alto para mejor calidad
        paginas = convert_from_path(pdf_path, dpi=300)
    except Exception as e:
        print(f"Intentando con DPI más bajo: {e}")
        try:
            paginas = convert_from_path(pdf_path, dpi=200)
        except Exception as e2:
            print(f"Intentando con DPI mínimo: {e2}")
            paginas = convert_from_path(pdf_path, dpi=150)

    # Seleccionar rango de páginas
    if pagina_fin:
        paginas = paginas[pagina_inicio-1:pagina_fin]
    else:
        paginas = paginas[pagina_inicio-1:]

    print(f"📖 Procesando {len(paginas)} páginas...")

    texto_completo = ""
    palabras_totales = 0

    # Procesar cada página
    for i, pagina in enumerate(tqdm(paginas, desc="🔍 OCR Simple")):
        pagina_num = pagina_inicio + i

        try:
            # Mejorar imagen para documentos históricos
            imagen_mejorada = pagina.convert('L')  # Escala de grises
            
            # Configuración específica para texto histórico
            config = '--psm 6 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789.,;:!?()[]{}"\'áéíóúñüÁÉÍÓÚÑÜ'

            # OCR con español y configuración optimizada
            texto_raw = pytesseract.image_to_string(imagen_mejorada, lang='spa', config=config)

            # Limpieza básica
            texto_limpio = texto_raw.strip()

            # Contar palabras
            palabras_pagina = len(texto_limpio.split())
            palabras_totales += palabras_pagina

            # Agregar al texto completo
            separador = "=" * 60
            texto_completo += f"{separador}\n"
            texto_completo += f"PÁGINA {pagina_num} ({palabras_pagina} palabras)\n"
            texto_completo += f"{separador}\n\n"
            texto_completo += texto_limpio + "\n\n"

            # Progreso cada 5 páginas para mejor seguimiento
            if (i + 1) % 5 == 0:
                print(f"📊 Progreso: {palabras_totales} palabras transcritas")

        except Exception as e:
            print(f"⚠️ Error en página {pagina_num}: {e}")
            texto_completo += f"--- ERROR EN PÁGINA {pagina_num} ---\n\n"

    # Guardar archivo
    header = f"""# TRANSCRIPCIÓN AUTOMÁTICA - DOCUMENTO HISTÓRICO

**Información del proceso:**
- Archivo fuente: {os.path.basename(pdf_path)}
- Páginas procesadas: {len(paginas)}
- Total de palabras: {palabras_totales:,}
- Fecha de transcripción: {os.popen('date').read().strip() if platform.system() != "Windows" else "Windows"}

---

"""

    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(header + texto_completo)

    print(f"\n✅ ¡Transcripción completada!")
    print(f"📄 Páginas: {len(paginas)}")
    print(f"📝 Palabras: {palabras_totales:,}")
    print(f"💾 Archivo: {output_path}")

    return texto_completo

✅ Todas las librerías instaladas correctamente


## ⚙️ Paso 3: Configuración Local

Esta celda configura las rutas específicas para tu entorno Windows y verifica que:
- El archivo PDF existe
- Tesseract está instalado correctamente
- El idioma español está disponible


In [None]:
# ==============================================================================
# CONFIGURACIÓN PARA TU ENTORNO LOCAL
# ==============================================================================

# Rutas específicas para tu proyecto
PDF_PATH = r'C:\Users\VALENTINALINARES\Downloads\transcripcion-historica\45 DER 1322.pdf'
OUTPUT_PATH = r'C:\Users\VALENTINALINARES\Downloads\transcripcion-historica\transcripcion_simple.md'

# Verificar que el archivo PDF existe
if os.path.exists(PDF_PATH):
    print(f"✅ Archivo PDF encontrado: {PDF_PATH}")
    print(f"📁 Tamaño: {os.path.getsize(PDF_PATH) / (1024*1024):.2f} MB")
else:
    print(f"❌ Archivo PDF no encontrado: {PDF_PATH}")
    print("📝 Verifica que el archivo esté en la ubicación correcta")

# Verificar configuración de Tesseract
try:
    version = pytesseract.get_tesseract_version()
    print(f"✅ Tesseract versión: {version}")
except Exception as e:
    print(f"⚠️ Error con Tesseract: {e}")
    print("💡 Asegúrate de tener Tesseract instalado y configurado correctamente")

# Verificar idiomas disponibles
try:
    langs = pytesseract.get_languages()
    if 'spa' in langs:
        print("✅ Español (spa) disponible en Tesseract")
    else:
        print("⚠️ Español no disponible, usando inglés")
except Exception as e:
    print(f"⚠️ Error verificando idiomas: {e}")

print("\n🚀 Listo para transcribir el documento histórico del siglo XIX")


✅ Archivo PDF encontrado: C:\Users\VALENTINALINARES\Downloads\vidaurre\45 DER 1322.pdf
📁 Tamaño: 71.08 MB
✅ Tesseract versión: 5.5.0.20241111
✅ Español (spa) disponible en Tesseract

🚀 Listo para transcribir el documento histórico del siglo XIX


## 🚀 Paso 4: Ejecutar Transcripción

Esta celda ejecuta la transcripción OCR del documento histórico. El proceso puede tomar varios minutos dependiendo del tamaño del PDF.


In [13]:
# ==============================================================================
# EJECUTAR TRANSCRIPCIÓN
# ==============================================================================

# Ejecutar la transcripción del documento histórico
print("🎯 Iniciando transcripción del documento del siglo XIX...")
print("⏱️ Este proceso puede tomar varios minutos dependiendo del tamaño del PDF")

# Ejecutar transcripción
texto_transcrito = transcribir_documento_simple(PDF_PATH, OUTPUT_PATH)

print("\n🎉 ¡Transcripción completada exitosamente!")
print(f"📄 El archivo se guardó en: {OUTPUT_PATH}")
print("\n💡 Consejos para revisar la transcripción:")
print("   - Revisa caracteres especiales que puedan haberse mal interpretado")
print("   - Verifica nombres propios y fechas")
print("   - Corrige palabras que puedan tener errores de OCR")


🎯 Iniciando transcripción del documento del siglo XIX...
⏱️ Este proceso puede tomar varios minutos dependiendo del tamaño del PDF
🔄 Convirtiendo PDF a imágenes...
📖 Procesando 201 páginas...


🔍 OCR Simple:   2%|▏         | 5/201 [00:11<08:49,  2.70s/it]

📊 Progreso: 307 palabras transcritas


🔍 OCR Simple:   5%|▍         | 10/201 [00:29<10:48,  3.40s/it]

📊 Progreso: 676 palabras transcritas


🔍 OCR Simple:   7%|▋         | 15/201 [00:45<10:02,  3.24s/it]

📊 Progreso: 1049 palabras transcritas


🔍 OCR Simple:  10%|▉         | 20/201 [01:02<09:43,  3.23s/it]

📊 Progreso: 1484 palabras transcritas


🔍 OCR Simple:  12%|█▏        | 25/201 [01:18<09:23,  3.20s/it]

📊 Progreso: 1855 palabras transcritas


🔍 OCR Simple:  15%|█▍        | 30/201 [01:34<09:08,  3.21s/it]

📊 Progreso: 2235 palabras transcritas


🔍 OCR Simple:  17%|█▋        | 35/201 [01:51<09:16,  3.35s/it]

📊 Progreso: 2514 palabras transcritas


🔍 OCR Simple:  20%|█▉        | 40/201 [02:09<09:17,  3.46s/it]

📊 Progreso: 2959 palabras transcritas


🔍 OCR Simple:  22%|██▏       | 45/201 [02:24<07:41,  2.96s/it]

📊 Progreso: 3269 palabras transcritas


🔍 OCR Simple:  25%|██▍       | 50/201 [02:39<07:35,  3.01s/it]

📊 Progreso: 3590 palabras transcritas


🔍 OCR Simple:  27%|██▋       | 55/201 [02:55<07:41,  3.16s/it]

📊 Progreso: 3927 palabras transcritas


🔍 OCR Simple:  30%|██▉       | 60/201 [03:10<07:15,  3.09s/it]

📊 Progreso: 4345 palabras transcritas


🔍 OCR Simple:  32%|███▏      | 65/201 [03:27<07:33,  3.34s/it]

📊 Progreso: 4710 palabras transcritas


🔍 OCR Simple:  35%|███▍      | 70/201 [03:43<07:09,  3.28s/it]

📊 Progreso: 5145 palabras transcritas


🔍 OCR Simple:  37%|███▋      | 75/201 [04:00<07:03,  3.36s/it]

📊 Progreso: 5512 palabras transcritas


🔍 OCR Simple:  40%|███▉      | 80/201 [04:17<06:57,  3.45s/it]

📊 Progreso: 5875 palabras transcritas


🔍 OCR Simple:  42%|████▏     | 85/201 [04:34<06:20,  3.28s/it]

📊 Progreso: 6290 palabras transcritas


🔍 OCR Simple:  45%|████▍     | 90/201 [04:50<05:55,  3.21s/it]

📊 Progreso: 6689 palabras transcritas


🔍 OCR Simple:  47%|████▋     | 95/201 [05:08<06:27,  3.66s/it]

📊 Progreso: 7134 palabras transcritas


🔍 OCR Simple:  50%|████▉     | 100/201 [05:23<05:13,  3.10s/it]

📊 Progreso: 7489 palabras transcritas


🔍 OCR Simple:  52%|█████▏    | 105/201 [05:38<04:50,  3.03s/it]

📊 Progreso: 7862 palabras transcritas


🔍 OCR Simple:  55%|█████▍    | 110/201 [05:54<04:43,  3.12s/it]

📊 Progreso: 8269 palabras transcritas


🔍 OCR Simple:  57%|█████▋    | 115/201 [06:11<04:53,  3.42s/it]

📊 Progreso: 8624 palabras transcritas


🔍 OCR Simple:  60%|█████▉    | 120/201 [06:28<04:42,  3.48s/it]

📊 Progreso: 9004 palabras transcritas


🔍 OCR Simple:  62%|██████▏   | 125/201 [06:45<04:14,  3.34s/it]

📊 Progreso: 9383 palabras transcritas


🔍 OCR Simple:  65%|██████▍   | 130/201 [07:01<03:55,  3.32s/it]

📊 Progreso: 9741 palabras transcritas


🔍 OCR Simple:  67%|██████▋   | 135/201 [07:19<03:45,  3.41s/it]

📊 Progreso: 10087 palabras transcritas


🔍 OCR Simple:  70%|██████▉   | 140/201 [07:35<03:24,  3.34s/it]

📊 Progreso: 10456 palabras transcritas


🔍 OCR Simple:  72%|███████▏  | 145/201 [07:52<03:03,  3.28s/it]

📊 Progreso: 10772 palabras transcritas


🔍 OCR Simple:  75%|███████▍  | 150/201 [08:09<02:49,  3.33s/it]

📊 Progreso: 11202 palabras transcritas


🔍 OCR Simple:  77%|███████▋  | 155/201 [08:26<02:40,  3.49s/it]

📊 Progreso: 11608 palabras transcritas


🔍 OCR Simple:  80%|███████▉  | 160/201 [08:43<02:21,  3.45s/it]

📊 Progreso: 12043 palabras transcritas


🔍 OCR Simple:  82%|████████▏ | 165/201 [09:00<01:59,  3.32s/it]

📊 Progreso: 12410 palabras transcritas


🔍 OCR Simple:  85%|████████▍ | 170/201 [09:17<01:45,  3.39s/it]

📊 Progreso: 12832 palabras transcritas


🔍 OCR Simple:  87%|████████▋ | 175/201 [09:34<01:27,  3.38s/it]

📊 Progreso: 13241 palabras transcritas


🔍 OCR Simple:  90%|████████▉ | 180/201 [09:50<01:11,  3.41s/it]

📊 Progreso: 13647 palabras transcritas


🔍 OCR Simple:  92%|█████████▏| 185/201 [10:07<00:54,  3.39s/it]

📊 Progreso: 14058 palabras transcritas


🔍 OCR Simple:  95%|█████████▍| 190/201 [10:26<00:41,  3.77s/it]

📊 Progreso: 14524 palabras transcritas


🔍 OCR Simple:  97%|█████████▋| 195/201 [10:41<00:19,  3.20s/it]

📊 Progreso: 14851 palabras transcritas


🔍 OCR Simple: 100%|█████████▉| 200/201 [10:54<00:02,  2.60s/it]

📊 Progreso: 15214 palabras transcritas


🔍 OCR Simple: 100%|██████████| 201/201 [10:56<00:00,  3.26s/it]



✅ ¡Transcripción completada!
📄 Páginas: 201
📝 Palabras: 15,272
💾 Archivo: C:\Users\VALENTINALINARES\Downloads\vidaurre\transcripcion_simple.md

🎉 ¡Transcripción completada exitosamente!
📄 El archivo se guardó en: C:\Users\VALENTINALINARES\Downloads\vidaurre\transcripcion_simple.md

💡 Consejos para revisar la transcripción:
   - Revisa caracteres especiales que puedan haberse mal interpretado
   - Verifica nombres propios y fechas
   - Corrige palabras que puedan tener errores de OCR


## 🤖 Paso 5: Limpieza con Gemini AI

Esta celda configura Gemini AI para limpiar y corregir los errores de OCR:
- Instala dependencias adicionales (google-generativeai, python-docx)
- Configura la API de Gemini
- Define función de limpieza optimizada para documentos históricos


In [13]:
# ==============================================================================
# CONFIGURACIÓN AUTOMÁTICA DE GEMINI CON MODELOS ACTUALES
# ==============================================================================

# Lista de modelos actualizados basada en tu cuenta (orden de preferencia)
MODELOS_GEMINI = [
    'models/gemini-2.5-flash',           # Más rápido, ideal para muchas páginas
    'models/gemini-2.5-pro',             # Más preciso, ideal para documentos históricos
    'models/gemini-flash-latest',         # Siempre la versión más reciente
    'models/gemini-pro-latest',           # Versión estable más reciente
    'models/gemini-2.0-flash',           # Alternativa estable
    'models/gemini-2.0-flash-001',       # Versión específica estable
    'models/gemini-2.5-flash-lite',      # Versión ligera
    'models/gemini-2.0-flash-lite'       # Alternativa ligera
]

# Función para probar modelos automáticamente
def configurar_gemini_automatico():
    """
    Prueba diferentes modelos de Gemini hasta encontrar uno que funcione
    """
    genai.configure(api_key=API_KEY)
    
    print("🔍 Probando modelos de Gemini disponibles...")
    
    for modelo in MODELOS_GEMINI:
        try:
            print(f"   Probando: {modelo}")
            model = genai.GenerativeModel(modelo)
            
            # Prueba simple para verificar que funciona
            test_response = model.generate_content("Hola, ¿funcionas?")
            
            if test_response.text:
                print(f"✅ Gemini configurado correctamente con modelo: {modelo}")
                return model, modelo
            else:
                print(f"⚠️ {modelo}: Sin respuesta")
                
        except Exception as e:
            error_msg = str(e).lower()
            if "not found" in error_msg or "not supported" in error_msg:
                print(f"❌ {modelo}: No disponible")
            elif "quota" in error_msg or "429" in error_msg:
                print(f"⚠️ {modelo}: Cuota excedida")
            else:
                print(f"❌ {modelo}: Error - {str(e)[:50]}...")
    
    # Si ningún modelo funciona, usar el modelo ya configurado del diagnóstico
    print("⚠️ Usando modelo configurado en diagnóstico anterior...")
    try:
        model = genai.GenerativeModel('models/gemini-2.5-pro-preview-03-25')
        test_response = model.generate_content("Hola, ¿funcionas?")
        if test_response.text:
            print("✅ Usando modelo del diagnóstico: models/gemini-2.5-pro-preview-03-25")
            return model, 'models/gemini-2.5-pro-preview-03-25'
    except Exception as e:
        print(f"❌ Error con modelo del diagnóstico: {e}")
    
    # Si todo falla
    print("❌ Ningún modelo de Gemini está disponible")
    print("💡 Verifica tu API key y conexión a internet")
    raise SystemExit("No se pudo configurar Gemini")

# Configurar Gemini automáticamente
try:
    model, modelo_activo = configurar_gemini_automatico()
    print(f"\n🎯 Usando modelo: {modelo_activo}")
    print("🚀 Listo para procesar el documento histórico")
except SystemExit:
    print("🚫 No se puede continuar sin Gemini")
    raise


🔍 Probando modelos de Gemini disponibles...
   Probando: models/gemini-2.5-flash
✅ Gemini configurado correctamente con modelo: models/gemini-2.5-flash

🎯 Usando modelo: models/gemini-2.5-flash
🚀 Listo para procesar el documento histórico


## 📝 Paso 6: Funciones Auxiliares

Esta celda contiene funciones adicionales para:
- Crear documentos Word profesionales
- Procesar el documento completo con Gemini
- Manejar errores y guardar progreso temporal


In [16]:
# =======================================================================
# FUNCIÓN LIMPIAR TEXTO CON GEMINI
# =======================================================================

def limpiar_texto_con_gemini(pagina, num):
    """
    Envía una página de texto OCR a Gemini para limpiarla y corregir errores.
    Maneja errores, recortes largos y reintentos automáticos.
    """
    print(f"🧠 Enviando página {num} a Gemini...")

    # Limpiar caracteres no imprimibles y limitar longitud
    pagina = re.sub(r'[^\x00-\x7F]+', ' ', pagina)
    if len(pagina) > 6000:
        pagina = pagina[:6000] + "\n\n[Texto recortado por límite de tokens]"

    prompt = (
        "Eres un asistente experto en paleografía digital. "
        "Limpia y corrige errores de OCR en el siguiente texto histórico. "
        "No cambies el contenido original ni su estructura.\n\n"
        f"TEXTO PÁGINA {num}:\n{pagina}"
    )

    for intento in range(2):  # Dos intentos
        try:
            response = model.generate_content(prompt)
            texto = response.text.strip()
            print(f"✅ Página {num} procesada.")
            return texto
        except Exception as e:
            print(f"⚠️ Error en página {num}, intento {intento+1}: {e}")
            time.sleep(2)

    return f"[Error al procesar página {num}]"

# ==============================================================================
# FUNCIÓN PARA CREAR DOCUMENTO WORD
# ==============================================================================

def crear_documento_word(contenido_md, archivo_word):
    """
    Convierte el markdown limpio a un documento Word profesional
    """
    print("📝 Creando documento Word...")

    doc = Document()

    # Configurar márgenes
    sections = doc.sections
    for section in sections:
        section.top_margin = Inches(1)
        section.bottom_margin = Inches(1)
        section.left_margin = Inches(1.25)
        section.right_margin = Inches(1.25)

    # Título principal
    titulo = doc.add_heading('DOCUMENTO HISTÓRICO - SIGLO XIX', 0)
    titulo.alignment = WD_ALIGN_PARAGRAPH.CENTER

    # Subtítulo
    subtitulo = doc.add_heading('Transcripción Digital Limpia con IA', level=1)
    subtitulo.alignment = WD_ALIGN_PARAGRAPH.CENTER

    # Línea separadora
    doc.add_paragraph("─" * 80).alignment = WD_ALIGN_PARAGRAPH.CENTER
    doc.add_paragraph()

    # Procesar contenido página por página
    secciones = contenido_md.split('## PÁGINA')

    for i, seccion in enumerate(secciones[1:], 1):
        # Título de página
        doc.add_heading(f'PÁGINA {i}', level=2)

        # Extraer contenido
        lineas = seccion.split('\n')
        contenido_pagina = []

        for linea in lineas[1:]:
            linea = linea.strip()
            if linea and linea != '---':
                contenido_pagina.append(linea)

        # Agregar párrafos
        texto_completo = '\n'.join(contenido_pagina)
        parrafos = texto_completo.split('\n\n')

        for parrafo in parrafos:
            parrafo = parrafo.strip()
            if parrafo and not parrafo.startswith('['):
                doc.add_paragraph(parrafo)

        # Salto de página cada 5 páginas
        if i % 5 == 0 and i < len(secciones) - 1:
            doc.add_page_break()

    # Guardar
    doc.save(archivo_word)
    print(f"✅ Word creado: {archivo_word}")

# ==============================================================================
# PROCESADOR PRINCIPAL
# ==============================================================================

def procesar_documento_completo(archivo_md_path, archivo_salida_path):
    """
    Procesa todo el documento con Gemini
    """
    print("📖 Leyendo archivo OCR...")

    # Verificar archivo
    if not os.path.exists(archivo_md_path):
        print(f"❌ Archivo no encontrado: {archivo_md_path}")
        print("🔍 Buscando en directorios cercanos...")

        # Intentar rutas alternativas
        rutas_alternativas = [
            archivo_md_path.replace('2025_1_cursos_uni', '2025_cursos_uni'),
            archivo_md_path.replace('2025_cursos_uni', '2025_1_cursos_uni'),
        ]

        for ruta in rutas_alternativas:
            if os.path.exists(ruta):
                print(f"✅ Encontrado en: {ruta}")
                archivo_md_path = ruta
                break
        else:
            # Listar archivos disponibles
            directorio = os.path.dirname(archivo_md_path)
            if os.path.exists(directorio):
                print(f"\n📁 Archivos en {directorio}:")
                for arch in os.listdir(directorio):
                    if arch.endswith('.md'):
                        print(f"  - {arch}")
            return

    # Leer archivo
    try:
        with open(archivo_md_path, 'r', encoding='utf-8') as f:
            contenido = f.read()
    except Exception as e:
        print(f"❌ Error leyendo archivo: {e}")
        return

    # Dividir por páginas (buscar separadores)
    patrones = [
        r'={60}',  # 60 signos igual
        r'-{60}',  # 60 guiones
        r'PÁGINA \d+',  # Texto "PÁGINA N"
    ]

    paginas = [contenido]
    for patron in patrones:
        nuevas = []
        for pag in paginas:
            nuevas.extend(re.split(patron, pag))
        paginas = nuevas

    # Filtrar páginas válidas
    paginas = [p.strip() for p in paginas if len(p.strip()) > 100]

    print(f"📄 Páginas detectadas: {len(paginas)}")

    # Crear documento limpio
    documento_limpio = f"""# DOCUMENTO HISTÓRICO - SIGLO XIX
## TRANSCRIPCIÓN LIMPIA Y ESTRUCTURADA

*Procesado: {time.strftime('%d/%m/%Y %H:%M')}*
*Total páginas: {len(paginas)}*

---

"""

    exitosas = 0
    errores = 0

    # Procesar cada página
    for i, pagina in enumerate(tqdm(paginas, desc="🧹 Limpiando")):
        num = i + 1

        # Limpiar con Gemini
        limpio = limpiar_texto_con_gemini(pagina, num)

        if limpio.startswith('['):
            errores += 1
        else:
            exitosas += 1

        # Agregar al documento
        documento_limpio += f"\n\n## PÁGINA {num}\n\n{limpio}\n\n---\n"

        # Ajustar pausa según tasa de error
        if errores > exitosas * 0.3:  # Si >30% errores
            time.sleep(3)
        else:
            time.sleep(1.5)

        # Guardar progreso cada 20 páginas
        if num % 20 == 0:
            temp = archivo_salida_path.replace('.md', f'_temp_{num}.md')
            try:
                with open(temp, 'w', encoding='utf-8') as f:
                    f.write(documento_limpio)
                print(f"💾 Guardado temporal: {num}/{len(paginas)} páginas")
            except Exception as e:
                print(f"⚠️ Error guardando temporal: {e}")

    # Guardar final
    try:
        with open(archivo_salida_path, 'w', encoding='utf-8') as f:
            f.write(documento_limpio)
        print(f"✅ Markdown guardado: {archivo_salida_path}")

        # Crear Word
        word = archivo_salida_path.replace('.md', '.docx')
        crear_documento_word(documento_limpio, word)

    except Exception as e:
        print(f"❌ Error guardando: {e}")
        return

    # Estadísticas
    print(f"\n📊 RESUMEN:")
    print(f"📄 Total: {len(paginas)} páginas")
    print(f"✅ Exitosas: {exitosas} ({exitosas/len(paginas)*100:.1f}%)")
    print(f"❌ Errores: {errores} ({errores/len(paginas)*100:.1f}%)")
    print(f"📁 Archivos:")
    print(f"   📄 {archivo_salida_path}")
    print(f"   📝 {word}")


## 🎯 Paso 7: Ejecutar Limpieza Final

Esta celda ejecuta el proceso completo de limpieza:
- Verifica que existe el archivo de transcripción OCR
- Procesa cada página con Gemini AI
- Genera archivo Markdown limpio y documento Word
- Muestra estadísticas del proceso


In [None]:
# ==============================================================================
# EJECUTAR LIMPIEZA CON GEMINI
# ==============================================================================

# Rutas específicas para tu entorno local
ARCHIVO_ORIGINAL = r'C:\Users\VALENTINALINARES\Downloads\transcripcion-historica\transcripcion_simple.md'
ARCHIVO_LIMPIO = r'C:\Users\VALENTINALINARES\Downloads\transcripcion-historica\documento_limpio_gemini.md'

print("🚀 Iniciando limpieza con Gemini AI...")
print("⏱️ Tiempo estimado: 10-20 minutos")
print("💡 Este proceso corregirá errores de OCR y organizará el texto")
print()

# Verificar que existe el archivo de transcripción original
if os.path.exists(ARCHIVO_ORIGINAL):
    print(f"✅ Archivo de transcripción encontrado: {ARCHIVO_ORIGINAL}")
    print(f"📁 Tamaño: {os.path.getsize(ARCHIVO_ORIGINAL) / (1024*1024):.2f} MB")
else:
    print(f"❌ Archivo de transcripción no encontrado: {ARCHIVO_ORIGINAL}")
    print("📝 Asegúrate de haber ejecutado primero la transcripción OCR")
    print("🔍 Archivos disponibles en el directorio:")
    directorio = r'C:\Users\VALENTINALINARES\Downloads\transcripcion-historica'
    if os.path.exists(directorio):
        for arch in os.listdir(directorio):
            if arch.endswith('.md'):
                print(f"  - {arch}")

# Ejecutar procesamiento
if os.path.exists(ARCHIVO_ORIGINAL):
    procesar_documento_completo(ARCHIVO_ORIGINAL, ARCHIVO_LIMPIO)
    
    print("\n🎉 ¡Proceso de limpieza completado!")
    print("\n💡 Resultados:")
    print("   📄 Markdown limpio: documento_limpio_gemini.md")
    print("   📝 Documento Word: documento_limpio_gemini.docx")
    print("\n🔍 Revisa los archivos generados para verificar la calidad")


🚀 Iniciando limpieza con Gemini AI...
⏱️ Tiempo estimado: 10-20 minutos
💡 Este proceso corregirá errores de OCR y organizará el texto

✅ Archivo de transcripción encontrado: C:\Users\VALENTINALINARES\Downloads\vidaurre\transcripcion_simple.md
📁 Tamaño: 0.41 MB
📖 Leyendo archivo OCR...
📄 Páginas detectadas: 202


🧹 Limpiando:   0%|          | 0/202 [00:00<?, ?it/s]

🧠 Enviando página 1 a Gemini...
✅ Página 1 procesada.


🧹 Limpiando:   0%|          | 1/202 [00:15<51:30, 15.37s/it]

🧠 Enviando página 2 a Gemini...
✅ Página 2 procesada.


🧹 Limpiando:   1%|          | 2/202 [00:50<1:30:26, 27.13s/it]

🧠 Enviando página 3 a Gemini...
✅ Página 3 procesada.


🧹 Limpiando:   1%|▏         | 3/202 [01:20<1:34:39, 28.54s/it]

🧠 Enviando página 4 a Gemini...
✅ Página 4 procesada.


🧹 Limpiando:   2%|▏         | 4/202 [02:00<1:48:50, 32.98s/it]

🧠 Enviando página 5 a Gemini...
✅ Página 5 procesada.


🧹 Limpiando:   2%|▏         | 5/202 [02:36<1:51:35, 33.98s/it]

🧠 Enviando página 6 a Gemini...
✅ Página 6 procesada.


🧹 Limpiando:   3%|▎         | 6/202 [03:27<2:10:06, 39.83s/it]

🧠 Enviando página 7 a Gemini...
✅ Página 7 procesada.


🧹 Limpiando:   3%|▎         | 7/202 [04:20<2:23:18, 44.10s/it]

🧠 Enviando página 8 a Gemini...
✅ Página 8 procesada.


🧹 Limpiando:   4%|▍         | 8/202 [05:02<2:20:10, 43.36s/it]

🧠 Enviando página 9 a Gemini...
✅ Página 9 procesada.


🧹 Limpiando:   4%|▍         | 9/202 [05:46<2:20:31, 43.69s/it]

🧠 Enviando página 10 a Gemini...
✅ Página 10 procesada.


🧹 Limpiando:   5%|▍         | 10/202 [07:17<3:05:54, 58.10s/it]

🧠 Enviando página 11 a Gemini...
✅ Página 11 procesada.


🧹 Limpiando:   5%|▌         | 11/202 [07:53<2:43:45, 51.44s/it]

🧠 Enviando página 12 a Gemini...
✅ Página 12 procesada.


🧹 Limpiando:   6%|▌         | 12/202 [08:48<2:46:44, 52.66s/it]

🧠 Enviando página 13 a Gemini...
✅ Página 13 procesada.


🧹 Limpiando:   6%|▋         | 13/202 [09:23<2:28:17, 47.08s/it]

🧠 Enviando página 14 a Gemini...
✅ Página 14 procesada.


🧹 Limpiando:   7%|▋         | 14/202 [10:35<2:51:46, 54.82s/it]

🧠 Enviando página 15 a Gemini...
✅ Página 15 procesada.


🧹 Limpiando:   7%|▋         | 15/202 [11:58<3:17:12, 63.28s/it]

🧠 Enviando página 16 a Gemini...
✅ Página 16 procesada.


🧹 Limpiando:   8%|▊         | 16/202 [13:06<3:20:21, 64.63s/it]

🧠 Enviando página 17 a Gemini...
✅ Página 17 procesada.


🧹 Limpiando:   8%|▊         | 17/202 [14:10<3:18:30, 64.38s/it]

🧠 Enviando página 18 a Gemini...
✅ Página 18 procesada.


🧹 Limpiando:   9%|▉         | 18/202 [15:08<3:11:59, 62.60s/it]

🧠 Enviando página 19 a Gemini...
✅ Página 19 procesada.


🧹 Limpiando:   9%|▉         | 19/202 [16:09<3:09:10, 62.02s/it]

🧠 Enviando página 20 a Gemini...
✅ Página 20 procesada.


🧹 Limpiando:  10%|▉         | 20/202 [17:23<3:19:19, 65.71s/it]

💾 Guardado temporal: 20/202 páginas
🧠 Enviando página 21 a Gemini...
✅ Página 21 procesada.


🧹 Limpiando:  10%|█         | 21/202 [18:29<3:18:12, 65.71s/it]

🧠 Enviando página 22 a Gemini...
✅ Página 22 procesada.


🧹 Limpiando:  11%|█         | 22/202 [19:31<3:13:47, 64.60s/it]

🧠 Enviando página 23 a Gemini...
✅ Página 23 procesada.


🧹 Limpiando:  11%|█▏        | 23/202 [20:31<3:08:17, 63.11s/it]

🧠 Enviando página 24 a Gemini...
✅ Página 24 procesada.


🧹 Limpiando:  12%|█▏        | 24/202 [21:43<3:15:09, 65.78s/it]

🧠 Enviando página 25 a Gemini...
✅ Página 25 procesada.


🧹 Limpiando:  12%|█▏        | 25/202 [22:38<3:04:25, 62.51s/it]

🧠 Enviando página 26 a Gemini...
✅ Página 26 procesada.


🧹 Limpiando:  13%|█▎        | 26/202 [23:26<2:50:55, 58.27s/it]

🧠 Enviando página 27 a Gemini...
✅ Página 27 procesada.


🧹 Limpiando:  13%|█▎        | 27/202 [24:26<2:51:15, 58.71s/it]

🧠 Enviando página 28 a Gemini...
✅ Página 28 procesada.


🧹 Limpiando:  14%|█▍        | 28/202 [25:58<3:19:07, 68.67s/it]

🧠 Enviando página 29 a Gemini...
✅ Página 29 procesada.


🧹 Limpiando:  14%|█▍        | 29/202 [26:48<3:02:31, 63.30s/it]

🧠 Enviando página 30 a Gemini...
✅ Página 30 procesada.


🧹 Limpiando:  15%|█▍        | 30/202 [27:56<3:05:29, 64.71s/it]

🧠 Enviando página 31 a Gemini...
✅ Página 31 procesada.


🧹 Limpiando:  15%|█▌        | 31/202 [29:14<3:15:29, 68.60s/it]

🧠 Enviando página 32 a Gemini...
✅ Página 32 procesada.


🧹 Limpiando:  16%|█▌        | 32/202 [30:23<3:14:25, 68.62s/it]

🧠 Enviando página 33 a Gemini...
✅ Página 33 procesada.


🧹 Limpiando:  16%|█▋        | 33/202 [30:51<2:39:16, 56.55s/it]

🧠 Enviando página 34 a Gemini...
✅ Página 34 procesada.


🧹 Limpiando:  17%|█▋        | 34/202 [31:56<2:45:05, 58.96s/it]

🧠 Enviando página 35 a Gemini...
✅ Página 35 procesada.


🧹 Limpiando:  17%|█▋        | 35/202 [32:46<2:37:00, 56.41s/it]

🧠 Enviando página 36 a Gemini...
✅ Página 36 procesada.


🧹 Limpiando:  18%|█▊        | 36/202 [33:52<2:44:18, 59.39s/it]

🧠 Enviando página 37 a Gemini...
✅ Página 37 procesada.


🧹 Limpiando:  18%|█▊        | 37/202 [35:11<2:58:53, 65.05s/it]

🧠 Enviando página 38 a Gemini...
✅ Página 38 procesada.


🧹 Limpiando:  19%|█▉        | 38/202 [35:50<2:36:28, 57.25s/it]

🧠 Enviando página 39 a Gemini...
✅ Página 39 procesada.


🧹 Limpiando:  19%|█▉        | 39/202 [36:37<2:27:09, 54.17s/it]

🧠 Enviando página 40 a Gemini...
✅ Página 40 procesada.


🧹 Limpiando:  20%|█▉        | 40/202 [37:23<2:20:03, 51.88s/it]

💾 Guardado temporal: 40/202 páginas
🧠 Enviando página 41 a Gemini...
✅ Página 41 procesada.


🧹 Limpiando:  20%|██        | 41/202 [38:24<2:26:13, 54.49s/it]

🧠 Enviando página 42 a Gemini...
✅ Página 42 procesada.


🧹 Limpiando:  21%|██        | 42/202 [39:02<2:12:10, 49.57s/it]

🧠 Enviando página 43 a Gemini...
✅ Página 43 procesada.


🧹 Limpiando:  21%|██▏       | 43/202 [39:45<2:06:32, 47.75s/it]

🧠 Enviando página 44 a Gemini...
✅ Página 44 procesada.


🧹 Limpiando:  22%|██▏       | 44/202 [40:44<2:14:07, 50.93s/it]

🧠 Enviando página 45 a Gemini...
✅ Página 45 procesada.


🧹 Limpiando:  22%|██▏       | 45/202 [41:33<2:11:47, 50.36s/it]

🧠 Enviando página 46 a Gemini...
✅ Página 46 procesada.


🧹 Limpiando:  23%|██▎       | 46/202 [42:42<2:25:47, 56.07s/it]

🧠 Enviando página 47 a Gemini...
✅ Página 47 procesada.


🧹 Limpiando:  23%|██▎       | 47/202 [43:15<2:07:06, 49.20s/it]

🧠 Enviando página 48 a Gemini...
✅ Página 48 procesada.


🧹 Limpiando:  24%|██▍       | 48/202 [44:06<2:07:42, 49.75s/it]

🧠 Enviando página 49 a Gemini...
✅ Página 49 procesada.


🧹 Limpiando:  24%|██▍       | 49/202 [45:04<2:13:12, 52.24s/it]

🧠 Enviando página 50 a Gemini...
✅ Página 50 procesada.


🧹 Limpiando:  25%|██▍       | 50/202 [46:17<2:27:36, 58.26s/it]

🧠 Enviando página 51 a Gemini...
✅ Página 51 procesada.


🧹 Limpiando:  25%|██▌       | 51/202 [47:17<2:27:56, 58.79s/it]

🧠 Enviando página 52 a Gemini...
✅ Página 52 procesada.


🧹 Limpiando:  26%|██▌       | 52/202 [48:02<2:17:06, 54.84s/it]

🧠 Enviando página 53 a Gemini...
✅ Página 53 procesada.


🧹 Limpiando:  26%|██▌       | 53/202 [48:49<2:10:19, 52.48s/it]

🧠 Enviando página 54 a Gemini...
✅ Página 54 procesada.


🧹 Limpiando:  27%|██▋       | 54/202 [49:34<2:03:56, 50.24s/it]

🧠 Enviando página 55 a Gemini...
✅ Página 55 procesada.


🧹 Limpiando:  27%|██▋       | 55/202 [50:25<2:03:09, 50.27s/it]

🧠 Enviando página 56 a Gemini...
✅ Página 56 procesada.


🧹 Limpiando:  28%|██▊       | 56/202 [51:27<2:11:04, 53.87s/it]

🧠 Enviando página 57 a Gemini...
✅ Página 57 procesada.


🧹 Limpiando:  28%|██▊       | 57/202 [52:24<2:12:44, 54.93s/it]

🧠 Enviando página 58 a Gemini...
✅ Página 58 procesada.


🧹 Limpiando:  29%|██▊       | 58/202 [53:20<2:12:36, 55.25s/it]

🧠 Enviando página 59 a Gemini...
✅ Página 59 procesada.


🧹 Limpiando:  29%|██▉       | 59/202 [54:23<2:17:14, 57.59s/it]

🧠 Enviando página 60 a Gemini...
✅ Página 60 procesada.


🧹 Limpiando:  30%|██▉       | 60/202 [55:03<2:03:17, 52.09s/it]

💾 Guardado temporal: 60/202 páginas
🧠 Enviando página 61 a Gemini...
✅ Página 61 procesada.


🧹 Limpiando:  30%|███       | 61/202 [56:09<2:12:44, 56.49s/it]

🧠 Enviando página 62 a Gemini...
✅ Página 62 procesada.


🧹 Limpiando:  31%|███       | 62/202 [57:03<2:10:00, 55.72s/it]

🧠 Enviando página 63 a Gemini...
✅ Página 63 procesada.


🧹 Limpiando:  31%|███       | 63/202 [57:36<1:52:41, 48.65s/it]

🧠 Enviando página 64 a Gemini...
✅ Página 64 procesada.


🧹 Limpiando:  32%|███▏      | 64/202 [58:19<1:48:09, 47.03s/it]

🧠 Enviando página 65 a Gemini...
✅ Página 65 procesada.


🧹 Limpiando:  32%|███▏      | 65/202 [59:11<1:50:54, 48.58s/it]

🧠 Enviando página 66 a Gemini...
✅ Página 66 procesada.


🧹 Limpiando:  33%|███▎      | 66/202 [59:54<1:46:34, 47.02s/it]

🧠 Enviando página 67 a Gemini...
✅ Página 67 procesada.


🧹 Limpiando:  33%|███▎      | 67/202 [1:00:50<1:51:52, 49.72s/it]

🧠 Enviando página 68 a Gemini...
✅ Página 68 procesada.


🧹 Limpiando:  34%|███▎      | 68/202 [1:01:24<1:40:12, 44.87s/it]

🧠 Enviando página 69 a Gemini...
✅ Página 69 procesada.


🧹 Limpiando:  34%|███▍      | 69/202 [1:02:20<1:46:36, 48.10s/it]

🧠 Enviando página 70 a Gemini...
✅ Página 70 procesada.


🧹 Limpiando:  35%|███▍      | 70/202 [1:03:09<1:47:00, 48.64s/it]

🧠 Enviando página 71 a Gemini...
✅ Página 71 procesada.


🧹 Limpiando:  35%|███▌      | 71/202 [1:03:55<1:44:28, 47.85s/it]

🧠 Enviando página 72 a Gemini...
✅ Página 72 procesada.


🧹 Limpiando:  36%|███▌      | 72/202 [1:04:55<1:50:56, 51.20s/it]

🧠 Enviando página 73 a Gemini...
✅ Página 73 procesada.


🧹 Limpiando:  36%|███▌      | 73/202 [1:06:03<2:01:00, 56.28s/it]

🧠 Enviando página 74 a Gemini...
✅ Página 74 procesada.


🧹 Limpiando:  37%|███▋      | 74/202 [1:06:35<1:44:43, 49.09s/it]

🧠 Enviando página 75 a Gemini...
✅ Página 75 procesada.


🧹 Limpiando:  37%|███▋      | 75/202 [1:07:24<1:44:06, 49.18s/it]

🧠 Enviando página 76 a Gemini...
✅ Página 76 procesada.


🧹 Limpiando:  38%|███▊      | 76/202 [1:08:35<1:56:34, 55.51s/it]

🧠 Enviando página 77 a Gemini...
✅ Página 77 procesada.


🧹 Limpiando:  38%|███▊      | 77/202 [1:09:49<2:07:35, 61.25s/it]

🧠 Enviando página 78 a Gemini...
✅ Página 78 procesada.


🧹 Limpiando:  39%|███▊      | 78/202 [1:10:57<2:10:48, 63.29s/it]

🧠 Enviando página 79 a Gemini...
✅ Página 79 procesada.


🧹 Limpiando:  39%|███▉      | 79/202 [1:11:25<1:47:38, 52.51s/it]

🧠 Enviando página 80 a Gemini...
✅ Página 80 procesada.


🧹 Limpiando:  40%|███▉      | 80/202 [1:12:29<1:53:57, 56.05s/it]

💾 Guardado temporal: 80/202 páginas
🧠 Enviando página 81 a Gemini...
✅ Página 81 procesada.


🧹 Limpiando:  40%|████      | 81/202 [1:13:27<1:54:03, 56.56s/it]

🧠 Enviando página 82 a Gemini...
✅ Página 82 procesada.


🧹 Limpiando:  41%|████      | 82/202 [1:14:14<1:47:45, 53.88s/it]

🧠 Enviando página 83 a Gemini...
✅ Página 83 procesada.


🧹 Limpiando:  41%|████      | 83/202 [1:15:06<1:45:14, 53.07s/it]

🧠 Enviando página 84 a Gemini...
✅ Página 84 procesada.


🧹 Limpiando:  42%|████▏     | 84/202 [1:16:19<1:56:36, 59.29s/it]

🧠 Enviando página 85 a Gemini...
✅ Página 85 procesada.


🧹 Limpiando:  42%|████▏     | 85/202 [1:16:53<1:40:43, 51.65s/it]

🧠 Enviando página 86 a Gemini...
✅ Página 86 procesada.


🧹 Limpiando:  43%|████▎     | 86/202 [1:17:37<1:35:24, 49.35s/it]

🧠 Enviando página 87 a Gemini...
✅ Página 87 procesada.


🧹 Limpiando:  43%|████▎     | 87/202 [1:18:30<1:36:25, 50.31s/it]

🧠 Enviando página 88 a Gemini...
✅ Página 88 procesada.


🧹 Limpiando:  44%|████▎     | 88/202 [1:19:19<1:34:59, 50.00s/it]

🧠 Enviando página 89 a Gemini...
✅ Página 89 procesada.


🧹 Limpiando:  44%|████▍     | 89/202 [1:20:26<1:43:43, 55.08s/it]

🧠 Enviando página 90 a Gemini...
✅ Página 90 procesada.


🧹 Limpiando:  45%|████▍     | 90/202 [1:21:41<1:54:12, 61.19s/it]

🧠 Enviando página 91 a Gemini...
✅ Página 91 procesada.


🧹 Limpiando:  45%|████▌     | 91/202 [1:23:05<2:05:41, 67.94s/it]

🧠 Enviando página 92 a Gemini...
✅ Página 92 procesada.


🧹 Limpiando:  46%|████▌     | 92/202 [1:23:42<1:47:32, 58.66s/it]

🧠 Enviando página 93 a Gemini...
✅ Página 93 procesada.


🧹 Limpiando:  46%|████▌     | 93/202 [1:24:38<1:44:53, 57.74s/it]

🧠 Enviando página 94 a Gemini...
✅ Página 94 procesada.


🧹 Limpiando:  47%|████▋     | 94/202 [1:25:06<1:27:56, 48.85s/it]

🧠 Enviando página 95 a Gemini...
✅ Página 95 procesada.


🧹 Limpiando:  47%|████▋     | 95/202 [1:25:31<1:14:43, 41.90s/it]

🧠 Enviando página 96 a Gemini...
✅ Página 96 procesada.


🧹 Limpiando:  48%|████▊     | 96/202 [1:26:38<1:26:54, 49.20s/it]

🧠 Enviando página 97 a Gemini...
✅ Página 97 procesada.


🧹 Limpiando:  48%|████▊     | 97/202 [1:27:32<1:29:02, 50.88s/it]

🧠 Enviando página 98 a Gemini...
✅ Página 98 procesada.


🧹 Limpiando:  49%|████▊     | 98/202 [1:28:18<1:25:24, 49.28s/it]

🧠 Enviando página 99 a Gemini...
✅ Página 99 procesada.


🧹 Limpiando:  49%|████▉     | 99/202 [1:29:12<1:26:55, 50.64s/it]

🧠 Enviando página 100 a Gemini...
✅ Página 100 procesada.


🧹 Limpiando:  50%|████▉     | 100/202 [1:30:27<1:38:29, 57.94s/it]

💾 Guardado temporal: 100/202 páginas
🧠 Enviando página 101 a Gemini...
✅ Página 101 procesada.


🧹 Limpiando:  50%|█████     | 101/202 [1:31:03<1:26:22, 51.32s/it]

🧠 Enviando página 102 a Gemini...
✅ Página 102 procesada.


🧹 Limpiando:  50%|█████     | 102/202 [1:31:30<1:13:33, 44.14s/it]

🧠 Enviando página 103 a Gemini...
✅ Página 103 procesada.


🧹 Limpiando:  51%|█████     | 103/202 [1:32:44<1:27:37, 53.11s/it]

🧠 Enviando página 104 a Gemini...
✅ Página 104 procesada.


🧹 Limpiando:  51%|█████▏    | 104/202 [1:33:42<1:29:07, 54.56s/it]

🧠 Enviando página 105 a Gemini...
✅ Página 105 procesada.


🧹 Limpiando:  52%|█████▏    | 105/202 [1:34:34<1:27:11, 53.94s/it]

🧠 Enviando página 106 a Gemini...
✅ Página 106 procesada.


🧹 Limpiando:  52%|█████▏    | 106/202 [1:35:02<1:13:49, 46.14s/it]

🧠 Enviando página 107 a Gemini...
✅ Página 107 procesada.


🧹 Limpiando:  53%|█████▎    | 107/202 [1:36:01<1:18:48, 49.78s/it]

🧠 Enviando página 108 a Gemini...
✅ Página 108 procesada.


🧹 Limpiando:  53%|█████▎    | 108/202 [1:36:35<1:10:39, 45.10s/it]

🧠 Enviando página 109 a Gemini...
✅ Página 109 procesada.


🧹 Limpiando:  54%|█████▍    | 109/202 [1:37:27<1:12:59, 47.10s/it]

🧠 Enviando página 110 a Gemini...
✅ Página 110 procesada.


🧹 Limpiando:  54%|█████▍    | 110/202 [1:38:25<1:17:13, 50.36s/it]

🧠 Enviando página 111 a Gemini...
✅ Página 111 procesada.


🧹 Limpiando:  55%|█████▍    | 111/202 [1:39:03<1:10:49, 46.70s/it]

🧠 Enviando página 112 a Gemini...
✅ Página 112 procesada.


🧹 Limpiando:  55%|█████▌    | 112/202 [1:39:39<1:05:32, 43.70s/it]

🧠 Enviando página 113 a Gemini...
✅ Página 113 procesada.


🧹 Limpiando:  56%|█████▌    | 113/202 [1:40:09<58:31, 39.46s/it]  

🧠 Enviando página 114 a Gemini...
✅ Página 114 procesada.


🧹 Limpiando:  56%|█████▋    | 114/202 [1:41:15<1:09:35, 47.45s/it]

🧠 Enviando página 115 a Gemini...
✅ Página 115 procesada.


🧹 Limpiando:  57%|█████▋    | 115/202 [1:41:56<1:05:59, 45.51s/it]

🧠 Enviando página 116 a Gemini...
✅ Página 116 procesada.


🧹 Limpiando:  57%|█████▋    | 116/202 [1:42:52<1:09:35, 48.55s/it]

🧠 Enviando página 117 a Gemini...
✅ Página 117 procesada.


🧹 Limpiando:  58%|█████▊    | 117/202 [1:43:54<1:14:26, 52.54s/it]

🧠 Enviando página 118 a Gemini...
✅ Página 118 procesada.


🧹 Limpiando:  58%|█████▊    | 118/202 [1:44:34<1:08:35, 48.99s/it]

🧠 Enviando página 119 a Gemini...
✅ Página 119 procesada.


🧹 Limpiando:  59%|█████▉    | 119/202 [1:45:48<1:18:07, 56.48s/it]

🧠 Enviando página 120 a Gemini...
✅ Página 120 procesada.


🧹 Limpiando:  59%|█████▉    | 120/202 [1:46:50<1:19:14, 57.99s/it]

💾 Guardado temporal: 120/202 páginas
🧠 Enviando página 121 a Gemini...
✅ Página 121 procesada.


🧹 Limpiando:  60%|█████▉    | 121/202 [1:47:28<1:10:23, 52.14s/it]

🧠 Enviando página 122 a Gemini...
✅ Página 122 procesada.


🧹 Limpiando:  60%|██████    | 122/202 [1:48:27<1:12:20, 54.25s/it]

🧠 Enviando página 123 a Gemini...
✅ Página 123 procesada.


🧹 Limpiando:  61%|██████    | 123/202 [1:49:07<1:05:47, 49.97s/it]

🧠 Enviando página 124 a Gemini...
✅ Página 124 procesada.


🧹 Limpiando:  61%|██████▏   | 124/202 [1:49:46<1:00:31, 46.55s/it]

🧠 Enviando página 125 a Gemini...
✅ Página 125 procesada.


🧹 Limpiando:  62%|██████▏   | 125/202 [1:50:37<1:01:17, 47.76s/it]

🧠 Enviando página 126 a Gemini...
✅ Página 126 procesada.


🧹 Limpiando:  62%|██████▏   | 126/202 [1:51:16<57:11, 45.15s/it]  

🧠 Enviando página 127 a Gemini...
✅ Página 127 procesada.


🧹 Limpiando:  63%|██████▎   | 127/202 [1:52:15<1:01:39, 49.32s/it]

🧠 Enviando página 128 a Gemini...
✅ Página 128 procesada.


🧹 Limpiando:  63%|██████▎   | 128/202 [1:52:47<54:39, 44.31s/it]  

🧠 Enviando página 129 a Gemini...
✅ Página 129 procesada.


🧹 Limpiando:  64%|██████▍   | 129/202 [1:53:23<50:48, 41.76s/it]

🧠 Enviando página 130 a Gemini...
✅ Página 130 procesada.


🧹 Limpiando:  64%|██████▍   | 130/202 [1:54:06<50:36, 42.17s/it]

🧠 Enviando página 131 a Gemini...
✅ Página 131 procesada.


🧹 Limpiando:  65%|██████▍   | 131/202 [1:54:40<47:00, 39.73s/it]

🧠 Enviando página 132 a Gemini...
✅ Página 132 procesada.


🧹 Limpiando:  65%|██████▌   | 132/202 [1:55:21<46:51, 40.17s/it]

🧠 Enviando página 133 a Gemini...
✅ Página 133 procesada.


🧹 Limpiando:  66%|██████▌   | 133/202 [1:56:07<48:11, 41.90s/it]

🧠 Enviando página 134 a Gemini...
✅ Página 134 procesada.


🧹 Limpiando:  66%|██████▋   | 134/202 [1:57:08<53:43, 47.40s/it]

🧠 Enviando página 135 a Gemini...
✅ Página 135 procesada.


🧹 Limpiando:  67%|██████▋   | 135/202 [1:57:51<51:39, 46.27s/it]

🧠 Enviando página 136 a Gemini...
✅ Página 136 procesada.


🧹 Limpiando:  67%|██████▋   | 136/202 [1:58:32<49:02, 44.59s/it]

🧠 Enviando página 137 a Gemini...
✅ Página 137 procesada.


🧹 Limpiando:  68%|██████▊   | 137/202 [1:59:01<43:24, 40.06s/it]

🧠 Enviando página 138 a Gemini...
✅ Página 138 procesada.


🧹 Limpiando:  68%|██████▊   | 138/202 [2:00:05<50:21, 47.21s/it]

🧠 Enviando página 139 a Gemini...
✅ Página 139 procesada.


🧹 Limpiando:  69%|██████▉   | 139/202 [2:01:05<53:21, 50.81s/it]

🧠 Enviando página 140 a Gemini...
✅ Página 140 procesada.


🧹 Limpiando:  69%|██████▉   | 140/202 [2:02:27<1:02:12, 60.19s/it]

💾 Guardado temporal: 140/202 páginas
🧠 Enviando página 141 a Gemini...
✅ Página 141 procesada.


🧹 Limpiando:  70%|██████▉   | 141/202 [2:03:13<56:50, 55.92s/it]  

🧠 Enviando página 142 a Gemini...
✅ Página 142 procesada.


🧹 Limpiando:  70%|███████   | 142/202 [2:03:58<52:46, 52.77s/it]

🧠 Enviando página 143 a Gemini...
✅ Página 143 procesada.


🧹 Limpiando:  71%|███████   | 143/202 [2:04:55<53:10, 54.08s/it]

🧠 Enviando página 144 a Gemini...
✅ Página 144 procesada.


🧹 Limpiando:  71%|███████▏  | 144/202 [2:05:20<43:53, 45.41s/it]

🧠 Enviando página 145 a Gemini...
✅ Página 145 procesada.


🧹 Limpiando:  72%|███████▏  | 145/202 [2:05:59<41:17, 43.47s/it]

🧠 Enviando página 146 a Gemini...
✅ Página 146 procesada.


🧹 Limpiando:  72%|███████▏  | 146/202 [2:06:58<44:47, 47.99s/it]

🧠 Enviando página 147 a Gemini...
✅ Página 147 procesada.


🧹 Limpiando:  73%|███████▎  | 147/202 [2:07:45<43:48, 47.78s/it]

🧠 Enviando página 148 a Gemini...
✅ Página 148 procesada.


🧹 Limpiando:  73%|███████▎  | 148/202 [2:08:26<41:09, 45.74s/it]

🧠 Enviando página 149 a Gemini...
✅ Página 149 procesada.


🧹 Limpiando:  74%|███████▍  | 149/202 [2:09:24<43:37, 49.39s/it]

🧠 Enviando página 150 a Gemini...
✅ Página 150 procesada.


🧹 Limpiando:  74%|███████▍  | 150/202 [2:10:07<41:12, 47.55s/it]

🧠 Enviando página 151 a Gemini...
✅ Página 151 procesada.


🧹 Limpiando:  75%|███████▍  | 151/202 [2:12:58<1:11:53, 84.57s/it]

🧠 Enviando página 152 a Gemini...
✅ Página 152 procesada.


🧹 Limpiando:  75%|███████▌  | 152/202 [2:14:08<1:06:47, 80.15s/it]

🧠 Enviando página 153 a Gemini...
✅ Página 153 procesada.


🧹 Limpiando:  76%|███████▌  | 153/202 [2:15:01<58:54, 72.14s/it]  

🧠 Enviando página 154 a Gemini...
✅ Página 154 procesada.


🧹 Limpiando:  76%|███████▌  | 154/202 [2:15:48<51:34, 64.48s/it]

🧠 Enviando página 155 a Gemini...
✅ Página 155 procesada.


🧹 Limpiando:  77%|███████▋  | 155/202 [2:16:30<45:06, 57.58s/it]

🧠 Enviando página 156 a Gemini...
✅ Página 156 procesada.


🧹 Limpiando:  77%|███████▋  | 156/202 [2:17:37<46:31, 60.68s/it]

🧠 Enviando página 157 a Gemini...
✅ Página 157 procesada.


🧹 Limpiando:  78%|███████▊  | 157/202 [2:18:45<46:56, 62.59s/it]

🧠 Enviando página 158 a Gemini...
✅ Página 158 procesada.


🧹 Limpiando:  78%|███████▊  | 158/202 [2:19:31<42:22, 57.79s/it]

🧠 Enviando página 159 a Gemini...
✅ Página 159 procesada.


🧹 Limpiando:  79%|███████▊  | 159/202 [2:20:30<41:39, 58.12s/it]

🧠 Enviando página 160 a Gemini...
✅ Página 160 procesada.


🧹 Limpiando:  79%|███████▉  | 160/202 [2:21:18<38:30, 55.02s/it]

💾 Guardado temporal: 160/202 páginas
🧠 Enviando página 161 a Gemini...
✅ Página 161 procesada.


🧹 Limpiando:  80%|███████▉  | 161/202 [2:22:20<39:08, 57.28s/it]

🧠 Enviando página 162 a Gemini...
✅ Página 162 procesada.


🧹 Limpiando:  80%|████████  | 162/202 [2:23:01<34:56, 52.42s/it]

🧠 Enviando página 163 a Gemini...
✅ Página 163 procesada.


🧹 Limpiando:  81%|████████  | 163/202 [2:23:44<32:10, 49.51s/it]

🧠 Enviando página 164 a Gemini...
✅ Página 164 procesada.


🧹 Limpiando:  81%|████████  | 164/202 [2:24:03<25:29, 40.26s/it]

🧠 Enviando página 165 a Gemini...
✅ Página 165 procesada.


🧹 Limpiando:  82%|████████▏ | 165/202 [2:24:55<26:58, 43.75s/it]

🧠 Enviando página 166 a Gemini...
✅ Página 166 procesada.


🧹 Limpiando:  82%|████████▏ | 166/202 [2:25:38<26:08, 43.56s/it]

🧠 Enviando página 167 a Gemini...
✅ Página 167 procesada.


🧹 Limpiando:  83%|████████▎ | 167/202 [2:26:44<29:24, 50.41s/it]

🧠 Enviando página 168 a Gemini...
✅ Página 168 procesada.


🧹 Limpiando:  83%|████████▎ | 168/202 [2:27:17<25:34, 45.12s/it]

🧠 Enviando página 169 a Gemini...
✅ Página 169 procesada.


🧹 Limpiando:  84%|████████▎ | 169/202 [2:28:23<28:15, 51.39s/it]

🧠 Enviando página 170 a Gemini...
✅ Página 170 procesada.


🧹 Limpiando:  84%|████████▍ | 170/202 [2:29:34<30:27, 57.12s/it]

🧠 Enviando página 171 a Gemini...
✅ Página 171 procesada.


🧹 Limpiando:  85%|████████▍ | 171/202 [2:30:23<28:22, 54.91s/it]

🧠 Enviando página 172 a Gemini...
✅ Página 172 procesada.


🧹 Limpiando:  85%|████████▌ | 172/202 [2:31:10<26:10, 52.34s/it]

🧠 Enviando página 173 a Gemini...
✅ Página 173 procesada.


🧹 Limpiando:  86%|████████▌ | 173/202 [2:32:22<28:15, 58.45s/it]

🧠 Enviando página 174 a Gemini...
✅ Página 174 procesada.


🧹 Limpiando:  86%|████████▌ | 174/202 [2:33:26<28:02, 60.09s/it]

🧠 Enviando página 175 a Gemini...
✅ Página 175 procesada.


🧹 Limpiando:  87%|████████▋ | 175/202 [2:34:50<30:10, 67.07s/it]

🧠 Enviando página 176 a Gemini...
✅ Página 176 procesada.


🧹 Limpiando:  87%|████████▋ | 176/202 [2:35:49<28:02, 64.71s/it]

🧠 Enviando página 177 a Gemini...
✅ Página 177 procesada.


🧹 Limpiando:  88%|████████▊ | 177/202 [2:36:30<24:02, 57.70s/it]

🧠 Enviando página 178 a Gemini...
✅ Página 178 procesada.


🧹 Limpiando:  88%|████████▊ | 178/202 [2:37:22<22:25, 56.07s/it]

🧠 Enviando página 179 a Gemini...
✅ Página 179 procesada.


🧹 Limpiando:  89%|████████▊ | 179/202 [2:38:02<19:36, 51.16s/it]

🧠 Enviando página 180 a Gemini...
✅ Página 180 procesada.


🧹 Limpiando:  89%|████████▉ | 180/202 [2:38:45<17:51, 48.73s/it]

💾 Guardado temporal: 180/202 páginas
🧠 Enviando página 181 a Gemini...
✅ Página 181 procesada.


🧹 Limpiando:  90%|████████▉ | 181/202 [2:40:09<20:42, 59.16s/it]

🧠 Enviando página 182 a Gemini...
✅ Página 182 procesada.


🧹 Limpiando:  90%|█████████ | 182/202 [2:42:30<27:55, 83.75s/it]

🧠 Enviando página 183 a Gemini...
✅ Página 183 procesada.


🧹 Limpiando:  91%|█████████ | 183/202 [2:43:59<27:01, 85.34s/it]

🧠 Enviando página 184 a Gemini...
✅ Página 184 procesada.


🧹 Limpiando:  91%|█████████ | 184/202 [2:44:59<23:20, 77.79s/it]

🧠 Enviando página 185 a Gemini...
✅ Página 185 procesada.


🧹 Limpiando:  92%|█████████▏| 185/202 [2:46:17<22:04, 77.91s/it]

🧠 Enviando página 186 a Gemini...
✅ Página 186 procesada.


🧹 Limpiando:  92%|█████████▏| 186/202 [2:47:19<19:29, 73.11s/it]

🧠 Enviando página 187 a Gemini...
✅ Página 187 procesada.


🧹 Limpiando:  93%|█████████▎| 187/202 [2:48:02<16:00, 64.02s/it]

🧠 Enviando página 188 a Gemini...
✅ Página 188 procesada.


🧹 Limpiando:  93%|█████████▎| 188/202 [2:48:38<12:59, 55.67s/it]

🧠 Enviando página 189 a Gemini...
✅ Página 189 procesada.


🧹 Limpiando:  94%|█████████▎| 189/202 [2:49:31<11:52, 54.78s/it]

🧠 Enviando página 190 a Gemini...
✅ Página 190 procesada.


🧹 Limpiando:  94%|█████████▍| 190/202 [2:50:15<10:20, 51.74s/it]

🧠 Enviando página 191 a Gemini...
✅ Página 191 procesada.


🧹 Limpiando:  95%|█████████▍| 191/202 [2:51:28<10:38, 58.08s/it]

🧠 Enviando página 192 a Gemini...
✅ Página 192 procesada.


🧹 Limpiando:  95%|█████████▌| 192/202 [2:52:44<10:32, 63.25s/it]

🧠 Enviando página 193 a Gemini...
✅ Página 193 procesada.


🧹 Limpiando:  96%|█████████▌| 193/202 [2:53:51<09:41, 64.62s/it]

🧠 Enviando página 194 a Gemini...
✅ Página 194 procesada.


🧹 Limpiando:  96%|█████████▌| 194/202 [2:54:39<07:56, 59.52s/it]

🧠 Enviando página 195 a Gemini...
✅ Página 195 procesada.


🧹 Limpiando:  97%|█████████▋| 195/202 [2:55:37<06:53, 59.07s/it]

🧠 Enviando página 196 a Gemini...
✅ Página 196 procesada.


🧹 Limpiando:  97%|█████████▋| 196/202 [2:56:19<05:23, 53.89s/it]

🧠 Enviando página 197 a Gemini...
✅ Página 197 procesada.


🧹 Limpiando:  98%|█████████▊| 197/202 [2:57:05<04:17, 51.51s/it]

🧠 Enviando página 198 a Gemini...
✅ Página 198 procesada.


🧹 Limpiando:  98%|█████████▊| 198/202 [2:57:39<03:05, 46.28s/it]

🧠 Enviando página 199 a Gemini...
✅ Página 199 procesada.


🧹 Limpiando:  99%|█████████▊| 199/202 [2:58:41<02:32, 50.94s/it]

🧠 Enviando página 200 a Gemini...
✅ Página 200 procesada.


🧹 Limpiando:  99%|█████████▉| 200/202 [2:59:25<01:38, 49.05s/it]

💾 Guardado temporal: 200/202 páginas
🧠 Enviando página 201 a Gemini...
✅ Página 201 procesada.


🧹 Limpiando: 100%|█████████▉| 201/202 [3:00:21<00:51, 51.16s/it]

🧠 Enviando página 202 a Gemini...
⚠️ Error en página 202, intento 1: 504 Deadline Exceeded
✅ Página 202 procesada.


🧹 Limpiando: 100%|██████████| 202/202 [3:12:04<00:00, 57.05s/it] 


✅ Markdown guardado: C:\Users\VALENTINALINARES\Downloads\vidaurre\documento_limpio_gemini.md
📝 Creando documento Word...
✅ Word creado: C:\Users\VALENTINALINARES\Downloads\vidaurre\documento_limpio_gemini.docx

📊 RESUMEN:
📄 Total: 202 páginas
✅ Exitosas: 202 (100.0%)
❌ Errores: 0 (0.0%)
📁 Archivos:
   📄 C:\Users\VALENTINALINARES\Downloads\vidaurre\documento_limpio_gemini.md
   📝 C:\Users\VALENTINALINARES\Downloads\vidaurre\documento_limpio_gemini.docx

🎉 ¡Proceso de limpieza completado!

💡 Resultados:
   📄 Markdown limpio: documento_limpio_gemini.md
   📝 Documento Word: documento_limpio_gemini.docx

🔍 Revisa los archivos generados para verificar la calidad
