In [5]:
# Preprocesamiento de datos - Guía de Embarazo y Parto 2023
# Paso 1: Eliminar las primeras 120 páginas del PDF

import PyPDF2
import os
from pathlib import Path

# Configuración de rutas
raw_data_path = Path("raw/guia_embarazo_parto_2023.pdf")
processed_data_path = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")

# Crear directorio processed si no existe
processed_data_path.parent.mkdir(parents=True, exist_ok=True)

print(f"Archivo original: {raw_data_path}")
print(f"Archivo procesado: {processed_data_path}")

# Verificar que el archivo original existe
if not raw_data_path.exists():
    print(f"Error: El archivo {raw_data_path} no existe")
else:
    print(f"Archivo encontrado. Tamaño: {raw_data_path.stat().st_size / (1024*1024):.2f} MB")
# Verificar que el archivo original existe
if not processed_data_path.exists():
    print(f"Error: El archivo {processed_data_path} no existe")
else:
    print(f"Archivo encontrado. Tamaño: {processed_data_path.stat().st_size / (1024*1024):.2f} MB")


Archivo original: raw\guia_embarazo_parto_2023.pdf
Archivo procesado: processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo encontrado. Tamaño: 3.54 MB
Error: El archivo processed\guia_embarazo_parto_2023_sin_intro.pdf no existe


In [6]:
# Función para eliminar las primeras 120 páginas del PDF
def remove_first_pages(input_path, output_path, pages_to_remove=120):
    """
    Elimina las primeras 'pages_to_remove' páginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF original
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove (int): Número de páginas a eliminar desde el inicio
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF original
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de páginas en el PDF original: {total_pages}")
            
            if pages_to_remove >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove} páginas, pero el PDF solo tiene {total_pages} páginas")
                return False
            
            # Agregar las páginas desde la página 'pages_to_remove' hasta el final
            pages_to_keep = total_pages - pages_to_remove
            print(f"Eliminando las primeras {pages_to_remove} páginas")
            print(f"Páginas que se mantendrán: {pages_to_keep}")
            
            for page_num in range(pages_to_remove, total_pages):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tamaño del archivo procesado: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [9]:
# Ejecutar el procesamiento para eliminar las primeras 120 páginas
print("=== INICIANDO PROCESAMIENTO DEL PDF ===")
print()

# Ejecutar la función
success = remove_first_pages(raw_data_path, processed_data_path, pages_to_remove=123)

if success:
    print()
    print("=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===")
    print(f"✅ Las primeras 120 páginas han sido eliminadas")
    print(f"✅ Archivo procesado disponible en: {processed_data_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO ===")
    print("❌ No se pudo completar el procesamiento del PDF")


=== INICIANDO PROCESAMIENTO DEL PDF ===

Total de páginas en el PDF original: 623
Eliminando las primeras 123 páginas
Páginas que se mantendrán: 500
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_sin_intro.pdf
Tamaño del archivo procesado: 2.53 MB

=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===
✅ Las primeras 120 páginas han sido eliminadas
✅ Archivo procesado disponible en: processed\guia_embarazo_parto_2023_sin_intro.pdf


In [None]:
# Verificación adicional del archivo procesado
print("=== VERIFICACIÓN DEL ARCHIVO PROCESADO ===")
print()

if processed_data_path.exists():
    # Verificar el nuevo PDF
    try:
        with open(processed_data_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            new_total_pages = len(pdf_reader.pages)
            file_size_mb = processed_data_path.stat().st_size / (1024*1024)
            
            print(f"📄 Páginas en el archivo procesado: {new_total_pages}")
            print(f"💾 Tamaño del archivo procesado: {file_size_mb:.2f} MB")
            print(f"📁 Ubicación: {processed_data_path.absolute()}")
            
            # Verificar que realmente se eliminaron 120 páginas
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                expected_pages = original_pages - 123
                
                print()
                print(f"📊 Comparación:")
                print(f"   • Páginas originales: {original_pages}")
                print(f"   • Páginas eliminadas: 120")
                print(f"   • Páginas esperadas: {expected_pages}")
                print(f"   • Páginas obtenidas: {new_total_pages}")
                
                if new_total_pages == expected_pages:
                    print("   ✅ ¡Verificación exitosa! El número de páginas es correcto.")
                else:
                    print("   ❌ Error: El número de páginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"❌ Error al verificar el archivo procesado: {str(e)}")
else:
    print("❌ El archivo procesado no existe. Algo salió mal en el procesamiento.")


=== VERIFICACIÓN DEL ARCHIVO PROCESADO ===

📄 Páginas en el archivo procesado: 500
💾 Tamaño del archivo procesado: 2.53 MB
📁 Ubicación: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_sin_intro.pdf

📊 Comparación:
   • Páginas originales: 623
   • Páginas eliminadas: 120
   • Páginas esperadas: 503
   • Páginas obtenidas: 500
   ❌ Error: El número de páginas no coincide con lo esperado.


In [11]:
# Paso 2: Eliminar las últimas 98 páginas del PDF ya procesado
print("=== PASO 2: ELIMINAR ÚLTIMAS 98 PÁGINAS ===")
print()

# Configuración de rutas para el segundo procesamiento
input_path_step2 = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")  # El archivo que ya procesamos
final_processed_path = Path("processed/guia_embarazo_parto_2023_final.pdf")

print(f"Archivo de entrada (ya sin primeras páginas): {input_path_step2}")
print(f"Archivo final (sin primeras y últimas páginas): {final_processed_path}")

# Verificar que el archivo de entrada existe
if not input_path_step2.exists():
    print(f"❌ Error: El archivo {input_path_step2} no existe")
    print("Primero necesitas ejecutar el Paso 1 para eliminar las primeras páginas")
else:
    with open(input_path_step2, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        current_pages = len(pdf_reader.pages)
        print(f"📄 Páginas actuales en el archivo: {current_pages}")
        print(f"🗑️ Páginas a eliminar del final: 98")
        print(f"📝 Páginas que quedarán: {current_pages - 98}")


=== PASO 2: ELIMINAR ÚLTIMAS 98 PÁGINAS ===

Archivo de entrada (ya sin primeras páginas): processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo final (sin primeras y últimas páginas): processed\guia_embarazo_parto_2023_final.pdf
📄 Páginas actuales en el archivo: 500
🗑️ Páginas a eliminar del final: 98
📝 Páginas que quedarán: 402


In [12]:
# Función para eliminar las últimas páginas del PDF
def remove_last_pages(input_path, output_path, pages_to_remove_from_end=98):
    """
    Elimina las últimas 'pages_to_remove_from_end' páginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF de entrada
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove_from_end (int): Número de páginas a eliminar desde el final
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF de entrada
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de páginas en el PDF actual: {total_pages}")
            
            if pages_to_remove_from_end >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove_from_end} páginas del final, pero el PDF solo tiene {total_pages} páginas")
                return False
            
            # Calcular cuántas páginas mantener (desde el inicio hasta antes de las últimas que queremos eliminar)
            pages_to_keep = total_pages - pages_to_remove_from_end
            print(f"Eliminando las últimas {pages_to_remove_from_end} páginas")
            print(f"Páginas que se mantendrán: {pages_to_keep} (páginas 1 a {pages_to_keep})")
            
            # Agregar solo las páginas que queremos mantener (desde 0 hasta pages_to_keep-1)
            for page_num in range(0, pages_to_keep):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tamaño del archivo final: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [13]:
# Ejecutar el procesamiento para eliminar las últimas 98 páginas
print("=== EJECUTANDO ELIMINACIÓN DE ÚLTIMAS PÁGINAS ===")
print()

# Ejecutar la función
success_step2 = remove_last_pages(input_path_step2, final_processed_path, pages_to_remove_from_end=98)

if success_step2:
    print()
    print("=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===")
    print(f"✅ Las últimas 98 páginas han sido eliminadas")
    print(f"✅ Archivo final disponible en: {final_processed_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO PASO 2 ===")
    print("❌ No se pudo completar la eliminación de las últimas páginas")


=== EJECUTANDO ELIMINACIÓN DE ÚLTIMAS PÁGINAS ===

Total de páginas en el PDF actual: 500
Eliminando las últimas 98 páginas
Páginas que se mantendrán: 402 (páginas 1 a 402)
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_final.pdf
Tamaño del archivo final: 1.95 MB

=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===
✅ Las últimas 98 páginas han sido eliminadas
✅ Archivo final disponible en: processed\guia_embarazo_parto_2023_final.pdf


In [14]:
# Verificación final completa del procesamiento
print("=== VERIFICACIÓN FINAL DEL PROCESAMIENTO COMPLETO ===")
print()

if final_processed_path.exists():
    # Verificar el archivo final
    try:
        with open(final_processed_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            final_pages = len(pdf_reader.pages)
            final_size_mb = final_processed_path.stat().st_size / (1024*1024)
            
            print(f"📄 Páginas en el archivo final: {final_pages}")
            print(f"💾 Tamaño del archivo final: {final_size_mb:.2f} MB")
            print(f"📁 Ubicación final: {final_processed_path.absolute()}")
            
            # Comparación completa de todo el proceso
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                original_size_mb = raw_data_path.stat().st_size / (1024*1024)
                
                print()
                print(f"📊 RESUMEN COMPLETO DEL PROCESAMIENTO:")
                print(f"   📄 Archivo original:")
                print(f"      • Páginas: {original_pages}")
                print(f"      • Tamaño: {original_size_mb:.2f} MB")
                print()
                print(f"   🗑️ Páginas eliminadas:")
                print(f"      • Primeras páginas eliminadas: 123")
                print(f"      • Últimas páginas eliminadas: 98")
                print(f"      • Total eliminadas: {123 + 98} páginas")
                print()
                print(f"   📄 Archivo final:")
                print(f"      • Páginas: {final_pages}")
                print(f"      • Tamaño: {final_size_mb:.2f} MB")
                print(f"      • Reducción de tamaño: {original_size_mb - final_size_mb:.2f} MB")
                
                expected_final_pages = original_pages - 123 - 98
                print()
                print(f"   ✅ Verificación:")
                print(f"      • Páginas esperadas: {expected_final_pages}")
                print(f"      • Páginas obtenidas: {final_pages}")
                
                if final_pages == expected_final_pages:
                    print(f"      ✅ ¡PERFECTO! El procesamiento fue exitoso.")
                    print(f"      ✅ Se eliminaron correctamente las primeras 123 y últimas 98 páginas.")
                else:
                    print(f"      ❌ Error: El número de páginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"❌ Error al verificar el archivo final: {str(e)}")
else:
    print("❌ El archivo final no existe. El procesamiento no se completó correctamente.")


=== VERIFICACIÓN FINAL DEL PROCESAMIENTO COMPLETO ===

📄 Páginas en el archivo final: 402
💾 Tamaño del archivo final: 1.95 MB
📁 Ubicación final: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_final.pdf

📊 RESUMEN COMPLETO DEL PROCESAMIENTO:
   📄 Archivo original:
      • Páginas: 623
      • Tamaño: 3.54 MB

   🗑️ Páginas eliminadas:
      • Primeras páginas eliminadas: 123
      • Últimas páginas eliminadas: 98
      • Total eliminadas: 221 páginas

   📄 Archivo final:
      • Páginas: 402
      • Tamaño: 1.95 MB
      • Reducción de tamaño: 1.59 MB

   ✅ Verificación:
      • Páginas esperadas: 402
      • Páginas obtenidas: 402
      ✅ ¡PERFECTO! El procesamiento fue exitoso.
      ✅ Se eliminaron correctamente las primeras 123 y últimas 98 páginas.


In [31]:
# Extracción estructurada: PÁGINA | CONTENIDO
print("=== EXTRACCIÓN ESTRUCTURADA POR PÁGINA ===")
print()

try:
    import fitz  # PyMuPDF
    fitz_available = True
    print("✅ PyMuPDF disponible")
except ImportError:
    fitz_available = False
    print("❌ PyMuPDF no disponible")

if fitz_available:
    input_pdf_path = Path("processed/guia_embarazo_parto_2023_final.pdf")
    structured_text_path = Path("processed/guia_embarazo_ESTRUCTURADO.txt")
    
    print(f"PDF de entrada: {input_pdf_path}")
    print(f"Archivo estructurado: {structured_text_path}")
    
    if input_pdf_path.exists():
        print(f"✅ PDF encontrado: {input_pdf_path.stat().st_size / (1024*1024):.2f} MB")
        
        try:
            doc = fitz.open(str(input_pdf_path))
            total_pages = len(doc)
            print(f"📄 Total de páginas: {total_pages}")
            
            structured_lines = []
            
            for page_num in range(total_pages):
                page = doc.load_page(page_num)
                
                # Extraer texto de la página
                page_text = page.get_text()
                
                # Limpiar el texto de la página
                # 1. Eliminar saltos de línea y espacios múltiples
                clean_page_text = re.sub(r'\s+', ' ', page_text.strip())
                
                # 2. Eliminar caracteres problemáticos
                clean_page_text = clean_page_text.replace('\u00A0', ' ')  # Espacio no rompible
                clean_page_text = clean_page_text.replace('\u2028', ' ')  # Separador de línea
                clean_page_text = clean_page_text.replace('\u2029', ' ')  # Separador de párrafo
                
                # 3. Eliminar patrones comunes no deseados
                clean_page_text = re.sub(r'\+\d+', '', clean_page_text)  # +1, +2, etc.
                clean_page_text = re.sub(r'[-_═─▬■|▌▐┃]{3,}', '', clean_page_text)  # Líneas
                
                # 4. Limpiar espacios finales
                clean_page_text = re.sub(r'\s+', ' ', clean_page_text).strip()
                
                # Solo agregar si la página tiene contenido significativo
                if len(clean_page_text) > 10:  # Mínimo 10 caracteres
                    # Formato: PÁGINA | CONTENIDO
                    page_line = f"{page_num + 1}|{clean_page_text}"
                    structured_lines.append(page_line)
                
                # Progreso cada 50 páginas
                if (page_num + 1) % 50 == 0:
                    print(f"   Procesadas {page_num + 1}/{total_pages} páginas...")
            
            doc.close()
            
            # Guardar archivo estructurado
            with open(structured_text_path, 'w', encoding='utf-8') as f:
                for line in structured_lines:
                    f.write(line + '\n')
            
            file_size_mb = structured_text_path.stat().st_size / (1024*1024)
            print(f"\n✅ Archivo estructurado creado exitosamente")
            print(f"📁 Ubicación: {structured_text_path}")
            print(f"💾 Tamaño: {file_size_mb:.2f} MB")
            print(f"📄 Páginas procesadas: {len(structured_lines)}")
            print(f"📊 Promedio caracteres por página: {sum(len(line.split('|', 1)[1]) for line in structured_lines) // len(structured_lines) if structured_lines else 0}")
            
        except Exception as e:
            print(f"❌ Error: {str(e)}")
    else:
        print(f"❌ Error: PDF no encontrado")
else:
    print("❌ Necesitas instalar PyMuPDF: pip install PyMuPDF")

=== EXTRACCIÓN ESTRUCTURADA POR PÁGINA ===

✅ PyMuPDF disponible
PDF de entrada: processed\guia_embarazo_parto_2023_final.pdf
Archivo estructurado: processed\guia_embarazo_ESTRUCTURADO.txt
✅ PDF encontrado: 1.95 MB
📄 Total de páginas: 402
   Procesadas 50/402 páginas...
   Procesadas 100/402 páginas...
   Procesadas 150/402 páginas...
   Procesadas 200/402 páginas...
   Procesadas 250/402 páginas...
   Procesadas 300/402 páginas...
   Procesadas 350/402 páginas...
   Procesadas 400/402 páginas...

✅ Archivo estructurado creado exitosamente
📁 Ubicación: processed\guia_embarazo_ESTRUCTURADO.txt
💾 Tamaño: 0.79 MB
📄 Páginas procesadas: 402
📊 Promedio caracteres por página: 2019


In [40]:
# Función especializada para limpiar contenido por página
def clean_page_content(text):
    """
    Limpia el contenido de una página específica
    """
    if not text or len(text.strip()) < 5:
        return ""
    
    # 1. Normalizar espacios y saltos de línea
    text = re.sub(r'\s+', ' ', text.strip())
    
    # 2. Eliminar caracteres Unicode problemáticos
    text = text.replace('\u00A0', ' ')  # Espacio no rompible
    text = text.replace('\u2028', ' ')  # Separador de línea
    text = text.replace('\u2029', ' ')  # Separador de párrafo
    text = text.replace('\u200B', '')   # Espacio de ancho cero
    
    # 3. Eliminar patrones específicos
    text = re.sub(r'\+\d+\s*', '', text)  # +1, +2, etc.
    text = re.sub(r'\s+\+\d+', '', text)  # espacios antes de +1
    text = re.sub(r'[-_═─▬■|▌▐┃]{3,}', '', text)  # Líneas horizontales/verticales
    
    # 4. Eliminar números de página al inicio o final
    text = re.sub(r'^\d{1,3}\s+', '', text)  # Número al inicio
    text = re.sub(r'\s+\d{1,3}$', '', text)  # Número al final
    
    # 5. Limpiar espacios múltiples nuevamente
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

In [43]:
# Función mejorada para limpiar contenido por página (VERSIÓN FINAL)
def clean_page_content_final(text):
    """
    Limpia el contenido de una página eliminando TODOS los elementos no deseados
    """
    if not text or len(text.strip()) < 5:
        return ""
    
    # 1. Normalizar espacios y saltos de línea
    text = re.sub(r'\s+', ' ', text.strip())
    
    # 2. Eliminar caracteres Unicode problemáticos
    text = text.replace('\u00A0', ' ')  # Espacio no rompible
    text = text.replace('\u2028', ' ')  # Separador de línea
    text = text.replace('\u2029', ' ')  # Separador de párrafo
    text = text.replace('\u200B', '')   # Espacio de ancho cero
    
    # 3. Eliminar patrones específicos
    text = re.sub(r'\+\d+\s*', '', text)  # +1, +2, etc.
    text = re.sub(r'\s+\+\d+', '', text)  # espacios antes de +1
    text = re.sub(r'[-_═─▬■|▌▐┃]{3,}', '', text)  # Líneas horizontales/verticales
    
    # 4. NUEVO: Eliminar marcadores de evidencia
    text = re.sub(r'\b\d+\+\+?\b', '', text)  # 1+, 2+, 1++, 2++, etc.
    text = re.sub(r'\b[IVX]+\+?\b', '', text)  # I+, II, III, IV, etc.
    text = re.sub(r'\bII\s+III\b', '', text)  # "II III" específico
    text = re.sub(r'\b[IVX]+\s+[IVX]+\b', '', text)  # Números romanos múltiples
    
    # 5. NUEVO: Eliminar símbolos especiales innecesarios
    text = text.replace('√', '')  # Símbolo de check
    text = text.replace('(↑)', '')  # Flecha hacia arriba
    text = text.replace('↑', '')  # Flecha hacia arriba sola
    
    # 6. Eliminar números de página al inicio o final
    text = re.sub(r'^\d{1,3}\s+', '', text)  # Número al inicio
    text = re.sub(r'\s+\d{1,3}$', '', text)  # Número al final
    
    # 7. Eliminar patrones de referencias bibliográficas sueltas
    text = re.sub(r'\(\d{1,4}\)', '', text)  # (123), (45), etc. - referencias
    
    # 8. Limpiar espacios múltiples nuevamente
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 9. Eliminar texto residual muy corto al final
    if len(text) < 20:
        return ""
    
    return text

In [44]:
# EXTRACCIÓN FINAL MEJORADA: Sin marcadores de evidencia
print("=== EXTRACCIÓN FINAL ULTRA-LIMPIA ===")
print()

def extract_ultra_clean_text(pdf_path, output_path):
    """
    Extrae texto por página con limpieza COMPLETA
    """
    try:
        import fitz
        
        doc = fitz.open(str(pdf_path))
        total_pages = len(doc)
        print(f"📄 Procesando {total_pages} páginas...")
        
        structured_lines = []
        
        for page_num in range(total_pages):
            page = doc.load_page(page_num)
            page_text = page.get_text()
            
            # Aplicar limpieza COMPLETA
            clean_content = clean_page_content_final(page_text)
            
            # Solo agregar páginas con contenido significativo
            if len(clean_content) > 30:  # Aumentamos el mínimo a 30 caracteres
                page_line = f"{page_num + 1}|{clean_content}"
                structured_lines.append(page_line)
            
            if (page_num + 1) % 50 == 0:
                print(f"   ✓ {page_num + 1}/{total_pages} páginas")
        
        doc.close()
        
        # Guardar archivo ultra-limpio
        with open(output_path, 'w', encoding='utf-8') as f:
            for line in structured_lines:
                f.write(line + '\n')
        
        return len(structured_lines)
        
    except Exception as e:
        print(f"❌ Error: {str(e)}")
        return 0

# Ejecutar extracción ultra-limpia
input_pdf_path = Path("processed/guia_embarazo_parto_2023_final.pdf")

if input_pdf_path.exists():
    ultra_clean_path = Path("processed/guia_embarazo_ULTRA_CLEAN.txt")
    
    pages_processed = extract_ultra_clean_text(input_pdf_path, ultra_clean_path)
    
    if pages_processed > 0:
        file_size_mb = ultra_clean_path.stat().st_size / (1024*1024)
        print(f"\n🎉 ¡ARCHIVO ULTRA-LIMPIO LISTO!")
        print(f"📁 Archivo: {ultra_clean_path}")
        print(f"💾 Tamaño: {file_size_mb:.2f} MB")
        print(f"📄 Páginas procesadas: {pages_processed}")
        print(f"🧹 Limpieza aplicada:")
        print(f"   ✅ Sin marcadores de evidencia (1+, 2+, II III)")
        print(f"   ✅ Sin símbolos especiales (√, ↑)")
        print(f"   ✅ Sin referencias bibliográficas sueltas")
        print(f"   ✅ Sin líneas horizontales")
        print(f"   ✅ Formato: PÁGINA|CONTENIDO_ULTRA_LIMPIO")
        print(f"\n🎯 ESTE ES EL ARCHIVO FINAL PARA CHUNKEO")

=== EXTRACCIÓN FINAL ULTRA-LIMPIA ===

📄 Procesando 402 páginas...
   ✓ 50/402 páginas
   ✓ 100/402 páginas
   ✓ 150/402 páginas
   ✓ 200/402 páginas
   ✓ 250/402 páginas
   ✓ 300/402 páginas
   ✓ 350/402 páginas
   ✓ 400/402 páginas

🎉 ¡ARCHIVO ULTRA-LIMPIO LISTO!
📁 Archivo: processed\guia_embarazo_ULTRA_CLEAN.txt
💾 Tamaño: 0.79 MB
📄 Páginas procesadas: 402
🧹 Limpieza aplicada:
   ✅ Sin marcadores de evidencia (1+, 2+, II III)
   ✅ Sin símbolos especiales (√, ↑)
   ✅ Sin referencias bibliográficas sueltas
   ✅ Sin líneas horizontales
   ✅ Formato: PÁGINA|CONTENIDO_ULTRA_LIMPIO

🎯 ESTE ES EL ARCHIVO FINAL PARA CHUNKEO


In [47]:
# PASO 4 MEJORADO: CHUNKING CON METADATOS DE SECCIONES
print("=== CHUNKING MEJORADO CON METADATOS DE SECCIONES ===")
print()

import json
import re
from datetime import datetime

# Definir las 6 secciones del documento
SECTIONS = {
    1: {
        "title": "PREVENCIÓN Y DETECCIÓN TEMPRANA DE LAS ALTERACIONES DEL EMBARAZO",
        "start_page": 1,
        "end_page": 145  # Aproximado, se ajustará dinámicamente
    },
    2: {
        "title": "ABORDAJE DE LAS COMPLICACIONES HIPERTENSIVAS ASOCIADAS AL EMBARAZO", 
        "start_page": 146,
        "end_page": 201
    },
    3: {
        "title": "INFECCIONES EN EL EMBARAZO: RUPTURA PREMATURA DE MEMBRANAS (RPM)",
        "start_page": 202,
        "end_page": 277
    },
    4: {
        "title": "NUTRICIÓN EN EL EMBARAZO",
        "start_page": 278,  # Se ajustará dinámicamente
        "end_page": 350   # Aproximado
    },
    5: {
        "title": "DETECCIÓN TEMPRANA DE LAS ANOMALÍAS DURANTE EL TRABAJO DE PARTO, ATENCIÓN DEL PARTO NORMAL Y DISTÓCICO",
        "start_page": 278,
        "end_page": 357
    },
    6: {
        "title": "COMPLICACIONES HEMORRÁGICAS ASOCIADAS AL EMBARAZO",
        "start_page": 358,
        "end_page": 450  # Hasta el final
    }
}

def detect_section_boundaries(input_file_path):
    """
    Detecta automáticamente los límites de las secciones basándose en el contenido
    """
    section_pages = {}
    
    try:
        with open(input_file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        for line in lines:
            line = line.strip()
            if '|' in line:
                page_num_str, content = line.split('|', 1)
                page_num = int(page_num_str.strip())
                content = content.strip()
                
                # Buscar marcadores de sección
                if re.search(r'SECCIÓN\s+(\d+)', content, re.IGNORECASE):
                    section_match = re.search(r'SECCIÓN\s+(\d+)', content, re.IGNORECASE)
                    section_number = int(section_match.group(1))
                    section_pages[section_number] = page_num
                    print(f"   📍 Sección {section_number} detectada en página {page_num}")
        
        return section_pages
        
    except Exception as e:
        print(f"❌ Error detectando secciones: {str(e)}")
        return {}

def get_section_for_page(page_num, section_boundaries):
    """
    Determina a qué sección pertenece una página dada
    """
    # Ordenar las secciones por número
    sorted_sections = sorted(section_boundaries.items())
    
    # Encontrar la sección correcta
    for i, (section_num, start_page) in enumerate(sorted_sections):
        # Si es la última sección, va hasta el final
        if i == len(sorted_sections) - 1:
            if page_num >= start_page:
                return section_num
        else:
            # Obtener la página de inicio de la siguiente sección
            next_start_page = sorted_sections[i + 1][1]
            if start_page <= page_num < next_start_page:
                return section_num
    
    # Si no se encuentra, asumir sección 1
    return 1

def chunk_text_with_overlap_improved(text, chunk_size=500, overlap=100):
    """
    Divide el texto en chunks con overlap específico (versión mejorada)
    """
    if len(text) <= chunk_size:
        return [text]
    
    chunks = []
    start = 0
    
    while start < len(text):
        # Calcular el final del chunk
        end = start + chunk_size
        
        # Si llegamos al final del texto, tomar todo lo que queda
        if end >= len(text):
            chunk = text[start:]
            if chunk.strip():
                chunks.append(chunk.strip())
            break
        
        # Extraer el chunk
        chunk = text[start:end]
        
        # Intentar terminar en un espacio, punto o coma para no cortar palabras/oraciones
        if end < len(text) and text[end] not in [' ', '.', ',', ';', ':', '!', '?']:
            # Buscar hacia atrás el último separador de oración
            last_sentence_end = max(
                chunk.rfind('.'), chunk.rfind('!'), chunk.rfind('?'),
                chunk.rfind(';')
            )
            if last_sentence_end > chunk_size * 0.6:  # Si está en el último 40%
                chunk = chunk[:last_sentence_end + 1]
                end = start + last_sentence_end + 1
            else:
                # Si no hay separador de oración, buscar espacio
                last_space = chunk.rfind(' ')
                if last_space > chunk_size * 0.7:  # Si está en el último 30%
                    chunk = chunk[:last_space]
                    end = start + last_space
        
        chunks.append(chunk.strip())
        
        # Calcular el siguiente punto de inicio con overlap
        start = end - overlap
        
        # Asegurar que no retrocedamos demasiado
        if start < 0:
            start = 0
    
    return chunks

def process_file_chunking_with_sections(input_file_path, output_file_path, chunk_size=500, overlap=100):
    """
    Procesa el archivo estructurado y crea chunks con metadatos completos incluyendo secciones
    """
    print(f"📁 Archivo de entrada: {input_file_path}")
    print(f"📁 Archivo de salida: {output_file_path}")
    print(f"📊 Configuración: {chunk_size} caracteres, {overlap} overlap")
    print()
    
    # Detectar límites de secciones
    print("🔍 Detectando secciones del documento...")
    section_boundaries = detect_section_boundaries(input_file_path)
    
    if not section_boundaries:
        print("⚠️ No se pudieron detectar secciones, usando valores por defecto")
        section_boundaries = {1: 1, 2: 146, 3: 202, 4: 278, 5: 278, 6: 358}
    
    print(f"✅ Secciones detectadas: {section_boundaries}")
    print()
    
    chunks_data = []
    
    try:
        with open(input_file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        total_lines = len(lines)
        print(f"📄 Total de páginas en el archivo: {total_lines}")
        
        for line_idx, line in enumerate(lines):
            line = line.strip()
            if not line:
                continue
            
            # Separar página y contenido
            if '|' in line:
                page_num_str, content = line.split('|', 1)
                page_num = int(page_num_str.strip())
                content = content.strip()
                
                if len(content) < 20:  # Saltar páginas con muy poco contenido
                    continue
                
                # Determinar la sección
                section_number = get_section_for_page(page_num, section_boundaries)
                section_info = SECTIONS.get(section_number, SECTIONS[1])
                
                # Crear chunks del contenido de esta página
                page_chunks = chunk_text_with_overlap_improved(content, chunk_size, overlap)
                
                # Crear metadatos para cada chunk
                for chunk_idx, chunk_text in enumerate(page_chunks):
                    chunk_data = {
                        "chunk_id": f"sec{section_number}_page{page_num}_chunk{chunk_idx + 1}",
                        "page_number": page_num,
                        "chunk_index": chunk_idx + 1,
                        "total_chunks_in_page": len(page_chunks),
                        "content": chunk_text,
                        "char_count": len(chunk_text),
                        "word_count": len(chunk_text.split()),
                        "source_file": "guia_embarazo_parto_2023_final.pdf",
                        
                        # NUEVOS METADATOS DE SECCIÓN
                        "section_number": section_number,
                        "section_title": section_info["title"],
                        "section_topic": "embarazo_parto",  # Tema general
                        
                        # Metadatos adicionales útiles para RAG
                        "document_type": "guia_clinica",
                        "language": "es",
                        "domain": "medicina_obstetrica",
                        "chunk_quality": "high" if len(chunk_text) > 100 else "medium"
                    }
                    chunks_data.append(chunk_data)
            
            # Progreso cada 50 páginas
            if (line_idx + 1) % 50 == 0:
                print(f"   ✓ Procesadas {line_idx + 1}/{total_lines} páginas...")
        
        # Guardar chunks como JSON
        with open(output_file_path, 'w', encoding='utf-8') as f:
            json.dump(chunks_data, f, ensure_ascii=False, indent=2)
        
        return chunks_data
        
    except Exception as e:
        print(f"❌ Error: {str(e)}")
        return []

# Ejecutar el chunking mejorado
input_text_file = Path("processed/guia_embarazo_ULTRA_CLEAN.txt")
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
output_chunks_file = Path(f"chunks/chunks_with_sections_{timestamp}.json")

# Crear directorio chunks si no existe
output_chunks_file.parent.mkdir(parents=True, exist_ok=True)

if input_text_file.exists():
    print("🚀 Iniciando proceso de chunking MEJORADO...")
    print()
    
    chunks = process_file_chunking_with_sections(
        input_text_file, 
        output_chunks_file, 
        chunk_size=500, 
        overlap=100
    )
    
    if chunks:
        file_size_mb = output_chunks_file.stat().st_size / (1024*1024)
        
        # Estadísticas generales
        total_chunks = len(chunks)
        total_chars = sum(chunk['char_count'] for chunk in chunks)
        total_words = sum(chunk['word_count'] for chunk in chunks)
        avg_chars = total_chars // total_chunks if total_chunks > 0 else 0
        avg_words = total_words // total_chunks if total_chunks > 0 else 0
        
        pages_with_chunks = len(set(chunk['page_number'] for chunk in chunks))
        
        # Estadísticas por sección
        section_stats = {}
        for chunk in chunks:
            section_num = chunk['section_number']
            if section_num not in section_stats:
                section_stats[section_num] = {
                    'title': chunk['section_title'],
                    'chunks': 0,
                    'pages': set(),
                    'chars': 0,
                    'words': 0
                }
            section_stats[section_num]['chunks'] += 1
            section_stats[section_num]['pages'].add(chunk['page_number'])
            section_stats[section_num]['chars'] += chunk['char_count']
            section_stats[section_num]['words'] += chunk['word_count']
        
        print(f"\n🎉 ¡CHUNKING MEJORADO COMPLETADO EXITOSAMENTE!")
        print(f"📁 Archivo de chunks: {output_chunks_file}")
        print(f"💾 Tamaño del archivo: {file_size_mb:.2f} MB")
        print()
        print(f"📊 ESTADÍSTICAS GENERALES:")
        print(f"   📄 Páginas procesadas: {pages_with_chunks}")
        print(f"   🧩 Total de chunks creados: {total_chunks}")
        print(f"   📝 Total de caracteres: {total_chars:,}")
        print(f"   🔤 Total de palabras: {total_words:,}")
        print(f"   📏 Promedio caracteres por chunk: {avg_chars}")
        print(f"   📏 Promedio palabras por chunk: {avg_words}")
        print(f"   🔄 Overlap configurado: 100 caracteres")
        print()
        print(f"📚 ESTADÍSTICAS POR SECCIÓN:")
        for section_num in sorted(section_stats.keys()):
            stats = section_stats[section_num]
            print(f"   📖 Sección {section_num}: {stats['title'][:50]}...")
            print(f"      • Chunks: {stats['chunks']}")
            print(f"      • Páginas: {len(stats['pages'])}")
            print(f"      • Caracteres: {stats['chars']:,}")
            print(f"      • Palabras: {stats['words']:,}")
        print()
        print(f"🎯 CHUNKS CON METADATOS COMPLETOS LISTOS PARA RAG!")
        
        # Mostrar algunos ejemplos
        print(f"\n📋 EJEMPLOS DE CHUNKS CON METADATOS:")
        for i, chunk in enumerate(chunks[:2]):
            print(f"\n   📄 Chunk {i+1}:")
            print(f"   ID: {chunk['chunk_id']}")
            print(f"   Página: {chunk['page_number']}")
            print(f"   Sección: {chunk['section_number']} - {chunk['section_title'][:40]}...")
            print(f"   Caracteres: {chunk['char_count']}")
            print(f"   Dominio: {chunk['domain']}")
            print(f"   Contenido: {chunk['content'][:80]}...")
        
        if len(chunks) > 2:
            print(f"\n   ... y {len(chunks) - 2} chunks más")
    else:
        print("❌ No se pudieron crear los chunks")
else:
    print(f"❌ Error: Archivo no encontrado: {input_text_file}")
    print("   Primero ejecuta las celdas anteriores para crear el texto ultra-limpio")


=== CHUNKING MEJORADO CON METADATOS DE SECCIONES ===

🚀 Iniciando proceso de chunking MEJORADO...

📁 Archivo de entrada: processed\guia_embarazo_ULTRA_CLEAN.txt
📁 Archivo de salida: chunks\chunks_with_sections_20250826_114329.json
📊 Configuración: 500 caracteres, 100 overlap

🔍 Detectando secciones del documento...
   📍 Sección 1 detectada en página 1
   📍 Sección 2 detectada en página 146
   📍 Sección 3 detectada en página 202
   📍 Sección 4 detectada en página 248
   📍 Sección 5 detectada en página 278
   📍 Sección 6 detectada en página 358
✅ Secciones detectadas: {1: 1, 2: 146, 3: 202, 4: 248, 5: 278, 6: 358}

📄 Total de páginas en el archivo: 402
   ✓ Procesadas 50/402 páginas...
   ✓ Procesadas 100/402 páginas...
   ✓ Procesadas 150/402 páginas...
   ✓ Procesadas 200/402 páginas...
   ✓ Procesadas 250/402 páginas...
   ✓ Procesadas 300/402 páginas...
   ✓ Procesadas 350/402 páginas...
   ✓ Procesadas 400/402 páginas...

🎉 ¡CHUNKING MEJORADO COMPLETADO EXITOSAMENTE!
📁 Archivo de ch