In [5]:
# Preprocesamiento de datos - Guía de Embarazo y Parto 2023
# Paso 1: Eliminar las primeras 120 páginas del PDF

import PyPDF2
import os
from pathlib import Path

# Configuración de rutas
raw_data_path = Path("raw/guia_embarazo_parto_2023.pdf")
processed_data_path = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")

# Crear directorio processed si no existe
processed_data_path.parent.mkdir(parents=True, exist_ok=True)

print(f"Archivo original: {raw_data_path}")
print(f"Archivo procesado: {processed_data_path}")

# Verificar que el archivo original existe
if not raw_data_path.exists():
    print(f"Error: El archivo {raw_data_path} no existe")
else:
    print(f"Archivo encontrado. Tamaño: {raw_data_path.stat().st_size / (1024*1024):.2f} MB")
# Verificar que el archivo original existe
if not processed_data_path.exists():
    print(f"Error: El archivo {processed_data_path} no existe")
else:
    print(f"Archivo encontrado. Tamaño: {processed_data_path.stat().st_size / (1024*1024):.2f} MB")


Archivo original: raw\guia_embarazo_parto_2023.pdf
Archivo procesado: processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo encontrado. Tamaño: 3.54 MB
Error: El archivo processed\guia_embarazo_parto_2023_sin_intro.pdf no existe


In [6]:
# Función para eliminar las primeras 120 páginas del PDF
def remove_first_pages(input_path, output_path, pages_to_remove=120):
    """
    Elimina las primeras 'pages_to_remove' páginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF original
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove (int): Número de páginas a eliminar desde el inicio
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF original
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de páginas en el PDF original: {total_pages}")
            
            if pages_to_remove >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove} páginas, pero el PDF solo tiene {total_pages} páginas")
                return False
            
            # Agregar las páginas desde la página 'pages_to_remove' hasta el final
            pages_to_keep = total_pages - pages_to_remove
            print(f"Eliminando las primeras {pages_to_remove} páginas")
            print(f"Páginas que se mantendrán: {pages_to_keep}")
            
            for page_num in range(pages_to_remove, total_pages):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tamaño del archivo procesado: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [9]:
# Ejecutar el procesamiento para eliminar las primeras 120 páginas
print("=== INICIANDO PROCESAMIENTO DEL PDF ===")
print()

# Ejecutar la función
success = remove_first_pages(raw_data_path, processed_data_path, pages_to_remove=123)

if success:
    print()
    print("=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===")
    print(f"✅ Las primeras 120 páginas han sido eliminadas")
    print(f"✅ Archivo procesado disponible en: {processed_data_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO ===")
    print("❌ No se pudo completar el procesamiento del PDF")


=== INICIANDO PROCESAMIENTO DEL PDF ===

Total de páginas en el PDF original: 623
Eliminando las primeras 123 páginas
Páginas que se mantendrán: 500
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_sin_intro.pdf
Tamaño del archivo procesado: 2.53 MB

=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===
✅ Las primeras 120 páginas han sido eliminadas
✅ Archivo procesado disponible en: processed\guia_embarazo_parto_2023_sin_intro.pdf


In [None]:
# Verificación adicional del archivo procesado
print("=== VERIFICACIÓN DEL ARCHIVO PROCESADO ===")
print()

if processed_data_path.exists():
    # Verificar el nuevo PDF
    try:
        with open(processed_data_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            new_total_pages = len(pdf_reader.pages)
            file_size_mb = processed_data_path.stat().st_size / (1024*1024)
            
            print(f"📄 Páginas en el archivo procesado: {new_total_pages}")
            print(f"💾 Tamaño del archivo procesado: {file_size_mb:.2f} MB")
            print(f"📁 Ubicación: {processed_data_path.absolute()}")
            
            # Verificar que realmente se eliminaron 120 páginas
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                expected_pages = original_pages - 123
                
                print()
                print(f"📊 Comparación:")
                print(f"   • Páginas originales: {original_pages}")
                print(f"   • Páginas eliminadas: 120")
                print(f"   • Páginas esperadas: {expected_pages}")
                print(f"   • Páginas obtenidas: {new_total_pages}")
                
                if new_total_pages == expected_pages:
                    print("   ✅ ¡Verificación exitosa! El número de páginas es correcto.")
                else:
                    print("   ❌ Error: El número de páginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"❌ Error al verificar el archivo procesado: {str(e)}")
else:
    print("❌ El archivo procesado no existe. Algo salió mal en el procesamiento.")


=== VERIFICACIÓN DEL ARCHIVO PROCESADO ===

📄 Páginas en el archivo procesado: 500
💾 Tamaño del archivo procesado: 2.53 MB
📁 Ubicación: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_sin_intro.pdf

📊 Comparación:
   • Páginas originales: 623
   • Páginas eliminadas: 120
   • Páginas esperadas: 503
   • Páginas obtenidas: 500
   ❌ Error: El número de páginas no coincide con lo esperado.


In [11]:
# Paso 2: Eliminar las últimas 98 páginas del PDF ya procesado
print("=== PASO 2: ELIMINAR ÚLTIMAS 98 PÁGINAS ===")
print()

# Configuración de rutas para el segundo procesamiento
input_path_step2 = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")  # El archivo que ya procesamos
final_processed_path = Path("processed/guia_embarazo_parto_2023_final.pdf")

print(f"Archivo de entrada (ya sin primeras páginas): {input_path_step2}")
print(f"Archivo final (sin primeras y últimas páginas): {final_processed_path}")

# Verificar que el archivo de entrada existe
if not input_path_step2.exists():
    print(f"❌ Error: El archivo {input_path_step2} no existe")
    print("Primero necesitas ejecutar el Paso 1 para eliminar las primeras páginas")
else:
    with open(input_path_step2, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        current_pages = len(pdf_reader.pages)
        print(f"📄 Páginas actuales en el archivo: {current_pages}")
        print(f"🗑️ Páginas a eliminar del final: 98")
        print(f"📝 Páginas que quedarán: {current_pages - 98}")


=== PASO 2: ELIMINAR ÚLTIMAS 98 PÁGINAS ===

Archivo de entrada (ya sin primeras páginas): processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo final (sin primeras y últimas páginas): processed\guia_embarazo_parto_2023_final.pdf
📄 Páginas actuales en el archivo: 500
🗑️ Páginas a eliminar del final: 98
📝 Páginas que quedarán: 402


In [12]:
# Función para eliminar las últimas páginas del PDF
def remove_last_pages(input_path, output_path, pages_to_remove_from_end=98):
    """
    Elimina las últimas 'pages_to_remove_from_end' páginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF de entrada
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove_from_end (int): Número de páginas a eliminar desde el final
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF de entrada
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de páginas en el PDF actual: {total_pages}")
            
            if pages_to_remove_from_end >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove_from_end} páginas del final, pero el PDF solo tiene {total_pages} páginas")
                return False
            
            # Calcular cuántas páginas mantener (desde el inicio hasta antes de las últimas que queremos eliminar)
            pages_to_keep = total_pages - pages_to_remove_from_end
            print(f"Eliminando las últimas {pages_to_remove_from_end} páginas")
            print(f"Páginas que se mantendrán: {pages_to_keep} (páginas 1 a {pages_to_keep})")
            
            # Agregar solo las páginas que queremos mantener (desde 0 hasta pages_to_keep-1)
            for page_num in range(0, pages_to_keep):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tamaño del archivo final: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [13]:
# Ejecutar el procesamiento para eliminar las últimas 98 páginas
print("=== EJECUTANDO ELIMINACIÓN DE ÚLTIMAS PÁGINAS ===")
print()

# Ejecutar la función
success_step2 = remove_last_pages(input_path_step2, final_processed_path, pages_to_remove_from_end=98)

if success_step2:
    print()
    print("=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===")
    print(f"✅ Las últimas 98 páginas han sido eliminadas")
    print(f"✅ Archivo final disponible en: {final_processed_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO PASO 2 ===")
    print("❌ No se pudo completar la eliminación de las últimas páginas")


=== EJECUTANDO ELIMINACIÓN DE ÚLTIMAS PÁGINAS ===

Total de páginas en el PDF actual: 500
Eliminando las últimas 98 páginas
Páginas que se mantendrán: 402 (páginas 1 a 402)
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_final.pdf
Tamaño del archivo final: 1.95 MB

=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===
✅ Las últimas 98 páginas han sido eliminadas
✅ Archivo final disponible en: processed\guia_embarazo_parto_2023_final.pdf


In [14]:
# Verificación final completa del procesamiento
print("=== VERIFICACIÓN FINAL DEL PROCESAMIENTO COMPLETO ===")
print()

if final_processed_path.exists():
    # Verificar el archivo final
    try:
        with open(final_processed_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            final_pages = len(pdf_reader.pages)
            final_size_mb = final_processed_path.stat().st_size / (1024*1024)
            
            print(f"📄 Páginas en el archivo final: {final_pages}")
            print(f"💾 Tamaño del archivo final: {final_size_mb:.2f} MB")
            print(f"📁 Ubicación final: {final_processed_path.absolute()}")
            
            # Comparación completa de todo el proceso
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                original_size_mb = raw_data_path.stat().st_size / (1024*1024)
                
                print()
                print(f"📊 RESUMEN COMPLETO DEL PROCESAMIENTO:")
                print(f"   📄 Archivo original:")
                print(f"      • Páginas: {original_pages}")
                print(f"      • Tamaño: {original_size_mb:.2f} MB")
                print()
                print(f"   🗑️ Páginas eliminadas:")
                print(f"      • Primeras páginas eliminadas: 123")
                print(f"      • Últimas páginas eliminadas: 98")
                print(f"      • Total eliminadas: {123 + 98} páginas")
                print()
                print(f"   📄 Archivo final:")
                print(f"      • Páginas: {final_pages}")
                print(f"      • Tamaño: {final_size_mb:.2f} MB")
                print(f"      • Reducción de tamaño: {original_size_mb - final_size_mb:.2f} MB")
                
                expected_final_pages = original_pages - 123 - 98
                print()
                print(f"   ✅ Verificación:")
                print(f"      • Páginas esperadas: {expected_final_pages}")
                print(f"      • Páginas obtenidas: {final_pages}")
                
                if final_pages == expected_final_pages:
                    print(f"      ✅ ¡PERFECTO! El procesamiento fue exitoso.")
                    print(f"      ✅ Se eliminaron correctamente las primeras 123 y últimas 98 páginas.")
                else:
                    print(f"      ❌ Error: El número de páginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"❌ Error al verificar el archivo final: {str(e)}")
else:
    print("❌ El archivo final no existe. El procesamiento no se completó correctamente.")


=== VERIFICACIÓN FINAL DEL PROCESAMIENTO COMPLETO ===

📄 Páginas en el archivo final: 402
💾 Tamaño del archivo final: 1.95 MB
📁 Ubicación final: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_final.pdf

📊 RESUMEN COMPLETO DEL PROCESAMIENTO:
   📄 Archivo original:
      • Páginas: 623
      • Tamaño: 3.54 MB

   🗑️ Páginas eliminadas:
      • Primeras páginas eliminadas: 123
      • Últimas páginas eliminadas: 98
      • Total eliminadas: 221 páginas

   📄 Archivo final:
      • Páginas: 402
      • Tamaño: 1.95 MB
      • Reducción de tamaño: 1.59 MB

   ✅ Verificación:
      • Páginas esperadas: 402
      • Páginas obtenidas: 402
      ✅ ¡PERFECTO! El procesamiento fue exitoso.
      ✅ Se eliminaron correctamente las primeras 123 y últimas 98 páginas.


In [None]:
# Paso 3B: Extracción MEJORADA con PyMuPDF (fitz)
print("=== EXTRACCIÓN MEJORADA CON PYMUPDF (FITZ) ===")
print()

try:
    import fitz  # PyMuPDF
    fitz_available = True
    print("✅ PyMuPDF (fitz) disponible - Usando extracción mejorada")
except ImportError:
    fitz_available = False
    print("⚠️ PyMuPDF no instalado - Instala con: pip install PyMuPDF")
    print("💡 Continuando con PyPDF2...")

if fitz_available:
    # Configuración de rutas para extracción mejorada
    input_pdf_path = Path("processed/guia_embarazo_parto_2023_final.pdf")
    fitz_text_path = Path("processed/guia_embarazo_text_fitz.txt")
    
    print(f"PDF de entrada: {input_pdf_path}")
    print(f"Archivo de texto (fitz): {fitz_text_path}")
    
    if input_pdf_path.exists():
        print(f"✅ PDF encontrado: {input_pdf_path.stat().st_size / (1024*1024):.2f} MB")
        
        # EXTRACCIÓN CON PYMUPDF (MEJOR CALIDAD)
        print("\n🚀 Extrayendo texto con PyMuPDF (fitz)...")
        try:
            doc = fitz.open(str(input_pdf_path))
            total_pages = len(doc)
            print(f"📄 Páginas a procesar: {total_pages}")
            
            extracted_text_fitz = ""
            for page_num in range(total_pages):
                page = doc.load_page(page_num)
                
                # Extracción mejorada que preserva mejor el espaciado
                page_text = page.get_text()
                extracted_text_fitz += page_text + "\n"
                
                # Progreso cada 50 páginas
                if (page_num + 1) % 50 == 0:
                    print(f"   Procesadas {page_num + 1}/{total_pages} páginas...")
            
            doc.close()
            
            print(f"✅ Texto extraído con fitz exitosamente")
            print(f"📊 Longitud del texto: {len(extracted_text_fitz):,} caracteres")
            
            # Guardar texto extraído con fitz
            with open(fitz_text_path, 'w', encoding='utf-8') as f:
                f.write(extracted_text_fitz)
            
            file_size_mb = fitz_text_path.stat().st_size / (1024*1024)
            print(f"💾 Texto guardado en: {fitz_text_path}")
            print(f"💾 Tamaño del archivo: {file_size_mb:.2f} MB")
            
        except Exception as e:
            print(f"❌ Error con fitz: {str(e)}")
            extracted_text_fitz = None
    else:
        print(f"❌ Error: El archivo {input_pdf_path} no existe")
        extracted_text_fitz = None
else:
    print("\n💡 Para instalar PyMuPDF: pip install PyMuPDF")
    print("Después podrás ejecutar esta celda para obtener mejor extracción de texto")
    extracted_text_fitz = None

=== PASO 3: EXTRAER Y LIMPIAR TEXTO ===

PDF de entrada: processed\guia_embarazo_parto_2023_final.pdf
Archivo de texto limpio: processed\guia_embarazo_clean_text.txt
✅ PDF encontrado: 1.95 MB

🔄 Extrayendo texto del PDF...
📄 Páginas a procesar: 402
   Procesadas 50/402 páginas...
   Procesadas 100/402 páginas...
   Procesadas 150/402 páginas...
   Procesadas 200/402 páginas...
   Procesadas 250/402 páginas...
   Procesadas 300/402 páginas...
   Procesadas 350/402 páginas...
   Procesadas 400/402 páginas...
✅ Texto extraído exitosamente
📊 Longitud del texto extraído: 838,653 caracteres


In [22]:
# Función mejorada para limpiar patrones específicos más agresivamente
def enhanced_clean_text(text):
    """
    Limpieza mejorada y más específica para eliminar todos los patrones problemáticos
    """
    if not text:
        return ""
    
    print("🧹 Iniciando limpieza MEJORADA del texto...")
    original_length = len(text)
    
    # 1. ELIMINAR LÍNEAS HORIZONTALES Y VERTICALES (más patrones)
    # Patrones como: -----, _____, ═════, ||||, ▌▌▌, etc.
    text = re.sub(r'^[-_═─▬■|▌▐┃┆┇┊┋]{2,}\s*$', '', text, flags=re.MULTILINE)
    text = re.sub(r'[-_═─▬■|▌▐┃┆┇┊┋]{3,}', '', text)
    
    # 2. ELIMINAR PATRONES NUMÉRICOS AL LADO DE PÁRRAFOS (más agresivo)
    # Patrones como: +1, +2, 1+, 2+, (1), [1], {1}, etc.
    text = re.sub(r'\+\d+\s*', '', text)  # +1, +2, etc.
    text = re.sub(r'\s+\+\d+', '', text)  # espacios antes de +1
    text = re.sub(r'\d+\+\s*', '', text)  # 1+, 2+, etc.
    text = re.sub(r'\s+\d+\+', '', text)  # espacios antes de 1+
    text = re.sub(r'\(\d+\)\s*', '', text)  # (1), (2), etc.
    text = re.sub(r'\[\d+\]\s*', '', text)  # [1], [2], etc.
    text = re.sub(r'\{\d+\}\s*', '', text)  # {1}, {2}, etc.
    text = re.sub(r'^\s*\d+\.\s*$', '', text, flags=re.MULTILINE)  # números con punto solos
    
    # 3. ELIMINAR CARACTERES ESPECIALES QUE ACOMPAÑAN PÁRRAFOS
    # Patrones como: ▪, •, ◆, ►, ⚫, ○, etc.
    text = re.sub(r'^[\s]*[▪•◆►⚫○▲▼◀▶⬆⬇⬅➡✓✗✘×√±≈≠≤≥∞∑∂∆∇∈∉∀∃∄∅∪∩⊆⊇⊂⊃⊄⊅]\s*', '', text, flags=re.MULTILINE)
    
    # 4. ELIMINAR NÚMEROS DE PÁGINA Y REFERENCIAS SUELTOS
    text = re.sub(r'^\s*\d+\s*$', '', text, flags=re.MULTILINE)  # números solos
    text = re.sub(r'^\s*página\s+\d+\s*$', '', text, flags=re.MULTILINE | re.IGNORECASE)
    text = re.sub(r'^\s*pág\.\s*\d+\s*$', '', text, flags=re.MULTILINE | re.IGNORECASE)
    
    # 5. ELIMINAR LÍNEAS CON SOLO ESPACIOS Y CARACTERES ESPECIALES
    text = re.sub(r'^[\s\t\u00A0\u2000-\u200F\u2028-\u202F\u205F\u3000]+$', '', text, flags=re.MULTILINE)
    
    # 6. ELIMINAR CARACTERES UNICODE PROBLEMÁTICOS
    text = text.replace('\u00A0', ' ')  # Espacio no rompible
    text = text.replace('\u2028', '\n')  # Separador de línea
    text = text.replace('\u2029', '\n\n')  # Separador de párrafo
    text = text.replace('\u200B', '')  # Espacio de ancho cero
    text = text.replace('\u2060', '')  # Word joiner
    text = text.replace('\uFEFF', '')  # Byte order mark
    
    # 7. ELIMINAR PATRONES DE ÍNDICE Y TABLA DE CONTENIDOS
    text = re.sub(r'^\s*\d+\.\d+\s*$', '', text, flags=re.MULTILINE)  # 1.1, 2.3, etc.
    text = re.sub(r'^\s*\d+\.\d+\.\d+\s*$', '', text, flags=re.MULTILINE)  # 1.1.1, etc.
    text = re.sub(r'^\s*[IVX]+\.\s*$', '', text, flags=re.MULTILINE)  # I., II., III., etc.
    
    # 8. LIMPIAR ESPACIOS Y SALTOS DE LÍNEA MÚLTIPLES
    text = re.sub(r' +', ' ', text)  # Múltiples espacios -> un espacio
    text = re.sub(r'\t+', ' ', text)  # Tabs -> espacios
    text = re.sub(r'\n\s*\n\s*\n+', '\n\n', text)  # Múltiples saltos -> doble salto
    
    # 9. ELIMINAR LÍNEAS MUY CORTAS QUE PROBABLEMENTE SEAN RUIDO
    lines = text.split('\n')
    cleaned_lines = []
    for line in lines:
        stripped = line.strip()
        # Mantener líneas vacías para separación, o líneas con al menos 5 caracteres
        if len(stripped) >= 5 or stripped == '':
            cleaned_lines.append(line)
        # También mantener líneas que parezcan títulos o encabezados importantes
        elif any(keyword in stripped.lower() for keyword in ['capítulo', 'sección', 'introducción', 'conclusión', 'resumen']):
            cleaned_lines.append(line)
    
    text = '\n'.join(cleaned_lines)
    
    # 10. LIMPIEZA FINAL
    text = text.strip()
    
    final_length = len(text)
    reduction = original_length - final_length
    reduction_percent = (reduction / original_length) * 100 if original_length > 0 else 0
    
    print(f"✅ Limpieza MEJORADA completada:")
    print(f"   📊 Caracteres originales: {original_length:,}")
    print(f"   📊 Caracteres después de limpieza: {final_length:,}")
    print(f"   📊 Caracteres eliminados: {reduction:,} ({reduction_percent:.1f}%)")
    
    return text


In [23]:
# Función para corregir palabras partidas por espacios incorrectos
def fix_broken_words(text):
    """
    Corrige palabras que se han partido incorrectamente debido a problemas de extracción del PDF
    Ejemplo: "control p renatal" -> "control prenatal"
    """
    print("🔧 Corrigiendo palabras partidas...")
    original_length = len(text)
    
    # Patrón para detectar letra sola seguida de espacio y más letras
    # Esto captura casos como "p renatal", "c ontrol", "m édico", etc.
    
    # 1. Corregir letras sueltas al inicio de palabras (más común)
    # Patrón: espacio + letra sola + espacio + letras
    text = re.sub(r'\b([a-záéíóúüñ])\s+([a-záéíóúüñ]+)', r'\1\2', text, flags=re.IGNORECASE)
    
    # 2. Corregir letras sueltas en medio de palabras
    # Patrón: letras + espacio + letra sola + espacio + letras
    text = re.sub(r'\b([a-záéíóúüñ]+)\s+([a-záéíóúüñ])\s+([a-záéíóúüñ]+)\b', r'\1\2\3', text, flags=re.IGNORECASE)
    
    # 3. Corregir casos específicos comunes en español
    common_fixes = {
        # Términos médicos comunes
        r'\bp\s+renatal\b': 'prenatal',
        r'\bc\s+ontrol\b': 'control',
        r'\be\s+mbarazo\b': 'embarazo',
        r'\bp\s+arto\b': 'parto',
        r'\bm\s+édico\b': 'médico',
        r'\bp\s+aciente\b': 'paciente',
        r'\bt\s+ratamiento\b': 'tratamiento',
        r'\bd\s+iagnóstico\b': 'diagnóstico',
        r'\bs\s+íntomas\b': 'síntomas',
        r'\bc\s+onsulta\b': 'consulta',
        r'\bh\s+ospital\b': 'hospital',
        r'\bc\s+línica\b': 'clínica',
        r'\be\s+xamen\b': 'examen',
        r'\ba\s+nálisis\b': 'análisis',
        r'\br\s+esultados\b': 'resultados',
        r'\bp\s+rocedimiento\b': 'procedimiento',
        r'\bc\s+irugía\b': 'cirugía',
        r'\ba\s+nalgesia\b': 'analgesia',
        r'\ba\s+nestesia\b': 'anestesia',
        
        # Palabras comunes en español
        r'\bd\s+e\b': 'de',
        r'\bl\s+a\b': 'la',
        r'\be\s+l\b': 'el',
        r'\bl\s+os\b': 'los',
        r'\bl\s+as\b': 'las',
        r'\bu\s+n\b': 'un',
        r'\bu\s+na\b': 'una',
        r'\bp\s+or\b': 'por',
        r'\bp\s+ara\b': 'para',
        r'\bc\s+on\b': 'con',
        r'\bs\s+in\b': 'sin',
        r'\be\s+n\b': 'en',
        r'\ba\s+l\b': 'al',
        r'\bd\s+el\b': 'del',
        r'\bq\s+ue\b': 'que',
        r'\bs\s+e\b': 'se',
        r'\bn\s+o\b': 'no',
        r'\bs\s+i\b': 'si',
        r'\bs\s+í\b': 'sí',
        r'\by\s+a\b': 'ya',
        r'\bm\s+ás\b': 'más',
        r'\bt\s+ambién\b': 'también',
        r'\bp\s+uede\b': 'puede',
        r'\bp\s+ueden\b': 'pueden',
        r'\bd\s+ebe\b': 'debe',
        r'\bd\s+eben\b': 'deben',
        r'\be\s+sta\b': 'esta',
        r'\be\s+ste\b': 'este',
        r'\be\s+stos\b': 'estos',
        r'\be\s+stas\b': 'estas',
    }
    
    # Aplicar correcciones específicas
    for pattern, replacement in common_fixes.items():
        text = re.sub(pattern, replacement, text, flags=re.IGNORECASE)
    
    # 4. Corregir números partidos
    text = re.sub(r'\b(\d+)\s+(\d+)\b', r'\1\2', text)
    
    # 5. Corregir abreviaciones partidas
    text = re.sub(r'\b([A-Z])\s+([A-Z])\b', r'\1\2', text)  # Ej: "E G A" -> "EGA"
    
    final_length = len(text)
    reduction = original_length - final_length
    
    print(f"✅ Corrección de palabras partidas completada:")
    print(f"   📊 Caracteres originales: {original_length:,}")
    print(f"   📊 Caracteres después de corrección: {final_length:,}")
    print(f"   📊 Caracteres reducidos: {reduction:,}")
    
    return text


In [24]:
# Función mejorada que incluye corrección de palabras partidas
def ultimate_clean_text(text):
    """
    Limpieza completa que incluye:
    1. Limpieza de patrones no deseados
    2. Corrección de palabras partidas
    """
    if not text:
        return ""
    
    print("🚀 Iniciando limpieza COMPLETA del texto...")
    
    # Paso 1: Aplicar limpieza mejorada
    cleaned_text = enhanced_clean_text(text)
    
    # Paso 2: Corregir palabras partidas
    final_text = fix_broken_words(cleaned_text)
    
    print("✅ Limpieza COMPLETA terminada!")
    return final_text


In [25]:
# Aplicar la limpieza COMPLETA (incluyendo corrección de palabras partidas)
print("=== APLICANDO LIMPIEZA COMPLETA ===")
print()

if 'extracted_text' in locals() and extracted_text:
    # Aplicar limpieza completa
    ultimate_cleaned_text = ultimate_clean_text(extracted_text)
    
    if ultimate_cleaned_text:
        # Guardar el texto con limpieza completa
        ultimate_clean_path = Path("processed/guia_embarazo_clean_text_ultimate.txt")
        
        try:
            with open(ultimate_clean_path, 'w', encoding='utf-8') as f:
                f.write(ultimate_cleaned_text)
            
            file_size_mb = ultimate_clean_path.stat().st_size / (1024*1024)
            print(f"\n✅ Texto con limpieza COMPLETA guardado")
            print(f"📁 Ubicación: {ultimate_clean_path.absolute()}")
            print(f"💾 Tamaño del archivo: {file_size_mb:.2f} MB")
            
            # Mostrar ejemplos de corrección de palabras partidas
            print(f"\n🔍 EJEMPLOS DE CORRECCIONES APLICADAS:")
            
            # Buscar algunos patrones específicos antes y después
            examples_to_check = [
                ('p renatal', 'prenatal'),
                ('c ontrol', 'control'),
                ('e mbarazo', 'embarazo'),
                ('m édico', 'médico'),
                ('p aciente', 'paciente'),
                ('d e', 'de'),
                ('q ue', 'que'),
                ('p ara', 'para'),
                ('c on', 'con'),
            ]
            
            for broken, fixed in examples_to_check:
                count_before = extracted_text.lower().count(broken.lower())
                count_after = ultimate_cleaned_text.lower().count(broken.lower())
                count_fixed = ultimate_cleaned_text.lower().count(fixed.lower())
                
                if count_before > count_after:
                    print(f"   ✅ '{broken}' → '{fixed}': {count_before - count_after} correcciones")
            
            # Estadísticas finales
            lines = ultimate_cleaned_text.split('\n')
            non_empty_lines = [line for line in lines if line.strip()]
            words = ultimate_cleaned_text.split()
            
            print(f"\n📊 Estadísticas del texto FINAL:")
            print(f"   📄 Total de líneas: {len(lines):,}")
            print(f"   📝 Líneas con contenido: {len(non_empty_lines):,}")
            print(f"   🔤 Total de palabras: {len(words):,}")
            print(f"   📊 Caracteres totales: {len(ultimate_cleaned_text):,}")
            
            print(f"\n🎯 ARCHIVO FINAL RECOMENDADO PARA CHUNKEO:")
            print(f"   📁 {ultimate_clean_path}")
            print(f"   ✅ Este archivo tiene las correcciones más completas")
            
        except Exception as e:
            print(f"❌ Error al guardar el archivo final: {str(e)}")
    else:
        print("❌ No se pudo aplicar la limpieza completa")
else:
    print("❌ Primero necesitas extraer el texto del PDF ejecutando las celdas anteriores")
    print("💡 Ejecuta la celda donde se extrae el texto del PDF")


=== APLICANDO LIMPIEZA COMPLETA ===

🚀 Iniciando limpieza COMPLETA del texto...
🧹 Iniciando limpieza MEJORADA del texto...
✅ Limpieza MEJORADA completada:
   📊 Caracteres originales: 838,653
   📊 Caracteres después de limpieza: 824,475
   📊 Caracteres eliminados: 14,178 (1.7%)
🔧 Corrigiendo palabras partidas...
✅ Corrección de palabras partidas completada:
   📊 Caracteres originales: 824,475
   📊 Caracteres después de corrección: 816,564
   📊 Caracteres reducidos: 7,911
✅ Limpieza COMPLETA terminada!

✅ Texto con limpieza COMPLETA guardado
📁 Ubicación: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_clean_text_ultimate.txt
💾 Tamaño del archivo: 0.80 MB

🔍 EJEMPLOS DE CORRECCIONES APLICADAS:
   ✅ 'p renatal' → 'prenatal': 2 correcciones
   ✅ 'c ontrol' → 'control': 6 correcciones
   ✅ 'e mbarazo' → 'embarazo': 4 correcciones
   ✅ 'm édico' → 'médico': 4 correcciones
   ✅ 'p aciente' → 'paciente': 1 correcciones
   ✅ 'd e' → 'de': 166 correcciones
   ✅ 'q ue' → 