In [5]:
# Preprocesamiento de datos - Gu√≠a de Embarazo y Parto 2023
# Paso 1: Eliminar las primeras 120 p√°ginas del PDF

import PyPDF2
import os
from pathlib import Path

# Configuraci√≥n de rutas
raw_data_path = Path("raw/guia_embarazo_parto_2023.pdf")
processed_data_path = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")

# Crear directorio processed si no existe
processed_data_path.parent.mkdir(parents=True, exist_ok=True)

print(f"Archivo original: {raw_data_path}")
print(f"Archivo procesado: {processed_data_path}")

# Verificar que el archivo original existe
if not raw_data_path.exists():
    print(f"Error: El archivo {raw_data_path} no existe")
else:
    print(f"Archivo encontrado. Tama√±o: {raw_data_path.stat().st_size / (1024*1024):.2f} MB")
# Verificar que el archivo original existe
if not processed_data_path.exists():
    print(f"Error: El archivo {processed_data_path} no existe")
else:
    print(f"Archivo encontrado. Tama√±o: {processed_data_path.stat().st_size / (1024*1024):.2f} MB")


Archivo original: raw\guia_embarazo_parto_2023.pdf
Archivo procesado: processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo encontrado. Tama√±o: 3.54 MB
Error: El archivo processed\guia_embarazo_parto_2023_sin_intro.pdf no existe


In [6]:
# Funci√≥n para eliminar las primeras 120 p√°ginas del PDF
def remove_first_pages(input_path, output_path, pages_to_remove=120):
    """
    Elimina las primeras 'pages_to_remove' p√°ginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF original
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove (int): N√∫mero de p√°ginas a eliminar desde el inicio
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF original
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de p√°ginas en el PDF original: {total_pages}")
            
            if pages_to_remove >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove} p√°ginas, pero el PDF solo tiene {total_pages} p√°ginas")
                return False
            
            # Agregar las p√°ginas desde la p√°gina 'pages_to_remove' hasta el final
            pages_to_keep = total_pages - pages_to_remove
            print(f"Eliminando las primeras {pages_to_remove} p√°ginas")
            print(f"P√°ginas que se mantendr√°n: {pages_to_keep}")
            
            for page_num in range(pages_to_remove, total_pages):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tama√±o del archivo procesado: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [9]:
# Ejecutar el procesamiento para eliminar las primeras 120 p√°ginas
print("=== INICIANDO PROCESAMIENTO DEL PDF ===")
print()

# Ejecutar la funci√≥n
success = remove_first_pages(raw_data_path, processed_data_path, pages_to_remove=123)

if success:
    print()
    print("=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===")
    print(f"‚úÖ Las primeras 120 p√°ginas han sido eliminadas")
    print(f"‚úÖ Archivo procesado disponible en: {processed_data_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO ===")
    print("‚ùå No se pudo completar el procesamiento del PDF")


=== INICIANDO PROCESAMIENTO DEL PDF ===

Total de p√°ginas en el PDF original: 623
Eliminando las primeras 123 p√°ginas
P√°ginas que se mantendr√°n: 500
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_sin_intro.pdf
Tama√±o del archivo procesado: 2.53 MB

=== PROCESAMIENTO COMPLETADO EXITOSAMENTE ===
‚úÖ Las primeras 120 p√°ginas han sido eliminadas
‚úÖ Archivo procesado disponible en: processed\guia_embarazo_parto_2023_sin_intro.pdf


In [None]:
# Verificaci√≥n adicional del archivo procesado
print("=== VERIFICACI√ìN DEL ARCHIVO PROCESADO ===")
print()

if processed_data_path.exists():
    # Verificar el nuevo PDF
    try:
        with open(processed_data_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            new_total_pages = len(pdf_reader.pages)
            file_size_mb = processed_data_path.stat().st_size / (1024*1024)
            
            print(f"üìÑ P√°ginas en el archivo procesado: {new_total_pages}")
            print(f"üíæ Tama√±o del archivo procesado: {file_size_mb:.2f} MB")
            print(f"üìÅ Ubicaci√≥n: {processed_data_path.absolute()}")
            
            # Verificar que realmente se eliminaron 120 p√°ginas
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                expected_pages = original_pages - 123
                
                print()
                print(f"üìä Comparaci√≥n:")
                print(f"   ‚Ä¢ P√°ginas originales: {original_pages}")
                print(f"   ‚Ä¢ P√°ginas eliminadas: 120")
                print(f"   ‚Ä¢ P√°ginas esperadas: {expected_pages}")
                print(f"   ‚Ä¢ P√°ginas obtenidas: {new_total_pages}")
                
                if new_total_pages == expected_pages:
                    print("   ‚úÖ ¬°Verificaci√≥n exitosa! El n√∫mero de p√°ginas es correcto.")
                else:
                    print("   ‚ùå Error: El n√∫mero de p√°ginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"‚ùå Error al verificar el archivo procesado: {str(e)}")
else:
    print("‚ùå El archivo procesado no existe. Algo sali√≥ mal en el procesamiento.")


=== VERIFICACI√ìN DEL ARCHIVO PROCESADO ===

üìÑ P√°ginas en el archivo procesado: 500
üíæ Tama√±o del archivo procesado: 2.53 MB
üìÅ Ubicaci√≥n: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_sin_intro.pdf

üìä Comparaci√≥n:
   ‚Ä¢ P√°ginas originales: 623
   ‚Ä¢ P√°ginas eliminadas: 120
   ‚Ä¢ P√°ginas esperadas: 503
   ‚Ä¢ P√°ginas obtenidas: 500
   ‚ùå Error: El n√∫mero de p√°ginas no coincide con lo esperado.


In [11]:
# Paso 2: Eliminar las √∫ltimas 98 p√°ginas del PDF ya procesado
print("=== PASO 2: ELIMINAR √öLTIMAS 98 P√ÅGINAS ===")
print()

# Configuraci√≥n de rutas para el segundo procesamiento
input_path_step2 = Path("processed/guia_embarazo_parto_2023_sin_intro.pdf")  # El archivo que ya procesamos
final_processed_path = Path("processed/guia_embarazo_parto_2023_final.pdf")

print(f"Archivo de entrada (ya sin primeras p√°ginas): {input_path_step2}")
print(f"Archivo final (sin primeras y √∫ltimas p√°ginas): {final_processed_path}")

# Verificar que el archivo de entrada existe
if not input_path_step2.exists():
    print(f"‚ùå Error: El archivo {input_path_step2} no existe")
    print("Primero necesitas ejecutar el Paso 1 para eliminar las primeras p√°ginas")
else:
    with open(input_path_step2, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        current_pages = len(pdf_reader.pages)
        print(f"üìÑ P√°ginas actuales en el archivo: {current_pages}")
        print(f"üóëÔ∏è P√°ginas a eliminar del final: 98")
        print(f"üìù P√°ginas que quedar√°n: {current_pages - 98}")


=== PASO 2: ELIMINAR √öLTIMAS 98 P√ÅGINAS ===

Archivo de entrada (ya sin primeras p√°ginas): processed\guia_embarazo_parto_2023_sin_intro.pdf
Archivo final (sin primeras y √∫ltimas p√°ginas): processed\guia_embarazo_parto_2023_final.pdf
üìÑ P√°ginas actuales en el archivo: 500
üóëÔ∏è P√°ginas a eliminar del final: 98
üìù P√°ginas que quedar√°n: 402


In [12]:
# Funci√≥n para eliminar las √∫ltimas p√°ginas del PDF
def remove_last_pages(input_path, output_path, pages_to_remove_from_end=98):
    """
    Elimina las √∫ltimas 'pages_to_remove_from_end' p√°ginas de un PDF
    
    Args:
        input_path (Path): Ruta del archivo PDF de entrada
        output_path (Path): Ruta donde guardar el PDF procesado
        pages_to_remove_from_end (int): N√∫mero de p√°ginas a eliminar desde el final
    
    Returns:
        bool: True si el procesamiento fue exitoso, False en caso contrario
    """
    try:
        # Abrir el PDF de entrada
        with open(input_path, 'rb') as input_file:
            pdf_reader = PyPDF2.PdfReader(input_file)
            pdf_writer = PyPDF2.PdfWriter()
            
            total_pages = len(pdf_reader.pages)
            print(f"Total de p√°ginas en el PDF actual: {total_pages}")
            
            if pages_to_remove_from_end >= total_pages:
                print(f"Error: Se quieren eliminar {pages_to_remove_from_end} p√°ginas del final, pero el PDF solo tiene {total_pages} p√°ginas")
                return False
            
            # Calcular cu√°ntas p√°ginas mantener (desde el inicio hasta antes de las √∫ltimas que queremos eliminar)
            pages_to_keep = total_pages - pages_to_remove_from_end
            print(f"Eliminando las √∫ltimas {pages_to_remove_from_end} p√°ginas")
            print(f"P√°ginas que se mantendr√°n: {pages_to_keep} (p√°ginas 1 a {pages_to_keep})")
            
            # Agregar solo las p√°ginas que queremos mantener (desde 0 hasta pages_to_keep-1)
            for page_num in range(0, pages_to_keep):
                pdf_writer.add_page(pdf_reader.pages[page_num])
            
            # Guardar el nuevo PDF
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)
            
            print(f"PDF procesado guardado exitosamente en: {output_path}")
            print(f"Tama√±o del archivo final: {output_path.stat().st_size / (1024*1024):.2f} MB")
            return True
            
    except Exception as e:
        print(f"Error al procesar el PDF: {str(e)}")
        return False


In [13]:
# Ejecutar el procesamiento para eliminar las √∫ltimas 98 p√°ginas
print("=== EJECUTANDO ELIMINACI√ìN DE √öLTIMAS P√ÅGINAS ===")
print()

# Ejecutar la funci√≥n
success_step2 = remove_last_pages(input_path_step2, final_processed_path, pages_to_remove_from_end=98)

if success_step2:
    print()
    print("=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===")
    print(f"‚úÖ Las √∫ltimas 98 p√°ginas han sido eliminadas")
    print(f"‚úÖ Archivo final disponible en: {final_processed_path}")
else:
    print()
    print("=== ERROR EN EL PROCESAMIENTO PASO 2 ===")
    print("‚ùå No se pudo completar la eliminaci√≥n de las √∫ltimas p√°ginas")


=== EJECUTANDO ELIMINACI√ìN DE √öLTIMAS P√ÅGINAS ===

Total de p√°ginas en el PDF actual: 500
Eliminando las √∫ltimas 98 p√°ginas
P√°ginas que se mantendr√°n: 402 (p√°ginas 1 a 402)
PDF procesado guardado exitosamente en: processed\guia_embarazo_parto_2023_final.pdf
Tama√±o del archivo final: 1.95 MB

=== PROCESAMIENTO PASO 2 COMPLETADO EXITOSAMENTE ===
‚úÖ Las √∫ltimas 98 p√°ginas han sido eliminadas
‚úÖ Archivo final disponible en: processed\guia_embarazo_parto_2023_final.pdf


In [14]:
# Verificaci√≥n final completa del procesamiento
print("=== VERIFICACI√ìN FINAL DEL PROCESAMIENTO COMPLETO ===")
print()

if final_processed_path.exists():
    # Verificar el archivo final
    try:
        with open(final_processed_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            final_pages = len(pdf_reader.pages)
            final_size_mb = final_processed_path.stat().st_size / (1024*1024)
            
            print(f"üìÑ P√°ginas en el archivo final: {final_pages}")
            print(f"üíæ Tama√±o del archivo final: {final_size_mb:.2f} MB")
            print(f"üìÅ Ubicaci√≥n final: {final_processed_path.absolute()}")
            
            # Comparaci√≥n completa de todo el proceso
            with open(raw_data_path, 'rb') as original_file:
                original_pdf = PyPDF2.PdfReader(original_file)
                original_pages = len(original_pdf.pages)
                original_size_mb = raw_data_path.stat().st_size / (1024*1024)
                
                print()
                print(f"üìä RESUMEN COMPLETO DEL PROCESAMIENTO:")
                print(f"   üìÑ Archivo original:")
                print(f"      ‚Ä¢ P√°ginas: {original_pages}")
                print(f"      ‚Ä¢ Tama√±o: {original_size_mb:.2f} MB")
                print()
                print(f"   üóëÔ∏è P√°ginas eliminadas:")
                print(f"      ‚Ä¢ Primeras p√°ginas eliminadas: 123")
                print(f"      ‚Ä¢ √öltimas p√°ginas eliminadas: 98")
                print(f"      ‚Ä¢ Total eliminadas: {123 + 98} p√°ginas")
                print()
                print(f"   üìÑ Archivo final:")
                print(f"      ‚Ä¢ P√°ginas: {final_pages}")
                print(f"      ‚Ä¢ Tama√±o: {final_size_mb:.2f} MB")
                print(f"      ‚Ä¢ Reducci√≥n de tama√±o: {original_size_mb - final_size_mb:.2f} MB")
                
                expected_final_pages = original_pages - 123 - 98
                print()
                print(f"   ‚úÖ Verificaci√≥n:")
                print(f"      ‚Ä¢ P√°ginas esperadas: {expected_final_pages}")
                print(f"      ‚Ä¢ P√°ginas obtenidas: {final_pages}")
                
                if final_pages == expected_final_pages:
                    print(f"      ‚úÖ ¬°PERFECTO! El procesamiento fue exitoso.")
                    print(f"      ‚úÖ Se eliminaron correctamente las primeras 123 y √∫ltimas 98 p√°ginas.")
                else:
                    print(f"      ‚ùå Error: El n√∫mero de p√°ginas no coincide con lo esperado.")
                    
    except Exception as e:
        print(f"‚ùå Error al verificar el archivo final: {str(e)}")
else:
    print("‚ùå El archivo final no existe. El procesamiento no se complet√≥ correctamente.")


=== VERIFICACI√ìN FINAL DEL PROCESAMIENTO COMPLETO ===

üìÑ P√°ginas en el archivo final: 402
üíæ Tama√±o del archivo final: 1.95 MB
üìÅ Ubicaci√≥n final: c:\Users\MSI\Desktop\DreamTeam\RAG-Benchmark\Data\processed\guia_embarazo_parto_2023_final.pdf

üìä RESUMEN COMPLETO DEL PROCESAMIENTO:
   üìÑ Archivo original:
      ‚Ä¢ P√°ginas: 623
      ‚Ä¢ Tama√±o: 3.54 MB

   üóëÔ∏è P√°ginas eliminadas:
      ‚Ä¢ Primeras p√°ginas eliminadas: 123
      ‚Ä¢ √öltimas p√°ginas eliminadas: 98
      ‚Ä¢ Total eliminadas: 221 p√°ginas

   üìÑ Archivo final:
      ‚Ä¢ P√°ginas: 402
      ‚Ä¢ Tama√±o: 1.95 MB
      ‚Ä¢ Reducci√≥n de tama√±o: 1.59 MB

   ‚úÖ Verificaci√≥n:
      ‚Ä¢ P√°ginas esperadas: 402
      ‚Ä¢ P√°ginas obtenidas: 402
      ‚úÖ ¬°PERFECTO! El procesamiento fue exitoso.
      ‚úÖ Se eliminaron correctamente las primeras 123 y √∫ltimas 98 p√°ginas.


In [31]:
# Extracci√≥n estructurada: P√ÅGINA | CONTENIDO
print("=== EXTRACCI√ìN ESTRUCTURADA POR P√ÅGINA ===")
print()

try:
    import fitz  # PyMuPDF
    fitz_available = True
    print("‚úÖ PyMuPDF disponible")
except ImportError:
    fitz_available = False
    print("‚ùå PyMuPDF no disponible")

if fitz_available:
    input_pdf_path = Path("processed/guia_embarazo_parto_2023_final.pdf")
    structured_text_path = Path("processed/guia_embarazo_ESTRUCTURADO.txt")
    
    print(f"PDF de entrada: {input_pdf_path}")
    print(f"Archivo estructurado: {structured_text_path}")
    
    if input_pdf_path.exists():
        print(f"‚úÖ PDF encontrado: {input_pdf_path.stat().st_size / (1024*1024):.2f} MB")
        
        try:
            doc = fitz.open(str(input_pdf_path))
            total_pages = len(doc)
            print(f"üìÑ Total de p√°ginas: {total_pages}")
            
            structured_lines = []
            
            for page_num in range(total_pages):
                page = doc.load_page(page_num)
                
                # Extraer texto de la p√°gina
                page_text = page.get_text()
                
                # Limpiar el texto de la p√°gina
                # 1. Eliminar saltos de l√≠nea y espacios m√∫ltiples
                clean_page_text = re.sub(r'\s+', ' ', page_text.strip())
                
                # 2. Eliminar caracteres problem√°ticos
                clean_page_text = clean_page_text.replace('\u00A0', ' ')  # Espacio no rompible
                clean_page_text = clean_page_text.replace('\u2028', ' ')  # Separador de l√≠nea
                clean_page_text = clean_page_text.replace('\u2029', ' ')  # Separador de p√°rrafo
                
                # 3. Eliminar patrones comunes no deseados
                clean_page_text = re.sub(r'\+\d+', '', clean_page_text)  # +1, +2, etc.
                clean_page_text = re.sub(r'[-_‚ïê‚îÄ‚ñ¨‚ñ†|‚ñå‚ñê‚îÉ]{3,}', '', clean_page_text)  # L√≠neas
                
                # 4. Limpiar espacios finales
                clean_page_text = re.sub(r'\s+', ' ', clean_page_text).strip()
                
                # Solo agregar si la p√°gina tiene contenido significativo
                if len(clean_page_text) > 10:  # M√≠nimo 10 caracteres
                    # Formato: P√ÅGINA | CONTENIDO
                    page_line = f"{page_num + 1}|{clean_page_text}"
                    structured_lines.append(page_line)
                
                # Progreso cada 50 p√°ginas
                if (page_num + 1) % 50 == 0:
                    print(f"   Procesadas {page_num + 1}/{total_pages} p√°ginas...")
            
            doc.close()
            
            # Guardar archivo estructurado
            with open(structured_text_path, 'w', encoding='utf-8') as f:
                for line in structured_lines:
                    f.write(line + '\n')
            
            file_size_mb = structured_text_path.stat().st_size / (1024*1024)
            print(f"\n‚úÖ Archivo estructurado creado exitosamente")
            print(f"üìÅ Ubicaci√≥n: {structured_text_path}")
            print(f"üíæ Tama√±o: {file_size_mb:.2f} MB")
            print(f"üìÑ P√°ginas procesadas: {len(structured_lines)}")
            print(f"üìä Promedio caracteres por p√°gina: {sum(len(line.split('|', 1)[1]) for line in structured_lines) // len(structured_lines) if structured_lines else 0}")
            
        except Exception as e:
            print(f"‚ùå Error: {str(e)}")
    else:
        print(f"‚ùå Error: PDF no encontrado")
else:
    print("‚ùå Necesitas instalar PyMuPDF: pip install PyMuPDF")

=== EXTRACCI√ìN ESTRUCTURADA POR P√ÅGINA ===

‚úÖ PyMuPDF disponible
PDF de entrada: processed\guia_embarazo_parto_2023_final.pdf
Archivo estructurado: processed\guia_embarazo_ESTRUCTURADO.txt
‚úÖ PDF encontrado: 1.95 MB
üìÑ Total de p√°ginas: 402
   Procesadas 50/402 p√°ginas...
   Procesadas 100/402 p√°ginas...
   Procesadas 150/402 p√°ginas...
   Procesadas 200/402 p√°ginas...
   Procesadas 250/402 p√°ginas...
   Procesadas 300/402 p√°ginas...
   Procesadas 350/402 p√°ginas...
   Procesadas 400/402 p√°ginas...

‚úÖ Archivo estructurado creado exitosamente
üìÅ Ubicaci√≥n: processed\guia_embarazo_ESTRUCTURADO.txt
üíæ Tama√±o: 0.79 MB
üìÑ P√°ginas procesadas: 402
üìä Promedio caracteres por p√°gina: 2019


In [40]:
# Funci√≥n especializada para limpiar contenido por p√°gina
def clean_page_content(text):
    """
    Limpia el contenido de una p√°gina espec√≠fica
    """
    if not text or len(text.strip()) < 5:
        return ""
    
    # 1. Normalizar espacios y saltos de l√≠nea
    text = re.sub(r'\s+', ' ', text.strip())
    
    # 2. Eliminar caracteres Unicode problem√°ticos
    text = text.replace('\u00A0', ' ')  # Espacio no rompible
    text = text.replace('\u2028', ' ')  # Separador de l√≠nea
    text = text.replace('\u2029', ' ')  # Separador de p√°rrafo
    text = text.replace('\u200B', '')   # Espacio de ancho cero
    
    # 3. Eliminar patrones espec√≠ficos
    text = re.sub(r'\+\d+\s*', '', text)  # +1, +2, etc.
    text = re.sub(r'\s+\+\d+', '', text)  # espacios antes de +1
    text = re.sub(r'[-_‚ïê‚îÄ‚ñ¨‚ñ†|‚ñå‚ñê‚îÉ]{3,}', '', text)  # L√≠neas horizontales/verticales
    
    # 4. Eliminar n√∫meros de p√°gina al inicio o final
    text = re.sub(r'^\d{1,3}\s+', '', text)  # N√∫mero al inicio
    text = re.sub(r'\s+\d{1,3}$', '', text)  # N√∫mero al final
    
    # 5. Limpiar espacios m√∫ltiples nuevamente
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

In [43]:
# Funci√≥n mejorada para limpiar contenido por p√°gina (VERSI√ìN FINAL)
def clean_page_content_final(text):
    """
    Limpia el contenido de una p√°gina eliminando TODOS los elementos no deseados
    """
    if not text or len(text.strip()) < 5:
        return ""
    
    # 1. Normalizar espacios y saltos de l√≠nea
    text = re.sub(r'\s+', ' ', text.strip())
    
    # 2. Eliminar caracteres Unicode problem√°ticos
    text = text.replace('\u00A0', ' ')  # Espacio no rompible
    text = text.replace('\u2028', ' ')  # Separador de l√≠nea
    text = text.replace('\u2029', ' ')  # Separador de p√°rrafo
    text = text.replace('\u200B', '')   # Espacio de ancho cero
    
    # 3. Eliminar patrones espec√≠ficos
    text = re.sub(r'\+\d+\s*', '', text)  # +1, +2, etc.
    text = re.sub(r'\s+\+\d+', '', text)  # espacios antes de +1
    text = re.sub(r'[-_‚ïê‚îÄ‚ñ¨‚ñ†|‚ñå‚ñê‚îÉ]{3,}', '', text)  # L√≠neas horizontales/verticales
    
    # 4. NUEVO: Eliminar marcadores de evidencia
    text = re.sub(r'\b\d+\+\+?\b', '', text)  # 1+, 2+, 1++, 2++, etc.
    text = re.sub(r'\b[IVX]+\+?\b', '', text)  # I+, II, III, IV, etc.
    text = re.sub(r'\bII\s+III\b', '', text)  # "II III" espec√≠fico
    text = re.sub(r'\b[IVX]+\s+[IVX]+\b', '', text)  # N√∫meros romanos m√∫ltiples
    
    # 5. NUEVO: Eliminar s√≠mbolos especiales innecesarios
    text = text.replace('‚àö', '')  # S√≠mbolo de check
    text = text.replace('(‚Üë)', '')  # Flecha hacia arriba
    text = text.replace('‚Üë', '')  # Flecha hacia arriba sola
    
    # 6. Eliminar n√∫meros de p√°gina al inicio o final
    text = re.sub(r'^\d{1,3}\s+', '', text)  # N√∫mero al inicio
    text = re.sub(r'\s+\d{1,3}$', '', text)  # N√∫mero al final
    
    # 7. Eliminar patrones de referencias bibliogr√°ficas sueltas
    text = re.sub(r'\(\d{1,4}\)', '', text)  # (123), (45), etc. - referencias
    
    # 8. Limpiar espacios m√∫ltiples nuevamente
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 9. Eliminar texto residual muy corto al final
    if len(text) < 20:
        return ""
    
    return text

In [44]:
# EXTRACCI√ìN FINAL MEJORADA: Sin marcadores de evidencia
print("=== EXTRACCI√ìN FINAL ULTRA-LIMPIA ===")
print()

def extract_ultra_clean_text(pdf_path, output_path):
    """
    Extrae texto por p√°gina con limpieza COMPLETA
    """
    try:
        import fitz
        
        doc = fitz.open(str(pdf_path))
        total_pages = len(doc)
        print(f"üìÑ Procesando {total_pages} p√°ginas...")
        
        structured_lines = []
        
        for page_num in range(total_pages):
            page = doc.load_page(page_num)
            page_text = page.get_text()
            
            # Aplicar limpieza COMPLETA
            clean_content = clean_page_content_final(page_text)
            
            # Solo agregar p√°ginas con contenido significativo
            if len(clean_content) > 30:  # Aumentamos el m√≠nimo a 30 caracteres
                page_line = f"{page_num + 1}|{clean_content}"
                structured_lines.append(page_line)
            
            if (page_num + 1) % 50 == 0:
                print(f"   ‚úì {page_num + 1}/{total_pages} p√°ginas")
        
        doc.close()
        
        # Guardar archivo ultra-limpio
        with open(output_path, 'w', encoding='utf-8') as f:
            for line in structured_lines:
                f.write(line + '\n')
        
        return len(structured_lines)
        
    except Exception as e:
        print(f"‚ùå Error: {str(e)}")
        return 0

# Ejecutar extracci√≥n ultra-limpia
input_pdf_path = Path("processed/guia_embarazo_parto_2023_final.pdf")

if input_pdf_path.exists():
    ultra_clean_path = Path("processed/guia_embarazo_ULTRA_CLEAN.txt")
    
    pages_processed = extract_ultra_clean_text(input_pdf_path, ultra_clean_path)
    
    if pages_processed > 0:
        file_size_mb = ultra_clean_path.stat().st_size / (1024*1024)
        print(f"\nüéâ ¬°ARCHIVO ULTRA-LIMPIO LISTO!")
        print(f"üìÅ Archivo: {ultra_clean_path}")
        print(f"üíæ Tama√±o: {file_size_mb:.2f} MB")
        print(f"üìÑ P√°ginas procesadas: {pages_processed}")
        print(f"üßπ Limpieza aplicada:")
        print(f"   ‚úÖ Sin marcadores de evidencia (1+, 2+, II III)")
        print(f"   ‚úÖ Sin s√≠mbolos especiales (‚àö, ‚Üë)")
        print(f"   ‚úÖ Sin referencias bibliogr√°ficas sueltas")
        print(f"   ‚úÖ Sin l√≠neas horizontales")
        print(f"   ‚úÖ Formato: P√ÅGINA|CONTENIDO_ULTRA_LIMPIO")
        print(f"\nüéØ ESTE ES EL ARCHIVO FINAL PARA CHUNKEO")

=== EXTRACCI√ìN FINAL ULTRA-LIMPIA ===

üìÑ Procesando 402 p√°ginas...
   ‚úì 50/402 p√°ginas
   ‚úì 100/402 p√°ginas
   ‚úì 150/402 p√°ginas
   ‚úì 200/402 p√°ginas
   ‚úì 250/402 p√°ginas
   ‚úì 300/402 p√°ginas
   ‚úì 350/402 p√°ginas
   ‚úì 400/402 p√°ginas

üéâ ¬°ARCHIVO ULTRA-LIMPIO LISTO!
üìÅ Archivo: processed\guia_embarazo_ULTRA_CLEAN.txt
üíæ Tama√±o: 0.79 MB
üìÑ P√°ginas procesadas: 402
üßπ Limpieza aplicada:
   ‚úÖ Sin marcadores de evidencia (1+, 2+, II III)
   ‚úÖ Sin s√≠mbolos especiales (‚àö, ‚Üë)
   ‚úÖ Sin referencias bibliogr√°ficas sueltas
   ‚úÖ Sin l√≠neas horizontales
   ‚úÖ Formato: P√ÅGINA|CONTENIDO_ULTRA_LIMPIO

üéØ ESTE ES EL ARCHIVO FINAL PARA CHUNKEO


In [47]:
# PASO 4 MEJORADO: CHUNKING CON METADATOS DE SECCIONES
print("=== CHUNKING MEJORADO CON METADATOS DE SECCIONES ===")
print()

import json
import re
from datetime import datetime

# Definir las 6 secciones del documento
SECTIONS = {
    1: {
        "title": "PREVENCI√ìN Y DETECCI√ìN TEMPRANA DE LAS ALTERACIONES DEL EMBARAZO",
        "start_page": 1,
        "end_page": 145  # Aproximado, se ajustar√° din√°micamente
    },
    2: {
        "title": "ABORDAJE DE LAS COMPLICACIONES HIPERTENSIVAS ASOCIADAS AL EMBARAZO", 
        "start_page": 146,
        "end_page": 201
    },
    3: {
        "title": "INFECCIONES EN EL EMBARAZO: RUPTURA PREMATURA DE MEMBRANAS (RPM)",
        "start_page": 202,
        "end_page": 277
    },
    4: {
        "title": "NUTRICI√ìN EN EL EMBARAZO",
        "start_page": 278,  # Se ajustar√° din√°micamente
        "end_page": 350   # Aproximado
    },
    5: {
        "title": "DETECCI√ìN TEMPRANA DE LAS ANOMAL√çAS DURANTE EL TRABAJO DE PARTO, ATENCI√ìN DEL PARTO NORMAL Y DIST√ìCICO",
        "start_page": 278,
        "end_page": 357
    },
    6: {
        "title": "COMPLICACIONES HEMORR√ÅGICAS ASOCIADAS AL EMBARAZO",
        "start_page": 358,
        "end_page": 450  # Hasta el final
    }
}

def detect_section_boundaries(input_file_path):
    """
    Detecta autom√°ticamente los l√≠mites de las secciones bas√°ndose en el contenido
    """
    section_pages = {}
    
    try:
        with open(input_file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        for line in lines:
            line = line.strip()
            if '|' in line:
                page_num_str, content = line.split('|', 1)
                page_num = int(page_num_str.strip())
                content = content.strip()
                
                # Buscar marcadores de secci√≥n
                if re.search(r'SECCI√ìN\s+(\d+)', content, re.IGNORECASE):
                    section_match = re.search(r'SECCI√ìN\s+(\d+)', content, re.IGNORECASE)
                    section_number = int(section_match.group(1))
                    section_pages[section_number] = page_num
                    print(f"   üìç Secci√≥n {section_number} detectada en p√°gina {page_num}")
        
        return section_pages
        
    except Exception as e:
        print(f"‚ùå Error detectando secciones: {str(e)}")
        return {}

def get_section_for_page(page_num, section_boundaries):
    """
    Determina a qu√© secci√≥n pertenece una p√°gina dada
    """
    # Ordenar las secciones por n√∫mero
    sorted_sections = sorted(section_boundaries.items())
    
    # Encontrar la secci√≥n correcta
    for i, (section_num, start_page) in enumerate(sorted_sections):
        # Si es la √∫ltima secci√≥n, va hasta el final
        if i == len(sorted_sections) - 1:
            if page_num >= start_page:
                return section_num
        else:
            # Obtener la p√°gina de inicio de la siguiente secci√≥n
            next_start_page = sorted_sections[i + 1][1]
            if start_page <= page_num < next_start_page:
                return section_num
    
    # Si no se encuentra, asumir secci√≥n 1
    return 1

def chunk_text_with_overlap_improved(text, chunk_size=500, overlap=100):
    """
    Divide el texto en chunks con overlap espec√≠fico (versi√≥n mejorada)
    """
    if len(text) <= chunk_size:
        return [text]
    
    chunks = []
    start = 0
    
    while start < len(text):
        # Calcular el final del chunk
        end = start + chunk_size
        
        # Si llegamos al final del texto, tomar todo lo que queda
        if end >= len(text):
            chunk = text[start:]
            if chunk.strip():
                chunks.append(chunk.strip())
            break
        
        # Extraer el chunk
        chunk = text[start:end]
        
        # Intentar terminar en un espacio, punto o coma para no cortar palabras/oraciones
        if end < len(text) and text[end] not in [' ', '.', ',', ';', ':', '!', '?']:
            # Buscar hacia atr√°s el √∫ltimo separador de oraci√≥n
            last_sentence_end = max(
                chunk.rfind('.'), chunk.rfind('!'), chunk.rfind('?'),
                chunk.rfind(';')
            )
            if last_sentence_end > chunk_size * 0.6:  # Si est√° en el √∫ltimo 40%
                chunk = chunk[:last_sentence_end + 1]
                end = start + last_sentence_end + 1
            else:
                # Si no hay separador de oraci√≥n, buscar espacio
                last_space = chunk.rfind(' ')
                if last_space > chunk_size * 0.7:  # Si est√° en el √∫ltimo 30%
                    chunk = chunk[:last_space]
                    end = start + last_space
        
        chunks.append(chunk.strip())
        
        # Calcular el siguiente punto de inicio con overlap
        start = end - overlap
        
        # Asegurar que no retrocedamos demasiado
        if start < 0:
            start = 0
    
    return chunks

def process_file_chunking_with_sections(input_file_path, output_file_path, chunk_size=500, overlap=100):
    """
    Procesa el archivo estructurado y crea chunks con metadatos completos incluyendo secciones
    """
    print(f"üìÅ Archivo de entrada: {input_file_path}")
    print(f"üìÅ Archivo de salida: {output_file_path}")
    print(f"üìä Configuraci√≥n: {chunk_size} caracteres, {overlap} overlap")
    print()
    
    # Detectar l√≠mites de secciones
    print("üîç Detectando secciones del documento...")
    section_boundaries = detect_section_boundaries(input_file_path)
    
    if not section_boundaries:
        print("‚ö†Ô∏è No se pudieron detectar secciones, usando valores por defecto")
        section_boundaries = {1: 1, 2: 146, 3: 202, 4: 278, 5: 278, 6: 358}
    
    print(f"‚úÖ Secciones detectadas: {section_boundaries}")
    print()
    
    chunks_data = []
    
    try:
        with open(input_file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        total_lines = len(lines)
        print(f"üìÑ Total de p√°ginas en el archivo: {total_lines}")
        
        for line_idx, line in enumerate(lines):
            line = line.strip()
            if not line:
                continue
            
            # Separar p√°gina y contenido
            if '|' in line:
                page_num_str, content = line.split('|', 1)
                page_num = int(page_num_str.strip())
                content = content.strip()
                
                if len(content) < 20:  # Saltar p√°ginas con muy poco contenido
                    continue
                
                # Determinar la secci√≥n
                section_number = get_section_for_page(page_num, section_boundaries)
                section_info = SECTIONS.get(section_number, SECTIONS[1])
                
                # Crear chunks del contenido de esta p√°gina
                page_chunks = chunk_text_with_overlap_improved(content, chunk_size, overlap)
                
                # Crear metadatos para cada chunk
                for chunk_idx, chunk_text in enumerate(page_chunks):
                    chunk_data = {
                        "chunk_id": f"sec{section_number}_page{page_num}_chunk{chunk_idx + 1}",
                        "page_number": page_num,
                        "chunk_index": chunk_idx + 1,
                        "total_chunks_in_page": len(page_chunks),
                        "content": chunk_text,
                        "char_count": len(chunk_text),
                        "word_count": len(chunk_text.split()),
                        "source_file": "guia_embarazo_parto_2023_final.pdf",
                        
                        # NUEVOS METADATOS DE SECCI√ìN
                        "section_number": section_number,
                        "section_title": section_info["title"],
                        "section_topic": "embarazo_parto",  # Tema general
                        
                        # Metadatos adicionales √∫tiles para RAG
                        "document_type": "guia_clinica",
                        "language": "es",
                        "domain": "medicina_obstetrica",
                        "chunk_quality": "high" if len(chunk_text) > 100 else "medium"
                    }
                    chunks_data.append(chunk_data)
            
            # Progreso cada 50 p√°ginas
            if (line_idx + 1) % 50 == 0:
                print(f"   ‚úì Procesadas {line_idx + 1}/{total_lines} p√°ginas...")
        
        # Guardar chunks como JSON
        with open(output_file_path, 'w', encoding='utf-8') as f:
            json.dump(chunks_data, f, ensure_ascii=False, indent=2)
        
        return chunks_data
        
    except Exception as e:
        print(f"‚ùå Error: {str(e)}")
        return []

# Ejecutar el chunking mejorado
input_text_file = Path("processed/guia_embarazo_ULTRA_CLEAN.txt")
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
output_chunks_file = Path(f"chunks/chunks_with_sections_{timestamp}.json")

# Crear directorio chunks si no existe
output_chunks_file.parent.mkdir(parents=True, exist_ok=True)

if input_text_file.exists():
    print("üöÄ Iniciando proceso de chunking MEJORADO...")
    print()
    
    chunks = process_file_chunking_with_sections(
        input_text_file, 
        output_chunks_file, 
        chunk_size=500, 
        overlap=100
    )
    
    if chunks:
        file_size_mb = output_chunks_file.stat().st_size / (1024*1024)
        
        # Estad√≠sticas generales
        total_chunks = len(chunks)
        total_chars = sum(chunk['char_count'] for chunk in chunks)
        total_words = sum(chunk['word_count'] for chunk in chunks)
        avg_chars = total_chars // total_chunks if total_chunks > 0 else 0
        avg_words = total_words // total_chunks if total_chunks > 0 else 0
        
        pages_with_chunks = len(set(chunk['page_number'] for chunk in chunks))
        
        # Estad√≠sticas por secci√≥n
        section_stats = {}
        for chunk in chunks:
            section_num = chunk['section_number']
            if section_num not in section_stats:
                section_stats[section_num] = {
                    'title': chunk['section_title'],
                    'chunks': 0,
                    'pages': set(),
                    'chars': 0,
                    'words': 0
                }
            section_stats[section_num]['chunks'] += 1
            section_stats[section_num]['pages'].add(chunk['page_number'])
            section_stats[section_num]['chars'] += chunk['char_count']
            section_stats[section_num]['words'] += chunk['word_count']
        
        print(f"\nüéâ ¬°CHUNKING MEJORADO COMPLETADO EXITOSAMENTE!")
        print(f"üìÅ Archivo de chunks: {output_chunks_file}")
        print(f"üíæ Tama√±o del archivo: {file_size_mb:.2f} MB")
        print()
        print(f"üìä ESTAD√çSTICAS GENERALES:")
        print(f"   üìÑ P√°ginas procesadas: {pages_with_chunks}")
        print(f"   üß© Total de chunks creados: {total_chunks}")
        print(f"   üìù Total de caracteres: {total_chars:,}")
        print(f"   üî§ Total de palabras: {total_words:,}")
        print(f"   üìè Promedio caracteres por chunk: {avg_chars}")
        print(f"   üìè Promedio palabras por chunk: {avg_words}")
        print(f"   üîÑ Overlap configurado: 100 caracteres")
        print()
        print(f"üìö ESTAD√çSTICAS POR SECCI√ìN:")
        for section_num in sorted(section_stats.keys()):
            stats = section_stats[section_num]
            print(f"   üìñ Secci√≥n {section_num}: {stats['title'][:50]}...")
            print(f"      ‚Ä¢ Chunks: {stats['chunks']}")
            print(f"      ‚Ä¢ P√°ginas: {len(stats['pages'])}")
            print(f"      ‚Ä¢ Caracteres: {stats['chars']:,}")
            print(f"      ‚Ä¢ Palabras: {stats['words']:,}")
        print()
        print(f"üéØ CHUNKS CON METADATOS COMPLETOS LISTOS PARA RAG!")
        
        # Mostrar algunos ejemplos
        print(f"\nüìã EJEMPLOS DE CHUNKS CON METADATOS:")
        for i, chunk in enumerate(chunks[:2]):
            print(f"\n   üìÑ Chunk {i+1}:")
            print(f"   ID: {chunk['chunk_id']}")
            print(f"   P√°gina: {chunk['page_number']}")
            print(f"   Secci√≥n: {chunk['section_number']} - {chunk['section_title'][:40]}...")
            print(f"   Caracteres: {chunk['char_count']}")
            print(f"   Dominio: {chunk['domain']}")
            print(f"   Contenido: {chunk['content'][:80]}...")
        
        if len(chunks) > 2:
            print(f"\n   ... y {len(chunks) - 2} chunks m√°s")
    else:
        print("‚ùå No se pudieron crear los chunks")
else:
    print(f"‚ùå Error: Archivo no encontrado: {input_text_file}")
    print("   Primero ejecuta las celdas anteriores para crear el texto ultra-limpio")


=== CHUNKING MEJORADO CON METADATOS DE SECCIONES ===

üöÄ Iniciando proceso de chunking MEJORADO...

üìÅ Archivo de entrada: processed\guia_embarazo_ULTRA_CLEAN.txt
üìÅ Archivo de salida: chunks\chunks_with_sections_20250826_114329.json
üìä Configuraci√≥n: 500 caracteres, 100 overlap

üîç Detectando secciones del documento...
   üìç Secci√≥n 1 detectada en p√°gina 1
   üìç Secci√≥n 2 detectada en p√°gina 146
   üìç Secci√≥n 3 detectada en p√°gina 202
   üìç Secci√≥n 4 detectada en p√°gina 248
   üìç Secci√≥n 5 detectada en p√°gina 278
   üìç Secci√≥n 6 detectada en p√°gina 358
‚úÖ Secciones detectadas: {1: 1, 2: 146, 3: 202, 4: 248, 5: 278, 6: 358}

üìÑ Total de p√°ginas en el archivo: 402
   ‚úì Procesadas 50/402 p√°ginas...
   ‚úì Procesadas 100/402 p√°ginas...
   ‚úì Procesadas 150/402 p√°ginas...
   ‚úì Procesadas 200/402 p√°ginas...
   ‚úì Procesadas 250/402 p√°ginas...
   ‚úì Procesadas 300/402 p√°ginas...
   ‚úì Procesadas 350/402 p√°ginas...
   ‚úì Procesadas 400/40