In [1]:
import sys
import pathlib

sys.path.append(str((pathlib.Path.cwd().parent / "src").resolve()))

from rag_core.clean_markdown import (
    clean_markdown,
    normalize_newlines_and_spaces,
    fix_numbering,
    fix_headings,
    fix_lists,
    remove_artifacts,
)

print("Imports OK ✅")


Imports OK ✅


In [2]:
fragmento_bullets = """
Para esto, se deberá proveer y utilizar diversos soportes tecnológicos a bordo de los buses, tales como:
•   paneles de información y sistemas de megafonía;
•   servicio de Predictor que entregue a las personas usuarias una predicción del tiempo estimado de llegada;
•   mecanismos que permitan que esta información sea utilizada también por otros servicios.
""".strip()

fragmento_partido = """
Cabe mencionar que estos soportes deberán ser diseñados de acuerdo con los criterios de accesibilidad universal establecidos por la autoridad para satisfacer las necesidades de todas
las personas usuarias del Sistema.
""".strip()

print("Fragmentos OK ✅")


Fragmentos OK ✅


In [3]:
def run_stages(txt: str):
    stages = [
        ("0) raw", txt),
        ("1) normalize_newlines_and_spaces", normalize_newlines_and_spaces(txt)),
    ]
    stages.append(("2) fix_numbering", fix_numbering(stages[-1][1])))
    stages.append(("3) fix_headings", fix_headings(stages[-1][1])))
    stages.append(("4) fix_lists", fix_lists(stages[-1][1])))
    stages.append(("5) remove_artifacts", remove_artifacts(stages[-1][1])))
    stages.append(("6) clean_markdown (full)", clean_markdown(txt)))
    return stages

print("run_stages OK ✅")


run_stages OK ✅


In [4]:
def show_raw_and_full(txt: str, title: str):
    print("\n" + "="*80)
    print(title)
    print("="*80)

    stages = run_stages(txt)

    raw = stages[0][1]
    full = stages[-1][1]

    print("\n--- 0) raw ---\n")
    print(raw)

    print("\n--- 6) clean_markdown (full) ---\n")
    print(full)


show_raw_and_full(fragmento_bullets, "FRAGMENTO 1: BULLETS")
show_raw_and_full(fragmento_partido, "FRAGMENTO 2: PARTIDO")



FRAGMENTO 1: BULLETS

--- 0) raw ---

Para esto, se deberá proveer y utilizar diversos soportes tecnológicos a bordo de los buses, tales como:
•   paneles de información y sistemas de megafonía;
•   servicio de Predictor que entregue a las personas usuarias una predicción del tiempo estimado de llegada;
•   mecanismos que permitan que esta información sea utilizada también por otros servicios.

--- 6) clean_markdown (full) ---

Para esto, se deberá proveer y utilizar diversos soportes tecnológicos a bordo de los buses, tales como:
• paneles de información y sistemas de megafonía;
• servicio de Predictor que entregue a las personas usuarias una predicción del tiempo estimado de llegada;
• mecanismos que permitan que esta información sea utilizada también por otros servicios.

FRAGMENTO 2: PARTIDO

--- 0) raw ---

Cabe mencionar que estos soportes deberán ser diseñados de acuerdo con los criterios de accesibilidad universal establecidos por la autoridad para satisfacer las necesidades d