In [32]:
import sys
from typing import List, Tuple

def build_suffix_array(text: str) -> List[int]:
    """
    Build a suffix array for the given text.
    
    It doesn't explicitly store all suffixes.
    Instead, it sorts the indices based on the suffixes they represent.
    
    Args:
        text: The input text
        
    Returns:
        A sorted array of indices representing the suffix array
    """
    # Create a list of tuples (index, suffix)
    # Store the index and compute the suffix on-the-fly during comparison
    text = "".join([text, "$"])
    suffixes = [(i, text[i:]) for i in range(len(text))]

    # Sort based on lexicographical order of suffixes
    suffixes.sort(key=lambda x: x[1])
    
    # Extract just the indices to form the suffix array
    suffix_array = [index for index, _ in suffixes]
    
    return suffix_array

def binary_search(text: str, suffix_array: List[int], query: str) -> List[int]:
    """
    Find all occurrences of query in text using binary search on the suffix array.
    
    Args:
        text: The input text
        suffix_array: The suffix array for the text
        query: The string to search for
        
    Returns:
        A list of positions where query is found
    """
    n = len(text)
    query_len = len(query)
    positions = []
    
    #print(f"\n--- DEBUGGING BINARY SEARCH FOR QUERY: '{query}' ---")
    #print(f"Text: '{text}'")
    #print(f"Suffix Array: {suffix_array}")
    #print(f"Suffixes in sorted order:")
    for i, pos in enumerate(suffix_array):
        suffix = text[pos:min(pos + 15, len(text))]  # Show first 15 chars of suffix
        #print(f"  {i}: [{pos}] '{suffix}{'...' if pos + 15 < len(text) else ''}'")
    
    print("\n--- FINDING FIRST OCCURRENCE ---")
    
    # Binary search to find the first occurrence
    left, right = 0, n - 1
    first_occurrence = -1
    
    print(f"Initial search range: left={left}, right={right}")
    
    iteration = 1
    while left <= right:
        mid = (left + right) // 2
        suffix_start = suffix_array[mid]
        suffix = text[suffix_start:min(suffix_start + query_len, len(text))]
        
        print(f"\nIteration {iteration}:")
        print(f"  mid={mid}, suffix_start={suffix_start}")
        print(f"  Comparing query '{query}' with suffix '{suffix}'")
        
        if suffix < query:
            print(f"  Suffix '{suffix}' < query '{query}', moving right")
            left = mid + 1
            print(f"  New range: left={left}, right={right}")
        elif suffix > query:
            print(f"  Suffix '{suffix}' > query '{query}', moving left")
            right = mid - 1
            print(f"  New range: left={left}, right={right}")
        else:
            print(f"  Match found! Suffix '{suffix}' == query '{query}'")
            print(f"  Setting first_occurrence={mid} and continuing leftward")
            first_occurrence = mid
            right = mid - 1
            print(f"  New range: left={left}, right={right}")
        
        iteration += 1
    
    # If no occurrence found, return empty list
    if first_occurrence == -1:
        print("\nNo occurrences found.")
        return []
    
    print(f"\nFirst occurrence found at index {first_occurrence} in suffix array (position {suffix_array[first_occurrence]} in text)")
    
    print("\n--- FINDING LAST OCCURRENCE ---")
    
    # Binary search to find the last occurrence
    left, right = first_occurrence, n - 1
    last_occurrence = first_occurrence
    
    print(f"Initial search range: left={left}, right={right}")
    
    iteration = 1
    while left <= right:
        mid = (left + right) // 2
        suffix_start = suffix_array[mid]
        suffix = text[suffix_start:min(suffix_start + query_len, len(text))]
        
        print(f"\nIteration {iteration}:")
        print(f"  mid={mid}, suffix_start={suffix_start}")
        print(f"  Comparing query '{query}' with suffix '{suffix}'")
        
        if suffix < query:
            print(f"  Suffix '{suffix}' < query '{query}', moving right")
            left = mid + 1
            print(f"  New range: left={left}, right={right}")
        elif suffix > query:
            print(f"  Suffix '{suffix}' > query '{query}', moving left")
            right = mid - 1
            print(f"  New range: left={left}, right={right}")
        else:
            print(f"  Match found! Suffix '{suffix}' == query '{query}'")
            print(f"  Setting last_occurrence={mid} and continuing rightward")
            last_occurrence = mid
            left = mid + 1
            print(f"  New range: left={left}, right={right}")
        
        iteration += 1
    
    print(f"\nLast occurrence found at index {last_occurrence} in suffix array (position {suffix_array[last_occurrence]} in text)")
    
    # Collect all positions
    print("\n--- COLLECTING ALL POSITIONS ---")
    print(suffix_array[first_occurrence:last_occurrence + 1])
    for i in range(first_occurrence, last_occurrence + 1):
        print(f"Adding position {suffix_array[i]} from suffix array index {i}")
        positions.append(suffix_array[i])
    
    print(f"\nFinal result: Query '{query}' found at positions {positions} in the text")
    
    return positions

In [33]:
text = """En un mundo donde la información fluye sin cesar, la capacidad de analizar, sintetizar y comprender grandes volúmenes de datos se ha convertido en una habilidad esencial. La era digital ha transformado la forma en que las personas interactúan con el conocimiento, permitiendo un acceso casi ilimitado a textos, estudios, investigaciones y opiniones de todas partes del mundo. Sin embargo, este acceso masivo también ha generado nuevos desafíos, como la sobrecarga de información y la dificultad para discernir entre fuentes confiables y aquellas que no lo son.

Desde tiempos antiguos, el ser humano ha buscado recopilar y organizar el conocimiento. Bibliotecas como la de Alejandría en el Egipto antiguo fueron testimonio de esta ambición, albergando miles de rollos y manuscritos que contenían la sabiduría de civilizaciones enteras. Con el paso del tiempo, la invención de la imprenta por Gutenberg en el siglo XV revolucionó la distribución del conocimiento, permitiendo la producción masiva de libros y facilitando el acceso a la educación. Hoy en día, el internet ha llevado esta democratización del saber a niveles inimaginables hace apenas unas décadas.

A pesar de los beneficios evidentes, la disponibilidad de información también ha traído consigo el problema de la desinformación. En la actualidad, la propagación de noticias falsas, teorías conspirativas y datos erróneos se ha convertido en una preocupación global. Las redes sociales han facilitado la viralización de contenidos, lo que a menudo contribuye a la confusión y polarización de la sociedad. Para combatir este fenómeno, es fundamental fomentar el pensamiento crítico, la alfabetización mediática y la educación digital.

El pensamiento crítico implica la capacidad de analizar argumentos, evaluar evidencia y cuestionar la veracidad de las fuentes. En un mundo donde la información se presenta en formatos atractivos y persuasivos, es esencial desarrollar la habilidad de distinguir entre hechos y opiniones, así como identificar sesgos en los discursos. La alfabetización mediática, por su parte, permite a las personas comprender cómo funcionan los medios de comunicación, reconocer las estrategias utilizadas para influir en la opinión pública y desarrollar un consumo de información más responsable.

La educación digital también juega un papel crucial en este contexto. A medida que la tecnología avanza, es fundamental que las personas adquieran competencias digitales que les permitan navegar con seguridad en el entorno digital. Esto incluye el conocimiento sobre ciberseguridad, privacidad en línea y el uso de herramientas de verificación de información. Organizaciones y gobiernos de todo el mundo han comenzado a implementar programas de educación digital en escuelas y universidades para preparar a las nuevas generaciones para los desafíos del siglo XXI.

Además de los aspectos educativos, el acceso a la información ha impactado significativamente en el ámbito laboral y empresarial. En el mundo actual, las decisiones estratégicas en las empresas dependen en gran medida del análisis de datos y la interpretación de tendencias. Las organizaciones que logran aprovechar la información de manera efectiva pueden obtener ventajas competitivas, mejorar sus procesos y ofrecer productos y servicios más alineados con las necesidades del mercado. En este sentido, la analítica de datos y la inteligencia artificial han cobrado gran relevancia, permitiendo procesar grandes volúmenes de información en tiempo real y facilitando la toma de decisiones basada en evidencia.

Por otro lado, la transformación digital también ha impulsado cambios en los modelos de negocio y en la forma en que las empresas interactúan con los clientes. La personalización de servicios, el comercio electrónico y las plataformas digitales han redefinido la experiencia del consumidor, brindando nuevas oportunidades para el crecimiento empresarial. Sin embargo, estos avances también han generado preocupaciones sobre la privacidad de los datos, la seguridad cibernética y el impacto de la automatización en el empleo.

En el ámbito social, la digitalización ha facilitado la comunicación y la colaboración a nivel global. Las redes sociales han permitido a las personas mantenerse conectadas con amigos y familiares, compartir ideas y participar en movimientos sociales. No obstante, también han dado lugar a fenómenos como la polarización ideológica, el ciberacoso y la manipulación de la opinión pública. Para mitigar estos efectos negativos, es necesario promover un uso ético y responsable de la tecnología, así como desarrollar regulaciones que protejan la integridad de los usuarios.

Otro aspecto importante a considerar es el impacto ambiental del uso masivo de la tecnología. La producción y el desecho de dispositivos electrónicos, el consumo de energía de los centros de datos y la huella de carbono de las actividades digitales son factores que deben abordarse con urgencia. Empresas y gobiernos han comenzado a implementar estrategias de sostenibilidad, como la adopción de energías renovables, el reciclaje de componentes electrónicos y el desarrollo de tecnologías más eficientes.

En conclusión, la era digital ha traído consigo innumerables beneficios, pero también desafíos que requieren atención y acción inmediata. La capacidad de analizar información de manera crítica, el desarrollo de competencias digitales y la promoción de un uso ético de la tecnología son aspectos clave para aprovechar el potencial de la era digital sin caer en sus riesgos. A medida que la sociedad avanza, es fundamental encontrar un equilibrio entre el progreso tecnológico y la responsabilidad social, asegurando que el conocimiento y la información sigan siendo herramientas para el desarrollo y el bienestar de la humanidad."""


#text = "muy buenos dias mundo cruel y despiadado"
suffix_array = build_suffix_array(text)
queries = ["beneficios", "dis", "mundo", "X"]

results = []
for query in queries:
    positions = binary_search(text, suffix_array, query)
    results.append((query, positions))

for r in results: 
    print(r)
    for idx in r[1]:
        print(text[idx:idx+len(r[0])])


--- FINDING FIRST OCCURRENCE ---
Initial search range: left=0, right=5790

Iteration 1:
  mid=2895, suffix_start=1781
  Comparing query 'beneficios' with suffix 'ia y cuest'
  Suffix 'ia y cuest' > query 'beneficios', moving left
  New range: left=0, right=2894

Iteration 2:
  mid=1447, suffix_start=1569
  Comparing query 'beneficios' with suffix 'ara combat'
  Suffix 'ara combat' < query 'beneficios', moving right
  New range: left=1448, right=2894

Iteration 3:
  mid=2171, suffix_start=1500
  Comparing query 'beneficios' with suffix 'e a menudo'
  Suffix 'e a menudo' > query 'beneficios', moving left
  New range: left=1448, right=2170

Iteration 4:
  mid=1809, suffix_start=5436
  Comparing query 'beneficios' with suffix 'cnología s'
  Suffix 'cnología s' > query 'beneficios', moving left
  New range: left=1448, right=1808

Iteration 5:
  mid=1628, suffix_start=3409
  Comparing query 'beneficios' with suffix 'brado gran'
  Suffix 'brado gran' > query 'beneficios', moving left
  New r

In [31]:
print(text[3758:3758+5])
print(text[1918:1918+5])


GGAAA
AAACT
