# Suffix array, acercamiento O(n logn)

### Programa que toma una cadena de caracteres y regresa su suffix array.

Generar un arreglo de sufijos para una cadena de caracteres tiene una complejidad temporal considerable. Primero se necesitan generar todos todos los sufijos de una cadena.

Posteriormente se necesitan ordenar alfabéticamente cada uno de los sufijos; existen varios algoritmos de ordenamiento, y un primer acercamiento sería emplear uno con complejidad O(n log n) como mergesort.

Normalmente, un algoritmo de este tipo hacer una comparación directa entre dos valores, no obstante, para ordenar alfabéticamente es necesario comparar uno a uno los caracteres entre dos cadenas, lo que tomaría O(n), de forma que un algoritmo O(n log n), para a ser O(n<sup>2</sup> log n).

La parte de comparar uno a uno los caracteres no es posible reducirla, por lo que para lograr que la generación del suffix array sea O(n logn) se necesita un algoritmo de ordenamiento que por sí solo sea O(logn).

Las opciones para hacer esto son los algoritmos: counting sort y radix sort.

## Radix sort
Se decidió implementar un algoritmo radix sort adaptado para ordenamiento alfabético.

La complejidad tanto del algoritmo es O(logn) y de las comparaciones O(n), de forma que la complejidad final de ordenar es precisamente O(n logn)

In [1]:
#alphabetic raddix sort from: FolksTalk
def count_sort_letters(array, size, col, base, max_len):
    """ Helper routine for performing a count sort based upon column col """
    output = [0] * size
    count = [0] * (base + 1)  # One addition cell to account for dummy letter
    min_base = ord('a') - 1  # subtract one too allow for dummy character
    for item in array:  # generate Counts
        # get column letter if within string, else use dummy position of 0
        letter = ord(item[col]) - min_base if col < len(item) else 0
        count[letter] += 1
    for i in range(len(count)-1):   # Accumulate counts
        count[i + 1] += count[i]
    for item in reversed(array):
        # Get index of current letter of item at index col in count array
        letter = ord(item[col]) - min_base if col < len(item) else 0
        output[count[letter] - 1] = item
        count[letter] -= 1
    return output

def radix_sort_letters(array, max_col=None):
    """ Main sorting routine """
    if not max_col:
        max_col = len(max(array, key=len))  # edit to max length
    for col in range(max_col-1, -1, -1):  # max_len-1, max_len-2, ...0
        array = count_sort_letters(array, len(array), col, 26, max_col)
    return array

## Ingresar palabra a generar suffix array.

In [2]:
s = input("Please enter a word to calculate a suffix array: ").lower()
n = len(s)

Please enter a word to calculate a suffix array: Algoritmos


## Variables auxiliaries
Se utilizan variables auxiliares, en especial un diccionario en donde las llaves son cada uno de los sufijos y sus valores son los indices originales de dichos sufijos al momento de generalos (previo a ser ordenados alfabéticamente).

La cantidad de sufijos que se generan son igual a la longitud de la cadena, de forma que el espacio auxiliar tiene una complejidad (espacial) de O(n)

In [3]:
Map = {}
suffix = []
sub = ""

## Generar sufijos
Se itera por la cadena de fin a principio, en cada iteración se acumulan caracteres a una subcadena y se añade al diccionario con un valor igual a la iteración.



In [4]:
for i in range(n - 1, -1, -1):
    sub = s[i] + sub
    Map[sub] = i

Posteriormente se genera un arreglo de todas las llaves del diccionario, de esta manera podemos ordenar dicho arreglo alfabéticamente, y simplemente consultamos el diccionario con el arreglo ordenado para que nos regrese el arreglo se sufijos.

In [5]:
for key in Map:
    suffix.append(Map[key])
keysList = radix_sort_letters(list(Map.keys()))

## Arreglo generado

In [8]:
print(f'Suffix array for "{s}":')
for key in keysList:
    print(f'{Map[key]}: {key}')

Suffix array for "algoritmos":
0: algoritmos
2: goritmos
5: itmos
1: lgoritmos
7: mos
3: oritmos
8: os
4: ritmos
9: s
6: tmos
