> Mamy daną tablicę stringów, gdzie suma długości wszystkich stringów daje $ n $. Napisz algorytm, który posortuje tablicę w czasie $ O(n) $. Można założyć, że stringi składają się wyłącznie z małych liter afabetu łacińskiego.

### Omówienie algorytmu

Ponieważ nie mamy nic powiedzianego, że rozkład stringów o tej samej sługości lub stringów, które się rozpoczynają tą samą literą, jest jednostajny, więc nie możmy wykorzystać Bucket Sorta. Podobnie Counting Sort się również nie nada, ponieważ za bardzo nie da się zliczać całych stringów i ich zapisywać pod odpowiednim indeksem w tablicy. W tej sytuacji najlepiej sprawdzi się Radix Sort, który posortuje stringi według kolejnych znaków. Ponieważ interesuje nas porządek leksykograficzny, sortowanie musimy rozpocząć od najmniej znaczącego znaku (litery), czyli od prawej strony najdłuższego z wyrazów. Do posortowania stringów według wskazanego znaku (indeksu kolumny) wykorzystamy (jako algorytm pomocniczy) Counting Sorta.

Istnieje 26 małych liter alfabetu łacińskiego, dlatego takiego rozmiaru tablicę $ counts $ tworzymy w Counting Sorcie.

### Implementacja algorytmu

In [1]:
def radix_string_sort(arr):
    # Sort strings by lengths (to improve the efficiency of
    # sorting strings by letters)
    max_len = longest_string_length(arr)
    _counting_sort_by_length(arr, max_len)
    # Allocate a temporary array once before sorting
    temp = [None] * len(arr)
    # Sort in a loop by the least significant digit
    for col_idx in range(max_len-1, -1, -1):
        _counting_sort(arr, col_idx, temp)
        

def _counting_sort_by_length(arr, max_len):
    # Allocate memory for required temporary arrays
    counts = [0] * (max_len + 1)
    temp = [None] * len(arr)
    # Count strings with the same lengths
    for string in arr:
        counts[len(string)] += 1
    # Modify the counts array to indicate how many strings 
    # are of a length not greater than the current string's length
    for i in range(1, len(counts)):
        counts[i] += counts[i-1]
    # Rewrite values to the temp sorted array
    for i in range(len(arr)-1, -1, -1):
        counts[len(arr[i])] -= 1
        temp[counts[len(arr[i])]] = arr[i]
    # Rewrite sorted values to the initial array
    for i in range(len(temp)):
        arr[i] = temp[i]

        
def _counting_sort(arr, col_idx, temp):
    # Allocate memory for required temporary arrays
    counts = [0] * 26
    a_code = ord('a')
    # Count letters repetitions
    i = len(arr)-1
    while col_idx < len(arr[i]) and i >= 0:
        counts[ord(arr[i][col_idx]) - a_code] += 1
        i -= 1
    prev_to_last_idx = i
    # Modify the counts array to indicate how many letters have
    # ascii codes lower than or equal to the current one
    for i in range(1, len(counts)):
        counts[i] += counts[i-1]
    # Rewrite values to the temporary array
    for i in range(len(arr)-1, prev_to_last_idx, -1):
        letter_idx = ord(arr[i][col_idx]) - a_code
        temp[prev_to_last_idx + counts[letter_idx]] = arr[i]
        counts[letter_idx] -= 1
    # Rewrite sorted strings to the initial array
    for i in range(prev_to_last_idx + 1, len(temp)):
        arr[i] = temp[i]


def longest_string_length(arr):
    max_len = 0
    for string in arr:
        if len(string) > max_len:
            max_len = len(string)
    return max_len

###### Kilka testów

In [2]:
import random
from string import ascii_lowercase as letters
from pprint import pprint as pp

rand_w = lambda length: ''.join(random.choice(letters) for _ in range(length))

words = [rand_w(random.randint(0, 25)) for _ in range(random.randint(1, 40))] + ['a', 'aaa', 'aaaaaa']
sorted_arr = sorted(words)
print('=== BEFORE: ===')
pp(words)
print('\n\n=== AFTER: ===')
radix_string_sort(words)
pp(words)
print('\nIs correct?:', sorted_arr == words)

=== BEFORE: ===
['pyktlcdkzjcusqyaclq',
 'ujqmpochdfaihlkklc',
 'biihzwgkjomdpmoln',
 '',
 'armjytweokmrotgfg',
 'efmoga',
 'hwohp',
 'nauzmwkboolwhjsnxgxapw',
 'hszjqurnnspzruvpeoaixcgx',
 'jakiyfgopbnjoaezkonfy',
 'aavwhzjqjbbtp',
 'oxwrblgghliplhc',
 'imdkumdcdhtzmdfy',
 'qdgtxvtwf',
 'anhdozn',
 '',
 'sgkzoqovwdxswatnpot',
 'a',
 'aaa',
 'aaaaaa']


=== AFTER: ===
['',
 '',
 'a',
 'aaa',
 'aaaaaa',
 'aavwhzjqjbbtp',
 'anhdozn',
 'armjytweokmrotgfg',
 'biihzwgkjomdpmoln',
 'efmoga',
 'hszjqurnnspzruvpeoaixcgx',
 'hwohp',
 'imdkumdcdhtzmdfy',
 'jakiyfgopbnjoaezkonfy',
 'nauzmwkboolwhjsnxgxapw',
 'oxwrblgghliplhc',
 'pyktlcdkzjcusqyaclq',
 'qdgtxvtwf',
 'sgkzoqovwdxswatnpot',
 'ujqmpochdfaihlkklc']

Is correct?: True
