# Tri plus rapide que prévu

Dans le cas général, le coût d'un algorithme de tri est en $O(n \ln n)$. Mais il existe des cas particuliers pour lesquels on peut faire plus court. Par exemple, on suppose que l'ensemble à trier contient plein de fois le même élément.

In [None]:
import random
ens = [random.randint(0,99) for i in range(10000)]

On peut calculer la distribution de ces éléments.

In [None]:
def histogram(ens):
    hist = {}
    for e in ens:
        hist[e] = hist.get(e, 0) + 1
    return hist

hist = histogram(ens)
list(hist.items())[:5]

[(0, 110), (1, 107), (2, 85), (3, 110), (4, 86)]

Plutôt que de trier le tableau initial, on peut trier l'histogramme qui contient moins d'élément.

In [None]:
sorted_hist = list(hist.items())
sorted_hist.sort()

Puis on recontruit le tableau initial mais trié :

In [None]:
def tableau(sorted_hist):
    res = []
    for k, v in sorted_hist:
        for i in range(v):
            res.append(k)
    return res

sorted_ens = tableau(sorted_hist)
sorted_ens[:5]

[0, 0, 0, 0, 0]

On crée une fonction qui assemble toutes les opérations. Le coût du nivrau tri est en $O(d \kn d + n)$ où $d$ est le nombre d'éléments distincts de l'ensemble initial.

In [None]:
def sort_with_hist(ens):
    hist = histogram(ens)
    sorted_hist = list(hist.items())
    sorted_hist.sort()    
    return tableau(sorted_hist)

%timeit sort_with_hist(ens)

100 loops, best of 3: 3.16 ms per loop


In [None]:
def sort_with_nohist(ens):
    ens.sort()
    return ens

In [None]:
%timeit sort_with_nohist(ens)

10000 loops, best of 3: 163 µs per loop


Les temps d'exécution ne sont pas très probants car la fonction `sort` est immplémenté en C.

In [None]:
ens = [random.randint(0,9) for i in range(10000000)]
%timeit sort_with_nohist(ens)

The slowest run took 13.48 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 158 ms per loop


In [None]:
%timeit sort_with_hist(ens)

1 loop, best of 3: 3.65 s per loop
