>Ouvrir le notebook dans Colab en modifiant le début de son adresse dans le navigateur :<br>
il faut remplacer **github.com** par **githubtocolab.com**.<br>
Une fois vos réponses apportées, le notebook devra être sauvegardé dans GitHub, dans le repository du TP :<br>
*Fichier > Enregistrer une copie dans Github*<br>
*Info-TSI-Vieljeux/tpx-votre_nom*<br>

---

# Algorithmes de tris

Trier c'est partir d'une structure de données désordonnée et la remettre en ordre.<br>
Les tris sont omniprésents en informatique et Tim Roughgarden (auteur d'"*Algorithms illuminated*") en parle même comme de la "mère de tous les problèmes algorithmiques".<br>
Plusieurs stratégies existent. On va en passer certaines en revue et essayer de trier les algorithmes de tri.

In [None]:
%%html
<iframe src="https://trinket.io/embed/glowscript/3d9576597b?outputOnly=true" width="100%" height="660" frameborder="0" marginwidth="0" marginheight="0" allowfullscreen></iframe>

## Tris par comparaison

La plupart des algorithmes de tri sont dits **par comparaison** car ils reposent sur des comparaisons deux à deux des éléments de la liste.

On a déjà rencontré deux algorithmes de tri par comparaison dans le TP sur la récursivité : le tri par insertion et le tri fusion.

### Tri fusion

In [None]:
def fusion(L1,L2) :
    """
    fusion(L1:list,L2:list)->Lfus:list
    fusion retourne une seule liste ordonnée à partir de deux sous-listes ordonnées
    préconditions : L1 et L2 sont triée dans l'ordre croissant
    postconditions : 'Lfus' est triée dans l'ordre croissant (et len(Lfus)==len(L1)+len(L2))
    """
    if L1 == [] :
        return L2
    if L2 == [] :
        return L1
    if L1[0] <= L2[0] : # devient instable si < au lieu de <= !
        return [L1[0]] + fusion(L1[1:],L2)
    else :
        return [L2[0]] + fusion(L1,L2[1:])

def tri_fusion(L) :
    n = len(L)
    if n <= 1 :
        return L
    else :
        return fusion(tri_fusion(L[:n//2]),tri_fusion(L[n//2:]))

Combien de comparaisons effectue l'algorithme de tri fusion entre deux éléments de la liste pour ordonner `[1,2,3,4,5,6,7,8]` et `[8,7,6,5,4,3,2,1]` ? 
- A : 0 et 8
- B : 8 et 16
- C : 12 et 12
- D : 16 et 8

Vous pouvez trouver la réponse à la main, mais vous pouvez aussi intégrer à `fusion` une [variable globale](https://info-tsi-vieljeux.github.io/python/traitsgaux/#portée-lexicale)  `nb_comp` qui est incrémentée à chaque comparaison entre deux éléments de la liste.<br>
Pensez à systématiquement réinitialisez `nb_comp` à 0 avant chaque appel de `tri_fusion`, car sinon la valeur continue à courir. C'est un des dangers de l'utilisation de variables globales dans les fonctions.

In [None]:
# Affectez à la variable rep1 le caractère correspondant à votre réponse parmi 'A', 'B', 'C' ou 'D'
rep1 = 'E'

In [None]:
# Cellule de vérification, ne pas modifier !

### Tri par insertion

On va écrire une version itérative de l'algorithme de tri par insertion.

Son principe : on compare chacun des éléments `i` de la liste donnée en argument (à partir du deuxième) à ceux qui le précèdent en remontant la liste un par un (`i-1`,`i-2`,etc.). Tant qu'un des éléments qui précèdent est plus grand que l'élément `i`, on les permute, jusqu'à ce que l'élément `i` soit à la bonne place.

Construisez d'abord une fonction `permute(L,i,j)` qui permute les éléments `i` et `j` d'une liste `L`.<br>

In [None]:
def permute(L,i,j) :
    """
    permute(L:list,i:int,j:int)->list
    0 < i,j < len(L)
    """
    # VOTRE CODE

In [None]:
# Cellule de vérification, ne pas modifier !

Puis complétez la fonction `tri_insertion` en utilisant `permute`.

In [None]:
def tri_insertion(L) :
    """
    tri_insertion(L:list)->list
    """
    for i in range(1,len(L)) :
        j = i
        X = L[i]
        while j > 0 and L[j-1] > X :
            # VOTRE CODE
            j -= 1
    return L

In [None]:
# Cellule de vérification, ne pas modifier !

La cellule suivante permet de comparer le résultat de la fonction `tri_insertion` à la fonction native de tri `sorted` sur 1000 listes de 10 nombres tirés au hasard entre -5 et 5. Si pas d'`AssertionError`, a priori votre fonction fonctionne...

In [None]:
from random import randint,shuffle
for i in range(1000) :
    L_desord = [randint(-5,5) for i in range(10)]
    assert tri_insertion(L_desord) == sorted(L_desord), f"y a un problème avec {L_desord} :\ndonne {tri_insertion(L_desord)}\nau lieu de {sorted(L_desord)}"

Combien de comparaisons entre deux éléments de la liste effectue l'algorithme de tri insertion pour ordonner `[1,2,3,4,5,6,7,8]` et `[8,7,6,5,4,3,2,1]` ? 
- A : 7 et 28
- B : 0 et 7
- C : 28 et 28
- D : 5 et 35

In [None]:
# Affectez à la variable rep2 le caractère correspondant à votre réponse parmi 'A', 'B', 'C' ou 'D'
rep2 = 'E'

In [None]:
# Cellule de vérification, ne pas modifier !

Combien de comparaisons demande le tri par insertion d'une liste de 200 éléments rangés en ordre inverse ?

In [None]:
# Affectez à la variable nb1 l'entier correspondant à votre réponse
nb1 = 0

In [None]:
# Cellule de vérification, ne pas modifier !

### Tri par sélection

Principe : 
- parmi les éléments de la liste, on cherche le plus petit, et on le permute avec le premier élément 
- puis on recommence avec tous les éléments restants (tous moins le premier) : on cherche le plus petit et on le permute avec le deuxième élément
- on recommence jusqu'à épuiser la liste

fonction tri_selection(liste L)<br>
&nbsp;&nbsp;&nbsp;&nbsp;n ← longueur(L)<br>
&nbsp;&nbsp;&nbsp;&nbsp;pour i de 0 à n - 2<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;min ← i<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pour j de i + 1 à n - 1<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;si L[j] < L[min], alors min ← j<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;fin pour<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;si min ≠ i, alors échanger L[i] et L[min]<br>
&nbsp;&nbsp;&nbsp;&nbsp;fin pour<br>
&nbsp;&nbsp;&nbsp;&nbsp;retourner L<br>
fin fonction

Traduisez le peudocode ci-dessus en python.

In [None]:
def tri_selection(L) :
    # VOTRE CODE

In [None]:
# cellule de test pour votre fonction


In [None]:
# Cellule de vérification, ne pas modifier !

Combien de comparaisons effectue l'algorithme de tri par sélection pour ordonner `[1,2,3,4,5,6,7,8]` et `[8,7,6,5,4,3,2,1]` ? 
- A : 7 et 28
- B : 0 et 7
- C : 28 et 28
- D : 5 et 35

In [None]:
# Affectez à la variable rep3 le caractère correspondant à votre réponse parmi 'A', 'B', 'C' ou 'D'
rep3 = 'E'

In [None]:
# Cellule de vérification, ne pas modifier !

Le tri par sélection ressemble beaucoup au tri par insertion. Dans les deux, après k traversées de la liste, les k premiers éléments sont triés. Cependant la différence fondamentale entre les deux algorithmes est le sens dans lequel ces tris s'opèrent ; le tri par insertion trie de la fin vers le début alors que le tri par sélection trie du début vers la fin. Conséquence : dans le tri par sélection, les k premiers éléments de la liste en cours de tri sont les plus petits de la liste entière alors que dans le tri par insertion, ce sont seulement les k premiers éléments d'origine triés.

Le tri par sélection doit toujours inspecter tous les éléments restant pour trouver le plus petit, tandis que le tri par insertion ne requiert qu'une seule comparaison quand le (k+1)<sup>e</sup> élément est plus grand que le k<sup>e</sup> ; lorsque c'est fréquent (si la liste est déjà partiellement triée), le tri par insertion est bien plus efficace. En moyenne, le tri par insertion nécessite de comparer et décaler la moitié des éléments seulement, ce qui correspond donc à la moitié des comparaisons que le tri par sélection doit faire.

Dans le pire des cas pour le tri par insertion (liste triée en sens inverse), les deux tris opèrent autant d'opérations l'un que l'autre, mais le tri par insertion va nécessiter plus de permutations puisqu'il décale toujours d'une position voisine à l'autre. Le dernier élément d'une liste renversée, par exemple, va devoir traverser toute la liste en échangeant sa place avec chacun des éléments qui le précèdent, alors qu'avec le tri par sélection, il n'y a jamais au plus qu'une permutation par élément. 

En général, le tri par insertion va écrire dans la liste $O(n^2)$ fois (chaque permutation écrit dans la liste), alors que le tri par sélection va écrire seulement $O(n)$ fois. Pour cette raison, le tri par sélection peut être préférable au tri par insertion lorsque l'écriture sur la mémoire est significativement plus coûteuse que la lecture (comme sur les EEPROM ou sur les mémoires flash). Ce point est illustré dans l'animation interactive du début car limiter les permutations y correspond à limiter les déplacements, ce qui donne l'illusion d'un algorithme plus rapide.

### Tri à bulles

Le tri à bulles est surtout à visée pédagogique, il ne sert quasiment jamais réellement. Il tire son nom du fait qu'on pousse vers la fin de la liste, de proche en proche, des éléments de plus en plus grands, comme une bulle qui grossit en remontant à la surface.

In [None]:
def tri_a_bulles(L) :
    n = len(L)
    for i in range(n-1) :
        for j in range(n-i-1) :
            if L[j] > L[j+1] :
                L = permute(L,j,j+1)
    return L

Combien de comparaisons effectue l'algorithme de tri à bulles pour ordonner `[1,2,3,4,5,6,7,8]` et `[8,7,6,5,4,3,2,1]` ? 
- A : 7 et 28
- B : 0 et 7
- C : 28 et 28
- D : 5 et 35

In [None]:
# Affectez à la variable rep4 le caractère correspondant à votre réponse parmi 'A', 'B', 'C' ou 'D'
rep4 = 'E'

In [None]:
# Cellule de vérification, ne pas modifier !

Combien de comparaisons demande le tri à bulles d'une liste de 200 éléments rangés en ordre inverse ?

In [None]:
# Affectez à la variable nb2 l'entier correspondant à votre réponse
nb2 = 0

In [None]:
# Cellule de vérification, ne pas modifier !

### Tri rapide

Le tri rapide n'est pas toujours le plus rapide... Mais il peut l'être (surtout sur les grandes listes) !<br>
C'est un algorithme récursif utilisant une partition de la liste à trier.<br>
Son avantage sur le tri fusion est d'être un tri en place.<br>
Désavantage : il est instable.

In [None]:
YouTubeVideo('Cubuk-9gzvk', width=960, height=720)

In [None]:
from random import randint

def partition(L, g, d) :
    p = L[g]
    i = g+1
    for j in range(g+1,d+1) :
        if L[j] < p :
            permute(L,i,j)
            i += 1
    permute(L,g,i-1)
    return i-1

def tri_rapide(L, g, d) :
    if g < d : 
        pivot = randint(g,d)
        permute(L,pivot,g)
        pivot = partition(L, g, d)
        tri_rapide(L, g, pivot-1)
        tri_rapide(L, pivot+1, d)
    return L

In [None]:
L = [3,8,3,2,5,1,4,7,6]
partition(L,0,8)
tri_rapide(L, 0, 8)

![](http://cordier-phychi.toile-libre.org/Info/github/fusrap.png)

La figure précédente permet de supposer que la complexité dans le pire des cas du tri fusion est égale à sa complexité dans le meilleur des cas et à la complexité en moyenne du tri rapide.

Grâce aux listes par compréhension, on peut écrire une version beaucoup plus courte et claire du tri rapide. Son défaut est qu'elle nécessite la construction de nouvelles listes (le tri n'est alors plus en place !).<br>
On va visualiser les différents appels récursifs grâce au module introduit dans le TP précédent et pour que l'analyse soit simple, on choisit systématiquement le premier élément de la liste comme pivot.

La vidéo suivante montre une implémentation de cette version avec des danseurs hongrois...

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('ywWBy6J5gz8', width=960, height=720)

In [None]:
%%capture
!pip install recursionvisualisation==0.2

In [None]:
from recursionvisualisation import viz, CallGraph

In [None]:
cg = CallGraph()
@viz(cg)

def triRapide(elements) :
    if len(elements) <= 1 :
        return elements
    else : 
        pivot = elements[0]
        plusPetit = triRapide([e for e in elements[1:] if e <= pivot])
        plusGrand = triRapide([e for e in elements[1:] if e > pivot])
        return plusPetit + [pivot] + plusGrand

In [None]:
print(triRapide("hanniballecter"))
cg

Placer le pivot en premier élément a un inconvénient : `triRapide` devient très lent avec les listes déjà triées (ou quasi triées).<br>
Quelle sera la taille de la pile d'exécution si on donne en argument à `triRapide` une liste déjà triée de 500 éléments ?

In [None]:
# Affectez à la variable nb3 l'entier correspondant à votre réponse
nb3 = 0

In [None]:
# Cellule de vérification, ne pas modifier !

  ---

Les tris par comparaison n'ont que faire de la nature des éléments de la liste à trier du moment qu'on peut les comparer entre eux. On peut ainsi trier tout aussi bien des chaînes de caractères que des flottants.<br>
Par contre, si les éléments de la liste sont contraints d'une façon ou d'une autre, on peut essayer de tirer parti de la situation.

 ## Tris non comparatifs

### Tri par dénombrement (ou par comptage)

Si la liste à trier n'est constituée que d'entiers positifs, on peut mettre au point un tri très rapide n'utilisant aucune comparaison : le tri par dénombrement (counting sort).

Principe : on construit un histogramme des valeurs de la liste à trier `L` dans une liste intermédiaire `L_eff`.
- Si `m` est la plus grande valeur des éléments de la liste à trier, alors la taille de `L_eff` doit valoir `m+1`. Et on initialise toutes ses valeurs à zéros. Chaque valeur `L[i]` de la liste à trier est donc aussi un indice de la liste `L_eff` !
- On parcourt ensuite la liste à trier et on incrémente de 1 la valeur de l'élément `L_eff[L[i]]` de la liste intermédiaire. On obtient bien ainsi les effectifs pour chaque valeur de la liste à trier.
- Il suffit enfin de parcourir `L_eff` depuis le début et pour chaque élément `L_eff[i]` non nul, d'ajouter à une nouvelle liste `L_sortie` autant de fois `i` que la valeur de `L[i]`.
- Plus qu'à retourner `L_sortie`.

Implémentez la fonction `tri_par_denombrement` telle qu'elle est décrite ci-dessus.

In [None]:
def tri_par_denombrement(L,m) :
    """
    tri_par_denombrement(L:list,m:int)->L_sortie:list
    m est la valeur maximum des éléments de L 
    """
    # VOTRE CODE

In [None]:
# cellule pour tester votre fonction


In [None]:
# Cellule de vérification, ne pas modifier !

Le nombre d'étapes de `tri_denombrement` peut s'écrire en fonction du nombre d'éléments `n` de la liste comme :
- A : $a$
- B : $a\times n + b$
- C : $a\times n^2+b\times n + c$
- D : $a\times n^3+b\times n^2 + c\times n + d$

In [None]:
# Affectez à la variable rep5 le caractère correspondant à votre réponse parmi 'A', 'B', 'C' ou 'D'
rep5 = 'E'

In [None]:
# Cellule de vérification, ne pas modifier !

## Comparer les tris

Essayons maintenant de classer ces tris suivant différents critères.<br>
Commençons par ce qui est souvent le plus critique : leur complexité en temps. À quoi doit-on s'attendre lorsque la taille de la liste à trier prend un facteur d'échelle (lorsqu'elle est multipliée par 2 ou par 10) ?

### Complexité en temps

Le graphe suivant présente le temps mis par les différents algorithmes pour trier des listes de taille croissante.

![](http://cordier-phychi.toile-libre.org/Info/github/comptrivit1.png)
![](http://cordier-phychi.toile-libre.org/Info/github/comptrivit2.png)

On peut classer ces algorithmes en 3 catégories de complexité temporelle :
- les tris par insertion, sélection et à bulles sont de complexité quadratique ($O(n^2)$)
- les tris fusion et rapide sont quasilinéaires ($O(n\log n)$)
- le tri par dénombrement est linéaire ($O(n)$)

Pour des petites listes (et lorsque des tris non comparatifs ne sont pas applicables), le tri par insertion est en moyenne plus rapide que les autres alors que pour des grandes listes, c'est le tri rapide qui domine.

### Complexité en espace : en place ou non ?

L'algorithme a-t-il besoin d'utiliser une liste intermédiaire pour opérer son tri ou parvient-il à écrire directement sur la liste d'origine&nbsp;? Dans ce dernier cas, les tri est dit **en place**.

Dans la cellule suivante, recopiez les lignes ci-dessous en retirant à chaque fois la mauvaise réponse. Les variables correspondent chacune à un algorithme de tri différent. `'O'` signifie que le trie se fait en place, `'X'` signifie qu'il nécessite une liste intermédiaire.<br>
Attention, pour le tri rapide, on ne considère que sa première implémentation (avec pivot aléatoire) et non la deuxième plus courte.

```
triinsertion    = 'O' 'X'
tiselection     = 'O' 'X'
triabulles      = 'O' 'X'
trifusion       = 'O' 'X'
trirapide       = 'O' 'X'
tridenombrement = 'O' 'X'
```

In [None]:
# Les variables suivantes correspondent chacune à un algorithme de tri différent
# 'O' signifie que le trie se fait en place, 'X' signifie qu'il nécessite une liste intermédiaire.
# Retirez la mauvaise réponse pour chaque ligne :
triinsertion    = 'O' 'X'
tiselection     = 'O' 'X'
triabulles      = 'O' 'X'
trifusion       = 'O' 'X'
trirapide       = 'O' 'X'
tridenombrement = 'O' 'X'

In [None]:
# Cellule de vérification, ne pas modifier !

### Stabilité

Un algorithme de tri est **stable** s'il conserve l'ordre relatif de départ entre deux valeurs égales.<br>
Dans l'animation suivante, un algorithme est stable si les deux barres noires et blanches restent toujours dans le même ordre après et avant le tri.

In [None]:
%%html
<iframe src="https://trinket.io/embed/glowscript/cbf31d3200?outputOnly=true" width="100%" height="600" frameborder="0" marginwidth="0" marginheight="0" allowfullscreen></iframe>

On compte le nombre de fois que les caractères 'r', 'c', 'q' et 'p' apparaissent dans cette phrase :
- 'r' : 6
- 'c' : 5
- 'q' : 2
- 'p' : 5

On crée à partir de ces données le tuple `(('r',6),('c',5),('q',2),('p',5))`.<br>
Si on trie ce tuple selon le premier élément de chacune des paires qu'il contient (tri alphabétique), tous les tris donnent le même résultat :<br>
`(('c',5),('p',5),('q',2),('r',6))`<br>
Mais si maintenant, on part de ce tuple trié et qu'on le trie en fonction des effectifs, les algorithmes ne sont pas tous d'accords !

Pour vous en convaincre triez à la main `(('c',5),('p',5),('q',2),('r',6))` selon le deuxième élément de chacun des tuples en suivant l'algorithme du tri à bulle, puis en suivant l'algorithme de tri par sélection.<br>

In [None]:
# Modifiez le tuple suivant par ce que vous avez obtenu après le tri à bulles
T1 = (('c',5),('p',5),('q',2),('r',6))
# Modifiez le tuple suivant par ce que vous avez obtenu après le tri par sélection
T2 = (('c',5),('p',5),('q',2),('r',6))

In [None]:
# Cellule de vérification, ne pas modifier !

On dit alors que le tri par sélection n'est pas **stable** car il ne conserve pas nécessairement l'ordre de deux éléments égaux.<br>
- tris instables : le tri sélection et le tri rapide.<br>
- tris stables : le tri insertion, le tri à bulle et le tri fusion

Un tri instable peut sans trop de peine être rendu stable, il suffit de garder la trace de l'ordre initial pour les éléments égaux, mais cela a un coût !<br>
L'instabilité du tri par sélection peut être éliminée en utilisant une fonction intermédiaire `minimum` cherchant le plus petit des éléments restant à trier et en inserrant successivement les éléments trouvés en partant du début de la liste (attention à rester en place = pas de liste intermédiaire).

Donnez le code de `minimum` et `tri_selection_stable` (avec une contrainte supplémentaire : le code de `tri_selection_stable` ne devra pas dépasser 3 lignes).

In [None]:
def minimum(L) :
    """
    renvoie le plus petit élément de la liste
    """
    # VOTRE CODE

# le code de tri_selection_stable ne devra pas dépasser 3 lignes pour être considéré comme juste.
    
def tri_selection_stable(L) :
    # VOTRE CODE

In [None]:
# Cellule de vérification, ne pas modifier !

In [None]:
# Cellule de vérification, ne pas modifier !