<h1 style="font-size: 30px; text-align: center">Les algorithmes de tri en pratique</h1>

---

**NOM / Prénom** : *écrivez ici votre nom et votre prénom*

**Objectifs** :
- Observer expérimentalement le coût quadratique des algorithmes de tri par insertion et par sélection
- Constater l'inefficacité de ces deux algorithmes élémentaires dès que le tableau est trop grand
- Découvrir les fonctions de tri (efficace) offertes par Python
- (Optionnel : observer expérimentalement l'influence du tableau de départ (pire cas / meilleur cas) sur le temps d'exécution d'un tri par insertion/sélection)

# Les tris par insertion et par sélection ont un coût quadratique

## Implémentation des deux tris

On commence par rappeler l'implémentation des deux algorithmes de tri par insertion et de tri par sélection.

In [25]:
# ------ TRI PAR INSERTION --------

def tri_insertion(T):
    """
    Trie le tableau T dans l'ordre croissant.
    Paramètre : T est un tableau non vide
    Sortie : aucune (car le tableau est T trié en place).
    """
    for i in range(1,len(T)):
        x = T[i]                    # x = T[i] est l'élément à insérer
        # décalages nécessaires et recherche position d'insertion pour T[i]
        j = i                       # j est la position d'insertion
        while j > 0 and x < T[j-1]: # tant qu'on n'a pas atteint le premier  
                                    # et T[i] est plus petit que ses précédents
            T[j] = T[j-1]           # on décale vers la droite le précédent
            j = j - 1               # on passe à la position précédente
        # insertion de T[i] en position j
        T[j] = x                    
        
# ------ TRI PAR SELECTION --------

def echange(T, i, j):
    """Echange T[i] et T[j]"""
    temp = T[i]
    T[i] = T[j]
    T[j] = temp

def tri_selection(T):
    """
    Trie le tableau T dans l'ordre croissant.
    Paramètre : T est un tableau non vide
    Sortie : aucune (car le tableau est T trié en place).
    """
    for i in range(len(T)-1):        
        # recherche de l'indice du minimum dans T[i:n-1]
        ind_min = i
        for j in range(i+1, len(T)):
            if T[j] < T[ind_min]:
                ind_min = j        
        # échange avec l'élément d'indice i
        echange(T, i, ind_min)

On peut alors tester les deux fonctions.

In [26]:
tab = [4, 1, 7, 8, 1, 0, 2, 3, 5, 10]
tri_insertion(tab)
tab

[0, 1, 1, 2, 3, 4, 5, 7, 8, 10]

In [27]:
tab = [4, 1, 7, 8, 1, 0, 2, 3, 5, 10]
tri_selection(tab)
tab

[0, 1, 1, 2, 3, 4, 5, 7, 8, 10]

**Question 1** : Au moyen de `assert`, proposez un jeu de tests pour ces deux fonctions.

In [None]:
# à vous de jouer !


## Efficacité des tris

Sans chercher pour commencer à se placer dans un pire cas, regardons d'abord l'efficacité des deux algorithmes en évaluant leur temps d'exécution sur des tableaux de plus en plus grand.

### Tableaux de taille 100 pour démarrer

On va générer des tableaux d'entiers aléatoirement choisis entre 0 et 100. On aura besoin pour cela de la fonction `randint` du module `random`.

In [28]:
from random import randint  # à exécuter pour importer la fonction randint

Pour construire un tableau aléatoire de taille 100, on peut procéder par compréhension comme ci-dessous :

In [37]:
t100 = [randint(0, 100) for i in range(100)] # création d'un tableau de taille 100 contenant des entiers de 0 à 100.
print(t100) # tableau avant tri
tri_insertion(t100)  # tri du tableau
print(t100) # tableau après tri

[4, 47, 45, 88, 30, 67, 56, 31, 7, 55, 9, 0, 70, 74, 2, 67, 15, 30, 95, 15, 64, 78, 94, 85, 46, 38, 90, 21, 5, 53, 21, 90, 46, 19, 78, 63, 69, 65, 63, 91, 32, 18, 36, 26, 3, 36, 32, 35, 70, 48, 47, 1, 11, 22, 0, 79, 99, 91, 68, 31, 87, 33, 9, 57, 8, 80, 50, 6, 28, 32, 26, 19, 63, 98, 15, 21, 62, 40, 58, 19, 64, 55, 16, 1, 0, 82, 61, 85, 52, 99, 68, 44, 28, 64, 99, 27, 60, 80, 28, 87]
[0, 0, 0, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 9, 11, 15, 15, 15, 16, 18, 19, 19, 19, 21, 21, 21, 22, 26, 26, 27, 28, 28, 28, 30, 30, 31, 31, 32, 32, 32, 33, 35, 36, 36, 38, 40, 44, 45, 46, 46, 47, 47, 48, 50, 52, 53, 55, 55, 56, 57, 58, 60, 61, 62, 63, 63, 63, 64, 64, 64, 65, 67, 67, 68, 68, 69, 70, 70, 74, 78, 78, 79, 80, 80, 82, 85, 85, 87, 87, 88, 90, 90, 91, 91, 94, 95, 98, 99, 99, 99]


**Attention** : à chaque exécution, un nouveau tableau est généré. Exécutez à nouveau la cellule précédente pour vous en rendre compte.

Pour connaître le temps d'exécution pour trier ce tableau, on peut utiliser la commande magique `%time` qui permet de *chronométrer* le temps nécessaire pour exécuter l'instruction qui la suit directement (et qui est réellement exécutée !)

> Écrire `%times instruction` exécute `instruction` et affiche son temps d'exécution dans la console.

In [59]:
t100 = [randint(0, 100) for i in range(100)]
print(t100)
%time tri_insertion(t100)  # exécute l'instruction et mesure son temps d'exécution
print(t100)

[54, 50, 23, 91, 14, 0, 19, 74, 65, 41, 42, 44, 46, 91, 40, 19, 71, 37, 51, 58, 24, 94, 33, 16, 68, 73, 68, 19, 64, 69, 15, 48, 43, 75, 25, 22, 31, 5, 78, 12, 19, 32, 7, 76, 19, 66, 27, 29, 30, 93, 58, 95, 49, 73, 24, 86, 82, 100, 48, 83, 4, 76, 57, 35, 22, 77, 48, 99, 93, 95, 61, 24, 38, 23, 12, 49, 74, 50, 59, 64, 21, 67, 6, 89, 82, 60, 81, 84, 2, 91, 100, 89, 51, 74, 98, 91, 0, 29, 12, 13]
Wall time: 0 ns
[0, 0, 2, 4, 5, 6, 7, 12, 12, 12, 13, 14, 15, 16, 19, 19, 19, 19, 19, 21, 22, 22, 23, 23, 24, 24, 24, 25, 27, 29, 29, 30, 31, 32, 33, 35, 37, 38, 40, 41, 42, 43, 44, 46, 48, 48, 48, 49, 49, 50, 50, 51, 51, 54, 57, 58, 58, 59, 60, 61, 64, 64, 65, 66, 67, 68, 68, 69, 71, 73, 73, 74, 74, 74, 75, 76, 76, 77, 78, 81, 82, 82, 83, 84, 86, 89, 89, 91, 91, 91, 91, 93, 93, 94, 95, 95, 98, 99, 100, 100]


**Question 2** : Exécutez plusieurs fois la cellule ci-dessus pour vérifier que le tri se fait rapidement, en quelques nanosecondes (1 ns = $10^{-9}$ s), microsecondes (1 µs = $10^{-6}$ s) ou millisecondes (1 ms = $10^{-6}$ s). Pourquoi obtient-on des résultats légèrement différents d'un tableau à l'autre ?

Votre réponse : (**à compléter**)

>**Remarque** : Sans entrer dans les détails, sachez également que ces temps de calcul dépendent aussi de la puissance de la machine qui exécute le code. Cela donne toutefois une bonne indication.

**Question 3** : Procédez de même pour évaluer le temps d'un **tri par sélection** d'un tableau de taille 100. *Vous devez constater des temps du même ordre de grandeur*.

In [257]:
# à vous de jouer !


### Tableaux de taille 1000

On peut créer un tableau `t1000` de taille 1000 en modifiant uniquement la valeur du `range`. Et on peut voir le temps pour trier un tel tableau.

In [172]:
t1000 = [randint(0, 100) for i in range(1000)]
print(t1000)
%time tri_insertion(t1000)  # exécute l'instruction et mesure son temps d'exécution
print(t1000)

[81, 89, 99, 38, 35, 91, 3, 38, 79, 53, 39, 83, 81, 57, 96, 72, 34, 72, 72, 29, 35, 42, 96, 98, 4, 96, 89, 55, 94, 5, 86, 40, 94, 52, 88, 37, 9, 89, 31, 72, 11, 2, 92, 36, 22, 84, 76, 87, 97, 79, 87, 6, 82, 73, 32, 38, 23, 58, 78, 39, 61, 45, 76, 48, 29, 48, 63, 85, 94, 37, 68, 95, 24, 66, 15, 20, 20, 21, 93, 30, 9, 24, 63, 80, 64, 81, 37, 70, 41, 23, 87, 98, 45, 80, 21, 77, 83, 32, 48, 62, 78, 79, 98, 64, 49, 36, 54, 95, 42, 44, 88, 31, 79, 7, 49, 18, 11, 70, 100, 65, 48, 97, 38, 4, 88, 34, 97, 8, 91, 15, 79, 26, 100, 96, 15, 42, 83, 11, 78, 58, 31, 40, 41, 100, 99, 93, 17, 50, 32, 25, 75, 95, 79, 75, 94, 55, 88, 99, 99, 0, 38, 100, 97, 58, 43, 87, 93, 92, 62, 12, 54, 13, 32, 31, 41, 63, 71, 70, 73, 76, 5, 39, 81, 77, 48, 36, 61, 24, 23, 71, 78, 35, 62, 87, 95, 37, 37, 11, 77, 26, 78, 62, 37, 37, 12, 5, 97, 88, 55, 82, 69, 69, 21, 56, 57, 12, 77, 7, 8, 83, 47, 92, 46, 71, 58, 70, 40, 61, 9, 56, 18, 0, 39, 11, 38, 2, 36, 33, 18, 60, 80, 68, 57, 62, 91, 34, 56, 47, 11, 67, 4, 22, 87, 2,

**Question 4** : Exécutez 5 fois la cellule précédente pour voir le temps de tri. Notez chaque temps et faites une moyenne du temps.

*Votre réponse* : (**à compléter**)

**Question 5** : Créez et triez maintenant un tableau `t2000` de taille 2000 (on a donc *doublé* la taille du tableau par rapport à la question 4). Exécutez 5 fois la cellule et faites la moyennes des temps de tri (par sélection) du tableau. *N'hésitez pas à enlever les `print` si cela devient trop long !*.

In [258]:
# à vous de jouer !


*Votre réponse* : temps moyen pour trier tableau de taille 2000 : ...  (**à compléter**)

**Question 6** : Par combien environ a été multiplié le temps du tri par sélection entre un tableau de taille 1000 et un tableau de taille 2000 (le double) ?

*Votre réponse* : si la taille du tableau double, alors le temps du tri par sélection est environ multiplié par ... (**à compléter**)

**Question 7** : Qu'en est-il si la taille est triplée (de 1000 à 3000 par exemple) ? Faites les essais avant de répondre.

In [None]:
# à vous de jouer !


*Votre réponse* : si la taille du tableau est multipliée par 3, alors le temps du tri par sélection est environ multiplié par ... (**à compléter**)

**Question 8** : Vérifiez qu'il en est de même pour un **tri par insertion**.

In [178]:
# à vous de jouer !


### Et pour des tailles beaucoup plus grandes ?

**Question 9** : Testez le temps pour trier par insertion ou par sélection, un tableau `t10k` de taille 10 000. (Voire un tableau `t100k` de taille 100 000 si vous êtes patient 😅).

In [259]:
# à vous de jouer !


*Votre réponse* : pour trier par insertion/sélection un tableau de taille 10 000 il faut environ ... (**à compléter**).

**Question 10** : Admettons qu'il faille 10 secondes pour trier par insertion un tableau de taille 10 000. 

- Quel temps faudrait-il environ pour trier un tableau de taille 100 000 (10 fois plus grand) ? 
- Et combien d'heures faudrait-il pour un tableau de 1 million de valeurs ?
- Et combien de jours faudrait-il pour un tableau de 10 millions de valeurs ?  ⏲
- Et combien de vies faudrait-il pour un tableau de 1 milliard de valeurs ? &#9760;

*Votre réponse* : (**à compléter**).

- pour un tableau de taille 100 000 : ...
- pour un tableau de taille 1 000 000 : ...
- pour un tableau de taille 10 000 000 : ...
- pour un tableau de taille 1 000 000 000 : ...

>Autant vous dire qu'il est inutile d'essayer de trier par insertion/sélection des tableaux de taille supérieure ou égale à 1 million, c'est très inefficace. Il existe cependant des algorithmes de tris plus efficaces. Python vous propose deux façons de trier un tableau avec un algorithme beaucoup plus efficace, c'est l'objet de la dernière partie !

# Fonctions de tris offertes par Python

Python fournit deux fonctions permettant de trier de manière plus efficace un tableau. Elles se présentent de deux façons différentes, selon que l’on veuille obtenir une copie triée du tableau, sans le modifier (`sorted`), ou au contraire modifier le tableau pour le trier (`sort`).

>L'algorithme utilisé par ces fonctions est plus efficace : son coût est de l'ordre de $n \log_2(n)$, nettement meilleur que $n^2$.

## La fonction `sorted`

Celle-ci prend en argument un tableau et renvoie un **nouveau** tableau, trié, contenant les mêmes éléments.

In [186]:
t = [12, 5, 3, 6, 8, 10]
sorted(t)

[3, 5, 6, 8, 10, 12]

On peut voir que le tableau de départ n'a pas été modifié :

In [187]:
t

[12, 5, 3, 6, 8, 10]

>**Remarque** : Cette fonction permet aussi de trier des chaînes de caractères, en utilisant l'odre alphabétique.

In [188]:
sorted(["poire", "pomme", "cerise", 'kiwi'])

['cerise', 'kiwi', 'poire', 'pomme']

## La fonction `sort`

Celle-ci s'applique à un tableau, ne renvoie rien, mais **modifie** le tableau d'origine.

In [192]:
t = [5, 1, 2, 17, 9, 1, 8]
t.sort() # ne renvoie rien

Rien n'est renvoyé mais le tableau `t` d'origine a été modifié :

In [193]:
t

[1, 1, 2, 5, 8, 9, 17]

>On peut aussi trier directement un tableau de chaînes de caractères avec `sort`.

In [194]:
fruits = ["poire", "pomme", "cerise", 'kiwi']
fruits.sort()
fruits

['cerise', 'kiwi', 'poire', 'pomme']

**Question 11** : Vérifiez qu'en utilisant l'un de ces deux méthodes, le tri d'un tableau d'un million de valeurs est instantané (il faut utiliser `%time` pour mesurer uniquement le temps du tri, et non la construction du tableau qui est plus longue).

In [260]:
# à vous de jouer !


# Pire cas du tri par insertion (OPTIONNEL)

On a vu dans le cours qu'un tableau trié dans l'ordre décroissant était le pire cas pour le tri par insertion. L'objectif de cette partie est d'en mesurer concrètement l'impact sur le temps de tri.

On peut construire un tableau de taille 1000 trié dans l'ordre décroissant de la façon suivante.

In [213]:
n = 1000 # taille du tableau
t = [n-i for i in range(n)]
print(t)

[100, 99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83, 82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1]


**Question 12** : Évaluer le temps pour trier par insertion ce tableau.

In [261]:
# à vous de jouer !


**Question 13** : Et pour un tableau de taille 10 000 ? 
>Cela doit prendre quelques secondes, voire dizaines de secondes et vous devez constater que le temps est supérieur à ceux obtenu à la question 9 (où le tableau est crée aléatoirement donc il y a peu de chances d'obtenir un pire cas).

In [262]:
# à vous de jouer !


**Question 14** : Le meilleur cas de l'algorithme de **tri par insertion** est celui où le tableau est déjà trié par ordre croissant au départ. Il suffit alors de faire une comparaison par tour de boucle (et constater que chaque élément est déjà au bon endroit). Créez un tableau de taille 10 000 trié par ordre croissant (par exemple, le tableau [1, 2, 3,...,10000] puis mesurez le temps pour le trier par insertion.
>Le tri est normalement quasi instantané donc beaucoup plus rapide que pour le pire cas et que les cas générés aléatoirement.

In [263]:
# à vous de jouer !


>**Explications** : Si le tableau est déjà trié, alors il n'y a qu'une comparaison par tour de boucle. Comme il y a $n-1$ tours de boucle, cela fait donc $n-1$ comparaisons donc on trouve un coût de l'ordre de $n$, qui est linéaire (comme les algorithmes de recherche du nombre d'occurrences, de min/max, de calcul de moyenne...). Cela signifie que si on multiplie par $k$ la taille du tableau (déjà trié) de départ, le temps de l'algo de tri est multiplié par $k$ également. 
>Ainsi, s'il ne faut que quelques ms, disons 5 ms, pour trier un tel tableau de taille 10 000, alors pour trier un tableau trié de taille 1 000 000 (multiplication par 100) il ne faudra que $5\times 100=500$ ms = $0,5$ s (contre $5\times100^2=50000$ s $\simeq 13$ min si le coût était quadratique).

**Question 15** : Constatez que quel que soit le tableau de départ (trié par ordre décroissant, par ordre croissant, ou créé aléatoirement) il n'y a pas (autant) de différences de temps pour le trier si on utilise le **tri par sélection**.

>Cela prend dans tous les cas plusieurs secondes, comme à la question 9

In [264]:
# à vous de jouer !


>**Explication** : On a vu dans le cours que pour un tableau `T`, le nombre de comparaisons pour le trier par sélection est toujours égale à $\dfrac{n(n-1)}{2}$, et ce quel que soit le tableau `T` de départ. Il est donc normal d'avoir des temps similaires.

---
Germain BECKER & Sébastien POINT, Lycée Mounier, ANGERS

Ressource éducative libre distribuée sous [Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International](http://creativecommons.org/licenses/by-nc-sa/4.0/) 

![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)