# ITC - MPSI
---

# TP8 : Tris

La question du tri de données apparaît naturellement dans beaucoup de problèmes de traitement de données:

* tenir à jour un répertoire de personnes
* retrouver (de façon répétitive) une données dans un grand ensemble de données (et donc en particulier dans tout contexte de bases de données, big data)
* faire l'intersection entre deux ensemble
* trouver l'enveloppe convexe d'un ensemble de points

De nombreux algorithmes de tri ont été développés, plus ou moins efficaces selon les situations.
Nous avons déjà vu un algorithme de tri: le [tri bulle](../tp4/TP4.ipynb).
    
Si on donne $n$ entrées à trier au tri bulle, il fait au plus :
* une boucle où il parcourt toute la liste (donc $n-1$ comparaisons), puis
* une boucle où il effectue $n-2$ comparaisons, 
* et cela diminue petit à petit, jusqu'à atteindre une boucle avec une unique comparaison.
Ainsi le nombre de comparaisons effectuées est au plus de 
$$(n-1) + (n-2) + \dots + 1 = \frac{n(n-1)}{2}.$$

Nous allons voir d'autres algorithmes de tri et comparer leur vitesse d'exécution. Pour chacun de ces algorithmes, on supposera qu'on dispose d'une liste d'objets comparables à ordonner (dans l'ordre croissant).


Une des propriétés du tri bulle est qu'il est _en place_ : on ne crée pas de nouvelle liste, on se sert de l'emplacement de la liste fournie en argument pour trier.

Voici une correction pour le tri bulle, suivie d'un test de temps.

In [None]:
def tri_bulle(liste) :
    """liste : liste d'entiers
    sortie : les cases de liste contenant initialement des nombres impairs contiennent maintenant 0"""
    permutation = True
    n = len(liste)
    while permutation :
        permutation = False
        for i in range(n-1):
            if liste[i] > liste[i+1] : # si ce n'est pas dans le bon ordre, on permute
                liste[i], liste[i+1] = liste[i+1], liste[i]
                permutation = True
        n = n - 1

Et un test de temps (on admet que prendre la liste suivante n'est pas un biais):

In [None]:
L = list(range(1000, 0, -1))

In [None]:
%%timeit
tri_bulle(L)

### Exo 1 : Tri par sélection

Le principe du tri par sélection est le suivant :

* chercher l'élément le plus petit et l'inverser avec le premier élément de la liste
* chercher le second élément le plus petit et l'inverser avec le deuxième élément de la liste
* etc.

Ce principe est illustré par l'animation : 
<a title="Joestape89, CC BY-SA 3.0 &lt;http://creativecommons.org/licenses/by-sa/3.0/&gt;, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:Selection-Sort-Animation.gif"><img width="64" alt="Selection-Sort-Animation" src="https://upload.wikimedia.org/wikipedia/commons/9/94/Selection-Sort-Animation.gif"></a>

Le tri par insertion comprend, comme le tri bulle, deux boucles imbriquées: à chaque étape il faut parcourir ce qui reste à trier dans le tableau et on fait des comparaisons pour trouver le plus petit élément dans ce qui reste. On fait donc autant de comparaisons que dans le tri bulle, mais a priori moins d'inversions (une seule à chaque étape pour le tri par insertion).

1. Écrire et documenter une fonction `indice_min` qui prend en argument une liste supposée non vide et un entier `k` supposé strictement inférieur à la longueur de la liste, et renvoie l'indice de la première occurence de l'élément minimal dans la liste à partir de l'indice `k`.

Par exemple `indice_min([1, 2, 3, 1, 2, 3], 1)` renvoie `3`.

Utiliser `assert` pour vérifier les pré-conditions (liste non vide et entier strictement inférieur à la longueur de la liste). En `python`, l'opérateur "et" entre booléens est `and`.

In [None]:
# Écrire votre code ici
raise NotImplementedError # effacer cette ligne une fois le code écrit

In [None]:
assert(indice_min([1], 0) == 0)
assert(indice_min([1, 1, 2, 3, 1], 0) == 0)
assert(indice_min([3, 2, 1, 2, 3, 1, 2, 3], 0) == 2)
assert(indice_min([3, 2, 3, 2, 1, 1], 0) == 4)
assert(indice_min([3, 2, 3, 2, 1], 0) == 4)
assert(indice_min([1, 2, 3, 1, 2, 3], 1) == 3)

2. Écrire et documenter une fonction _itérative_ (c'est-à-dire non récursive, mais avec une boucle) `selection_iter` qui prend en argument une liste de nombres (sans avoir à le vérifier) et la trie en place sur le principe du tri par sélection.

Si `a` et `b` sont des variables, on peut inverser leurs valeurs en écrivant `a, b = b, a`.

In [None]:
# Écrire votre code ici
raise NotImplementedError # effacer cette ligne une fois le code écrit

In [None]:
L = []
selection_iter(L)
assert(L == [])

L = [3]
selection_iter(L)
assert(L == [3])

L = [5, 4, 3, 2, 1]
selection_iter(L)
assert(L == [1, 2, 3, 4, 5])

3. Écrire et documenter une fonction _récursive_ (rappel : cela signifie qu'elle s'appelle elle-même) `selection_rec` qui prend en argument une liste de nombres (sans avoir à le vérifier) et un entier positif ou nul `k` et trie en place la liste à partir de l'élément d'indice `k` sur le principe du tri par sélection. La pré-condition sera testée avec `assert`.

In [None]:
# Écrire votre code ici
raise NotImplementedError # effacer cette ligne une fois le code écrit

In [None]:
L = []
selection_rec(L, 0)
assert(L == [])

L = [3]
selection_rec(L, 0)
assert(L == [3])

L = [5, 4, 3, 2, 1]
selection_rec(L, 0)
assert(L == [1, 2, 3, 4, 5])

L = [3, 2, 4, 1, 2, 0]
selection_rec(L, 1)
assert(L == [3, 0, 1, 2, 2, 4])

Vous pouvez comparer les temps d'exécution des fonctions ainsi écrites :

In [None]:
L = list(range(1000, 0, -1))

In [None]:
%%timeit
selection_iter(L)

In [None]:
L = list(range(1000, 0, -1))

In [None]:
%%timeit
selection_rec(L, 0)

### Exo 2 : Tri par fusion

Le tri par fusion est un tri qui repose sur le principe de la dichotomie :
* si la liste d'éléments à trier contient un élément, il n'y a plus rien à faire
* sinon, on partage la liste en deux sous-listes
    * on trie récursivement chacune des sous-listes
    * on fusionne les listes ainsi obtenues
    
Ce tri n'est pas en place, car on a besoin de recopier toutes les données pour l'étape de fusion.

Une illustration du principe du tri fusion :
<a title="Swfung8, CC BY-SA 3.0 &lt;https://creativecommons.org/licenses/by-sa/3.0&gt;, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:Merge-sort-example-300px.gif"><img width="256" alt="Merge-sort-example-300px" src="https://upload.wikimedia.org/wikipedia/commons/c/cc/Merge-sort-example-300px.gif"></a>

1. Écrire et documenter une fonction `copie_partielle` qui prend en argument une liste `L` et deux entiers positifs `i` et `j` tels que `i` $\leq$ `j` $\leq$ `len(L)` et produit une nouvelle liste qui est une copie des cases `i` à `j-1` de `L`. Les pré-conditions seront vérifiées avec `assert`.

In [None]:
# Écrire votre code ici
raise NotImplementedError # effacer cette ligne une fois le code écrit

2.[difficile] Écrire et documenter une fonction `fusion` qui prend en argument :
* une liste `L` d'entiers (sans avoir à le vérifier)
* un entier positif ou nul `d`
* deux entiers positifs ou nuls `l1` et `l2` tels que `d1+l1+l2` soit inférieur ou égal à la longueur de `L`

On suppose de plus (sans avoir à le vérifier) que les éléments de `L` qui se situent entre les indices `d` et `d+l1-1` (compris) sont dans l'ordre croissant, et de même (toujours sans avoir à le vérifier) que les éléments de `L` qui se situent entre les indices `d+l1` et `d+l1+l2-1` (compris) sont dans l'ordre croissant.

La fonction `fusion` doit fusionner les deux tranches entre les indices `d` et `d+l1-1` d'une part et entre les indices `d+l1` et `d+l1+l2` d'autre part, c'est-à-dire qu'après l'appel à `fusion`:
* les contenus des cases de `L` d'indice strictement inférieur à `d` et supérieur ou égal à `d+l1+l2` n'ont pas été modifiés
* les cases de `L` d'indices compris entre `d` et `d+l1+l2-1` ont globalement les mêmes valeurs, mais rangées dans l'ordre croissant.


exemple:
* avant l'appel à `fusion`, on a une liste `L` de la forme
$$\begin{array}{|c|c|c|c|c|c|c|c|}\hline 3 & 5 & {\color{magenta}1} & {\color{magenta}6} & {\color{magenta}8} & {\color{royalblue}2} & {\color{royalblue}7} & 4 \\\hline\end{array}$$
Si `d`=2, `l1`=3 et `l2`=2, la case d'indice `d` est celle qui contient 1, celle d'indice `d+l1-1`, celle qui contient 8, et celle d'indice `d+l1+l2-1` celle qui contient 7.
* après l'appel à `fusion(L, 2, 3, 2)`, on a :
$$\begin{array}{|c|c|c|c|c|c|c|c|}\hline 3 & 5 & {\color{magenta}1} & {\color{royalblue}2} & {\color{magenta}6} & {\color{royalblue}7} & {\color{magenta}8} & 4 \\\hline\end{array}$$

Pour écrire cette fusion, il faut commencer par recopier les deux tranches de listes dans de nouvelles listes.

Pensez bien à séparer les cas suivants:
* s'il reste des éléments non recopiés dans les deux listes, alors il faut recopier le plus petit de tous les éléments (qui est le plus petit entre les premiers éléments non recopiés de chaque liste),
* s'il ne reste des éléments non recopiés que dans une liste, alors il faut recopier tous ces éléments dans le même ordre.

In [None]:
def fusion(L, d1, lg1, lg2):
    """fusion L[d1:d1+lg1] et L[d2:d2+lg2]"""
    assert(lg1>=0 and lg2>=0 and d1>=0 and d1+lg1+lg2<=len(L))
    L1 = copie_partielle(L, d1, d1+lg1)
    L2 = copie_partielle(L, d1+lg1, d1+lg1+lg2)
    i1 = 0
    i2 = 0
    i = d1
    while i1 < len(L1) and i2 < len(L2):
        if L1[i1] <= L1[i2]:
            L[i] = L1[i1]
            i1 = i1 + 1
        else:
            L[i] = L2[i2]
            i2 = i2 + 1
        i = i + 1
    while i1 < lg1:
        L[i] = L1[i1]
        i1 = i1 + 1
        i = i + 1
    while i2 < lg2:
        L[i] = L2[i2]
        i2 = i2 + 1
        i = i + 1
    

In [None]:
L = [3, 5, 1, 6, 8, 2, 7, 4]
fusion(L, 2, 3, 2)
assert(L == [3, 5, 1, 2, 6, 7, 8, 4])

L = [1, 3, 5, 7, 2, 4, 7, 8]
fusion(L, 0, 4, 4)
assert(L == [1, 2, 3, 4, 5, 7, 7, 8])

L = []
fusion([], 0, 0, 0)
assert(L == [])

L = [1, 2, 3]
fusion(L, 0, 0, 3)
assert(L == [1, 2, 3])

L = [1]
fusion(L, 0, 1, 0)
assert(L == [1])

3. Écrire et documenter une fonction `tri_fusion` qui prend en argument une liste `L` de nombres (sans avoir à le vérifier), et deux entiers `i` et `j` positifs ou nuls tels que `i` $\leq$ `j` $\leq$ `len(L)` et trie les éléments de `L` entre les indices `i` et `j-1`, en suivant l'algorithme de tri fusion. Les pré-conditions seront vérifiées avec `assert`.

In [None]:
# Écrire votre code ici
raise NotImplementedError # effacer cette ligne une fois le code écrit

In [None]:
L = [5,4,3,2,1]
tri_fusion(L, 0, len(L))
L

In [None]:
L = list(range(1000, 0, -1))

In [None]:
%%timeit
tri_fusion(L, 0, len(L))

<div class="alert alert-success">
    <h2>Les points à retenir</h2>
    
* opérateur "et" entre booléens : `and`
* principe du tri par insertion
* principe du tri fusion
* le tri fusion est plus rapide dans le pire des cas
</div>