# Le tri fusion

In [12]:
from random import randint

## Les algorithmes de tri vus en Première

### Le tri par insertion

In [3]:
def tri_insertion(t):
    """
    Trie le tableau 't' en place, dans l'ordre croissant.
    """

    for i in range(1, len(t)):
        j = i
        while j > 0 and t[j-1] > t[j]:
            t[j], t[j-1] = t[j-1], t[j]
            j = j - 1

### Le tri par sélection

In [4]:
def tri_sélection(t):
    """
    Trie en place le tableau 't', dans l'ordre croissant. 
    """

    for i in range(0, len(t)):
        # On recherche la valeur minimale à partir de l'indice i
        for j in range(i + 1, len(t)):
            if t[j] < t[i]:
                t[i], t[j] = t[j], t[i]

---

## Tri fusion avec des listes python

Implémenter les fonction `coupe`, `fusion` et `tri_fusion` afin qu'elles utilisent des listes python vues dans le cours.

#### Fonction `coupe_py`

Voici une première implémentation:

In [None]:
# test :
coupe("Numérique")

On peut cependant utiliser un mécanisme (hors programme en NSI) très puissant pour découper des listes en python, les **tranches** (slices).

* En python, la syntaxe `liste[a:b]` renvoie la sous-liste de `liste` comportant tous les éléments à partir de l'indice `a` (inclu) jusqu'à l'indice `b` (exclu).
* Cas particulier: `liste[:b]` renvoie tous les éléments dont l'indice est strictement inférieur à `b`;
* Autre cas particulier: `liste[a:]` renvoie tous les éléments dont l'indice est supérieur ou égal à `a`;

```python
>>> "Numérique"[2:6]
"méri"
>>> "Numérique"[:5]
"Numér"
>>> "Numérique"[5:]
"ique"
```

Voici comment on peut s'en servir pour découper nos listes sans avoir à utiliser une boucle python. Notons que le découpage se fait ici au milieu de la liste initiale, et non pas en prenant un élément sur deux comme pour l'algorithme précédent ou bien l'implémentation avec des listes chaînées. Encore une fois, cela n'a aucune influence sur le résultat (ou les performances) du tri fusion.

In [1]:
def coupe(liste):
    """
    Découpe la liste (python) en deux sous-listes de tailles égales (à un élément près). 
    
    Renvoie les deux sous-listes.
    """
    
    milieu = len(liste) // 2
    
    l1 = liste[:milieu] # tous les éléments avant l'indice milieu (exclu)
    l2 = liste[milieu:] # tous les éléments à partir de milieu (inclu)
    
    return l1, l2

In [None]:
# test
coupe("anticonstitutionnellement")

#### Implémentation de `fusion`

In [None]:
# test
repr(fusion("acegikrst", "bdfhjlmopq"))

#### Implémentation de `tri_fusion`

In [None]:
# test
repr(tri_fusion("anticonstitutionnellement"))

---

## Comptage du nombre d'opérations pour un tri fusion

* Modifiez l'implémentation de la fonction `tri_fusion` précédente afin qu'elle renvoie, outre la liste triée, le nombre total de comparaisons effectuées.
* Modifiez les implémentations des fonctions `tri_insertion` et `tri_sélection` pour qu'ils renvoient le nombre de comparaisons effectués.

Comparez ensuite les nombres obtenus sur des listes aléatoires dont les tailles vont croissant. Représentez ces résultats à l'aide de matplotlib.

On constate que le tri par insertion utilise en moyenne deux fois moins de comparaisons que le tri par sélection. C'est en fait tout à fait normal:
* Le tri par sélection utilise deux boucles `for` dont le nombre d'étapes ne change jamais. Le calcul théorique pour une liste de taille $N$ est
$$
1 + 2 + 3 + \cdots + N = \frac{N(N-1)}{2} = 4999500
$$
* Le tri par insertion a la même complexité quadratique, mais l'insertion d'un élément peut s'arrêter plus tôt (selon la valeur de cet élément... relisez le cours de Première qui donne tous les détails). Le nombre effectif de comparaisons est donc en général plus court. On constate expérimentalement que c'est en moyenne la moitié.
* Le calcul théorique pour le tri fusion donne $10000\times\log_2(10000) \approx 132000$, ce qui est proche du résultat obtenu exoérimentalement. La formule donnant la complexité d'un algorithme ne donne jamais le nombre **exact** de comparaisons (ou d'opérations élémentaires), juste un ordre de grandeur.

#### Représentation graphique

Utilisons la librairie `matplotlib` pour afficher les courbes de complexités entre le tri par sélection et le tri fusion.

In [25]:
from matplotlib import pyplot as plt

xs = [] # Les abscisses
y1s = [] # valeurs pour le tri par sélection
y2s = [] # valeurs pour le tri fusion

for N in range(10, 1001, 10): # De 10 à 1000 par pas de 10
    xs.append(N)
    t = [randint(-N, N) for i in range(N)]
    i, n = tri_fusion(t)
    y2s.append(n)
    n = tri_sélection(t)
    y1s.append(n)

In [None]:
plt.plot(xs, y1s, label="sélection")
plt.plot(xs, y2s, label="fusion")
plt.legend(loc=9) # loc=9 -> top center
plt.title("Tri par sélection vs tri fusion")
plt.ylabel("Nombre de comparaison")
plt.xlabel("Taille du tableau")

plt.show()
plt.close()

L'écrasante supériorité d'un algorithme en $N\times\log_2(N)$ par rapport à un algorithme en $N^2$ est ici flagrante. On aurait pu obtenir des courbes similaires en traçant les complexités théoriques

In [None]:
from matplotlib import pyplot as plt
from math import log2

xs = [] # Les abscisses
y1s = [] # valeurs pour le tri par sélection
y2s = [] # valeurs pour le tri fusion

for N in range(10, 1001, 10): # De 10 à 1000 par pas de 10
    xs.append(N)
    y1s.append(N**2)
    y2s.append(N*log2(N))

plt.plot(xs, y1s, label="N^2")
plt.plot(xs, y2s, label="N*log2(N)")
plt.legend(loc=9) # loc=9 -> top center
plt.title("Complexité en N^2 vs N*log2(N)")
plt.ylabel("Nombre théorique de comparaisons")
plt.xlabel("Taille du tableau")

plt.show()
plt.close()