# Algorithmes de tri

## Tri par sélection

Dans un tableau de nombres de dimension (longueur) n:

- on cherche la plus petite valeur de celui-ci que l'on place en début de tableau, soit d'indice 0.
- il reste à trier le reste du tableau c'est à dire les valeurs d'indices 1 à n-1. Donc on recommence le tri en partant de l'indice 1.

On voit ici la construction d'une boucle avec comme variant de boucle l'indice de tableau de 0 à n-1

**Algorithme du tri par sélection**

```
# premier indice du tableau
i = 0
n = len(tableau)
tant que i < n:
	j = i
	position_valeur_minimale = i
	tant que j < n:
		si tableau[j] < tableau[position_valeur_minimale]:
			position_valeur_minimale = j
		j = j + 1
	si position_valeur_minimale != i
		on échange les valeurs d'indice i et position_valeur_minimale
	i = i + 1
```

In [1]:
from random import randint
from timeit import timeit

In [2]:
def tri_selection(tableau):
    i = 0
    n = len(tableau)
    
    # on parcourt le tableau, l'indice i prend les valeurs de 0 à n-1
    while i < n:
        
        # on initialise les indices à la valeur de l'indice i (début du reste du tableau)
        j = i
        position_valeur_minimale = i
        
        # on parcourt le reste du tableau (à partir de l'indice i, donc j prend les valeurs de i à n-1)
        while j < n:
            
            # on mémorise l'indice de la plus petite valeur du reste du tableau (entre les indices i et n-1)
            if tableau[j] < tableau[position_valeur_minimale]:
                position_valeur_minimale = j
            j = j + 1
            
        # si les valeurs ne sont pas égales, la plus petite valeur remplace celle d'indice i et vice versa
        if i != position_valeur_minimale:
            tableau[i],tableau[position_valeur_minimale] = tableau[position_valeur_minimale],tableau[i]
            
        # on passe à l'indice suivant
        i = i + 1
    return tableau

In [3]:
t = [3,9,4,11,5,2,10,6,15]
tri_selection(t)

[2, 3, 4, 5, 6, 9, 10, 11, 15]

## Tri par insertion

Dans un tableau de nombres de dimension (longueur) n:

- on cherche à insérer une valeur d'indice j jusqu'à sa bonne place dans le début du tableau entre les indices 0 et j-1.
- On considère que le début du tableau, de l'indice 0 à j-1, les valeurs sont triées.
- On compare les valeurs d'indice j-1, j-2 jusqu'à 0 (si nécessaire) avec la valeur d'indice j. 
- Tant que les valeurs d'indice j-1, j-2, ... sont supérieures à la valeur d'indice j, on les décale de 1 rang à droite.
- Ensuite on insère la valeur d'indice j dans le trou laissé par les valeurs décalées.

**Algorithme du tri par insertion**

```
# indice de la valeur à insérer (la valeur d'indice 0 est déjà insérée)
j = 1
n = len(tableau)
tant que j < n:
	i = j - 1
	valeur_a_inserer = tableau[j]
	tant que i >= 0 et tableau[i] > valeur_a_inserer :
		tableau[i + 1] = tableau[i]
		i = i - 1
	tableau[i + 1] = valeur_a_inserer
	j = j + 1
```

In [23]:
def tri_insertion(tableau):
    j = 1
    n = len(tableau)
    while j < n:
        i = j - 1
        valeur_a_inserer = tableau[j]
        while i >= 0 and tableau[i] > valeur_a_inserer:
            tableau[i+1] = tableau[i]
            i = i - 1
        tableau[i+1]=valeur_a_inserer
        j = j + 1
    return tableau

In [24]:
t = [3,9,4,11,5,2,10,6,15]
tri_insertion(t)

[2, 3, 4, 5, 6, 9, 10, 11, 15]

## Mesure du nombre d'instructions

Pour un tableau de dimension $n$:

- La seconde boucle while réalise n instructions, puis n-1, puis n-2, jusqu'à 1
- La première boucle échange les valeurs si besoin.

On voit, finalement qu'on réalise $n+(n-1)+...+3.2.1=n(n+1)/2$ proche de $n^{2}$ comparaisons. 

On en déduit que ce nombre de comparaisons dépend de la dimension $n$ du tableau. On dit que la complexité de ce tri est **quadratique** et se note $O(n^{2})$.

### Exemple

1. Un tableau de 10 nombres à trier nécessitera $10^2$ comparaison soit 100 comparaisons.
2. Un tableau de 20 nombres à trier nécessitera $20^2$ comparaison soit 400 comparaisons.
3. Un tableau de 40 nombres à trier nécessitera $40^2$ comparaison soit 1600 comparaisons.

Donc on peut dire que lorsque le nombre de valeurs double dans un tableau, le nombre de comparaisons est multiplié par 4.

In [63]:
def tri_selection(tableau):
    tr1=0
    tr2=0
    i = 0
    n = len(tableau)
    while i < n:
        j = i
        position_valeur_minimale = i
        while j < n:
            if tableau[j] < tableau[position_valeur_minimale]:
                position_valeur_minimale = j
            j = j + 1
            tr2+=1
        if i != position_valeur_minimale:
            tableau[i],tableau[position_valeur_minimale] = tableau[position_valeur_minimale],tableau[i]
        i = i + 1
        tr1+=tr2
        tr2=0
    return tr1

In [62]:
t = [randint(0,10000) for _ in range(100)]
tri_selection(t)

5050

## Mesure du temps d'exécution

### %%timeit (dans un notebook)

la commande magique de jupyter %%timeit mesure le temps d'exécution d'un programme ou d'une instruction. L'avantage est la simplicité de la commande qui gère automatiquement les arguments.

#### Lecture de la valeur retournée

**Exemple:**

```python
%%timeit
ma_fonction(100)

5.33 µs ± 75 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
```

- La valeur 5.33 µs ± 75 ns per loop donne le temps dexécution en microseconde pour exécuter la fonction.
- La valeur entre parenthèses indique le nombre de fois que la fonction a été exécutée, ici $100000=10^{5}$ fois.

Le temps d'exécution de la fonction est donc: $5.33$ µs soit $5.33 \times 10^{-6}$ seconde.

### La bibliothèque timeit (dans Python)

La commande utilise la bibliothèque python **timeit**.

On importe la bibliothèque : `import timeit`

La bibliothèque contient la fonction timeit : `timeit.timeit()`

Cette fonction prend 3 paramètres:
1. le premier paramètre (obligatoire) est l'appel de la fonction à mesurer sous la forme d'une chaine de caractères avec les arguments.
2. Le second paramètre (obligatoire) est l'exécution de la fonction pour le programme en environnement virtuel.
3. Le troisième paramètre (optionnel) indique le nombre de fois que l'on va exécuter la fonction à mesurer (pour avoir une bonne mesure). S'il n'est pas indiqué, la valeur par défaut est 1 million soit $10^{6}$.

**Exemple**
```python
import timeit
print(timeit.timeit( \
                    "repeter(100)",\ # appel de la fonction sous forme d'une chaine de caractères
                    setup="from __main__ import repeter",\ # exécution de la fonction
                    number=100000)) # nombre de fois qu'elle est exécutée
0.5350796999991871
```
La valeur renvoyée est exprimée en seconde pour les $100000=10^{5}$ (number) exécutions.    
Donc, il faut diviser par $10^{5}$ pour connaitre le temps d'exécution de la fonction: $0.535 \times 10^{-5} = 5.35 \times 10^{-6}$ seconde soit $5.35$ µs.

**Remarque**     
L'exécution 1 million de fois d'une fonction peut être long, très long. Il faut parfois réaliser moins d'exécutions quitte à perdre un peu en précision. Il faut alors penser à recalculer le temps d'exécution.

### Mesure du temps d'exécution : tri par selection

La complexité du tri par sélection est **quadratique**. Cela est palpable dans des tableaux qui génèrent un grand nombre d'opérations élémentaires, c'est ce qu'on appelle les pire cas.

En mesurant le temps d'exécution du tri par selection, on voit très bien que lorsque la taille des données augmentent, le temps d'exécution augmente encore plus vite.

In [19]:
t = [randint(0,10000) for _ in range(100)]
print(len(t))

100


In [20]:
%%timeit

# temps de tri par selction pour 100 nombres
tri_selection(t)

553 µs ± 3.64 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [7]:
%%timeit

# temps de tri par selction pour 200 nombres
tri_selection(t)

2.17 ms ± 14.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [9]:
%%timeit

# temps de tri par selction pour 400 nombres
tri_selection(t)

9.13 ms ± 76.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [11]:
%%timeit

# temps de tri par selction pour 800 nombres
tri_selection(t)

38.4 ms ± 924 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [13]:
%%timeit

# temps de tri par selction pour 500 nombres
tri_selection(t)

14.2 ms ± 67.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### Conclusion

On remarque que lorsque le nombre de valeurs double, le temps d'exécution est quadruplé.

Si on multiplie la taille $n$ des données par un nombre positif $k$, le temps d'exécution est multiplié par $k^{2}$.

### Mesure du temps d'exécution : tri par insertion

La complexité du tri par insertion est aussi **quadratique**. Cela est palpable dans des tableaux qui génèrent un grand nombre de décalages, c'est ce qu'on appelle les pire cas.

Dans un tableau quelconque, la complexité peut tendre vers un complexité linéaire. On l'observe ci-dessous avec les mesures réalisées. La dimension du tableau double et le temps d'exécution double aussi.

In [39]:
t = [randint(0,10000) for _ in range(3200)]
print(len(t))

3200


In [30]:
%%timeit

# temps de tri par insertion pour 100 nombres
tri_insertion(t)

24.3 µs ± 567 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [32]:
%%timeit

# temps de tri par insertion pour 200 nombres
tri_insertion(t)

48.3 µs ± 190 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [34]:
%%timeit

# temps de tri par insertion pour 400 nombres
tri_insertion(t)

97.3 µs ± 383 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [36]:
%%timeit

# temps de tri par insertion pour 800 nombres
tri_insertion(t)

197 µs ± 1.83 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [38]:
%%timeit

# temps de tri par insertion pour 1600 nombres
tri_insertion(t)

402 µs ± 5.95 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [40]:
%%timeit

# temps de tri par insertion pour 3200 nombres
tri_insertion(t)

804 µs ± 29.6 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


### Remarque

Les listes Python ont une méthode de tri très efficace. On peut mesure son exécution pour comparer.

In [45]:
t = [randint(0,10000) for _ in range(6400)]
print(len(t))

6400


In [42]:
%%timeit

# temps de tri par insertion pour 100 nombres
t.sort()

695 ns ± 4.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [44]:
%%timeit

# temps de tri par insertion pour 1600 nombres
t.sort()

9.35 µs ± 39.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [46]:
%%timeit

# temps de tri par insertion pour 6400 nombres
t.sort()

39.8 µs ± 263 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


### Remarque

Les temps d'exécution augmentent linéairement avec la taille du tableau. On peut créer un pire cas en prenant des tableaux rangés en ordre décroissant.

Mais le temps d'exécution reste linéaire. Alors pourquoi ?

Il est très probable que cela provienne de la gestion des tableaux par Python. Il n'y a pas de décalage de valeur à proprement parlé, qui impliquerai une lecture et écriture en mémoire, mais certainement un jeu d'adressage vers les valeurs qui évite les écritures et lecture en mémoire et donc diminue le temps d'exécution.

In [60]:
n = 10000
t = [n - i for i in range(n)]
len(t)

10000

In [50]:
%%timeit

# temps de tri par insertion pour 100 nombres
tri_insertion(t)

24.7 µs ± 459 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [59]:
%%timeit

# temps de tri par insertion pour 1000 nombres
tri_insertion(t)

259 µs ± 9.78 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [61]:
%%timeit

# temps de tri par insertion pour 10000 nombres
tri_insertion(t)

2.57 ms ± 88.5 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
