# TP02 - Procédures de tris

Il s'agit dans ce TP de présenter quatre méthodes usuelles pour trier une liste de façon **croissante**.  
Notre objectif est de pouvoir, lors d'épreuves d'écrit ou d'oral, réécrire les fonctions qui permettent de trier des tableaux à une dimension de valeurs numériques ainsi que le recommande le programme officiel.  
Les procédures à connaître sont au nombre de quatre : Il s'agit du *tri par sélection*, du *tri par insertion*, du *tri à bulles* vus en première année et enfin du *tri rapide* connu également sous le nom de *quicksort* au programme de deuxième année.  

## Importation préalable des outils Python nécessaires :

In [None]:
import numpy as np
import random as rdm
from time import clock
%matplotlib inline
import matplotlib.pyplot as plt

## I/ Les méthodes Python.  

### 1. les méthodes usuelles.

On commence par créer une liste de vingt entiers pris au hasard entre 1 et 10 (compris) :

In [None]:
L = [rdm.randint(1,10) for k in range(20)]
print(L)

Deux tris sont possibles :

In [None]:
L.sort()
print(L)

In [None]:
L.sort(reverse=True)
print(L)

Toutes ces *méthodes* font des listes des objets **mutables**. On ne créé pas grâce à elles de nouveaux objets, on les modifie en perdant la liste initiale... Si on veut garder la liste originale, il faut commencer par la copier (`L1=list(L)` ou `L1=L[:]`) ou bien choisir d'écrire `L1=sorted(L)` pour trier `L`.  

In [None]:
L = [rdm.randint(1,10) for k in range(15)]
print('L =',L)
L1 = list(L)
L2 = L[:]
L1.sort()
print('L1 = ',L1,' et\n L = ',L)
L2.sort(reverse=True)
print('L2 = ',L2,' et\n L = ',L)
L3 = sorted(L)
print('L3 = ',L3,' et\n L = ',L)

### 2. Des méthodes sur les listes plus raffinées.

Il est possible de trier une liste selon un critère défini sous forme de "clef" qu'on passe en paramètre dans la méthode `sort` appliquée à la liste.

*Exemple :* Imaginons des points donnés par leurs coordonnées GPS avec latitude et longitude. On souhaite trier ces points selon leurs longigudes...

In [None]:
coordonnees = [(43,7,'A2'),(46,-7,'A1'),(45,0,'A3')]
def C2(triplet):# création de la clef
    return triplet[1]
def latitude(point):
    return point[0]
def site(point):
    return point[2]
coordonnees.sort(key=C2) # opère le tri selon les longitudes
print(coordonnees)

Il est également possible de trier des **chaînes de caractères**. Il faut pourtant, dans ce cas, avoir conscience de certains pièges...

In [None]:
L=['biologie','chimie','science','terre','bcpst']
print(L)
L.sort()
print(L)

In [None]:
L=['biologie','Chimie','science','terre','bcpst']
print(L)
L.sort()
print(L)

In [None]:
M = 'zèbre'
print(M[:-2])

In [None]:
L = ['zèbre','mouton','ane']
L.sort()
print(L)
L=[' zèbre','mouton','ane']
L.sort()
print(L)

### 3. Tris sur les tableaux

In [None]:
T = np.array([[1,5,3],[2,4,1]])
print(T)

Tri par défaut selon les lignes :

In [None]:
np.sort(T)

Tri du tableau mis "à plat" (flattened):

In [None]:
np.sort(T,axis=None)

Tri du tableau selon les colonnes :

In [None]:
np.sort(T,axis=0)

Le défaut des méthodes précédentes est que, si les lignes sont associées (par exemple sur la ligne $L_0$ le numéro des individus et sur la seconde ligne $L_1$ leur " score " (quel qu'il soit), alors les tris perdent cette association...   
Voici une façon de gérer ce problème :

In [None]:
print('le tableau de départ vaut : \n',T)
ordreIndice = T[0,:].argsort()
print('les indices triés sont : ',ordreIndice)
T1 = T[:,ordreIndice]
print('Tri croissant selon la 1ère ligne : \n',T1)
# et si on veut trier dans l'ordre décroissant :
ordreInv = T[0,:].argsort()[::-1]
T2 = T[:,ordreInv]
print('Tri décroissant selon la 1ère ligne : \n',T2)

## II. Les méthodes de tri à connaître.

### 1. Tri par sélection

On parle parfois de *tri naïf* parce que c'est l'une des plus intuitives.  
  
Soit `L` la liste à trier de longueur *n*. L'idée est de commencer par chercher le plus grand élément de la liste puis de le placer à la *n*-ième position en l'échangeant avec le dernier élément de celle-ci.  
Il suffit alors de recommencer l'opération avec les *n-1* premiers éléments puisque le dernier élément de la liste est correctement placé. On réitère cette opération jusqu'à ce qu'il ne reste plus que deux éléments à trier.

**Exercice 1 :**  
**Question 1.1 :** Compléter la fonction `maxi(L,n)` ci-dessous qui prend en argument une liste `L` et un entier `n` et qui retourne l'indice du premier maximum au sein des $n$ premiers éléments de la liste (on notera que `n <= len(L)`).

In [None]:
def maxi(L,n):
    # L est une liste ; n est un entier
    # retourne l'indice du premier maximum parmi les n premières valeurs de L
    indice=0
    for i in range(1,n):
        if ...: # à compléter
            indice = ... # à compléter
    return indice

In [None]:
L = [1,5,2,9,3]
maxi(L,2)

**Question 1.2 :** En utilisant la fonction `maxi`, écrire une fonction `tri_selec()` qui trie une liste selon la méthode décrite ci-dessus.

In [None]:
def tri_select(L):
    t0=clock()
    i=len(L)-1
    while i>0:
        j=maxi(L,i+1)
        if ... : # à compléter
            ...# echange de L[i] et de L[j]
        i = i-1
    t1=clock()
    duree=t1-t0
    return L,duree

**Question 1.3 :** Appliquer la fonction précédente à des listes de $n=20$, $200$, $2000$ et $20000$ entiers pris au hasard entre 1 et 100 (on affichera la réponse que dans le cas $n=20$) :

In [None]:
L = [rdm.randint(1,100) for k in range(20000)]
#print(L)
L1,d = tri_select(L)
#print('la liste triée vaut : ',L1)
print('le temps pour la trier a été de ',d,' secondes')

** *REMARQUE :* **En dehors même des procédures de tri, il est utile de savoir retourner l'indice du maximum ou du minimum d'une liste.  Une application **classique** de la recherche du minimum et de son index consiste à déterminer l'intersection de deux courbes.  
A titre d'exemple, cherchons une valeur approchée à $10^{-2}$ près de $x\in[1,2]$ telle que $2-x=\cfrac{1}{2}\ln(x)$ dont on rappelle qu'elle a déjà été obtenue grâce aux suites récurrentes (cf. fiche de synthèse sur les suites récurrentes), aux algorithmes de dichotomie ou de Newton dans le TP2 qui précède.

In [None]:
def mini(L):
    # L est une liste ;
    # retourne l'indice du premier minimum rencontré dans L
    indice=0
    for i in range(1,len(L)):
        if L[i]<L[indice]:
            indice=i
    return indice

In [None]:
X = np.linspace(1,2,100)
Y1,Y2 = 2-X,np.log(X)/2
iMin = mini(np.abs(Y1-Y2))
abscInter = X[iMin]
plt.plot(X,Y1,'r-',X,Y2,'b-')
plt.scatter(X[iMin],Y1[iMin],20,alpha=0.9)
plt.grid()
print("l'intersection a lieu au point d'abscisse ",round(abscInter,2))

###  2. Tri à bulles

Cette méthode consiste à parcourir une première fois l'ensemble du tableau et à faire  "remonter" son plus grand élément en dernière place à l'aide d'échanges deux à deux.  
On recommence ensuit cette opération sur les $(n-1)$ premiers termes du tableau, les $(n-2)$ premiers termes, etc. jusqu'aux deux premiers termes d'indices $0$ et $1$.  

** Exercice 2 :** Compléter la fonction suivante et en faire l'application à une liste au hasard de votre choix :

In [None]:
print([k for k in range(5,0,-1)])

In [None]:
def tri_bulles(l):
    t0 = clock()
    n=len(l)
    for k in range(...):# k de n-1 à 1 par pas de -1
        for i in range(...): # i de 0 à k-1
            if l[i]>l[i+1]:
                ... # échange
    t1 = clock()
    duree=t1-t0
    return l,duree

In [None]:
L = [rdm.randint(1,100) for k in range(20)]
print(L)
L2,d2 = tri_bulles(L)
print('la liste triée vaut : ',L2)
print('le temps pour la trier a été de ',d2,' secondes')

### 3. Tri par insertion

Cette méthode de tri est celle du joueur de carte qui reçoit successivement les cartes qui lui sont distribuées. Une fois la première carte prise, il insère la seconde à sa place pour un tri croissant. Ensuite, à chaque nouvelle carte, il l'insère dans l'ordre en plaçant dans sa main triée chaque élément à sa bonne place.  

Pour programmer un tel tri, on traite les éléments de la liste tour à tour. On les compare aux éléments précédents préalablement triés jusqu'à trouver la sa place. Il suffit alors de décaler les éléments du tableau pour insérer l'élément considéré à sa place.

** Exercice 3 :**  
**Question 3.1 :** Écrire une fonction `insertion(L,i)` qui prend en argument une liste `L` dont on suppose que les $(i-1)$ premiers éléments sont triés et qui insère l'élément `L[i]` à sa place pour que les $i$ premiers éléments de `L` soient triés.

In [None]:
def insertion(L,i):
    while ...:
        ... # echange L[i] et L[i-1]
        i -= 1
    return L

In [None]:
L = [1,3,8,4]
print(L)
insertion(L,3)
print(L)

**Question 3.2 :** Compléter la fonction `tri\_insert(L)` qui effectue un tri par insertion de la liste `L`.

In [None]:
def tri_insert(L):
    t0=clock()
    n=len(L)
    for i in range(...):
        L = insertion(L,i)
    t1=clock()
    duree=t1-t0
    return L,duree

*Application :*

In [None]:
L = [rdm.randint(1,100) for k in range(20)]
print(L)
L3,d3 = tri_insert(L)
print('la liste triée vaut : ',L3)
print('le temps pour la trier a été de ',d3,' secondes')

### 4.  Tri rapide - quickSort

Le *tri rapide* est une méthode récursive de tri.  
Elle consiste à prendre un élément au hasard (le plus souvent le premier de la liste) appelé *pivot* et de le mettre à sa place en plaçant tous les éléments plus petits à sa gauche et les plus grands à sa droite.  
On recommence alors sur les deux sous-listes obtenues jusqu'à obtenir des sous-listes vides.   La liste est alors triée.  

**Exemple :**  
1. On suppose `L=[15,19,3,20,5,1,6,11]`  
2. Le pivot est `15`. On place dans `L1` les éléments qui lui sont plus petits, dans `L2` sont qui lui sont plus grands.  
	$$ \texttt{[3,5,1,6,11] + }\underline{[15]}\texttt{ + [19,20]} $$
3. On répète la même opération sur les deux sous-listes `L1` et `L2` :
	$$ \texttt{[1] + }\underline{[3]}\texttt{ + [5,6,11] + }\underline{[15]}\texttt{ + }\underline{[19]}\texttt{ + [20]} $$
4. On termine en traitant de la même manière les trois sous-listes restantes. 

**Exercice 4 :** Écrire une fonction Python récursive `triRapide(L)` permettant de trier une liste `L` selon cette procédure.

In [None]:
def trirapide(L):
    if L==[]:
        return []
    else:
        n=len(L)
        L1=[]
        L2=[]
        for k in range(1,n):
            if ...:
                ... 
            else:
                ... 
        L=trirapide(L1)+[L[0]]+trirapide(L2)
        return L

**Exercice 5 :** Vérifier sur des listes de longueur $2000$ le bien-fondé de son nom...

In [None]:
def tpsTrirapide(L):
    t0=clock()
    Lt=trirapide(L)
    t1=clock()
    duree=t1-t0
    return Lt,duree

In [None]:
L = [rdm.randint(1,100) for k in range(2000)]
La,Lb,Lc,Ld = L[:],L[:],L[:],L[:]
L1,d1 =  tri_select(La)
L2,d2 = tri_bulles(Lb)
L3,d3 = tri_insert(Lc)
L4,d4 = tpsTrirapide(Ld)
print('les temps respectifs sont :\n',d1,'s ,',d2,'s ,',d3,'s et',d4,'s ,')

**Remarque :** Si jamais la liste est déjà partiellement triée, le tri par insertion sera plus rapide que le Quiksort. On pourra le vérifier sur L.sort()

## III. Une application  : recherche du $k$-mère le plus fréquent

Considérons à titre d'exemple la recherche des $2$-mères les plus fréquents au sein de la séquence  
$$\texttt{S = 'AAGCAAAGGTGGG'}$$  

Commençons par considérer $k=2$ :  
On liste tous les $2$-mères parmi les $4^2=16$ possibles, dans l'ordre d'apparition dans la chaîne de caractère $\texttt{S}$.

|     $2$-mères de 'S'      |   AA  |  AG  |  GC  |  CA  |  AA  |  AA  |  AG  |  GG  |  GT  |  TG  |  GG  |  GG  |
|---------------------------------------------------------------------------------------------------------|


Revenons maintenant aux $16$ 2-mères possibles auxquels nous allons associer une valeur entière comprise entre $0$ et $15$ selon le codage ci-dessous :  

|  $2$-mères  |  AA  |  AC  |  AG  |  AT  |  CA  |  CC  |  CG  |  CT  |  GA  |  GC  |  GG  |  GT  |  TA  |  TC  |  TG  |  TT  |
|-------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
|    Index    |  0   |  1   |  2   |  3   |  4   |  5   |  6   |  7   |  8   |  9   |  10  |  11  |  12  |  13  |  14  |  15  |

L'idée est d'associer à chaque lettre une valeur entre $0$ et $4$. On choisit pour notre part de prendre : $A:0$, $C:1$, $G:2$, $T:3$ et on a applique l'idée suivante :  
$$\forall n \in \{0,1,\cdots,15\}, \exists ! (a_0,a_1)\in\{0,3\}^2/ n = 4a_1+a_0$$  
Récriproquement, à tout couple $(a_0,a_1)\in\{0,3\}^2$ correspond un unique $n\in\{0,\cdots,15\}/n=a_1\cdot4+a_0$  

Ainsi : $AA=0*4^1+0*4^0=0$, $CA=1*4^1+0*4^0=4$ ou encore $GC=2*4^1+1*4^0=9$  

Cette écriture en base $4$ se généralise et, à titre d'exemple, on pourra associer à tout $3$-mère un entier $n=a_2\cdot 4^2+a_\cdot 4+a_0$ où $a_0,a_1,a_2\in\{0\cdot,3\}$.  
Ainsi : $$GCT=2*4^2+1*4^1+3*4^0=39$$  

**Question 1 :** Écrire une fonction `motif2Nb` permettant d'associer à chaque mot de $k$ lettre un entier naturel formé selon cette procédure :

In [None]:
def motif2Nb(mot):
    n=len(mot)
    mn=0
    for k in range(...):
        nucl = mot[...]
        if nucl == 'C':
            val = 1
        elif nucl == 'G':
            val = 2
        elif nucl == 'T':
            val = 3
        else:
            val = 0
        mn += ...
    return mn

In [None]:
motif2Nb('CT')

On peut désormais convertir chaque $2$-mère rencontrés dans notre séquence `S` en un entier grâce à la fonction `motif2Nb` pour produire un tableau `index` comme ci-dessous :

|     $2$-mères de 'S'      |  AA  |  AG  |  GC  |  CA  |  AA  |  AA  |  AG  |  GG  |  GT  |  TG  |  GG  |  GG  |
|---------------------------|------|------|------|------|------|------|------|------|------|------|------|------|
|         Index             |  0   |  2   |  9   |  4   |  0   |  0   |  2   |  10  |  11  |  14  |  10  |  10  |

Il suffit alors de trier les indexes de façon croissante.  
Sur l'exemple précédent, on obtient :

|     $2$-mères de 'S'      |  AA  |  AA  |  AA  |  AG  |  AG  |  CA  |  GC  |  GG  |  GG  |  GG  |  GT  |  TG  |
|---------------------------|------|------|------|------|------|------|------|------|------|------|------|------|
|         Index             |  0   |  0   |  0   |  2   |  2   |  4   |  9   |  10  |  10  |  10  |  11  |  14  |

Comme les $k$-mères identiques sont accolés dans l'index trié (comme par exemple $(0,0,0)$ ou $(10,10,10)$) les $k$-mères les plus fréquents sont révélés par la plus longue chaîne d'entiers égaux dans la liste `indexTrie`.   
Il suffit alors de créer une liste `compte` qui dénombre les apparitions consécutives d'un même $k$-mère à partir de `indexTrie` puis d'en rechercher le maximum.  
  
Enfin il faut pouvoir écrire la réciproque de la fonction `motif2Nb` pour pouvoir retourner, à partir d'un entier naturel, le motif correspondant de longueur $k$.  

**Question 2 :**Ecrire une fonction `nb2Motif` dont les variables d'entrée sont deux entiers $n$ et $k$ et retournant le motif associé.  
*Note :* On rappelle que si $p$ et $n$ sont deux entiers naturels, avec $p\leq n$ alors `n//p` désigne le quotient de la division euclidienne de $n$ par $p$ et `n%p` est le reste de cette division.

In [None]:
def nb2Motif(n,k):
    mot = ''
    for i in range(k):
        
        ...
        
    return mot

In [None]:
nb2Motif(39,3)

On donne ci-dessous l'algorithme permettant de rechercher les mots les plus fréquents de $k$ lettres dans un `Texte` donné.  
**Question 3 :** Le traduire en langage Python avant de l'appliquer à la séquence `S` donnée en introduction.

`mots_frequents_par_tri(Texte,k)    
motsFrequents <-un ensemble vide  
index <- une liste de (n-k+1) zéros
compte <- une liste de (n-k+1) zéros
Pour i <- 0 à |Texte| - k   
    motif <- Texte(i,k)  # texte commençant en i de longueur k
    index(i) <- motif2Nb(motif)  
    compte(i) <- 1   
indexTrie <- triRapide(index)  
Pour i <- 1 à |Texte| - k  
    Si indexTrie(i) = indexTrie(i-1)  
        compte(i) <- compte(i-1)+1  
compteMax <- valeur maximum dans compte 
Pour i <- 0 à |Texte| - k  
   Si compte(i) = compteMax  
        motif <- nbr2Motif(indexTrie(i),k)  
        ajouter motif à l'ensemble motsFrequents  
return motsFrequents`   

In [None]:
def motsFrequentsRapide(Text,k):
    
    ...
    
    return set(motifsFreq),effMax

In [None]:
S = 'AAGCAAAGGTGGG'
mF,effMax=motsFrequentsRapide(S,2)
print(mF)
print(effMax)