# Un peu d'algorithmique avec les tableaux

*Previously on NSI*
### Exercice 10 : Recherche dans un tableau
Ecrire une fonction qui prend en argument un tableau de nombre ainsi qu'un nombre cherché dans ce tableau. Cette fonction va renvoyer un tableau des index de position du nombre cherché dans le tableau.

In [2]:
def recherchePositions(tableau, valeur):
    positions = []
    for i in range(len(tableau)):
        if tableau[i] == valeur:
            positions.append(i)
    return positions

print(recherchePositions([ 2, 4, 5, 2, 6, 5 ], 2))

[0, 3]


*And now...*

## Complexité en temps d'un algorithme
Dans cette partie, nous allons étudier le temps que nécessite un algorithme pour se terminer. 

L'idée n'est pas de déterminer le temps exact que cela prend. En effet, ce temps dépend de plusieurs facteurs:
- le nombre de données à traiter,
- la répartition de ces données,
- le système matériel (processeur, RAM,...) et logiciel (système d'exploitation, langage de programmation utilisé,...) sur lequel se déroule l'algorithme,
- l'utilisation de ce système par d'autres logiciels (sur un système multitâche, notre algorithme doit partager son temps d'exécution avec d'autres),
- ...

Nous allons plutôt chercher comment va évoluer le temps de traitement en fonction du nombre `n` de données à traiter: si on double ce nombre, comment va évoluer la durée d'exécution de l'algorithme? Et si on multiplie par 10, 100 ou 1000 ce nombre de données? Bref, nous allons chercher une fonction de `n` qui représente comment évolue le temps nécessaire à opérer sur les données.

### Exemple: complexité d'un algorithme de recherche dans un tableau
Dans la fonction `recherchePositions`, on traite un tableau contenant `n` valeurs (on suppose qu'elles sont toutes de type `int`). On remarque que `len(tableau)` est égal à `n`.

Pour simplifier les choses, on suppose que chaque opération élémentaire effectuée prend le même temps $t$.

`positions = []` correspond à 2 opérations élémentaires: la création d'un tableau vide (`[]`) et son affectation dans la variable `position` (`position =`). Il faut donc un temps $2 \times t$ pour exécuter cette ligne.

`for i in range(len(tableau))` nous fait entrer dans une boucle qui va se dérouler `n` fois. La durée d'un tour de boucle devra donc être multipliée par `n` pour avoir le temps total d'exécution de la boucle.

`i in range(len(tableau))` va affecter une valeur dans la variable `i`.  Cela prend un temps $t$.

`if tableau[i] == valeur` va lire la valeur à la position `i` du tableau et comparer son égalité avec `valeur`. Cela prend donc un temps $2 \times t$

 `positions.append(i)` va ajouter dans le tableau `positions` la valeur de `i`. Cela prend un temps $t$
 
 Au total, un tour de la boucle prend un temps $4 \times t$. La boucle complète met donc un temps $4 \times n \times t$.
 
Enfin, `return positions` renvoi le tableau à la partie du programme qui a appelé notre fonction. Cela prend un temps $t$.
 
Il faut donc un temps total $(4 \times n + 3) \times t$ pour terminer notre algorithme.

> Ah ben non!

Comment ça non?

> Dans la boucle, `positions.append(i)` n'est pas toujours effectué.

C'est vrai, il est même possible que ce soit rarement le cas. Et si le tableau ne contient jamais de valeur en double, cela n'aura lieu qu'une fois.

> Ah!

Mais nous allons voir que cela n'a pas d'importance.

> Oh!

Pour commencer, nous allons toujours examiner le pire des cas. Même si on n'utilise notre fonction qu'avec des tableaux ne contenant jamais de doublons, nous devons envisager cette possibilité, et même imaginer un tableau qui contient toujours la même valeur et qu'elle correspond à la valeur cherchée. Dans ce cas, `positions.append(i)` sera toujours effectué.

> Bon d'accord.

Ensuite, nous nous intéresserons toujours à ce qui se passe pour une grande valeur de `n`. Si, par exemple, `n` vaut 1000, y a-t-il une grande différence entre $4 \times n + 3$ et $4 \times n$?

> Bah, entre 4003 et 4000, la différence n'est pas très importante.

Donc, on peut dire que notre algorithme prend un temps $4 \times n \times t$.

Le coefficient 4 n'a pas réellement d'importance. Ce qui compte, c'est que si on multiplie `n` par une certaine valeur, la durée d'exécution sera multipliée par la même valeur. La durée d'exécution de notre algorithme varie ici proportionnellement à `n`. On dit que la complexité de notre algorithme est $O(n)$.

**ATTENTION:** Il faut bien écrire un $O$ **majuscule**. En effet, $O(n)$ (lire "grand O de n") et $o(n)$ (lire "petit o de n") sont deux notations mathématiques différentes qui ont chacune leur signification.

**CONCLUSION:** La complexité d'un algorithme de recherche dans un tableau est $O(n)$. On peut aussi dire que le coût de la recherche est linéaire (cela nous coûte un temps qui croit linéairement avec la taille des données à explorer).

### Importance de la notion de complexité
Savoir écrire un algorithme, c'est bien. Mais savoir écrire un algorithme d'une complexité minimale, c'est mieux!

Il existe différentes complexités. Les principales sont les suivantes:

Complexité    | Notation $O$
 ---          | ---
linéaire      | $ O(n) $
quadratique   | $ O(n^2) $
cubique       | $ O(n^3) $
logarithmique | $ O(log(n)) $ 
exponentielle | $ O(2^n) $


Pour bien comprendre l'importance de la complexité, imaginons un algorithme qui nécessite 2 nanosecondes (2 milliardièmes de secondes) pour traiter $n = 2$ données. Le tableau ci-dessous montre selon la valeur du nombre n de données le temps, en nanosecondes, nécessaire pour d'autres complexités:

Nombre de données | $O(log n)$ | $O(n)$ | $O(n^2)$  | $O(n^3)$           | $O(2^n)$
------------------|------------|--------|-----------|--------------------|---------
$2$               | $1$        | $2$    | $4$       | $8$                | $4$
$16$              | $4$        | $16$   | $256$     | $4096$             | $65536$
$128$             | $7$        | $128$  | $16384$   | $2097192$          | $3,4 \times 10^38$
$1024$            | $10$       | $1024$ | $1048576$ | $1,07 \times 10^9$ | $1,8 \times 10^308$


Ainsi, si un algorithme en $O(n)$ est capable de traiter un volume de 128 données en 128 ns (soit en un dix millionième de secondes), il faudra, pour traiter le même volume de données:
- 16 millionièmes de secondes à un algorithme en $O(n^2)$,
- 0,002 s à un algorithme en $O(n^3)$
- $10^22$ années (ou 800 milliards de fois l'âge de l'Univers!) à un algorithme en $O(2^n)$

Avec ces chiffres, on comprend l'intérêt d'être capable d'évaluer et, si possible, d'améliorer la complexité d'un algorithme.

### Un petit exercice
Ecrivez un algorithme cherchant dans un tableau la **première occurence d'une valeur** et implémentez cet algorithme dans une fonction python `recherche` qui prend en argument le tableau, la valeur cherchée et renvoi la position trouvée (ou -1 si la valeur n'apparait pas dans le tableau).

In [3]:
def recherche(tableau, valeur):
    return -1

print(recherche([ 2, 4, 5, 2, 6, 5 ], 2))
print(recherche([ 2, 4, 5, 2, 6, 5 ], 5))
print(recherche([ 2, 4, 5, 2, 6, 5 ], 6))
print(recherche([ 2, 4, 5, 2, 6, 5 ], 1))

-1
-1
-1
-1


Donnez la complexité de l'algorithme utilisé.

## Une recherche plus performante
Nous allons améliorer la complexité de la recherche. Ce ne sera possible que si le tableau répond à un critère que nous allons déterminer avec l'exemple ci-dessous.

Est-il simple de trouver si le tableau suivant contient la valeur 18745 ?

In [4]:
import prepTableau
print(prepTableau.tableau1())
# Exécutez la cellule pour voir le tableau

[5732, 36662, 44538, 1991, 85285, 50100, 53451, 52764, 56267, 95059, 14986, 94772, 14556, 39281, 95717, 9030, 91503, 65829, 94196, 21085, 88379, 32144, 24589, 8736, 20035, 62191, 92546, 23001, 68555, 66768, 18166, 24459, 61469, 65310, 78663, 82609, 83156, 49164, 13996, 91127, 44269, 36989, 68913, 70412, 7976, 21005, 69015, 23239, 61169, 92076, 97349, 28242, 63846, 11761, 95027, 56378, 4896, 1718, 39784, 85110, 20284, 73284, 92712, 23034, 73627, 62861, 13969, 4515, 26180, 88565, 12921, 56455, 48834, 24714, 4440, 81757, 18878, 47572, 59970, 91423, 9633, 52432, 29565, 25800, 5533, 19060, 83649, 26901, 21706, 12354, 72341, 46706, 87775, 51633, 98768, 84857, 80708, 62926, 34404, 93304, 82092, 88387, 75163, 30256, 58200, 42812, 76458, 19675, 57852, 16353, 99514, 7853, 54765, 29800, 26518, 60845, 37283, 11508, 63852, 74453, 74671, 3884, 30157, 94907, 42972, 10620, 36807, 94603, 45544, 61071, 74405, 26409, 24045, 24476, 56919, 55045, 82427, 61509, 14073, 52881, 32207, 55160, 4355, 3210, 88235,

Est-ce plus simple avec le tableau suivant ?

In [44]:
print(prepTableau.tableau2())
# Exécutez la cellule pour voir le tableau

[198, 301, 344, 350, 582, 746, 853, 1291, 1369, 1437, 1525, 1593, 1648, 1732, 1961, 2092, 2323, 2515, 2863, 2885, 2920, 3068, 3557, 3849, 4097, 4415, 4516, 4593, 4727, 5005, 6031, 6236, 6443, 6709, 6719, 6795, 7072, 7125, 7153, 7583, 7763, 7917, 7987, 8445, 8509, 8891, 9021, 9324, 9470, 10039, 10406, 10502, 10511, 11091, 11812, 12374, 12656, 12882, 13123, 13155, 13163, 13196, 13213, 13432, 13885, 14331, 14390, 14481, 14644, 14773, 15103, 15254, 15288, 15571, 16112, 16162, 16527, 17380, 17685, 17942, 18110, 18507, 18517, 18678, 18878, 19123, 19144, 19243, 19505, 19707, 19744, 20032, 20119, 20481, 20915, 21013, 21049, 21146, 21360, 22211, 22646, 22647, 23315, 23895, 24055, 24056, 24180, 24357, 24373, 24417, 24652, 24675, 24768, 24886, 24967, 25106, 25128, 25217, 25328, 25336, 25486, 26003, 26463, 26573, 26640, 26921, 27146, 27393, 27626, 27627, 27785, 27999, 28232, 28716, 28857, 29082, 29267, 29276, 29313, 29577, 29702, 29743, 29974, 30076, 30203, 30220, 30810, 30923, 31116, 31259, 31625

A quel condition va-t-il être plus facile de chercher une valeur dans un tableau ?

> Euh, si ses éléments sont triés ?

Effectivement. Il est beaucoup plus rapide de retrouver un élément dans un tableau trié. C'est pourquoi les algorithmes de tri sont très importants en informatique. Et c'est aussi pour ça que vos parents vous demandent de ranger vos chambres.

Nous allons donc apprendre à trier. Et pour ça, place aux cartes.

Par petits groupes, vous allez vous répartir un jeu de 52 cartes. Le but est d'étudier comment vous triez les cartes que vous avez en main afin d'élaborer un algorithme de tri.

## Tri d'un tableau
Maintenant que vous vous êtes bien amusé avec vos cartes, vous allez écrire un algorithme de tri et l'implémenter dans une fonction python. Votre fonction tri devra prendre en argument un tableau.

Il existe généralement deux options:
- votre fonction peut modifier directement le tableau. Dans ce cas, elle ne renvoi rien, mais le tableau qu'elle a pris en argument est modifié lors de son exécution. On dit que le tri est fait en place.
- votre fonction peut renvoyer une copie triée du tableau et ne pas modifier celui qu'elle a pris en argument.

A vous de jouer:

In [6]:
def algo_tri(tableau):
    n = len(tableau)

    # On parcourt tous les éléments du tableau
    for i in range(n):
        # On parcourt le reste du tableau à la recherche d'un élément à échanger
        for j in range(i+1, n):
            # Si l'élément courant est plus grand que l'élément suivant, on échange les deux éléments
            if tableau[i] > tableau[j]:
                tableau[i], tableau[j] = tableau[j], tableau[i]

# Exemple d'utilisation
tableau = [5, 3, 6, 2, 1, 4]
algo_tri(tableau)
print(tableau) # affiche [1, 2, 3, 4, 5, 6]


[1, 2, 3, 4, 5, 6]


Déterminez ensuite la complexité de votre algorithme.

### Tri par insertion, tri par sélection
Nous allons étudier les deux algorithmes de tri au programme cette année. Sans doute avez-vous déjà écrit l'un des deux ci-dessus. Puis nous aborderons la question de leur complexité.

In [7]:
def triInsertion(tableau):
    for i in range (1, len(tableau)):
        x = tableau[i]
        j = i 
        while j > 0 and tableau[j - 1] > x:
            tableau[j] = tableau[j - 1]
            j -= 1
        tableau[j] = x
        print(tableau)
triInsertion([5, 1, 8, 6, 10, -6, 8])

print("")
    
# Complexité: O(n²)

def triSelection(tableau):
    for debut in range (len(tableau) - 1):
        minimum = tableau[debut]
        postMinimum = debut
        #Cherche le minimum
        for i in range(debut + 1, len(tableau)):
            if minimum > tableau[i]:
                minimum = tableau[i]
                postMinimum = i
        tableau[postMinimum] = tableau[debut]
        tableau[debut] = minimum
        print(tableau)


    
triSelection([5, 1, 8, 6, 10, -6, 8])
    
    

# Complexité: O(n²)


[1, 5, 8, 6, 10, -6, 8]
[1, 5, 8, 6, 10, -6, 8]
[1, 5, 6, 8, 10, -6, 8]
[1, 5, 6, 8, 10, -6, 8]
[-6, 1, 5, 6, 8, 10, 8]
[-6, 1, 5, 6, 8, 8, 10]

[-6, 1, 8, 6, 10, 5, 8]
[-6, 1, 8, 6, 10, 5, 8]
[-6, 1, 5, 6, 10, 8, 8]
[-6, 1, 5, 6, 10, 8, 8]
[-6, 1, 5, 6, 8, 10, 8]
[-6, 1, 5, 6, 8, 8, 10]


Il existe des algorithmes de tri avec des complexités en temps moins élevées (mais s'ils sont moins complexes en temps, ils sont un peu plus complexes à écrire).

Maintenant que nous savons trier un tableau, il est temps d'améliorer notre recherche.

## Recherche dichotomique
Cette méthode de recherche ne fonctionne que sur un tableau trié. Le principe est simple: puisque le tableau est trié, si on connait le contenu d'une case, toutes les cases d'index inférieur contienne des valeurs plus petites et toutes les cases d'index supérieur contiennent des valeurs plus grandes.

Ainsi, si on cherche la valeur 573 dans un tableau et que la case d'index 51 contient 754, alors on sait que si la valeur 573 est bien dans le tableau, elle est forcément dans une case entre les index 0 à 50. Tous les index supérieurs à 51 ne sont pas intéressants à inspecter.

Sur un tableau de n cases, la valeur cherchée dans une case d'index 0 à n. Notre recherche se fait donc entre les bornes `inf = 0` et `sup = n`.
Puisqu'on cherche dans l'intervalle `[inf, sup]`,  on va aller chercher le contenu de la case au milieu de cet intervalle. Son  index est `n/2`, ou plutôt `inf + (sup - inf) / 2`:
- si elle contient ce qu'on cherche, pas besoin d'aller plus loin et on renvoi l'index de cette case.
- si elle contient une valeur supérieure à ce qu'on cherche, alors on va chercher dans la partie du tableau allant de `inf` à la case inspectée, donc on ne modifie pas `inf` et on remplace `sup` par le numéro de la case (`inf + (sup - inf) / 2`) **moins 1** (parce qu'on vient de regarder la case `inf + (sup - inf) / 2` et on sait qu'il faut aller chercher avant.
- si elle contient une valeur inférieure à ce qu'on cherche, alors on va chercher dans la partie du tableau allant de la case inspectée à `sup` donc on ne modifie pas `sup` et on remplace `inf` par le numéro de la case (`inf + (sup - inf) / 2`) **plus 1**.
Et on recommence.

Si la valeur cherchée est dans la tableau, on va finir par tomber dessus. Sinon, l'intervalle `[inf, sup]` va tellement se réduire que l'on va arriver dans la situation où `inf` sera supérieur à `sup`.
Nous avons donc une boucle qui se déroule tant qu'on n'a pas trouvé et tant que `inf` est inférieur ou égal à `sup`.

Comme d'habitude, on écrit l'algorithme, on l'implémente dans une fonction python et on donne sa complexité (pour ça, je vais vous aider).

In [48]:
import prepTableau
def rechercheDichotomique(tableau, valeur):
    position = -1
    inf = 0 
    sup = len(tableau) - 1
    
    while inf <= sup and  position == -1:
        mid = (sup - inf) // 2 + inf
        if valeur == tableau[mid]:
            position = mid 
        elif valeur < tableau[mid]:
            sup = mid - 1
        else:
            inf = mid + 1
    return position

tab = prepTableau.tableau2()
x = rechercheDichotomique(tab, 5876)
print(x)



-1


In [49]:
def rechercheDichotomique2(tableau, valeur):
    inf = 0
    sup = len(tableau) - 1
    
    #inf et sup sont les bornes de l'intervalle de recherche, initialement c'est tout le tableau.
    
    while inf <= sup:
        mid = inf + (sup - inf) // 2
        #mid est la case du milieu de l'intervalle de recherche
        #La boucle continue tant qu'on n'a pas trouvé la valeur et tant que les bornes ne se croisent pas
        
        if tableau[mid] == valeur:
            return mid
        #Si la valeur de la case de l'index mid est égale à la valeur recherchée, la fonction renvoie l'index mid
        
        elif tableau[mid] < valeur:
            inf = mid + 1 
        #Si la valeur de la case de l'index mid est inférieure à la valeur recherchée, on met à jour inf pour la moitié supérieure
        
        else:
            sup = mid - 1
        #Sinon, on met à jour sup pour la moitié inférieure
        
    return -1  #Si on ne trouve pas la valeur, la fonction renvoie -1 pour indiquer qu'elle n'est pas présente dans le tableau.