<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 19 : Recherche dichotomique dans un tableau trié</h1>

## Recherche séquentielle
Le tableau est une structure de données extrêmement utilisée en informatique.  
L'une des applications premières du tableau est de savoir si une valeur appartient, ou non, à ce tableau.  
Une première approche est d'effectuer une **recherche séquentielle**.

<center><img src="Images/RechercheSequentielle.gif" alt="Recherche séquentielle"></center>

In [None]:
def recherche_sequentielle(tab: list, val):
    """Renvoie une position de val dans le tableau tab,
    et None si val ne s'y trouve pas"""
    for i in range(len(tab)):
        if tab[i] == val:
            return i
    return None

In [None]:
from random import randint

taille = 50
tableau = [randint(1, taille) for _ in range(taille)]
print(f"Tableau : {tableau}")
valeur = randint(1, taille)
print(f"Valeur : {valeur}")

print(recherche_sequentielle(tableau, valeur))

L'algorithme précédent est correct, que le tableau soit trié ou non.  

Cependant, pour de très gros tableaux, il peut s'avérer peu efficace.

In [None]:
from random import randint
from time import perf_counter

for taille in [10 ** i for i in range(8)]:
    tab = [randint(1, taille) for _ in range(taille)]
    val = randint(1, taille)
    
    debut = perf_counter()
    recherche_sequentielle(tab, val)
    fin = perf_counter()
    
    print(f"Pour un tableau de taille n = {taille}, \
il faut {round(fin - debut, 8)} secondes pour déterminer si val est dans le tableau")

Cet algorithme est de **complexité linéaire**.

## Recherche dichotomique
Le fait qu'un tableau soit trié, par exemple, par ordre croissant, facilite de nombreuses opérations.  
L'une d'entre elles est la recherche d'un élément. Il est possible de tirer profit de la relation d'ordre du tableau.  
En effet, il suffit de comparer la valeur recherchée avec la valeur située au milieu du tableau :
* Si elle est plus petite, on peut restreindre la recherche à la moité gauche du tableau.
* Sinon, on la restraint à la moitié droite du tableau.

En répétant ce procédé, on divise la zone de recherche par deux à chaque étape (c'est le principe **diviser pour régner** qui est appliqué dans de nombreux algorithmes). 

Très rapidement, on parviendra soit à la valeur recherchée, soit à un intervalle vide.

Il s'agit de la **recherche dichotomique**

<center><img src="Images/RechercheDichotomique.gif" alt="Recherche dichotomique"></center>

## Mise en oeuvre
Nous souhaitons définir une fonction qui recherche la valeur `val` dans le tableau `tab`.
```python
def recherche_dichotomique(tab: list, val):
```
Le tableau `tab` est supposé **trié par ordre croissant**.  

La fonction renvoie la position dans le tableau `tab` à laquelle se trouve la valeur `val`.  
Si la valeur `val` n'apparaît pas dans le tableau `tab`, la fonction renvoie `None`.

Pour mettre en œuvre la recherche dichotomique, on va délimiter la portion du tableau `tab` dans laquelle la recherche est actuellement réduite à l'aide de deux indices `g` et `d`.  

Initialement, ces deux indices délimitent l'intégralité du tableau :
```
    g = 0
    d = len(t) - 1
```

Le programme va alors répéter le principe de dichotomie tant que cette portion n'est pas vide, c'est-à dire tant que la condition `g <= d` est vraie.

<div style="text-align: center">
   <img src="Images/dicho-1.png" alt="dichotomie">
</div>

<!---

           0                g             d
          +----------------+---------------+----------------+
    tab   | éléments < val |      ...      | éléments > val |
          +----------------+---------------+----------------+
        
-->


```
    while g <= d:
        # invariant : 0 <= g et d < len(tab)
        # invariant : val ne peut se trouver que dans tab[g..d] 
```
Il faut examiner l'élément central pour prendre notre décision.
```
        m = (g + d) // 2
```

<div style="text-align: center">
   <img src="Images/dicho-2.png" alt="dichotomie">
</div>

<!---

           0                g      m      d
          +----------------+------+-+------+----------------+
    tab   | éléments < val | ...  |?|  ... | éléments > val |
          +----------------+------+-+------+----------------+
-->

Il reste à comparer `val` à `tab[m]` :
* Si la valeur `val` est plus grande, alors la recherche peut se restreindre à la moitié droite.

```
        if tab[m] < val:
            g = m + 1
```

* Si la valeur `val` est plus petite, alors la recherche peut se restreindre à la moitié gauche.

```
        elif tab[m] > val:
            d = m - 1
```
* Si la valeur `val` est égale à `tab[m]`, c'est qu'on a trouvé une occurrence de la valeur `val`.

```
        else:
           return m
```

Si l'on sort de la boucle, cela signifie que la valeur `val` ne peut pas se trouver dans le tableau, car il ne contient plus que des valeurs strictement plus petites que `val` (à gauche) ou strictement plus grandes (à droite).
```
    return None
```

In [None]:
def recherche_dichotomique(tab: list, val):
    """Renvoie une position de val dans le tableau tab,
    supposé trié, et None si val ne s'y trouve pas"""
    g = 0
    d = len(tab) - 1
    while g <= d:
        # invariant : 0 <= g et d < len(tab)
        # invariant : val ne peut se trouver que dans tab[g..d]     
        m = (g + d) // 2
        if tab[m] < val:
            g = m + 1
        elif tab[m] > val:
            d = m - 1
        else:
            return m
    # la valeur ne se trouve pas dans le tableau
    return None

In [None]:
from random import randint

taille = 50
tableau = [randint(1, taille) for _ in range(taille)]
tableau.sort()
print(f"Tableau : {tableau}")
valeur = randint(1, taille)
print(f"Valeur : {valeur}")

print(recherche_dichotomique(tableau, valeur))

## Preuve de l'algorithme
Montrons que le programme ne va pas échouer en accédant au tableau `tab` en dehors de ses bornes.  
* Le seul accès au tableau `tab` se fait à l'indice `m`, dans la boucle `while`.  
* Cet indice `m` est calculé comme la moyenne entière de `g` et `d`, dont on sait qu'ils vérifient `g <= d` car on est dans la boucle.  
* Par ailleurs `0 <= g` et `d < len(tab)` sont des invariants de boucle (lorsque `g` ou `d` sont modifiés dans la boucle, on peut vérifier que les inégalités sont préservées).  
* Par conséquent, à l'intérieur de la boucle, on a : ` 0 <= g <= m <= d < len(tab)`

### Correction
Montrons que, si un entier est renvoyé, il s'agit bien d'une position ou la valeur `val` apparaît.  
* L'instruction `return m` n'est exécutée que lorsque l'égalité `tab[m] == val` est vérifiée.

### Complétude
Montrons que, si la valeur `None` est renvoyée, alors la valeur `val` n'apparaît pas dans le tableau `tab`.  

On utilise l'**invariant de boucle** : `val ne peut se trouver que dans tab[g..d]`.  
* C'est vrai initialement car `g` et `d` sont initialisées à `0` et `len(tab) - 1`.
* Lorsque `g` et `d` sont modifiés, cet invariant est préservé :
    * Lorsqu'on modifie `g`, on a `tab[m] < val` et on effectue `g = m + 1`.  
    Le tableau étant trié, on a donc : `tab[g..m-1] <= tab[m] < val` et donc `val` ne peut pas se trouver dans `tab[g..m]`.      
    Elle ne peut donc se trouver que dans `tab[m+1..d]`, c'est-à-dire `tab[g..d]`.
    * Lorsqu'on modifie `d`, on a `tab[m] > val` et on effectue `d = m - 1`.      
    Le tableau étant trié, on a donc : `val < tab[m] <= tab[m+1..d]` et donc `val` ne peut pas se trouver dans `tab[m..d]`.      
    Elle ne peut donc se trouver que dans `tab[g..m-1]`, c'est-à-dire `tab[g..d]`.

### Terminaison
La valeur entière `d - g` est un **variant de boucle**.  
* Elle décroît d'au moins une unité à chaque itération de la boucle `while`, tout en restant positive ou nulle.  
* Elle ne peut décroître indéfiniment.  

On finira donc par avoir `d < g` et une sortie de boucle (si on n'a pas trouvé la valeur `val` avant).

### Assistant de preuve
Voici une [version](https://why3.lri.fr/try/?lang=python&name=test.mlw&code=A1defyrecherche%2FA7n1tab7r1val7IvJ7C1B6requires4forallzi7trzjrz07Ryo7xos1lenAff7o7Mzr72l74jppjpHeB5ensures4result7RMz4existsjcchqcccec1andrcmd7SyWH1inf7yfH1suprggig7sz1H3whilejbj7vLU5variantqlnHpyinvariant%2FelpYmXddddHiiPXVmffpifPhUoUnVeHeeemeeckpscpgjfrfmf7zemH1midTjb7qen7Ouz2HY4assertmWislH0ifbbocYcQLjbncOD2elifiioiYiiLfinPiD2elsenLaagglguIgH4return2TrueMDs3False) permettant de déterminer si `val` est présent dans `tab`, en utilisant une recherche dichotomique.  

On utilise l'assistant de preuve [Why3](https://why3.lri.fr/) :

```python
def recherche(tab, val):
    #@ requires forall i. forall j. 0 <= i < j < len(tab) -> tab[i] <= tab[j]
    #@ ensures result <-> exists i. 0 <= i < len(tab) and tab[i] == val
    inf = 0
    sup = len(tab) - 1
    while inf <= sup:
        #@ variant sup - inf
        #@ invariant 0 <= inf and sup < len(tab)
        #@ invariant forall i. (0 <= i < inf -> tab[i] < val)
        #@ invariant forall i. (sup < i < len(tab) -> tab[i] > val)
        mid = (inf + sup) // 2
        #@ assert inf <= mid <= sup
        if tab[mid] < val:
            inf = mid + 1
        elif tab[mid] > val:
            sup = mid - 1
        else:
            #@ assert tab[mid] == val
            return True
    return False
```

## Efficacité
Le nombre de valeurs du tableau `tab` qui ont été examinées pendant l'exécution de `recherche_dichotomique(tab, val)` correspond au nombre d'itérations de la boucle `while` ou encore au nombre de valeurs prises par la variable `m`.  
Le temps d'exécution de `recherche_dichotomique` est directement proportionnel à ce nombre.

Le pire cas est celui ou la valeur `val` n'apparaît pas dans le tableau `tab`, ce qui nous oblige à répéter la boucle jusqu'à ce que cet intervalle soit vide.

In [None]:
def complexite_dichotomie(n: int) -> int:
    """Renvoie le nombre d'étapes nécessaires pour obtenir 0 
    en divisant l'entier n par 2"""
    nb_op = 0
    while n > 0:
        n = n // 2
        nb_op += 1
    return nb_op

for taille in [10 ** i for i in range(10)]:
    print(f"Pour un tableau de taille n = {taille}, il faut, au plus, {complexite_dichotomie(taille)} étapes")

De manière générale, pour un tableau `tab` de taille `n`, le temps d'exécution de `recherche_dichotomique(tab, val)` est, dans le pire des cas, égal au plus petit entier $k$ tel que $2^k > n$.  


In [None]:
# Récupération des données
from time import perf_counter
from random import randint

# On utilise une fonction pour générer des tableaux aléatoire de taille n
def tableau_aleatoire(n: int) -> list:
    """Renvoie un tableau d'entiers aléatoires de taille n"""
    tab = [0] * n
    for i in range(n):
        tab[i] = randint(1, n)
    return tab

nb_points = 12 # nb de points à tracer
abscisses = [0] * nb_points
ordonnees = [0] * nb_points
taille = 1_000

for i in range(nb_points):
    abscisses[i] = taille
    
    tableau = tableau_aleatoire(taille)
    tableau.sort() # on trie le tableau
    valeur = randint(1, taille) 
    
    debut = perf_counter()
    recherche_dichotomique(tableau, valeur)
    fin = perf_counter()
    ordonnees[i] = fin - debut
    
    taille = taille * 2

In [None]:
# On peut afficher les résultats
for i in range(nb_points):
    print(f"Il faut {round(ordonnees[i], 5)} s pour rechercher un élément dans un tableau de taille {abscisses[i]}")

In [None]:
# On trace les nuages de points
import matplotlib.pyplot as plt

plt.figure("Complexite temporelle")
plt.title('Complexité de la recherche dichotomique')
plt.xlabel("Taille n du tableau")
plt.ylabel("Temps d'execution (en s)")  
plt.plot(abscisses, ordonnees, 'bo')
plt.show()

Il s'agit d'un algorithme de **complexité logarithmique**. Il est donc extrêmement efficace.  

Mais n'oublions pas que l'utilisation d'une recherche dichotomique nécessite que le tableau soit trié, et que le tri d'un tableau est une opération coûteuse (en temps).  
Ceci étant dit, de façon générale, il est moins souvent nécessaire de trier un tableau que d'y effectuer une recherche d'élément.

## Exercices

### Exercice 1
Combien de valeurs sont examinées lors d'un appel à `recherche_dichotomique([0, 1, 1, 2, 3, 5, 8, 12, 21], 7)`?

### Exercice 2
Donner un exemple d'exécution de `recherche_dichotomique` où le nombre de valeurs examinées est exactement quatre.

### Exercice 3
Modifier la fonction `recherche_dichotomique` pour afficher le nombre total de tours de boucle effectués par l'algorithme.  
Lancer le programme sur des tableaux de taille différentes (100, 1000, ...) et observer les nombres de tours affichés.  
On pourra par exemple, chercher la valeur `1` dans un tableau ne contenant que des valeurs `0` (ce qui correspond au pire cas).

### Exercice 4
Ecrire une fonction `nb_de_tours(n)` qui renvoie le plus petit entier $k$ tel que $2^k > n$, c'est-à-dire le nombre maximal de valeurs examinées par la recherche dichotomique dans un tableau de taille `n`.

### Exercice 5
Ecrire un programme qui permette à l'ordinateur de jouer à *devine le nombre* contre l'utilisateur.  
Cette fois, c'est l'utilisateur qui choisit un nombre entre 0 et 100 et l'ordinateur qui doit le trouver, le plus efficacement possible.  
A chaque proposition faite par l'ordinateur, l'utilisateur doit donner une réponse sous la forme d'une chaîne de caractères parmi : `"plus grand"`, `"plus petit"` ou `"bravo"`.

## Liens :
* Data Structure Visualizations - [Algorithmes de recherche](https://www.cs.usfca.edu/~galles/visualization/Search.html)  - [*University of San Francisco*](https://www.cs.usfca.edu/)
* Document accompagnement Eduscol : [Recherche dichotomique](https://cache.media.eduscol.education.fr/file/NSI/76/3/RA_Lycee_G_NSI_algo-dichoto_1170763.pdf)
* Rosetta Code : [Binary Search](http://www.rosettacode.org/wiki/Binary_search)
* Wolfram : [Mathematical Binary Search](https://www.wolframalpha.com/input/?i=binary+search&assumption=%7B%22C%22%2C+%22binary+search%22%7D+-%3E+%7B%22Calculator%22%7D)
* Wandida, APFL : Introduction à l'Informatique - Algorithmes
    * [Introduction](https://youtu.be/IQ7zVnn0LhI)
    * [Algorithmes](https://youtu.be/m3vT2QKdaho)
    * [Contrôle](https://youtu.be/yHHOwvcDKow)
    * [Recherche](https://youtu.be/g8HGkTwNJRM)
    * [Recherche par Dichotomie](https://youtu.be/pRsYIxcNqiQ)
    * [Complexité](https://youtu.be/nF6svlu2RqY)
    * [Tri](https://youtu.be/ALDrUK27kug)