# La recherche par dichotomie : une approche de la complexité

## C’est pas faux !

L’un des algorithmes qui illustrent le mieux l’intérêt de la notion de récursivité est celui de la recherche par dichotomie. Derrière ce nom barbare repose le principe de la dichotomie où l’on sépare un ensemble en deux sous-ensembles de tailles égales afin d’écarter à chaque proposition la moitié des réponses fausses.

**Un exemple classique :** votre partenaire de belote vous propose de deviner un nombre entre 1 et 100.
- **Vous :** 50 ?
- **Lui :** Non, plus grand.
- **Vous :** 75 ?
- **Lui :** Non, plus petit.
- …

Intuitivement, vous avez mis en place une stratégie de recherche pour éliminer rapidement un grand nombre de fausses réponses.

En deux propositions seulement, vous avez défini que la solution se trouvait dans une fourchette entre 51 et 74, éliminant 75 % des possibilités. C’est la recherche par dichotomie.

## Définition par récurrence

**Pré-requis :**
- disposer d’une liste finie (sur laquelle on peut déterminer les valeurs minimales et maximales) ;
- disposer d’une liste triée afin de valider les comparaisons.

**Trois cas de figure à chaque proposition :**
- soit la proposition est la bonne réponse ;
- soit elle est supérieure à la bonne réponse ;
- soit elle est inférieure à la bonne réponse.

![Illustration de la recherche par dichotomie](images/binary_search_into_array.png)

À partir de ces observations, on peut en déduire que :
- la proposition ne sera bonne qu’une seule fois et provoquera l’arrêt de la récurrence ;
- les autres cas pourront se produire plusieurs fois et entraîneront la poursuite de la récurrence.

Nous venons de définir le cas de base et les cas de propagation :
- **cas de base :** la proposition est égale à la solution
- **cas de propagation :**
    - la proposition est inférieure, retourner un sous-ensemble de valeurs supérieures
    - la proposition est supérieure, retourner un sous-ensemble de valeurs inférieures

## Définition de la fonction en Python

In [None]:
def binary_search(data, search, end, start=0):
    
    # Midpoint: "//" operator returns Euclidean division
    m = start + (end - start) // 2;

    #
    # Base case
    #
    if (data[m] == search): return m

    #
    # Recursive cases
    #
    # Greater than what you're looking for? Search lower half
    if (data[m] > search): return binary_search(data, search, m - 1, start);
    # Less than what you're looking for? Search upper half
    return binary_search(data, search, end, m + 1);

## Mise à l’épreuve de l’algorithme

Afin de vérifier le bon fonctionnement de la recherche par dichotomie, envoyons à la fonction une liste de 0 à 9 dans laquelle le programme pioche une valeur au hasard :

In [None]:
from random import choice

d = range(0, 10)
draw = choice(d)

# Draw should be equal to the result with binary search
print(f"{draw} : {binary_search(d, draw, len(d))}")

## La recherche séquentielle : une alternative

Une alternative serait de mener une recherche séquentielle, où l’algorithme partirait du début de la liste pour comparer chacun de ses éléments avec l’élément recherché :

In [None]:
def sequential_search(data, search):
    """Find an item in the data
    
    data -- list of items
    search -- the item to find
    """
    for d in data:
        if d == search: return d

Cet algorithme présente le double avantage d'être nettement plus rapide à écrire et immédiatement compréhensible. Aucune surprise quant au résultat :

In [None]:
from random import choice

d = range(0, 10)
draw = choice(d)

# Draw should be equal to the result with sequential search
print(f"{draw} : {sequential_search(d, draw)}")

## La complexité : une mesure de la performance

Sans rentrer dans les détails de la notion de complexité en programmation, elle repose sur le nombre d’opérations effectuées pour accomplir l’algorithme. Pour la recherche séquentielle, l’algorithme effectue une comparaison pour chaque élément de la liste, tant que l’élément ne correspond pas au terme de la recherche. Au pire, s’il y a dix éléments dans la liste, l’algorithme effectue dix opérations. La recherche du résultat est proportionnelle à la taille des données.

Pour la recherche par dichotomie, le nombre d’opérations est bien moindre ! Au pire des cas, elle effectuera quatre opérations sur une liste de dix éléments.

Quatre opérations ? Comment trouver ce nombre ?

La recherche par dichotomie se base sur un système de division d’une grandeur par 2. Il suffit de trouver combien de fois il est nécessaire d’effectuer cette division pour parvenir à 0 (au sens d’une division entière).

In [None]:
def complexity(card):
    """
    card -- cardinality of the object
    """
    nb = 0
    while card != 0:
        nb += 1
        card //= 2
    return nb
complexity(10)

Or, dire qu’il a fallu diviser quatre fois par deux le nombre dix, c’est la même chose que de dire que l’on a multiplié deux quatre fois par lui-même pour atteindre dix. Exprimé sous forme de puissance, la relation devient : $2^4 > 10 > 2^3$

L’idée, pour calculer la complexité de la recherche par dichotomie, est bien de trouver la puissance à laquelle élever le nombre 2. On dispose d’une autre notation pour décrire cette opération : le logarithme. Dans notre exemple, on recherche le logarithme de 10 en base 2, ce qui s’écrit : $\log_{2} 10$

On dit que la complexité de la recherche par dichotomie est logarithmique, alors que celle de la recherche séquentielle est linéaire, puisqu’elle augmente d’autant d’unités que la taille de l’objet à traiter.

**Expression mathématique de la complexité :**
- recherche par dichotomie : $O(\log_{2} n)$
- recherche séquentielle : $O(n)$

## Analyse comparative

Si l’on vient de prouver par calcul que la recherche par dichotomie nécessite moins d’opérations, est-elle pour autant plus rapide ?

Pour s’en assurer, réalisons un petit *benchmark* sur une liste comprenant dix millions d’objets :

In [None]:
from random import choice
data = range(0, 10000000)
search = choice(data)
%timeit -n1 pass
sequential_search(data, search)
%timeit -n1 pass
binary_search(data, search, len(data))