<div style='width:20em'><img src='img/logo-igm.png'></div>
<div style='font-size:larger'><strong>Algorithmique et programmation 2</strong><br>
L1 Math√©matiques - L1 Informatique<br>
Semestre 2
</div>

# Algorithmes de recherche dans une liste

## Probl√®me 1 : recherche dans une liste quelconque

### √ânonc√© du probl√®me

√âtant donn√©e une liste `lst` et un √©l√©ment `x`, `lst` contient-elle `x` ?

- Probl√®me extr√™mement important
- Sous une forme ou une autre, r√©solu des millions de fois par jour
- En Python : `x in lst`

### Algorithme : recherche exhaustive (it√©rative)

- Pour chaque √©l√©ment `elem` de `lst`
    - Si `elem` vaut `x`, r√©pondre `True`
- √Ä la fin du parcours, r√©pondre `False`

#### Impl√©mentation

In [None]:
def rech_exh_iter(lst, x):
    for elem in lst:
        if elem == x:
            return True
    return False

In [None]:
lst = list(range(10))
rech_exh_iter(lst, 9), rech_exh_iter(lst, 10)

#### Preuve de correction
    
Par r√©currence : si $k$ est le nombre de tours de boucles d√©j√† r√©alis√©, `lst[:k]` ne contient pas `x`.
- Vrai quand aucune it√©ration n'a √©t√© r√©alis√©e ($k = 0$).
- Supposons la propri√©t√© vraie apr√®s $k$ it√©rations.
    - Si `len(lst)` est $k$, la boucle s'arr√™te et le r√©sultat est `False`. Par HR, `lst[:k] == lst` ne contient pas `x`.
    - Sinon, il existe un √©l√©ment `lst[k]`. Si `lst[k] == x` le r√©sultat est `True` et il n'y a pas d'autre it√©ration. Sinon on a bien que `lst[:k+1]` ne contient pas `x`.

On en d√©duit que l'algorithme calcule le bon r√©sultat.

#### Complexit√©

- En temps : $O(n)$ dans le pire cas, o√π $n$ est `len(lst)`.
    - Preuve : maximum $n$ it√©rations, chaque it√©ration en $O(1)$.
- En espace : $O(1)$ espace suppl√©mentaire
    - On ne compte pas la liste `lst` elle-m√™me
    - On admet que la gestion de la boucle n'occupe qu'un espace constant

### Algorithme : recherche exhaustive (r√©cursive)

- Si `lst` est vide, r√©pondre `False`
- Sinon, si `lst[0]` vaut `x`, r√©pondre `True`
- Sinon, rechercher `x` dans la liste priv√©e de son premier √©lement

#### Impl√©mentation (version na√Øve)

In [None]:
def rech_exh_rec(lst, x):
    if len(lst) == 0:
        return False
    elif lst[0] == x:
        return True
    else:
        return rech_exh_rec(lst[1:], x)

In [None]:
lst = list(range(10))
rech_exh_rec(lst, 9), rech_exh_rec(lst, 10)

#### Preuve de correction
    
Par r√©currence sur la taille de la liste :
- R√©sultat correct sur une liste vide
- Supposons la propri√©t√© vraie apr√®s sur toute liste de taille au plus $k$, supposont `lst` de taille $k+1$
    - Si `lst[0] == x` le r√©sultat est correct
    - Sinon, par HR l'appel r√©cursif renvoie le bon r√©sultat sur `lst[1:]`, et comme `lst[0] != x` c'est aussi le bon r√©sultat sur `lst` toute enti√®re

#### Complexit√©

- En temps : $O(n^2)$ dans le pire cas, o√π $n$ est `len(lst)`.
    - Preuve : complexit√© major√©e par la suite $T(0) = c$, $T(n) = c.(n-1) + T(n-1)$
    - Suite d√©j√† rencontr√©e en cours : $T(n) \in O(n^2)$
    - Coupable : calcul de `lst[1:]` !
- En espace : $O(n^2)$ dans le pire cas
    - Gestion de la pile : $O(1)$ par appel
    - Recopie de la liste √† chaque appel !
    - M√™me calcul que ci-dessus

Rappel :

$$
\sum_{i=0}^{n-1} i = \big( 0 + 1 + \cdots + (n-2) + (n-1) \big) = \frac{n(n-1)}{2} \in O(n^2)
$$

#### Impl√©mentation r√©cursive (version am√©lior√©e)

In [None]:
def rech_exh_rec_bis(lst, x, i=0):
    if len(lst) == i:
        return False
    elif lst[i] == x:
        return True
    else:
        return rech_exh_rec_bis(lst, x, i+1)

In [None]:
lst = list(range(10))
rech_exh_rec_bis(lst, 9), rech_exh_rec_bis(lst, 10)

#### Preuve de correction
    
Par r√©currence sur `len(lst) - i` : r√©sultat correct sur `lst[i:]` 
- Propri√©t√© vraie si `len(lst) - i` nul : la fonction renvoie `False` et `lst[i:]` est bien vide
- Supposons la propri√©t√© vraie pour `len(lst) - i` au plus $k$, soit `len(lst) - i` $=k+1$
    - Si `lst[i] == x` le r√©sultat est correct
    - Sinon, par HR l'appel r√©cursif renvoie le bon r√©sultat sur `lst[i+1:]`, et comme `lst[i] != x` c'est aussi le cas sur `lst[i:]`

#### Complexit√©

- En temps : $O(n)$ dans le pire cas, o√π $n$ est `len(lst)`.
    - Preuve : complexit√© major√©e par la suite $T(0) = c$, $T(n) = c + T(n-1)$
- En espace : $O(n)$ dans le pire cas
    - Gestion de la pile : $O(1)$ par appel
    - M√™me calcul que ci-dessus

### Chronom√©trage



In [None]:
import matplotlib.pyplot as plt

def trace_courbes(abscisses, series,
                  title='', xlabel='', ylabel=''):
    """Pour chaque couple (nom, ordonn√©es) de la liste series, trace la courbe
    des ordonnees avec la legende nom dans matplotlib. L'abscisse des points
    est donn√©e par la liste abscisses.
    Le param√®tres optionnels title, xlabel et ylabel donnent le titre du
    graphique et les √©tiquettes des axes x et y."""
    for nom, donnees in series:
        plt.plot(abscisses, donnees, label=nom)
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.legend()

In [None]:
from timeit import timeit

def chrono(fonction, args, nombre=100000):
    """Renvoie le temps d'ex√©cution en secondes de 'nombre' r√©p√©titions de
    l'appel fonction(*args)."""

    # le plus simple est de passer √† la fonction timeit une fonction sans
    # argument, donc on doit d√©finir une fonction auxiliaire
    def f():
        # passe un par un chaque argument de la liste args √†
        # la fonction
        return fonction(*args)

    return timeit(f, number=nombre)

In [None]:
def chrono_et_trace_rech(xs, fs=(rech_exh_iter, rech_exh_rec, rech_exh_rec_bis)):
    ys = []
    for f in fs:
        times = []
        for x in xs:
            lst = list(range(x))
            times.append([chrono(f, [lst, x], 100)])
        ys.append((f.__name__, times))
    trace_courbes(xs, ys)

In [None]:
xs = list(range(0, 1001, 100))
chrono_et_trace_rech(xs, (rech_exh_iter, rech_exh_rec, rech_exh_rec_bis))

### Peut-on faire mieux ?

On peut d√©montrer qu'il faut faire au moins `len(lst)` acc√®s √† la liste pour r√©pondre correctement  
*(borne inf√©rieure de complexit√© sur le **probl√®me**)*

- Soit `f` une fonction de recherche effectuant moins de `len(lst)` acc√®s sur au moins une liste `lst`
- Soit `x` un √©l√©ment n'appartenant pas √† `lst`, `f(lst, x)` renvoie forc√©ment `False`
- Soit `i` l'indice d'un √©l√©ment non vu
    - Si l'on avait remplac√© `lst[i]` par `x` la fonction aurait aussi renvoy√© `False` (r√©sultat incorrect)
  
**Conclusion :** si on ne sait rien sur la liste, on ne peut
pas faire mieux que `len(lst)` comparaisons !

## Probl√®me 2 : recherche dans une liste tri√©e

### √ânonc√© du probl√®me

√âtant donn√©e une liste `lst` d'√©l√©ments **comparables** deux √† deux, **tri√©e** dans l'ordre croissant, et un √©l√©ment `x`, `lst` contient-elle `x` ?

Qu'est-ce qui change par rapport au probl√®me pr√©c√©dent ?

### Pr√©ambule : jeu de la devinette

**Objectif :** deviner un nombre entier compris entre 1 et $N$, en posant le moins de questions possible. 

Trois personnes jouent :
- Devinante (**D**)
- R√©pondante (**R**)
- Arbitre (**A**)

On commence par prendre $N = 15$.

#### D√©roulement :

1.  **R** choisit un entier $n$ entre 1 et $15$ et le
    communique secr√®tement √† **A**.

2.  **D** propose √† **R** un entier $a$ entre 1 et 15.

3.  **R** r√©pond "√©gal" si $n = a$, "plus petit" si $n < a$, "plus grand" si
    $n > a$. **A** v√©rifie que la r√©ponse est honn√™te.

4.  Si **D** a propos√© $a = n$, la partie est termin√©e, **A** annonce le score. Sinon,
    on recommence au point 2.

But de **D** : deviner $n$ en faisant le moins possible de
propositions (en comptant la proposition finale, pour laquelle $a = n$). Le
nombre de propositions est appel√© *score* de la partie. **D** souhaite donc
gagner avec le plus *petit* score possible.

#### Travail demand√©

1. Faites des groupes de 3 et jouez quelques parties
2. D√©crivez une strat√©gie pour **D** pour gagner
   *toutes* les parties avec un score le plus petit possible. 
3. Quel est le meilleur score que **D** est **s√ªre** d'atteindre (*score maximal pour $N = 15$*) ?
4. Quel est le meilleur score pour $N = 31$ ? Et pour $N = 50$ ? Et pour $N$
   quelconque ?

#### Bilan

- En jouant "bien", quand $N = 15$, **D** peut garantir un score maximal de 4. 
- Strat√©gie : si les nombres possibles sont les $g \leq a \leq d$, on propose $(g + d) / 2$ (arrondi comme on veut).
- Pourquoi √ßa marche : 15 possibilit√©s au d√©but, $\leq 7$ apr√®s 1 question, $\leq 3$ apr√®s 2 questions, $\leq 1$ apr√®s 3 questions, trouv√© √† la quatri√®me.
- Quand $N = 31$, 5 questions suffisent. Quand $N = 50$, 6 questions. Et pour $N$ quelconque... voir la suite.

### Retour aux listes

**Id√©e d'algorithme (ou *strat√©gie*) :** proc√©der par *dichotomie*

- Si on voit un √©l√©ment trop petit, inutile de chercher avant
- Si on voit un √©l√©ment trop grand, inutile de chercher apr√®s
- Pour √©liminer le plus de cas possible on regarde toujours au
    milieu de l'intervalle

**Exemple :** on recherche l'√©l√©ment `112`

![Recherche dichotomique](img/dicho-0.png)

`m = (g + d) // 2 = 9`

![Recherche dichotomique](img/dicho-1.png)

`lst[9] < 112` : on continue la recherche √† droite de `m`

![Recherche dichotomique](img/dicho-2.png)

`g = m + 1 = 10`

![Recherche dichotomique](img/dicho-3.png)

`m = (g + d) // 2 = 14`

![Recherche dichotomique](img/dicho-4.png)

`lst[14] > 112` : on continue la recherche √† gauche de `m`

![Recherche dichotomique](img/dicho-5.png)

`d = m - 1 = 13`

![Recherche dichotomique](img/dicho-6.png)

`m = (g + d) // 2 = 11`

![Recherche dichotomique](img/dicho-7.png)

`lst[11] < 112` : on continue la recherche √† droite de `m`

![Recherche dichotomique](img/dicho-8.png)

`g = m + 1 = 12`

![Recherche dichotomique](img/dicho-9.png)

`m = (g + d) // 2 = 12`

![Recherche dichotomique](img/dicho-10.png)

`lst[12] < 112` : on continue la recherche √† droite de `m`

![Recherche dichotomique](img/dicho-11.png)

`g = m + 1 = 13`

![Recherche dichotomique](img/dicho-12.png)

`m = (g + d) // 2 = 13`, et `lst[13] == 112`

![Recherche dichotomique](img/dicho-13.png)

### Algorithme : recherche par dichotomie (it√©rative)

Soient `lst` une liste croissante de `n` √©l√©ments, `x` un √©l√©ment

- Posons `g = 0`, `d = n - 1`
- Tant que l'intervalle $[g, d]$ contient au moins un √©l√©ment :
    - Calculer `m = (g + d) // 2`
    - Si `lst[m] == x`, r√©pondre `True`
    - Si `lst[m] < x`, fixer `g` √† `m+1`
    - Si `lst[m] > x`, fixer `d` √† `m-1`
- Si l'on sort de la boucle, r√©pondre `False`

#### Impl√©mentation

In [None]:
def dicho_iter(lst, x):
    g, d = 0, len(lst) - 1
    while g <= d:
        m = (g + d) // 2
        if lst[m] == x:
            return True
        elif lst[m] < x:
            g = m + 1
        else:
            d = m - 1
    return False

In [None]:
lst = list(range(10))
dicho_iter(lst, 3), dicho_iter(lst, 3.5)

#### Preuve de correction
    
Par r√©currence sur le nombre de tours de boucle : en d√©but d'it√©ration, ni `lst[:g]` ni `lst[d+1:]` ne contiennent `x`
- Propri√©t√© vraie apr√®s 0 it√©rations : `lst[:g]` et `lst[d+1:]` sont vides
- Supposons la propri√©t√© vraie apr√®s `k` it√©rations. Si `lst[m] == x` la fonction renvoie un r√©sultat correct et termine. Sinon :
    - Si `lst[m] < x`, au d√©but de l'it√©ration suivante `g` vaut `m+1`. Or comme `lst` est croissante, tous les √©l√©ments d'indice au plus `g-1` sont inf√©rieurs √† `x` (et donc diff√©rents)
    - Si `lst[m] > x`, au d√©but de l'it√©ration suivante `d` vaut `m-1`. Or comme `lst` est croissante, tous les √©l√©ments d'indice au moins `d+1` sont sup√©rieurs √† `x` (et donc diff√©rents)

#### Preuve de terminaison

- La quantit√© `d - g` diminue strictement √† chaque tour de boucle
- La boucle s'arr√™te si `d - g` devient n√©gatif ou nul
- Donc le nombre de tours ne peut pas √™tre infini

#### Complexit√©

- Chaque tour de boucle prend un temps $O(1)$
- Au d√©but du premier tour de boucle, on cherche parmi `len(lst)` √©l√©ments (`d - g` vaut `len(lst) - 1`)
- √Ä chaque tour, on √©limine une possibilit√© plus la moiti√© de ce qui reste (`d - g` d√©cr√©ment√© et divis√© par deux)
- Si `d - g <= 1` la boucle s'arr√™te √† la fin du tour

Parmi combien de nombres peut-on trouver √† coup s√ªr en $k$ tours de boucle ?

\begin{array}[c]{l|c|c|c|c|c|c|c}
  \hline
  k & 1 & 2 & 3 & 4 & 5 & 6 & \ldots \\\hline
  n & 1 & 3 & 7 & 15 & 31 & 63 & \ldots\\
  \hline
\end{array}

*Conjecture :* en $k$ tours on peut distinguer parmi $2^k - 1$ nombres

- Preuve : par r√©currence
    - En 0 tours on peut distinguer parmi $ 2^0 - 1 = 0$ nombres
    - Si on sait chercher parmi $2^k - 1$ en $k$ questions, on peut chercher parmi $2 (2^k - 1) + 1 = 2^{k+1} - 1$ nombres en $k+1$ questions
- Suite d√©j√† rencontr√©e dans le cours sur les tours de Hano√Ø

*Conclusion :* Pour $n$ quelconque, on devra donc chercher au plus en $k$ tours o√π $k$ est
  l'unique entier tel que :
  
\begin{align*}
 & & 2^{k-1} - 1 & < n \leq 2^k - 1 \\
\text{soit } & & 2^{k-1} & \leq n < 2^k \\
\text{soit } & & k-1 & \leq \log_2 n < k \\
\text{soit } & & k = & \lfloor \log_2 n \rfloor + 1
\end{align*}


On obtient donc une complexit√© en
$O(\log_2(n))$ au pire

![Nombre de comparaisons](img/graphe-comparaisons.png)

### Algorithme : recherche par dichotomie (r√©cursive)

Soient `lst` une liste croissante de `n` √©l√©ments, `x` un √©l√©ment

- Si la liste est vide, la r√©ponse est `False`
- Sinon :
    - Calculer `m = len(lst) // 2`
    - Si `lst[m] == x`, r√©pondre `True`
    - Si `lst[m] < x`, chercher dans `lst[m+1:]`
    - Si `lst[m] > x`, chercher dans `lst[:m]`

#### Impl√©mentation r√©cursive (na√Øve)

In [None]:
def dicho_rec(lst, x):
    if len(lst) == 0:
        return False
    m = len(lst) // 2
    if lst[m] == x:
        return True
    elif lst[m] < x:
        return dicho_rec(lst[m+1:], x)
    else:
        return dicho_rec(lst[:m], x)

In [None]:
lst = list(range(10))
dicho_rec(lst, 3), dicho_rec(lst, 3.5)

#### Variante : avec des indices

Soient `lst` une liste croissante de `n` √©l√©ments, `x` un √©l√©ment, `g` et `d` deux indices

- Si `g > d`, la r√©ponse est `False`
- Sinon :
    - Calculer `m = (g + d) // 2`
    - Si `lst[m] == x`, r√©pondre `True`
    - Si `lst[m] < x`, chercher entre `m+1` et `d`
    - Si `lst[m] > x`, chercher entre `g` et `m-1`

#### Impl√©mentation r√©cursive (efficace)

In [None]:
def dicho_rec_bis(lst, x, g=0, d=None):
    if d is None:
        d = len(lst) - 1
    if g > d:
        return False
    m = (g + d) // 2
    if lst[m] == x:
        return True
    if lst[m] > x:
        return dicho_rec_bis(lst, x, g, m-1)
    else:
        return dicho_rec_bis(lst, x, m+1, d)

In [None]:
lst = list(range(10))
dicho_rec_bis(lst, 3), dicho_rec_bis(lst, 3.5)

#### Correction, terminaison, complexit√© de la version r√©cursive

TODO ! üòÖ

### Chronom√©trage



In [None]:
xs = list(range(0, 10000001, 1000000))
#chrono_et_trace_rech(xs, (rech_exh_iter, dicho_iter, dicho_rec, dicho_rec_bis))
chrono_et_trace_rech(xs, (dicho_iter, dicho_rec_bis))

### Peut-on faire mieux ?

#### Retour sur le jeu de la devinette

1.  **R** fait **semblant** de choisir un entier $n$ entre 1 et $15$.

2.  **D** propose √† **R** un entier $a$ entre 1 et 15.

3.  **R** r√©pond ce qu'elle veut. **A** v√©rifie que la r√©ponse est coh√©rente avec les r√©ponses pr√©c√©dentes.

4.  Si **R** a r√©pondu ¬´ √©gal ¬ª, la partie est termin√©e, **A** annonce le score. Sinon,
    on recommence au point 2.

But de **D** : deviner $n$ en faisant le moins possible de
propositions.  
But de **R** : forcer **D** √† poser le plus de questions possible.

#### Travail demand√©

1. Faites des groupes de 3 et jouez quelques parties
2. D√©crivez une strat√©gie pour **R** pour forcer **D** √† poser le plus de questions possible.
3. Quel est le meilleur score que **D** peut atteindre (*score minimal pour $N = 15$*) ?
4. Quel est le meilleur score pour $N = 31$ ? Et pour $N = 50$ ? Et pour $N$
   quelconque ?

#### Bilan

- En jouant "bien", quand $N = 15$, **R** peut forcer un score minimal de 4. 
- Strat√©gie : toujours r√©pondre de mani√®re √† conserver le plus grand nombre de possibilit√©s.
- Pourquoi √ßa marche : 15 possibilit√©s au d√©but, $\geq 7$ apr√®s 1 question, $\geq 3$ apr√®s 2 questions, $\geq 1$ apr√®s 3 questions, trouv√© √† la quatri√®me.
- Quand $N = 31$, 5 questions au minimum. Quand $N = 50$, 6 questions. Et pour $N$ quelconque... ?

## Bilan final

- La recherche d'√©l√©ment dans une liste est un probl√®me fondamental. 
- Quand la liste n'est pas tri√©e, il n'existe pas de meilleur algorithme que la recherche exhaustive, en $O(n)$
- Quand la liste est tri√©e, il existe un algorithme tr√®s efficace : la recherche par dichotomie, en $O(\log n)$
    - On peut d√©montrer qu'il est impossible de faire mieux ! (argument du jeu de la devinette, phase 2)
    - Plus d'informations en M1 info !