In [1]:
# Permet de tout executer au lancement du notebook + conserver le notebook actif pendant 2h
from IPython.display import Javascript
from masquer import *
Javascript("""
function repeter(){
IPython.notebook.kernel.execute("a=1");
}
// execute a = 1 en python toutes les 8 minutes pendant 2h
let timerId = setInterval(() => repeter(), 4800);
setTimeout(() => { clearInterval(timerId); alert('fin de cession'); }, 7200000);

// Supprimer la taille limite pour la sortie d'une cellule
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;
};
IPython.notebook.kernel.execute("url = '" + window.location + "'");

// Exécuter toutes les cellule du notebook
    require(
        ['base/js/namespace', 'jquery'], 
        function(jupyter, $) {
            
                
                jupyter.actions.call('jupyter-notebook:run-all-cells-below');
                jupyter.actions.call('jupyter-notebook:save-notebook');
                Jupyter.actions.call('jupyter-notebook:hide-header')

        }
    );""")

<IPython.core.display.Javascript object>

# <span style="color:red;"><center>Chapitre 4 : Algorithmique</center></span>

## B. Algorithmes de base sur les tableaux

### I. Rercherches séquentielles

En **python** un **tableau** peut être représenté par un **n-uplet** ou par une **liste**. Dans les exemples, nous travaillerons plutôt avec des listes car, comme nous l'avons vu, elles sont un peu plus flexibles que les tuples (elles sont mutables). Mais on pourrait aussi le faire avec des tuples. En dehors des exercices pratiques, nous utiliserons le terme générique de tableau.

Dans la feuille d'exercice précédente, nous avons déjà vu des **algorithmes de recherche d'une occurence** (présence d'une valeur) **ou d'un extremum** (maximum ou minimum) dans un tableau. En voici pour rappel les pseudo-code :

**Fonction** Recherche_occurence (tab,x)
> *tab est un tableau de n valeurs dans lequel on cherche une occurence de x.*  
> *Si x est présent, on renvoie l'indice de sa première occurence, sinon on renvoie -1.*  
>
> i $\leftarrow$ 0  
> n $\leftarrow$ taille(tab)  
> *# On parcourt le tableau tant qu'on a pas trouvé x et qu'on est pas au bout du tableau.*  
> **Tant que** i < n **et** tab[i] $\ne$ x **faire**   
>> i $\leftarrow$ i + 1  
> 
> *# Si i = n, c'est qu'on a pas trouvé x.*  
> **Si** i = n **alors**
>> i $\leftarrow$ - 1  
>
> *# Sinon i est l'indice de sa première occurence.*  
> **Retourner** i

**Fonction** Recherche_maximum (tab)
> *tab est un tableau de n valeurs numériques dans lequel on cherche la valeur maximale.*  
> *On renvoie le maximum trouvé.*  
>
> *# maxi est la variable dans laquelle on stocke la valeur maximale trouvée au fur et à mesure de la recherche.*  
> *float* : maxi  
> *# Au départ la première valeur du tableau est forcément le maximum trouvé.*  
> maxi $\leftarrow$ tab[0]  
> n $\leftarrow$ taille(tab)  
> *# On parcourt le tableau en comparant chaque nouvelle valeur à maxi. Si elle est plus grande, elle remplace maxi.*  
> **Pour** i allant de 1 à n-1 **faire**   
>> **Si** tab[i] > maxi **alors**
>>> maxi $\leftarrow$ tab[i]  
>
> **Retourner** maxi

**Remarques :**
- Pour rechercher un minimum, il suffit de tester si `tab[i]` est inférieur à la variable `mini`(au lieu de supérieur à `maxi`).
- Cet algorithme de recherche d'une occurence marche avec un tableau de données de n'importe quel type (`int`, `float`, `string`, ...) et est appelé **recherche linéaire** (ou par balayage). En fait, il marche aussi si `tab` est une chaîne de caractères.

Ces algorithmes sont dits **séquentiels** car, à moins qu'une occurence soit trouvée avant, ils **parcourent le tableau du début à la fin, dans l'ordre**.

Comme nous l'avons vu, cela implique que leur **complexité (coût en temps) est linéaire**.

**Exercice :** Ecrire le pseudo-code d'un algorithme de calcul de moyenne.

**Fonction** Calcul_moyenne (tab)
> *tab est un tableau de n valeurs numériques dont on veut calculer la moyenne.*  
> *On renvoie la moyenne calculée.*  
>
> *# somme est un accumulateur dans lequel on va sommer toutes les valeurs du tableau.*  
> *float* : somme  
> n $\leftarrow$ taille(tab)  
> *# Au départ la somme est juste égale à la première valeur du tableau.*  
> somme $\leftarrow$ tab[0]  
> *# On parcourt le tableau en ajoutant chaque nouvelle valeur à somme.*  
> **Pour** i allant de 1 à n-1 **faire**   
>> somme $\leftarrow$ somme + tab[i]  
>
> *# On renvoie la somme finale divisée par le nombre n de valeurs.*  
> **Retourner** somme/n

Cet algorithme est **aussi séquentiel** donc son coût est **aussi linéaire**.

### II. Recherche dichotomique

Pour **rechercher un maximum** ou **calculer une moyenne**, on a **pas d'autre choix que de parcourir le tableau en entier**. Mais ce n'est pas forcément le cas pour la recherche d'une occurence. D'ailleurs, si la valeur est présente, l'algorithme se termine avant d'avoir parcouru tout le tableau. Mais est-ce vraiment nécessaire de parcourir tout le tableau pour s'apercevoir que la valeur recherchée ne s'y trouve pas ? Doit-on forcément partir du début du tableau quand la valeur recherchée se trouve à la dernière position du tableau ?

La réponse à ces deux questions est non ... A condition que le tableau soit déjà trié ! Ce qui implique bien sûr que le tableau contienne des valeurs numériques.

Ainsi, un **algorithme de recherche dichotomique** permet de **trouver une valeur dans un tableau déjà trié** bien **plus rapidement que l'algorithme séquentiel** précédent. Autrement dit, sa **complexité sera mieux que linéaire** : elle est **logarithmique**.

#### 1. Principe

Le principe d'une **recherche dichotomique** (*binary search* en anglais) est de **couper le tableau en deux parties égales à chaque étape** et de déterminer à l'aide d'un **simple test dans quelle moitié se trouve la valeur recherchée**. On continue de couper le tableau en deux **jusqu'à ce que sa taille soit égale à 1**. A ce moment là, soit la dernière valeur restante est la bonne, soit c'est qu'elle n'était pas dans le tableau.

Cela ne peut fonctionner qu'avec un **tableau préalablement trié**. C'est en réalité un cas particulier d'une stratégie beaucoup plus générale en informatique, appelée **"diviser pour mieux régner"** (*divide-and-conquer* en anglais).

Pour en voir l'efficacité, il suffit de chercher combien d'itérations, au pire, il nous faudrait pour trouver quelqu'un dans un annuaire comportant les noms des 7 milliards d'habitants de la Terre. Autrement dit, que vaut $n$ pour que $\frac{7\cdot 10^9}{2^n}<1$ ? La réponse est $n = 33$ ! En effet, $2^{33}=8,6 \cdot 10^9 > 7\cdot 10^9$. Cela signifie qu'il suffit donc d'une trentaine d'itérations, au pire, pour trouver un personne parmi 7 milliards avec cette méthode. Au lieu de 7 milliards d'opérations (toujours au pire) si on fait une recherche séquentielle ...

**NB :** En fait le nombre d'itérations final (dans le pire des cas) est de l'ordre du nombre de chiffres nécessaires pour écrire la taille $n$ du tableau en binaire.

#### 2. Pseudo-code

**Fonction** Recherche_dicho (tab, x)
> *tab est un tableau trié par ordre croissant de n valeurs dans lequel on cherche une occurence de x.*  
> *Si x est présent, on renvoie l'indice de sa position dans le tableau, sinon on renvoie -1.*  
>
> n $\leftarrow$ taille(tab)  
> *# Inutile de le chercher si x est supérieur à la dernière valeur de tab.*  
> **Si** x > tab[n-1] **alors**  
>> **Retourner** - 1  
>
> *# deb sera l'indice du début et fin celui de la fin du tableau de recherche où peut se trouver x*.  
> deb $\leftarrow$ 0  
> fin $\leftarrow$ n-1  
> *# Si deb = fin le tableau de recherche est de taille 1 et la recherche est finie.*   
> **Tant que** deb <= fin **faire**  
>> *# med est l'indice médian du tableau de recherche.*  
>> med $\leftarrow$ (deb+fin) // 2  
>> **Si** tab[med] = x **alors**  
>>> *# On a trouvé.*  
>>> **Retourner** med  
>>
>> **Sinon** 
>>> *# Si x < à la valeur médiane, on doit continuer à chercher dans la moitié d'avant, donc on change fin.*  
>>> **Si** x < tab[med] **alors**  
>>>> fin $\leftarrow$ med - 1  
>>>
>>> *# Sinon, il faut chercher après et donc changer deb, l'indice de début du tableau de recherche.*  
>>> **Sinon**  
>>>> deb $\leftarrow$ med + 1  
>
> *# Si la fonction ne s'est pas terminée avant, c'est qu'on a pas trouvé x.*  
>
> **Retourner** - 1

**Remarque :** Contrairement à l'algorithme séquentiel, celui par recherche dichotomique ne renvoie pas forcément l'indice de la première occurence.

#### 3.Terminaison

Pour prouver la terminaison, considérons le **variant de boucle** `variant = fin - deb +1`, c'est-à-dire la **taille du tableau de recherche**.  

Comme à chaque itération on change soit `deb`, soit `fin` (ou alors c'est qu'on a trouvé `x` et on sort), il varie bien à chaque itération. De plus, au départ, il vaut `n` et à chaque itération il est divisé par 2 (on peut supposer pour simplifier que `n` est pair). Ses valeurs forment donc une suite d'entiers strictement décroissante.  

Par ailleurs, la boucle continue tant que `deb <= fin`donc tant que  `variant >= 1`. On en déduit que `variant` doit forcément atteindre la valeur 1 au bout d'un nombre fini d'itérations. Or `variant = 1` signifie que `fin = deb` et on voit alors que soit `fin` devient `fin - 1`, soit `deb` devient `deb + 1`. Dans les deux cas `deb > fin`, ce qui est a condition de sortie de la boucle.  

Donc la boucle se termine et comme c'est la seule boucle `tant que` de l'algorithme, l'algorithme se termine aussi.

#### 4. Correction

**L'invariant de boucle** est la propriété : "Si `x` est dans le tableau alors elle entre les indices `deb` et `fin`."

Avant la 1ère itération, `deb = 0` et `fin = n-1`. La propriété devient donc "Si `x`est dans le tableau, alors elle est dans le tableau.", ce qui ne peut être que vrai.

Supposons que la propriété soit vraie avant une itération. Il y a alors 3 possibilités :
- Soit `tab[med] = x` et il n'y aura pas d'autre itération car la boucle se termine.
- Soit `x < tab[med]` et alors `deb` ne change pas et `fin`devient `med - 1`. Or, puisque le tableau est trié par ordre croissant, si `x` est dans le tableau et `x < tab[med]` alors `x` est forcément à un indice < `med`. De plus, on a supposé que la propriété était vraie avant cette itération ce qui signifie que son indice est aussi > ou = à  `deb`. Donc si `x` est dans le tableau, elle est bien entre les indices `deb`et `med - 1`, ce qui signifie que la propriété restera vraie à la prochaine itération.
- Soit `x > tab[med]` et alors `deb` devient `med + 1` et `fin` ne change pas. Or, puisque le tableau est trié par ordre croissant, si `x` est dans le tableau et `x > tab[med]` alors `x` est forcément à un indice > `med`. De plus, on a supposé que la propriété était vraie avant cette itération ce qui signifie que son indice est aussi < ou = à  `fin`. Donc si `x` est dans le tableau, elle est bien entre les indices `med + 1`et `fin`, ce qui signifie que la propriété restera vraie à la prochaine itération.

On a donc démontré que la propriété est bien un invariant de boucle et elle sera donc toujours vraie à la fin de la boucle.

Pour résumer, soit on sort de la boucle en renvoyant `med`avant que `deb > fin` car on a trouvé une occurence de `x = tab[med]`, soit on arrive à la fin de la boucle avec `deb > fin` avec notre invariant de boucle qui est toujours vrai. Mais dans ce cas, `x`ne peut pas être entre les indices `deb` et `fin` avec `deb > fin`, c'est donc que `x` n'est pas dans le tableau et il est normal de renvoyer `- 1`. Dans tous les cas, l'algorithme renvoie donc bien le bon résultat.

#### 5. Complexité
Comme indiqué au 1., le nombre d'itérations maximum correspond au nombre de fois où il faut diviser la taille $n$ du tableau de départ par 2 avant d'arriver à un tableau de taille 1.
Pour simplifier, supposons que $n=2^k$, alors il est évident que le nombre d'itérations est égal à $k$ puisque $\frac{2^k}{2^k}=1$. On voit alors que si la taille du tableau est multipliée par 2, $k$ devient $k+1$.

Finir pour montrer que c'est logarithmique ...

#### 6. Implementation

Ecrire les 2 algos en python.

Bonus : jeu des devinettes

**Exercice :**

Comparaison algos de recherche dicho ou pas dans pire des cas.
Tracer des courbes de temps de calcul en fonction de n.

In [2]:
from timeit import Timer
N=10000 #nb de répétition de l'algorithme
t1 = Timer("PGCD_naif(a,b)", "from __main__ import PGCD_naif;a=385;b=211") #définit la fonction à benchmarker ainsi que ses paramètres d'entrée
print("Durée pour {} exécutions de l'algo naif : {:.1e} s".format(N,min(t1.repeat(5,N)))) #La durée de N exécutions est mesurée, 5 fois et on garde la plus petite valeur
t2 = Timer("PGCD_soustraction(a,b)", "from __main__ import PGCD_soustraction;a=385;b=211")
print("Durée pour {} exécutions de l'algo soustraction : {:.1e} s".format(N,min(t2.repeat(5,N))))


ImportError: cannot import name 'PGCD_naif' from '__main__' (unknown location)

En pratique, l'implémentation de la recherche dichotomique n'est pas aussi simple qu'elle en a l'air : voir [ici](https://en.wikipedia.org/wiki/Binary_search_algorithm#Implementation_issues) ou [là](https://professeurb.github.io/articles/dichoto/).