[Retour au sommaire](../../index.ipynb)

# 6.1 Algorithme sur les arbres binaires de recherche

Suite des [algorithmes sur les arbres binaires](binary_tree.ipynb).

Un ABR se distingue d'un arbre binaire par la propriété suivante : 

- l'étiquette de la racine est 
  - supérieure aux étiquettes du sous-arbre gauche
  - inférieure aux étiquettes du sous-arbre droit
- les sous-arbres gauche et droit sont aussi des ABR.

Au niveau de l'implémentation en Python notre classe BinarySearchTree va **hériter** de la classe BinaryTree.


## Création de la classe  BinarySearchTree

L'héritage n'est pas au programme nous ne attarderons donc pas sur ce bout de code.

```python
class BinarySearchTree(BinaryTree):
    """A Binary Search Tree"""
    
    def __init__(self, node = None):
        super().__init__(node = node)
```

- Ajoutez ce code à la fin de votre module binarytree
- Modifiez votre fichier \_\_init\_\_.py de votre package en y ajoutant 'BinarySearchTree'
- Dans le dcumentation, créer le fichier BinarySearchTree.rst afin qu'elle prenne en compte l'ajout de cette nouvelle classe.
- Modifiez le fichier index.rst pour prendre en compte le nouveau fichier BinarySearchTree

Voici le contenu du fichier BinarySearchTree.rst

```
class BinarySearchTree
======================

.. toctree::
   :maxdepth: 2
   :caption: Contents:

.. autoclass:: sl29.structures.BinarySearchTree
   :members:
   :show-inheritance:
   :inherited-members:

```


## Principe des algorithmes

Une unique comparaison avec l'étiquette de l'arbre permet d'aiguiller le traitement vers :

- soit le sous-arbre gauche
- soit le sous-arbre droit

Ce principe est très efficace car il permet, si l'ABR est bien équilibré, de diviser par 2 le nombre de valeurs à chaque aiguillage. Ce principe est donc très proche de la **dichotomie**.

### Ajout d'une méthode d'insertion

La fonction d'ajout possède 2 cas :

1. Soit l'élément est présent : dans ce cas il n'y a rien à faire
2. Soit l'élement est absent : dans ce cas on ajoute notre élément comme nouvelle feuille.

La signature de la fonction est :

- paramètre d'entrée : une valeur
- retourne : l'arbre binaire de recherche

Voici le pseudo-code pour un noeud:

```
_add(value)
    si le noeud est vide:
        retourne un noeud initialisé à value
    si value < valeur de la racine:
        on retourne _add(fils gauche, value)
        et on affecte cette valeur dans le fils gauche du noeud courant 
    si value > valeur de la racine:
        on retourne _add(fils droit, value)
        et on affecte cette valeur dans le fils droit du noeud courant 
    on retourne le noeud
```            
Voici le brouillon de l'implémentation en python.        
            
```python
    def add(self, value):
        """
        Add a value in the BST
        
        :param value: the value to add.

        :return: an instance of :class:`sl29.structures.BinarySearchTree`
        :rtype: :class:`sl29.structures.BinarySearchTree`
        """
        def _add(root, value):
            # YOUR CODE HERE
            raise NotImplementedError()
        
        self._root = _add(self.root(), value)
        return self        
```
Une fois que votre méthode d'insertion fonctionne, ajouter cette fonction pour insérer les éléments dans un arbre binaire de recherche

In [1]:
def fibo(n):
    n1 = 0
    n2 = 1
    result = [n1, n2]
    for _ in range(2, n):
        suivant = n1 + n2
        result.append(suivant)
        n1 = n2
        n2 = suivant
    return result

fibo(17)

[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987]

Afficher l'arbre binaire de recherche obtenu.

- De quel type d'arbre binaire s'agit-il ?
- A l'aide de la méthode **shuffle** du module **random** de python, insérer ces mêmes valeurs mélangées. Que constatez vous ?
- Appeler la méthode infixe sur cet arbre. que constatez vous ?


Il faut éviter que les arbres binaires soient déséquilibrés.

D'autres implémentations permettent de **rééquilibrer** l'arbre au fur et à mesure des insertions ou des suppressions de valeurs. Mais ceci n'est pas au programme, il s'agit :

- des [AVL](https://fr.wikipedia.org/wiki/Arbre_AVL), inventés par Georgii **A**delson-**V**elsky et Evguenii **L**andis en 1962.
- des [arbres rouge-noir](https://fr.wikipedia.org/wiki/Arbre_bicolore) (ou B-Tree), inventés par Rudolf Bayer en 1972

### Ajout d'une méthode de recherche

Implémenter une méthode **search** qui prend en paramètre une valeur et renvoie :
- soit le noeud qui possède la valeur;
- rien, si la valeur n'est pas trouvée.

```
_search(value)
  si le noeud existe:
      - si valeur recherchée = valeur du noeud :
            on retourne le noeud
      - sinon si la valeur recherchée est < à celle du noeud :
            on retourne la recherche sur le sous-arbre gauche
      - sinon
            on retourne la  recherche sur le sous-arbre droit
```

Voici la méthode à compléter

```python
    def search(self, value):
        """
        Search for a value in the BST.
        
        :param value: the value to search for.

        :return: an instance of :class:`sl29.structures.Node` or None if not found.
        :rtype: :class:`sl29.structures.Node` or None
        """
        def _search(node, value):
            # A FAIRE
        
        return _search(self.root(), value)       
```
Implémenter cette méthode en Python.

#### calcul de la complexité logarithmique

##### Dans le cas d'un arbre **équilibré**

Dans le cas d'un arbre **équilibré** de taille $n$, dans le pire des cas, la valeur recherchée est une feuille (ou n'est pas présente).

A chaque appel récursif le nombre de valeurs est divisé par 2.

$n \rightarrow \frac{n}{2}\rightarrow \frac{n}{2^2}\rightarrow \frac{n}{2^3}\rightarrow....\rightarrow \frac{n}{2^p}$ jusqu'à n'avoir plus qu'un élément soit $1 = \frac{n}{2^p}$

Il aura donc fallu $p$ comparaisons pour trouver (ou non) la valeur. $1 = \frac{n}{2^p} \Leftrightarrow n=2^p \Leftrightarrow p=\log_{2}(n) $

<div class="alert alert-info">
    <b>Le temps d'exécution est donc logarithmique. $O(\log n)$</b>
</div>

**quelques exemples**

- Pour trouver (ou non) une valeur parmi 1000 il faudra $\log_2(1000) \approx 10$ comparaisons
- Pour trouver (ou non) une valeur parmi 100000 il faudra $\log_2(100000) \approx 17$ comparaisons
- Si on plaçait les 70 millions de français dans un arbre binaire de recherche **équilibré** dont les clés seraient les numéros de sécurité sociale, combien faudrait-il de comparaisons, dans le pire des cas, pour trouver (ou non) une valeur parmi les 70 millions ?

##### Dans le cas d'un arbre **dégénéré**

Dans le cas d'un arbre **dégénéré** de taille $n$, dans le pire des cas, la valeur recherchée est une feuille (ou n'est pas présente).

Dans le pire des cas, il faudra donc n comparaisons pour n valeurs.

<div class="alert alert-info">
    <b>Le temps d'exécution est donc linéaire. $O(n)$</b>
</div>


<div class="alert alert-danger">
Il y a donc intérêt à ce qu'un arbre binaire de recherche soit le <b>plus équilibré possible</b>.
</div>

### Ajout d'une méthode de suppression (hors programme, juste pour les plus courageux)

<img style="float: right; width: 15%" src="../../2_Structures_de_donnees/Arbre/img/bstree.gv.svg">

Cette méthode est plus compliquée car il y a **4 cas** à considérer:

1. Le noeud à enlever est une feuille : cas facile, on retire la feuille. C'est le cas pour le **1** par exemple.
2. Le noeud à enlever a un arbre droit mais pas d'arbre gauche : on supprime le noeud et on 'rattache' le sous arbre droit. (Cas du **6** par exemple)
3. Le noeud à enlever a un arbre gauche mais pas d'arbre droit : on supprime le noeud et on 'rattache' le sous arbre gauche. (Cas du **4** par exemple)
3. Le noeud à enlever a deux sous-arbres : cas le plus compliqué à traiter. Si on supprime le **5** il y a deux possibilités pour le remplacer :
<div style="clear: both"></div>
<img style="float: right; width: 15%" src="../../2_Structures_de_donnees/Arbre/img/bstree2.gv.svg">

  1. on cherche **la plus grande valeur** du sous arbre **gauche** c'est à dire le **4**.
  2. on cherche **la plus petite valeur** du sous arbre **droit** c'est à dire le **6**.
  

Dans les 2 cas ces deux noeuds ne peuvent pas avoir 2 fils, on tombe donc dans les cas 1, 2 ou 3.
Il ne reste donc plus qu'à modifier la valeur du noeud à supprimer par une des possibilités et à supprimer le noeud qu'on a choisi
<div style="clear: both"></div>
<table>
    <tr>
        <td  style="border: 1px solid black">Si on remplace par la plus grande valeur du sous-arbre gauche</td>
        <td style="border: 1px solid black">Si on remplace par la plus petite valeur du sous-arbre droit</td>
    </tr>
    <tr>
        <td style="border: 1px solid black"><img style="width: 50%" src="../../2_Structures_de_donnees/Arbre/img/bstree_l.gv.svg"></td>
        <td style="border: 1px solid black"><img style="width: 50%" src="../../2_Structures_de_donnees/Arbre/img/bstree_r.gv.svg"></td>
    </tr>
</table>
<div class="alert alert-info">
    <p>Afin de ne pas <b>deséquilibrer</b> l'arbre d'un côté ou de l'autre lors de nombreuses suppressions, une méthode fort simple est de choisir <b>aléatoirement</b> entre le sous-arbre gauche et le sous-arbre droit.</p>
</div>

Pour votre information personnelle et si vous voulez l'implémenter, voici une [vidéo](https://www.youtube.com/watch?v=8K7EO7s_iFE) qui explique l'algorithme.

[Retour sur le cours des arbres](../../2_Structures_de_donnees/Arbre/arbre.ipynb)

[Retour au sommaire](../../index.ipynb)