[Retour au sommaire](../../index.ipynb)

# 2.4 Structure de données : les arbres

En informatique les arbres sont des structures de données. Contrairement à la file et à la pile, cette structure n'est pas linéaire mais **hiérarchique**.
Ces structures sont omniprésentes car elles permettent de représenter une organisation hiérarchique.

## Quelques exemples

- Le DOM (Document object Model) représente la structure hiérarchique d'une page html
- Les systèmes de fichiers
- Un arbre généalogique
- Un tournoi
- [L'évolution de la distribution Debian](https://upload.wikimedia.org/wikipedia/commons/1/1b/Linux_Distribution_Timeline.svg)
- la classification des espèces
- etc etc...

<figure>
    <img src="img/linux_tree.gv.svg" title="Arborescence type Unix">
    <figcaption>Arborescence type Unix</figcaption>
</figure>

## Composition d'un arbre

- Chaque élément de l'arbre est appelé **noeud**. Dans l'exemple ci-dessous A, B, C, D..., G sont des **noeuds** de l'arbre.
- Une **arête**, ou **arc**, relie deux noeuds.
- Le noeud initial est appelé **racine** (ici A).
- Le **chemin** d'un noeud est la suite de noeuds qu'il faut passer pour aller de la racine à ce noeud. Le chemin de E est (A, B, E).
- Il faut cependant ajouter comme contrainte qu'**il ne peut y avoir de cycle dans un arbre**, sinon on obtient un graphe.

Un arbre peut être conçu **récursivement** comme étant un **noeud** dont les **arêtes** sont reliées à zéro ou plusieurs **arbres**.

![un arbre](img/tree.gv.svg)

### Généalogie
- Les noeuds B, C et D sont les **enfants**, ou **fils**, du noeud A, ou le noeud A est le **parent** de B, C et D.
- Un noeud sans fils est un **noeud externe** ou **feuille**. Ici E, F, G et D sont des **feuilles** de l'arbre.
- Un **noeud interne** est un noeud ayant au moins un enfant.
- Des noeuds ayant le même parent sont des **frères**. B, C et D sont des frères.
- Un **sous-arbre** est la partie de l'arbre contenant un noeud et tous ces descendants.

![un sous-arbre](img/sub-tree.gv.svg)

## Quelques mesures
- La **taille d'un arbre** est le nombre de noeuds de l'arbre.
- La **profondeur d'un noeud** est le nombre d'arêtes que l'on traverse depuis la racine à ce noeud.
  - La profondeur du noeud G est 2
  - La profondeur de la racine est 0
- La **hauteur de l'arbre** est la profondeur maximale des feuilles de l'arbre.
- La **hauteur d'un noeud** est la hauteur de l'arbre - la profondeur du noeud.

<div class="alert alert-info">Pour n'importe quel noeud N de l'arbre A, on a toujours : P(N)+H(N)=H(A) </div>

<div class="alert alert-warning">Il existe plusieurs conventions pour la profondeur d'un noeud. Parfois la profondeur du noeud racine commence à 1. Dans ce cours nous considérons que la profondeur du noeud racine est 0.</div>

![hauteur profondeur](img/heigh_depth.gv.svg)

- L'**arité** d'un noeud est le nombre d'enfants de ce noeud
- L'**arité** d'un arbre est le maximum de l'arité des noeuds de l'arbre.

## Etiquettes

Afin de 'porter' des données, chaque noeud peut être identifié par une **étiquette**. Souvent l'étiquette réprésente la valeur du noeud.

Un arbre dont tous les noeuds sont nommées est dit **étiqueté**.

# Les arbres binaires

Un **arbre binaire** est un arbre dont les noeuds possèdent au maximum deux enfants.

On distingue le **fils gauche** d'un noeud et le **fils droit** d'un noeud.

## Quelques exemples d'arbres binaires

- L'arbre généalogique de vos ascendants
- Un tournoi de pétanque
- Une expression mathématiques

## Quelques types particuliers d'arbres binaires
Un arbre binaire **strict** (ou localement complet) est un arbre dont tous les noeuds possèdent 0 ou 2 fils.

<figure>
    <img src="img/full_binary_tree.gv.svg" title="Un arbre binaire strict">
    <figcaption>Un arbre binaire strict</figcaption>
</figure>

Un arbre binaire **parfait** est un arbre binaire dans lequel tous les niveaux sont remplis. Autrement dit toutes les feuilles sont à la même profondeur.

<figure>
    <img src="img/perfect_binary_tree.gv.svg" title="Un arbre binaire parfait">
    <figcaption>Un arbre binaire parfait</figcaption>
</figure>

Un arbre binaire **dégénéré** (ou peigne) est un arbre binaire dans lequel chaque noeud parent a un seul enfant. Autrement dit l'arbre ne possède qu'une feuille.
Un arbre dégénéré équivaut donc à une liste chaînée.

<figure>
    <img src="img/degenerated_binary_tree.gv.svg" title="Un arbre binaire dégénéré">
    <figcaption>Un arbre binaire dégénéré</figcaption>
</figure>

## Encadrement de la taille

Si un arbre à une hauteur $h$:

- sa taille maximale est celle d'un arbre dégénéré, soit $h+1$.
- sa taille minimale est celle d'un arbre parfait soit 1+2+4+8+....c'est donc la somme d'une suite géométrique de raison 2.

On a donc $n=\frac{2^{h+1}-1}{2-1} \Leftrightarrow n = 2^{h+1} -1 $

Un encadrement de la taille $n$ est donc :
<div class="alert alert-info">
  $2^{h+1} -1\geqslant n\geqslant h+1$  
</div>

## Encadrement de la hauteur

Réciproquement, si on connait la taille $n$,

La hauteur d'un arbre dégénéré de taille $n$ est égale à n-1.

- En Physique/Chimie pour se 'débarasser' d'une puissance de 10 on utilise le $\log_{10}$. **exemple** : $10^n = 3$ donc $n = \log_{10}(3)$
- En Maths, pour se 'débarasser' de exponentielle, on utilise le logarithme népérien. **exemple** : $e^x = 3$ donc $x = \ln(3)$
- En informatique, les puissances de 2 sont monnaies courantes. On utilise donc le logarithme de 2

$n = 2^{h+1}-1\Leftrightarrow 2^{h+1}= n+1 \Leftrightarrow h+1=\log{2}(n+1) \Leftrightarrow h = \log{2}(n+1)-1$

Un encadrement de la hauteur $h$ est donc :
<div class="alert alert-info">
$\log_{2}(n+1)-1\leqslant h\leqslant n-1$.
</div>

### Exemples

- Donner un encadrement de la hauteur d'un arbre de taille 255.

In [None]:
from math import log2
min = log2(255+1)
min

On obtient donc $8\leqslant h\leqslant 254$

- Donner un encadrement de la hauteur d'un arbre de taille 4095.

## Exercices

### Arbre de calcul

Soit l'expression mathématique suivante : $A=(2+x)\times3-4x+1$

La construction d'un arbre à partir de cette expression est la suivante : on repère l'opération de **moins forte priorité** (celle qui sera faite en dernier) ce sera la racine.
On réitère l'opération avec l'expression restante de gauche et l'expression restante de droite.
Lorsqu'il n'y a plus d'opération, les opérandes représentent les feuilles de l'arbre et la construction s'arrête.

On obtient donc l'arbre binaire suivant:
<figure>
    <img src="img/math_expression_tree.gv.svg" title="Un arbre binaire étiqueté">
    <figcaption>Un arbre binaire étiqueté</figcaption>
</figure>

Questions:

1. Quelle est la taille de cet arbre?
2. Quelle est la hauteur de l'arbre?
3. Quelle est la hauteur du noeud $3$ ? 
4. Quelle est sa profondeur du noeud $3$ ?
5. Quel est le chemin du noeud $3$ ?
6. Qui sont les ancêtres de $4$?
7. Quel est le type de cet arbre binaire?

Construire l'arbre binaire de calcul de cette expression mathématique $B=3-2e^x+max(4;x)$

### Un peu de réflexion

- Combien d'arêtes comporte un arbre binaire de taille t ?
- Combien de feuilles, au minimum, comporte un arbre de hauteur h? et au maximum ?

# Parcours d'arbre

## Parcours d'arbre en profondeur

![parcours d'arbre](img/1024px-Sorted_binary_tree_ALL.svg.png)

Nous allons découvrir 3 parcours en profondeur d'un arbre.

### Le parcours préfixe (Pre-order : NLR)
Dans ce parcours chaque noeud est affiché puis chacun de ces fils (en rouge sur le schéma).

Ce parcours permet d'obtenir une liste triée de façon topologique, en effet chaque parent apparait avant ses enfants.

Ce parcours peut être utilisé pour la copie d'un arbre.

### Le parcours postfixe (Post-order : LRN)
Dans ce parcours chaque fils est affiché puis le noeud (en vert sur le schéma).

Ce parcours peut être utilisé pour supprimer un arbre (on supprime les enfants avec le parent)

### Le parcours infixe (In-order : LNR)
Dans ce parcours le fils gauche est affiché puis le noeud puis le fils droit (en jaune sur le schéma).

Ce parcours est utilisé dans les arbres binaires de recherche (Binary Search Tree : BST)

## TP

- [Implémentation d'un arbre binaire en POO en utilisant la récursivité](../../6_Algorithmique/6.1_BT_BST/binary_tree.ipynb)

# Les arbres binaires de recherche

**Définition**
Un arbre binaire de recherche est un arbre binaire dans lequel toutes les valeurs dans le sous-arbre gauche d'un noeud sont inférieures à la valeur du noeud et toutes les valeurs dans le sous arbre droit sont supérieures et la valeur du noeud.

Les arbres binaires de recherche sont souvent nommées ABR (BST en anglais).

**Utilisation**
Les BST sont utilisés pour rechercher la présence d'un élement dans une liste.

## Exemples et contre-exemples
 Indiquer quels sont les arbres binaires de recherche.
 
 ![3 arbres binaires 1](img/abr-or-not-1.png)
 ![3 arbres binaires 2](img/abr-or-not-2.png)
 
## Questions

- Dans quel nœud d’un arbre binaire de recherche se trouve la plus petite étiquette ? La plus grande ?
- Lequel des parcours d’arbres binaires permet de visiter les nœuds d’un ABR dans l’ordre des étiquettes ?

## Implémentation

- [Implémentation d'un BST](../../6_Algorithmique/6.1_BT_BST/binary_search_tree.ipynb)

Une implémentation complète d'un ABR nécessite les méthodes

- de création d'un ABR
- de recherche d'une valeur
- d'insertion d'une valeur
- de suppression d'une valeur
- de réquilibrage ( hors programme, voir les [AVL](https://fr.wikipedia.org/wiki/Arbre_AVL) )

## Coûts des opérations

La recherche, l'ajout et la suppression ont le même coût.

Chacun des 3 algorithmes nécessite, au pire, de parcourir l'arbre de sa racine jusqu'à une feuille en comparant l'étiquette de chaque noeud avec une valeur. Le nombre de comparaisons est, au pire, égal à la hauteur de l'arbre.

Dans le meilleur des cas, si l'ABR de taille n est équilibré, sa hauteur est log2(n), **le coût des opérations est donc logarithmique**.

Dans le pire des cas, si l'ABR de taille n est dégénéré, sa hauteur est n-1, le **coût des opérations est donc linéaire**.

**A retenir**

La complexité des algorithmes de recherche, insertion, et suppression d’une valeur dans un arbre binaire de recherche est

- en moyenne logarithmique,
- au pire linéaire.

Le coût de ces opérations est au pire logarithmique dans le cas d’**arbres de recherche équilibrés**.

# Algorithme de Huffman

[activité débranchée](./marmottes.ipynb)

[Voir la vidéo](https://www.youtube.com/watch?v=oqMx1cuw6mo&feature=youtu.be&list=PLWvGMqXvyJAPSMFgCiy6qVHW9bAPu93X5)

[Retour au sommaire](../../index.ipynb)