# Compression de texte

L'idée est de remplacer les caractères du texte par des **codes de longueurs variables** (on parle donc de *codage*) en réservant :
- les codes courts pour les caractères couramment utilisés (ex: `'e'`, `'a'`, `' '`....).
- les codes plus longs pour les caractères peu utilisés (ex: `'z'`, `'w'`...).

Sommaire:
- [1. Nombre d'occurrence](#freq)
- [2. Codage des caractères](#codage)
    - [a. Arbre de Huffman](#arbre)
    - [b. Table de correspondance](#lut)
    - [c. Compression du texte](#compression)
- [3. Décodage](#decodage)

## 1. Occurrences <a id="freq"></a>

Pour mettre en place ce codage, il est essentiel de connaître le nombre d'occurrences de chaque caractère. 

Nous travaillerons ici sur le texte suivant :

In [None]:
texte = """
   Un jour, Cunégonde, en se promenant
   auprès du château, dans le petit bois qu'on appelait
   parc, vit entre des broussailles le docteur Pangloss qui donnait
   une leçon de physique expérimentale à la
   femme de chambre de sa mère, petite brune très jolie
   et très docile. Comme Mlle Cunégonde avait beaucoup
   de dispositions pour les sciences, elle observa, sans souffler,
   les expériences réitérées dont elle
   fut témoin; elle vit clairement la raison suffisante du
   docteur, les effets et les causes, et s'en retourna tout
   agitée, toute pensive, toute remplie du désir
   d'être savante, songeant qu'elle pourrait bien être la
   raison suffisante du jeune Candide, qui pouvait aussi être
   la sienne.
   """

**Questionnement:** 
- Quel est le nombre de caractères `nb_tot` dans ce texte ?

- Quel type de codage est actuellement utilisé pour ces caractères ?

- Combien d'octets sont nécessaires pour stocker ce texte ?

- Créer et compléter un *dictionnaire* `occurrences` où chaque clé est un caractère du texte et la valeur associée indique le nombre d'occurrences dans ce caractère dans le texte.

Vérifier que la somme de toutes ces valeurs vaut `nb_tot` :

In [None]:
# Calcul de la somme
somme = 0
# À compléter

assert somme==nb_tot, "Le dictionnaire d'occurrences n'est pas correctement rempli"

Combien de caractères distincts contient ce texte ?

- Créer une liste `freq_occurrence` où chaque élément est un tuple indiquant :

    - le caractère
    - sa fréquence d'occurrence associée. La formule de conversion est la suivante :
    
        $\text{freq_occurrence} = \frac{\text{nombre_occurrences}}{\text{nb_tot}}$

- Trier cette liste (avec la méthode de votre choix) selon les fréquences d'occurrences décroissantes. Quels sont les 5 caractères qui apparaissent le plus souvent ?

## 2. Codage des caractères <a id="codage"></a>

Le code de chaque caractère correspond à son chemin absolu dans l'arbre ci-après. Par convention, on lit un chemin en ajoutant :
- `0` si on se déplace vers l'enfant gauche.
- `1` si on se déplace vers l'enfant droit.

![Arbre de Huffman ](https://snlpdo.fr/tnsi/img/04-ex_arbre_huffman.png)

Exemples:
- Le caractère `'e'` est remplacé par le code `100` (=3 bits).
- Le caractère `'a'` est remplacé par le code `11111` (=5 bits)

**Questionnement:**
- Comment appelle-t-on les n&oelig;uds étiquetés d'un caractère dans cet arbre ?

- Identifier le code qui remplace la portion de texte `Un jour` en utilisant cet arbre :

- Combien de bits fait ce code ? Combien d'octets faudrait-il pour le stocker ?

### a. Construction de l'arbre <a id="arbre"></a>

Pour compresser le plus possible, il faut que les caractères les plus (resp. moins) utilisés soient situés sur les feuilles les plus proches (resp. éloignées) de la racine.

L'arbre de Huffman peut s'obtenir en appliquant l'algorithme suivant:

<div class="alert alert-block alert-danger">
    
1. Pour chaque caractère `c`, on crée un nouvel arbre (d'un seul n&oelig;ud) dont la racine vaut `(c, nb(c))`.

2. On fusionne les 2 arbres de fréquences d'occurrence minimales `f(c1)` et `f(c2)` en un seul nouvel arbre dont:
    - les enfants sont les 2 arbres précédents,
    - la racine a pour nouvelle fréquence `f(c1)+f(c2)` (le nouveau caractère, s'appelera arbitrairement `c1+c2`).

3. On répète l'opération 2 jusqu'à n'avoir plus qu'un seul arbre.

Exemple simple de classe d'arbre :

In [None]:
class Arbre:
    def __init__(self, valeur, gauche=None, droite=None):
        self.valeur = valeur
        self.gauche = gauche
        self.droite = droite

**Questionnement :**
- **Étape 1** : remplir une liste `liste_arbres` avec autant d'arbres que de caractères présents dans le texte.

    Chaque arbre :
    
    - n'est constitué que d'un nœud (il n'a pas de sous-arbre ni à gauche ni à droite)
    - sa valeur contient un tuple formé du caractère et de sa fréquence d'occurrence associée.

- **Étape 2a** : Écrire la fonction `extract_min` qui extrait l'élément minimal d'une telle liste (attention: les éléments de cette liste sont des Arbres et le tri se fait sur la 2ème partie du tuple)

In [None]:
def extract_min(liste):
    pass

In [None]:
# Vérification (attention ce test est destructif : il
# régénérer liste_arbres avant de passer à la suite)
a = extract_min(liste_arbres)
assert a.root[0] == 'U', "Il ne s'agit pas du bon minimum"
assert len(liste_arbres)==38, "Il faut supprimer le minimum de la liste des arbres"

- **Étapes 2b et 3** : fusionner tous les arbres de cette liste selon l'algorithme de Huffman

In [None]:
# Algorithme de Huffman
while len(liste_arbres)>1: # tant qu'il reste plus d'un noeud
    # Extraire le 1er arbre de fréquence minimale
    
    # Extraire le 2ème arbre de fréquence minimale
    
    # Fusionner ces 2 arbres pour créer en un nouveau
    
    # Ajouter ce nouvel arbre dans la liste
    

In [None]:
# Dernier arbre restant
arbre_huffman = liste_arbres[0]
arbre_huffman.valeur

### b. Table de correspondance <a id="lut"></a>

Pour accélérer la phase de codage, on va remplir un *dictionnaire* Python `lut` où les **clés** sont les caractères du texte et les **valeurs** sont les codes de Huffman correspondants.

Exemple: `lut['e'] = '100'`

**Questionnement :**

- Quel type de parcours d'arbre permet d'identifier le chemin de chaque caractère ?

- Mettre en &oelig;uvre ce parcours pour remplir la table de correspondance `lut`:

### c. Compression du texte <a id="compression"></a>

- Utiliser la table de correspondance précédente pour générer le code correspondant au texte fourni au début de ce document

- Quel taux de compression obtient-t-on ? (on suppose que le code obtenu est sauvegardé en binaire)

## 3. Décodage <a id="decodage"></a>

<div class="alert alert-danger">
    
**Algorithme:**

1. On se place à la racine de l'arbre de Huffman 
2. On lit un bit *b* du texte compressé &rarr; **arrêt** si plus de bit disponible.
3. On descend dans l'arbre:
  - à gauche si *b=0*
  - à droite si *b=1*
3. Si le n&oelig;ud atteint:
  - est une feuille: on affiche le caractère décodé et on reprend à l'**étape 1**.
  - est intermédiaire: on reprend à l'**étape 2**.