# Compression de texte

L'idée est de remplacer les caractères par des codes de longueur variable (on parle donc de *codage*). On utilisera:
- des codes courts pour les caractères couramment utilisés dans le texte (ex: `e`, `a`, ....).
- des codes longs pour les caractères peu utilisés (ex: `z`, `w`...).

Sommaire:
- [1. Fréquences d'occurrence](#freq)
- [2. Codage des caractères](#codage)
    - [a. Arbre de Huffman](#arbre)
    - [b. Table de correspondance](#lut)
    - [c. Compression du texte](#compression)
- [3. Projet Python](#projet)

## 1. Fréquences d'occurrence <a id="freq"></a>

Pour mettre en place ce codage, il est essentiel de connaître les fréquences d'occurrence de chaque caractère. Nous allons travailler, dans un premier temps, sur le texte suivant:

In [None]:
texte = """Un jour, Cunégonde, en se promenant
   auprès du château, dans le petit bois qu'on appelait
   parc, vit entre des broussailles le docteur Pangloss qui donnait
   une leçon de physique expérimentale à la
   femme de chambre de sa mère, petite brune très jolie
   et très docile. Comme Mlle Cunégonde avait beaucoup
   de dispositions pour les sciences, elle observa, sans souffler,
   les expériences réitérées dont elle
   fut témoin; elle vit clairement la raison suffisante du
   docteur, les effets et les causes, et s'en retourna tout
   agitée, toute pensive, toute remplie du désir
   d'être savante, songeant qu'elle pourrait bien être la
   raison suffisante du jeune Candide, qui pouvait aussi être
   la sienne."""

**Questionnement:** *(utiliser des instructions Python, en ajoutant des cellules si nécessaire, pour répondre aux questions)*
- Quel est le nombre `nb_tot` de caractères constituant ce texte ?

- Quel type de codage est actuellement utilisé pour ces caractères ?

*Pour améliorer les performances de compression, nous n'allons créer des codes que pour les caractères qui apparaissent dans le texte.*

- Est-il préférable de stocker la liste des caractères dans un *tableau* (type `list` en Python) ou une structure chaînée ?

- De combien de caractères différents `nb_carac_diff` est constitué ce texte ? Stocker ces caractères dans une liste `liste_carac`

*(recopier au préalable la classe `Liste` du document ressource et identifier les méthodes utiles pour cette tâche)*

- Créer et compléter une nouvelle liste `liste_occurrences` où chaque élément est le nombre d'occurrences du caractère correspondant dans `liste_carac`. *(vérifier que la somme de tous ces nombres vaut `nb_tot`)*

- On définit la fréquence d'occurrence d'un caractère *c* par $f(c)=\frac{\text{nb_occurrance(c)}}{\text{nb_tot}}$. Créer un tableau `freq` (type `list` de Python) où chaque élément est un p-uplet au format `(c, f(c))`

- Trier cette liste (avec la méthode de votre choix) selon les fréquences d'occurrence décroissantes. Quels sont les 5 caractères qui apparaissent le plus souvent ?

## 2. Codage des caractères <a id="codage"></a>

Le code de chaque caractère correspond à son chemin absolu dans l'arbre ci-après. Par convention, on lit un chemin en ajoutant :
- `0` si l'on descend vers l'enfant gauche.
- `1` si l'on descend vers l'enfant droite.

![Arbre de Huffman ](img/04-ex_arbre_huffman.png)

Exemples:
- Le caractère `'e'` est remplacé par le code `100` (=3 bits).
- Le caractère `'a'` est remplacé par le code `11111` (=5 bits)

**Questionnement:**
- Comment appelle-t-on les n&oelig;uds où se trouvent les caractères dans cet arbre ?

- Quel code remplace la portion de texte `Un jour`? Combien de bits fait ce code ?

### a. Construction de l'arbre <a id="arbre"></a>

Pour compresser le plus possible, il faut que les caractères les plus (resp. moins) utilisés soient situés sur les feuilles les plus proches (resp. éloignées) de la racine.

L'arbre de Huffman peut s'obtenir en appliquant l'algorithme suivant:

<div class="alert alert-block alert-danger">
    
1. On créé un nouvel arbre (un seul n&oelig;ud) par caractère: la racine vaut `(c, f(c))`.

2. On fusionne les 2 arbres de fréquences minimales `f(c1)` et `f(c2)` en un seul nouvel arbre dont:
    - les enfants sont les 2 arbres précédents
    - la racine a pour fréquence `f(c1)+f(c2)`.

3. On répète l'opération 2 jusqu'à n'avoir plus qu'un seul arbre.

*(Recopier au préalable la classe `Arbre` fournie dans le document ressources et identifier les méthodes utiles pour cette partie)*

**Questionnement :**
- **Étape 1** : remplir une liste d'arbres à 1 n&oelig;ud pour chaque caractère (la valeur de chaque racine est un *tuple* au format `(c, f(c))`)

- **Étape 2a** : Écrire la fonction `min_idx` qui retourne la position du minimum d'une `Liste` (attention: les valeurs de cette liste sont des *tuples* et le tri se fait sur le 2ème élément du tuple=fréquence d'occurrence)

In [1]:
def min_idx(liste):
    pass

- **Étapes 2b et 3** : fusionner tous les arbres de cette liste selon l'algorithme de Huffman

Que valent la hauteur et la taille de l'arbre obtenu ?

### b. Table de correspondance <a id="lut"></a>

Pour accélérer la phase de codage, on va remplir un *dictionnaire* Python `lut` où les **clés** sont les caractères du texte et les **valeurs** sont les codes de Huffman correspondant.

Exemple: `lut['e']='100'`

**Questionnement :**

- Quel type de parcours d'arbre permet d'identifier le chemin de chaque caractère ?

- Mettre en oeuvre ce parcours pour remplir la table de correspondance `lut`:

### c. Compression du texte <a id="compression"></a>

- Utiliser la table de correspondance précédente pour générer le code correspondant au texte fourni au début de ce document

- Quel taux de compression obtient-t-on ? (on suppose que le code obtenu est sauvegardé en binaire)

## 3. Projet Python 

(pour 1 binôme)

**Élève 1 :**

Mettre au point un codeur qui:
    - créé l'arbre de Huffman d'un texte quelconque.
    - génère un fichier avec:
        - le code obtenu pour ce texte (au format binaire)
        - Le contenu de l'arbre (indispensable pour le décodeur)
    - affiche le taux de compression final.
        
**Éleve 2 :**

Mettre au point un décodeur qui:
    - récupère l'arbre utilisé par le codeur.
    - décompresse le texte.
    - vérifie qu'il n'y a pas eu de perte.