M.L. - 06 juin 2018

**`0111001011110111000010100010000100011110100011010010001111001111000101000101011110111000110101101011111`**

> Pré-requis, à connaître à défaut de maîtriser :
- boucles et conditionnelles ;
- écrire une fonction ;
- manipuler une chaîne de caractères (parcours, concaténation) ;
- manipuler une liste (parcours, concaténation, pop, append) ;
- manipuler un dictionnaire (clés, valeurs, construction, ajouts).

> Objectifs :
- étudier la représentation de l'information et son codage ;
- découvrir la compression sans perte d'information ;
- manipuler des arbres comme structure de données et parcourir un arbre (à la fois complexe et récursive, cette structure de données est au cœur de l'algorithme de compression) ;
- écrire quelques fonctions et observer le découpage d'un problème en plusieurs fonctions ;
- écrire des assertions ;
- lire et écrire dans un fichier.

> Extensions possibles (non traitées ici) :
- gérer une file de priorité avec une structure de données appropriée (module `heapq`).

**Dans la suite, nous avons écrit la plupart des en-tête des fonctions (définition de la fonction ainsi que de ses paramètres). Il vous reste à remplacer le mot clé `pass` (qui ne fait strictement rien) par le code de votre fonction.**


# Introduction à la représentation de l'information et au codage

Pour représenter de l'information, un codage est utilisé. Par exemple, grâce aux caractères de l'alphabet, on peut représenter une information beaucoup plus complexe : des mots, un texte, un livre, un programme. En informatique, nous utilisons typiquement des codages binaires, c'est-à-dire des suites de bits ayant la valeur `0` ou `1`. Le bit est l'unité fondamentale et il est particulièrement intéressant de noter que toute sorte de données aussi complexes que l'on veut (nombres, caractères, texte, images, programmes informatique...) peuvent être représentées avec seulement deux symboles: `0` et `1`.

Un codage très utilisé pour représenté des caractères est [*l'American Standard Code for Information Interchange*](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange) (courament appelé, ASCII). Il définit la façon dont $2^7=128$ symboles sont représentés.
Ainsi, la lettre `A` se code `1000001` (soit, $65$ en décimal), la lettre `Z` est codée par `1011010`...

Nous pouvons définir notre propre codage. Supposons que nous disposions d'une séquence ADN.
Seule les symboles `A`, `C`, `G`, et `T` sont pertinents car ils correspondent aux quatres nucléotides (Adenine, Cytosine, Guanine, Thymine). Nous décidons de les coder en binaire par le codage :
- `A = 00`
- `C = 01`
- `G = 10`
- `T = 11`.

Supposons que nous ayons le brin d'ADN suivant à coder :

In [None]:
adn = "GCCTGCCCGCCAGGACAGACCCCGACCGTACCCCTCCCACGACGGCCCGCCACCGGCGGCCCCGACCCAGGCGGCCCCTGCGGCGCGGGCGCGCAACCATCTCAGTACCCCACCCCCTCTACTCCGGTCCACGTGCCGATTAGCAAGTCCTCCAGCAGACATCTGCGGGCGGTTAGGGCGACTCCCACTCCAAATGCTACTCCAAGCGCCAACCCCCCTCTGGCAGTTCTATGGGAATACACCACCATTGGCCGCGGGCCCCAGAGCCCGGCCCGACAGACGCGGTCACCCCCGGGGCGGACGAGGAAACACCGCACCCCACACGGGTCCTGTCATAAAGGGACGCCATCCAATACAGCCCCATGCACCCCACAAGCCAGGAGACCGGATCACCTAGCCGTCCCGGCCCCGCCTGCGGACAGACCCCCGCAGCGCACCCACCCCCCTTAGCAACAGCCAGAGCGGCGTCGTGGGCGAATGGTTACTAAACATGGTCGGCGACGCAAAGCGACTGGACCCTGCCCATAGACCGCCTCACGCAGCCGTCGTCCCCGCTCGTATACCCGTGCACAAGCCACCCAAAGGGGCGCCGCCCCAAAGGACCAACCCAGCTGCTGACCTCACGGAACGGAGGACCAGCGCACGGCGCGCCCCGCCATGCGGCCCGAGGTGAGCCCAAGCGCCCGCTCGAGATGACCGGGAGCGCCCCGCGCCGCAGCCGGACCCCCATGCGTCCCTCAAATCCGCACCGGGACCAGCTTCTCCATTATTCGCGTGGACCAGCACCGTGCATCGCCGCGGACGGCCACCCGGGGCCAGACCGTCCCCCCCCCCTTAACACACAGACACCCAACGTGCGCCCGCCCACAGCGACCTGACCACTCTGCCCCACCCAGCCCGCCCAAGCCACCTTCCCGTAGACACAGCGCGACACATCCCGCCCCTTCCCGGGTGCCGATGGGCAGCGGCCCTACGGGCCCCCACTCCCCCAGCAATCCGA"

Avec le codage précédent, le nombre de bits nécessaires pour représenter la séquence `adn` est

In [None]:
2*len(adn)

Supposons maintenant le codage suivant :
- `A = 000`
- `C = 1`
- `G = 01`
- `T = 001`.

Nous allons évaluer le nombre total de bits nécessaire pour représenter la chaîne `adn` avec ce nouveau codage. Pour cela, répondez à ces questions :

<div class="alert alert-info">**Q1** Ecrivez une fonction `calculeFreq` qui dénombre les 'A', 'C', 'G' et 'T' dans une séquence `s` donnée en argument.<br>
Votre fonction retournera un dictionnaire `freq` où `freq[c]` contiendra la fréquence du caractère `c`.</div>

In [None]:
def calculeFreq(s):
    """Dénombre les A, C, G et T de la chaîne s. Le résultat est un dictionnaire."""
    # initialisation du dictionnaire :
    freq = {'A':0, 'C':0, 'G':0, 'T':0}
    pass # remplacer pass par votre code...

<div class="alert alert-info">**Q2** Appliquez cette fonction à la séquence `adn`. Affichez le nombre de bits nécessaires pour représenter `adn` avec le nouveau codage. Comparez-le au nombre de bits nécessaires précédemment !</div>

En réalité, nous venons de *compresser* la séquence en associant un code plus court aux symboles fréquents et plus long à ceux moins fréquents.

# Codage de Huffman : coder et décoder


Les codages de Huffman sont utilisés pour **compresser des données**. C'est une compression sans perte d'information (contrairement à JPEG ou MP3 par exemple, où l'information est dégradée, ce qui occasionne une perte de qualité). **David Albert Huffman  (1925-1999)** développa cet algorithme pendant sa thèse au MIT et le publia en 1952. Pour compresser, on utilise un codage à longueur variable pour représenter chacun des symboles de la source à compresser. Le codage est déterminé selon la fréquence des symboles de la source : un code court pour un symbole fréquent, un code plus long pour ceux moins fréquenst.

Dans la suite, nous nous restreignons à des **codes préfixes**. Ces codes sont un peu particulier puisqu'aucun mot de code n'est aussi **préfixe** d'un autre mot de code. Cela n'affaiblit pas la compression et facilite grandement la décompression.
Ainsi, le mot binaire `"0111001011"` se décode de façon **unique** par "GCCTGC" avec code préfixe suivant:
- `A = 000`
- `C = 1`
- `G = 01`
- `T = 001`

Si nous avions choisi de coder `A` par `00`, alors le code ne serait plus préfixe puisque `00` est préfixe de `001` qui code `T`.

## Représentation d'un codage

Une **structure de données** permet de stocker et d'organiser des données, afin de pouvoir les traiter plus facilement.
Pour représenter un code préfixe, nous utilisons une structure de données **récursive**: les **arbres binaires**. 
Ces arbres sont en fait **complest** : chaque noeud de l'arbre a soit $0$ fils (et on dit que c'est une *feuille*), soit $2$ fils (appelés *fils gauche* et *fils droit*).

> Nous pouvons définir *récursivement* cette notion. Ainsi, un arbre binaire complet est
- une feuille ; ou
- un noeud ayant comme fils gauche un arbre $A_g$ et comme fils droit un arbre $A_d$.

Le module `arboretum` (développé par nos soins) propose une implémentation de ces arbres binaires complets.

In [None]:
from arboretum import Arbre, Noeud, Feuille

> Pédagogiquement, il peut être intéressant de fournir des fonctions ou des modules déjà développés, particulièrement si leur développement sort du cadre du programme. Ceux-ci peuvent être développés par des tiers ou par l'enseignant qui souhaitent fournir des fonctions complexes, qui demanderaient trop de temps à mettre au point, ou qui ne remplirraient pas l'objectif pédagogique de l'activité. Ce travail à faire en amont par l'enseignant demande du temps.

Nous représentons le code préfixe `A = 000`, `C = 1`, `G = 01`, `T = 001` par l'arbre suivant :

In [None]:
arbre1 = Noeud(Noeud(Noeud(Feuille('A'), Feuille('T')), Feuille('G')), Feuille('C'))

print(arbre1) # affiche l'arbre "à plat"
arbre1.draw() # dessine l'arbre

Il est possible de manipuler un arbre avec quelques méthodes que nous détaillerons dans la suite. Voici un petit exemple d'utilisation :

In [None]:
arbre1.filsGauche()

In [None]:
arbre1.filsDroit().estFeuille()

<div class="alert alert-warning">**ATTENTION :** Le module `arboretum` définit de nouveaux types (en fait, des *classes*). Il faut éviter dans la suite de définir des variables ayant le même nom. Les noms de variables `Arbre`, `Noeud` et `Feuille` sont donc à proscrire.</div>

La traduction de cet arbre en code préfixe est naturelle : nous démarrons de sa *racine* et lorsque nous allons vers un fils gauche, nous associons l'étiquette $0$ et vers un fils droit nous associons $1$.
Ainsi, l'unique chemin de la racine à la feuille `T` est étiqueté 001.

Autrement dit, pour aller de l'étoile `*` toute en haut à `A`, on fait *gauche*, puis *gauche*, puis *gauche*, donc `000` ; alors que pour aller de cette même étoile en haut à `G`, on fait *gauche* puis *droite*, donc `01`.

<div class="alert alert-info">**Q3** Ecrire une fonction `extraireCodage` qui, étant donné un arbre, retourne un dictionnaire contenant pour entrée chacun des symboles présent dans l'arbre et pour valeur son codage correspondant (par exemple dic['Z'] pourrait contenir '01001'). Rappelons que les symboles se trouvent aux feuilles de l'arbre. Pour `arbre1` ci-dessus, le résultat devrait être le dictionnaire
`{'A': '000', 'C': '1', 'G': '01', 'T': '001'}`. </div>

Pour parcourir l'arbre, nous disposons de quelques méthodes sur les arbres :
> - `arbre.estFeuille()`
> - `arbre.filsGauche()`
> - `arbre.filsDroit()`
> - `arbre.symbole()`
</div>

<div class="alert alert-warning">Bien entendu, les symboles portés par l'arbre peuvent être différents de `A, C, G, T`. Votre fonction doit être suffisament générale pour traiter n'importe quel arbre représentant un code préfixe. Si nécessaire, vous pouvez bien sûr écrire des fonctions intermédiaires supplementaires.</div>

In [None]:
def extraireCodage(arbre):
    """retourne un dictionnaire contenant le code de chaque symbole de l'arbre en paramètre"""
    codage = dict()

<div class="alert alert-warning">**Remarque pédagogique** : il est souvent plus clair d'avoir des verbes (suivi éventuellement d'une information complémentaire) pour les noms de fonctions. Un verbe signifie une action, ce qui distingue des variables qui ne sont pas des actions (et donc pas des verbes).</div>

Nous pouvons à présent coder une séquence !
<div class="alert alert-info">**Q4** Écrire une fonction `compression(arbre, texte)` qui attend en paramètre un arbre représentant un codage préfixe et un texte. Cette fonction produit en sortie le texte (c'est-à-dire une chaîne de caractères 0 ou 1), où les symboles ont été remplacés par leur codage respectif.</div>

In [None]:
def compression(arbre, texte):
    pass

Si votre fonction est correcte, l'exécution du code suivant ne devrait pas retourner d'erreur. Il s'agit d'une **assertion** qui aide à détecter les bugs, en véfifiant si un programme a bien le comportement attendu par le développeur. Si la condition mentionnée dans l'assertion n'est pas respectée, alors Python lève une exception `AssertionError`. Une assertion est un bon moyen de tester son programme.

In [None]:
assert(compression(arbre1, adn[36:42])=="11000101000")

Nous avons observé que le mot binaire "0111001011" se décodait de façon **unique** par "GCCTGC". Cette unicité est la conséquence des *codes préfixes* où aucun mot de code n'est un *préfixe* d'un autre mot de code.

<div class="alert alert-info">**Q5** Ecrire une fonction `decode(arbre, seq)` qui attend en paramètre un `arbre` (comme celui précédent qui représente le codage de symboles) et une séquence `seq` de bits, puis qui retourne la séquence décodée (sous forme d'une chaîne de caractères).</div>

In [None]:
def decode(arbre, seq):
    pass

Si votre fonction est correcte, le code suivant ne devrait pas retourner d'erreur sur cette assertion :

In [None]:
assert(decode(arbre1, "0111001011")=="GCCTGC")

<div class="alert alert-info">**Q6** Modifiez la fonction précédente pour qu'elle accepte un paramètre supplémentaire `stop`. Cette nouvelle version de la fonction doit immédiatement retourner la séquence décodée lue jusqu'au moment où le symbole `stop` est rencontré.</div>

<div class="alert alert-warning">Vous noterez que dans l'en-tête de la fonction donnée ci-dessous, nous avons donné une valeur part défaut à ce paramètre `stop` (la valeur chr(4) correspond au caractère ASCII End-of-Transmission... nous en dirons plus dans la suite sur l'utilité de ce paramètre supplémentaire). Cette nouvelle version de la fonction `decode` nous sera bien utile vers la fin de l'activité.</div>

In [None]:
def decode(arbre, seq, stop=chr(4)):
    pass

Testez la fonction :

In [None]:
# Dans arbre1, le symbole A est codé par 000.
ch = "01110010"+"000"+"11" #GCCTACC
print(ch)
print(decode(arbre1, ch)) # -> retourne GCCTAGC
print(decode(arbre1, ch, "A")) # -> retourne GCCT

# Codage de Huffman : calculer le code préfixe

Passons aux choses sérieuses ! Nous avons manipulé un arbre représentant un code préfixe. Nous allons maintenant nous intéresser à sa construction. Comment construire un arbre représentant un code préfixe ? Étant donné un texte, nous commençons par calculer la fréquence de chacun des symboles composant ce texte. Ensuite, **l'algorithme de Huffman** réalisera la construction d'un arbre préfixe optimal.


## Description de l'algorithme

L'algorithme est facile à expliquer et à implémenter. Supposons que nous connaissions la fréquence des $n$ symboles apparaissant dans un texte.
L'algorithme commence par créer $n$ arbres minimalistes. Initialement, chacun de ces arbres ne contient qu'un seul noeud. Ce noeud est la fois la *racine* et l'unique *feuille* de l'arbre. Il porte deux informations : le symbole et sa fréquence. Les algorithmiciens ont suivi les biologistes et dénomment par **forêt** une collection de plusieurs arbres.

> Pour créer un arbre minimaliste, nous disposons de deux *constructeurs* :
> - `Feuille(symbole)`
> - `Feuille(symbole, fréquence)`

Ces $n$ arbres minimalistes sont tous placés dans une **liste d'arbres**, ce qui permettra d'y faire référence par la suite. Dans la suite, nous dirons que la **fréquence** d'un arbre est la fréquence contenue à sa *racine*. Pour les arbres minimalistes, leur fréquence est la fréquence contenue dans son unique noeud.

Tant que la liste d'arbres contient une forêt (donc plus de deux arbres), deux arbres en sont extraits pour être *fusionnés*. En fait, il faut en extraire deux arbres $A_1$ et $A_2$ ayant la plus petite fréquence. On crée un nouvel arbre, composé d'un noeud dont les deux fils sont $A_1$ et $A_2$ et on stocke dans ce noeud une fréquence égale à la somme des fréquences de la racine de $A_1$ et de la racine de $A_2$. Ce nouvel arbre ainsi obtenu est ajouté à la liste. On observe que la longueur de la liste d'arbres diminue (2 arbres ont été extraits et 1 arbre y a été ajouté). Cela garantit la terminaison de l'algorithme.

Comment fait-on pour créer un nouvel arbre ?

> Pour créer un nouveau noeud, nous disposons de deux *constructeurs*, où `filsgauche` et `filsdroit` sont des arbres:
> - `Noeud(filsgauche, filsdroit)`
> - `Noeud(filsgauche, filsdroit, frequence)`
>
> De plus, étant donné un arbre $a$, nous pouvons obtenir sa fréquence par la méthode `frequence()`:
> - `a.frequence()`

Voici un petit exemple où nous créons une liste de quatre arbres :

In [None]:
lArbre = [ Feuille('B',3), Feuille('L',6), Feuille('U',2), Feuille('E',8)]
print(lArbre)

aGauche = lArbre.pop(0)
aDroit = lArbre.pop(1)

aNouveau = Noeud(aGauche, aDroit, aGauche.frequence()+aDroit.frequence())
lArbre.append(aNouveau)

print(lArbre)

## Quelques fonctions préalables

<div class="alert alert-info">**Q7** Ecrire une fonction `extraireMinFreq` qui étant donnée une liste d'arbres `listeArbres` extrait un arbre de la liste ayant la plus petite fréquence. Extraire signifie qu'il faut le supprimer de la liste et le retourner comme résultat de la fonction. Votre fonction aura donc un *effet de bord* puisqu'elle modifie son paramètre `listeArbres`.</div>

<div class="alert alert-warning">Etant donnée une liste, la méthode `pop()` pourrait vous servir pour cette fonction.</div>

In [None]:
def extraireMinFreq(listeArbres):
    pass

* Testez ci-après votre fonction sur un petit exemple.

In [None]:
# Bac à sable pour tester votre fonction

lArbre = [ Feuille('B',3), Feuille('L',6), Feuille('U',2), Feuille('E',8)]
print(extraireMinFreq(lArbre))

Souvenez vous de la fonction `calculeFreq` que vous avez écrit en début d'activité. Elle nous a servi à calculer la fréquence des symboles `A`, `C`, `G` et `T` d'une chaine `s` donnée en entrée.

<div class="alert alert-info">**Q8** Ré-écrire cette fonction, de sorte à ce qu'elle calcule la fréquence des symboles d'une chaine `s` quelconque (cette fois ci, nous ne connaissons pas en avance les symboles de la chaîne). Votre fonction retournera un dictionnaire, où chaque symbole sera une entrée et on lui aura associé sa fréquence.</div>

In [None]:
def calculeFreq(s):
    pass

Pour tester la fonction, vous pouvez écrire une petite chaîne de caractère et lui appliquer la fonction `calculeFreq`.

In [None]:
# Bac à sable pour tester votre fonction


## La fonction de codage

Il est maintenant temps d'écrire notre fonction de calcul d'arbre préfixe. Elle doit commencer par calculer la fréquence des symboles d'un texte donné en entrée, puis construire une liste d'arbres, avant d'en extraire successivement des arbres de moindre fréquence afin de les fusionner et d'ajouter le nouvel arbre à la liste. Au moment où la liste ne contient plus qu'un seul arbre, celui-ci est retourné comme résultat.

<div class="alert alert-info">**Q9** A vous de jouer !</div>

In [None]:
def construireArbre(texte):
    pass

Pour tester votre fonction :

In [None]:
construireArbre(adn)

In [None]:
construireArbre(adn).draw()

# Compressons !

Utilisons les fonctions `construireArbre` puis `compression` pour compresser la séquence `adn`.

<div class="alert alert-info">**Q10** Compressez `adn`.</div>

In [None]:
pass

In [None]:
assert(adnCompresse[42:101]=="11001011011100001100001110101110101000010001110010100101000")

# Compresser un fichier

Soyons ambitieux et compressons le roman *Vingt mille lieues sous les mers* de Jules Verne.
Il est disponible dans le fichier `VingtMilleLieuesSousLesMers.txt`. Nous allons lire ce fichier, lui appliquer une compression de `Huffman` et enregistrer le résultat dans le fichier `VMLSLM.txt`. Nous pourrons ensuite comparer la taille de ces deux fichiers.

In [None]:
with open('VingtMilleLieuesSousLesMers.txt', 'r') as fichier:
    texte = fichier.read()
print(texte)

<div class="alert alert-warning">Grâce au mot clé `with`, Python a créé un contexte dans lequel il ouvre le fichier puis le ferme à la fin, même si des erreurs se sont produites dans le bloc d'instruction. L'instruction `fichier.read()` a pour effet de lire tout le fichier. Cela a aussi pour effet de mettre en mémoire l'ensemble du fichier ; c'est problématique si le fichier est très gros et la mémoire limitée. Une meilleure approche serait de lire le fichier ligne par ligne, mais nous ne l'utiliserons pas ici pour ne pas nous compliquer la tâche.</div>

Nous allons écrire une fonction `compHuffman` qui attend en paramètre un *nom de fichier source* et un *nom de fichier destination*. La fonction lit le fichier source, le compresse grâce à Huffman, puis écrit le résultat compressé dans le fichier destination.

> Pour faciliter la décompression, la fonction `compHuffman` doit faire deux choses supplémentaires:
> 1. utiliser un petit marqueur spécifique qui signale la fin du fichier source
> 2. stocker dans le fichier destination l'arbre d'huffman utilisé pour la compression

## Marqueur de fin de fichier

Lors de la lecture du fichier source, nous adjoignons à la fin du fichier un caractère spécial. Ce sera le caractère ASCII *End of Text (EoT, fin de texte)* de code ASCII 4. Nous utilisons ce caractère spécial car lors de l'enregistrement du texte compressé dans un fichier, ce n'est pas une suite de bits qui est stockée dans le fichier, mais une suite d'octets (un octet représente 8 bits). Cela signifie que si la séquence représentant notre source compressée n'a pas une taille multiple de 8, le dernier octet contiendra de l'information, mais aussi quelques bits à 0 servant uniquement à completer le dernier octet (on appelle cela du *padding*).
En compressant le cacactère *EoT*, comme un caractère unique du texte, lors de l'opération de décompression, nous pourrons arrêter le processus de compression dès que celui-ci sera rencontré.

In [None]:
texte = "bonjour"+chr(4) # On ajoute EoT à la fin de la chaîne à compresser
print(texte)

# le caractère EoT n'est pas nécessairement affiché par la fonction print, pourtant il existe bien dans la chaîne texte:
print( [(c,ord(c)) for c in texte] )

## Stocker l'arbre

Faisons les choses simplement avec la bibliothèque `pickle` qui permet de sérialiser (de mémoriser dans un fichier) des objets Python, puis de les désérialiser.

In [None]:
arbuste = construireArbre(texte)
print(arbuste)

import pickle
with open('seqtest.txt', 'wb') as fichier:
    mon_pickler = pickle.Pickler(fichier)
    mon_pickler.dump(arbuste)

with open('seqtest.txt', 'rb') as fichier:
    mon_depickler = pickle.Unpickler(fichier)
    arbrisseau = mon_depickler.load()

print(arbrisseau)

## Ecrire des bits

Pour écrire des bits dans un fichier et non des octets, nous utiliserons le module `bitio`.

In [None]:
import bitio

bitsEnPagaille = "0110001110010011"
fichierSurLeDisqueDur = "test.txt"

# écrire des bitsEnPagaille dans le fichierSurLeDisqueDur
with open(fichierSurLeDisqueDur, 'wb') as fichier:
    with bitio.BitWriter(fichier) as writer:
            for bit in bitsEnPagaille:
                writer.writebits(int(bit), 1)


# lecture des bits du fichierDestination
with open(fichierSurLeDisqueDur, 'rb') as fichier:
        with bitio.BitReader(fichier) as reader:
            chars = []
            while True:
                x = reader.readbits(1)
                if not reader.read:  # End-of-file?
                    break
                chars.append(chr(ord('0')+x))
            resultat = ''.join(chars)
print(resultat)

<div class="alert alert-info">**Q11** Dans le code précédent, modifiez `bitsEnPagaille = "0110001110010011"` en ajoutant un bit `1` à la fin de cette chaîne. Qu'observez-vous ? Pourquoi ?</div>

> **REMARQUE : **<div class="alert alert-warning">Dans la fonction `open(...)` nous utilisons deux paramètres : le nom du fichier et son mode. Parmi les options disponibles pour le mode, nous avons :
>
> - 'r' 	open for reading (default)
> - 'w' 	open for writing, truncating the file first
> - 'a' 	open for writing, appending to the end of the file if it exists
> - 'b' 	binary mode
> - 't' 	text mode (default)

Python fait une disctintion entre `binaire` (mode `b`) et `texte` (mode `t`). Dans le mode binaire, les octets (en anglais, *bytes*) sont retournés sans aucun décodage (c'est-à-dire que les octets ne sont pas interprétés comme des caractères). Dans le mode texte, le contenu est retourné comme une chaine (de type `str`) et les octets ont été chacun décodés.</div>

<div class="alert alert-info">**Q12** Ecrire la fonction `compHuffman`. Vous pourrez ensuite la tester sur le fichier source `VingtMilleLieuesSousLesMers.txt` et le fichier destination `VMLSLM.txt`.</div>

In [None]:
def compHuffman(sourceFile, destFile):
    # lire
    # ajouter chr(4)
    # compresser
    # écrire l'arbre
    # écrire le résultat compressé
    pass

<div class="alert alert-info">**Q12** Terminez l'activité par l'écriture de `decompHuffman` qui se chargera de la décompression d'un fichier source vers un fichier destination. N'ayez pas d'inquiétude, lors de la lecture du fichier source, vous pouvez commencer par lire l'arbre puis lire la séquence compressée. Le module pickle saura où s'arréter pour la lecture de l'arbre et vous pourrez immédiatement lire ensuite les bits stockés juste après l'arbre.</div>

In [None]:
def decompHuffman(sourceFile, destFile):
    pass

Normalement, vous devrier obtenir un fichier compressé de taille $503 773$ octets alors que le fichier décompressé doit peser $901 461$ octets.

> <div class="alert alert-warning">**REMARQUE** : vous pouvez observer une différence de taille entre le fichier originel et le fichier décompressé après compression. Le fichier originel a pour taille $919775$ octets et celui décompressé $901461$ octets. Les $18314$ octets de différence proviennent du caractère utilisé pour le retour de fin de ligne. Le fichier original utilise des CRLF (Carriage Return Line Feed, 2 caractères typiquement utilisés sous Windows) alors que dans notre processus de compression/décompression, celui-ci est transformé en LF (1 caractère, plus courant sous Unix)... encore un problème de codage !</div>

# Quelques mots de pédagogie


Dans cette activité, nous nous sommes intéressés à la représentation de l'information (une information simple, du texte) et le problème du codage des caractères, du nombre de bits nécessaires pour représenter ces caractères ($n$ caractères nécessitent un codage sur $\log(n)$ bits avec un codage fixe).

Nous avons observé la possibilité de compresser l'information pour gagner de l'espace (en donnant un codage plus court aux éléments fréquents). Cette compression est sans perte d'information.


Nous avons vu plusieurs structures de données:
- les dictionnaires (nous y avons stocké la fréquence des caractères, mais aussi le codage associé à chaque caractère)
- une structure de données dynamique nouvelle (les arbres binaires complets). C'est une structure de données récursive.


Nous avons aussi découpé un problème complexe en plusieurs fonctions plus facile à écrire. Le découpage est une activité difficile, au début, c'est à l'enseignant de le proposer pour que l'élève puisse coder des programmes complexes. Nous avons une approche *bottom-up* : on crée des fonctions de plus en plus complexes en commençant par des fonctions simples qui apportent de petites fonctionnalités. Quand on fait la conception, on adopte une démarche *top-down* : on exprime ce que l'on veut faire en étapes (qui correspondraient à de grosses fonctions), puis on ré-exprime ces étapes en étapes plus petites jusqu'à arriver à des étapes élémentaires et donc des fonctions simples.

D'une certaine façon, on retrouve une structure d'arbre : que l'on parte des feuilles pour le construire ou de sa racine.


# Pour aller plus loin

La performance d'une fonction (plus globalement, d'un programme) se mesure en sa capacité à traiter rapidement une entrée de grande taille. On cherche à optimiser le **temps d'exécution**. Un autre paramètre qui peut être optimisé est **l'espace** nécessaire à la fonction pour s'exécuter.

Les structures de données ont souvent un rôle prépondérant pour améliorer ces performances. Pour le codage de Huffman, il faudrait une structure de données appropriée pour gérer la liste des racines des arbres. En effet, à chaque étape, on cherche les deux racines ayant la plus petite fréquence. Plutôt que de reparcourir à chaque fois cette liste de racines, il existe une *structure de données* plus appropriée : une *file de priorité*. Ces files sont souvent implémentées avec des *tas*. Il existe en Python le module `heapq` qui implémente une file de priorité. En guise d'extension, on pourrait modifier l'algorithme afin qu'il utilise une file de priorité implémentée par ce module.