
#  TP 1 — Codage de Huffman et Compression de Texte
Le codage de Huffman, inventé par David Albert Huffman, et publié en 1952, est un algorithme de compression de données sans perte. Le codage de Huffman utilise un code à longueur variable pour représenter un symbole de la source (par exemple un caractère dans un fichier). Le code est déterminé à partir d'une estimation des probabilités d'apparition des symboles de source, un code court étant associé aux symboles de source les plus fréquents.

Le principe du codage de Huffman repose sur la création d'une structure d'arbre composée de nœuds. L'arbre est créé de la manière suivante, on associe chaque fois les deux nœuds (2 feuilles ou 1 feuilles avec un noeud) de plus faibles poids, pour donner un nouveau nœud dont le poids équivaut à la somme des poids de ses fils. On réitère ce processus jusqu'à n'en avoir plus qu'un seul nœud : la racine. On associe ensuite par exemple le code 0 à chaque embranchement partant vers la gauche et le code 1 vers la droite.

__Exemple__ :
Pour une séquence contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 1, 2, 2, 3) on obtient le graphe suivant :
![Huffman Example](huffman_1.png "Exemple")

Ce qui donne donc le codage de Huffman suivant :

| Symbole | Fréquence | Code |
|---------|-----------|------|
| a       |         1 |  100 |
| b       |         1 |  101 |
| c       |         2 |   01 |
| d       |         2 |   00 |
| e       |         3 |   11 |
### Objectifs du TP
Dans ce TP, vous allez :

1. Nettoyer un texte pour ne garder que les lettres de l’alphabet.  
2. Calculer l'entropie du texte et en déduire le minimum nombre de bits/signes nécessaire pour un encodage efficace.
3. Construire l'arbre de Huffman.
4. Coder et Décoder (Huffman)
5. Visualiser l'arbre de Huffman et exporter l'image (En option).
6. Calculer les taux de compression et les temps de calcul pour un paragraphe de test. 
7. Vérifier le décodage
8. Comparer le codage binaire classique (mot de code fixe) et le codage de Huffman.
9. Compression de fichiers

## 1. Nettoyage du texte

In [None]:

# Complétez la fonction clean_message pour ne garder que les lettres de l'alphabet
def clean_message(message: str) -> str:
    # À compléter
    pass

# Texte de test
texte = "Il n'existe que deux choses infinies : l'univers et la bêtise humaine !"
texte_nettoye = clean_message(texte)
print("Texte nettoyé :", texte_nettoye)


## 2. Calcul de l'entropie
**L'entropie de Shannon** est donnée par : 
\begin{align*}
    H(S) = - \sum_{i=1}^{N} p_i\, \log_{2}\left(p_i\right)
\end{align*}
où $p_i$ est la probabilité d'apparation du signe $i$.

In [None]:

# Complétez la fonction entropie
import math

def entropie(message: str) -> float:
    # À compléter
    pass

H = entropie(texte_nettoye)
print(f"Entropie du texte : {H:.3f} bits/symbole")


## 3. Construction de l'arbre de Huffman

In [2]:

# Complétez la classe et les fonctions pour construire l'arbre de Huffman
class HuffmanNode:
    def __init__(self, freq, data, left=None, right=None):
        self.freq = freq
        self.data = data
        self.left = left
        self.right = right

def generate_tree(freq_map):
    # À compléter
    pass

def set_binary_code(node, prefix, mapping):
    # À compléter
    pass


## 4. Codage et décodage Huffman

In [3]:

# Complétez les fonctions pour encoder et décoder avec Huffman

def huffman_encode(message: str):
    # À compléter
    pass

def huffman_decode(code: str, root: HuffmanNode) -> str:
    # À compléter
    pass
    
#code_huff, mapping, root = huffman_encode(texte_nettoye)
#print(f"Longueur totale Huffman : {len(code_huff)} bits")


## 5. Visualisation de l'arbre de Huffman

In [None]:

# Complétez la fonction pour exporter l'arbre Huffman en image PNG
from graphviz import Digraph

def export_huffman_tree(node, filename="huffman_tree.png"):
    dot = Graph()
    ...
    def add_nodes_edges(node, parent=None, edge_label=""):
        ...
    add_nodes_edges(node)

export_huffman_tree(root)
print("Arbre Huffman exporté en huffman_tree.png")


## 6. Calcul du taux de compression
En se basant sur le codage binaire brut, que peut-on dire du rôle du codage de Huffman ? Est-il plus ou moins efficace que le codage de Shannon-Fano ? Vous calculerez le taux de compression pour illustrer votre réponse.

Pour rappel : 
- Le codage de Shannon-Fano du même message est : ""
- Le taux de compression se calcul ainsi : 
\begin{align*}
\text{taux de compression} = 1 - \frac{\text{taille Huffman}}{\text{taille brute}}
\end{align*}

In [None]:

# Complétez la fonction taux_compression
def taux_compression(code_brut: str, code_huff: str) -> float:
    # À compléter
    pass

tc = taux_compression(code_brut, code_huff)
print(f"Taux de compression : {tc*100:.2f}%")


## 7. Vérification du décodage
Vous allez vérifier que si on décode le message codé, on retrouve le message intiial !

In [None]:

decoded = huffman_decode(code_huff, root)
print(f"Décodage correct ? {decoded == texte_nettoye}")


## 8. Codage binaire classique
Dans le codage binaire brut (ASCII simplifié), on attribue un même nombre de bits à chaque caractère.
- Si le texte contient $n$ signes distincts, il faut au moins : $\lceil \log_2\left(n\right)\rceil$ bits par symbole.

In [7]:

# Complétez la fonction codage_binaire_brut
def codage_binaire_brut(message: str) -> tuple[str, int]:
    # À compléter
    pass

code_brut, bits_brut = codage_binaire_brut(texte_nettoye)
print(f"Codage brut : {bits_brut} bits/symbole, longueur totale = {len(code_brut)} bits")


## 9. Taux de compression & Temps de calcul
Vous allez maintenant pouvoir faire une petite comparaison entre les deux encodages (Huffman et Binaire), en terme de :

1. Temps de calcul
2. Taux de compression

Pour un texte conséquent (le texte contenu dans le fichier `paragraph_test.txt`)


In [None]:
%%time
# Appel de fct codage_brut

In [None]:
%%time
# Appel de fct huffman_encode

## 9. Compression décompression de fichier

Nous allons essayer ici de compresser des fichiers textes conséquents à l'aide de l'encodage de Huffman. Pour ce faire, nous devons : 

1. Ecrire la fonction `decode_from_dico`
2. Ecrire les fonctions `compress_file` & `decompress_file`

Le fichier compressé doit contenir : 

+ Le code convertit en bytes (avec un padding de '0' pour avoir une taille multiple de 8).
+ Le dictionnaire d'encodage et le padding

Utiliser le module `pickle` de python, pour vous faciliter la tâche !


In [5]:
import pickle
def decode_from_dico(dico: dict, code: str) -> str:
    # À compléter
    pass

def compress_file(input_path, output_path):
    # A compléter
    pass

def decompress_file(input_path, output_path):
    # A compléter
    pass

In [None]:
test_file = 'bigfile.txt'
comp_file = f"{test_file.removesuffix('.txt')}_comp.bin"
decomp_file = f"{test_file.removesuffix('.txt')}_decomp.txt"
compress_file(test_file, comp_file)
decompress_file(comp_file, decomp_file)

# Vérification
with open(test_file, 'r') as f:
        original = f.read()
with open(decomp_file, 'r') as f:
        decompressed = f.read()
    
print("\n" + "=" * 50)
print("VÉRIFICATION")
print("=" * 50)
print(f"Fichiers identiques: {original == decompressed}")