*TP réalisé par Mehdi Rouan-Serik dans le cadre du cours d'Alexandrina Rogozan*

# Codage par plage

L'objectif de ce TP est de réaliser le codage par plage de la séquence suivante :    

"*00000110000011101110010111000001101011100001101011*"

## Rassemblement des paires de signes

Dans un premier temps, on va rassembler les paires de signes présentes dans la séquence de la forme (plage, valeur) où plage représente le nombre de signes identiques successifs et valeur représente le nombre d'occurences.    

__Exemple__ :  
Pour le message Pour le message "babeecceddae" on obtient les paires de signes suivantes :  

(b,1), (a,1), (b,1), (e,2), (c,2), (e,1), (d,2), (a,1), (e,1).    

1) Transformez la séquence à coder en paires de signes.

In [3]:
s = "babeecceddae"#"00000110000011101110010111000001101011100001101011" # 

def sequence_to_pair_of_sign(s):
    """
    A function that transforms a sequence into pairs of signs
    
    # Argument:
        - s: The sequence to be transformed
        
    # Return:
        A list of tuples containing a symbol and the lenght of its subsequence for the whole sequence
    """
    ...
    return
list_paires = sequence_to_pair_of_sign(s)
#print(f'{list_paires = }')

## Encodage des paires de signes

Maintenant que la séquence a été transformée en paires de signes, chaque paire de signe peut être considérée comme un caractère à part entière. Ces caractères seront encodés avec un des algorithmes que nous avons vu dans les TP précédents au choix. Il est conseillé d'utiliser un algorithme comprenant des mots-codes variables comme l'algorithme de Huffman.

__Exemple__ :  
Pour le message "babeecceddae" on obtient les paires de signes suivantes :  

(b,1), (a,1), (b,1), (e,2), (c,2), (e,1), (d,2), (a,1), (e,1)    

Ces paires de mots codes ont le nombre d'occurences suivantes :    

| Caractère | Nombre d'occurences |
|-----------|---------------------|
| (b,1)         | 2                   |
| (a,1)         | 2                   |
| (e,2)         | 1                   |
| (c,2)         | 1                   |
| (e,1)         | 2                   |
| (d,2)         | 1                   |

2) Encodez la séquence de paires de signes ainsi obtenue selon le codage de Huffman.

Nous allons reprendre le codage et la visualisation de l'arbre de Huffman vus réalisés dans le TP 1.

In [4]:
from graphviz import Graph
from pathlib import Path
def export_huffman_tree(node, filename="huffman_tree.png"):
    """
    Exporte l'arbre de Huffman en image PNG.

    node : racine de l'arbre Huffman
    filename : nom du fichier de sortie (PNG)
    """
    dot = Graph(comment='Arbre de Huffman')
    
    def add_nodes_edges(node, parent=None, edge_label=""):
        """
        Ajoute les noeuds et les arêtes au graphe.
        """
        if node is None:
            return
        
        # Nom unique du noeud
        node_id = str(id(node))
        
        # Etiquette du noeud : caractère et fréquence
        label = f"'{node.data}'\\n{node.freq}" if node.data != '-' else f"{node.freq}"
        dot.node(node_id, label)
        
        # Lier au parent si nécessaire
        if parent:
            dot.edge(parent, node_id, label=edge_label)
        
        # Appel récursif sur les enfants
        add_nodes_edges(node.left, node_id, "0")
        add_nodes_edges(node.right, node_id, "1")
    
    add_nodes_edges(node)
    
    # Exporter en PNG
     
    if not Path(f'{filename}.png').exists():
        dot.render(filename, format='png', cleanup=True)
        print(f"Arbre Huffman exporté en '{filename}'")
    else:
        print(f'{filename}.png already exists !')


In [14]:
from string import ascii_letters # a utiliser pour les paires de signes >= 10
class HuffmanNode:
    def __init__(self, freq, data, left=None, right=None):
        self.freq = freq
        self.data = data
        self.left = left
        self.right = right

def generate_tree(freq_map):
    nodes = [HuffmanNode(freq, char) for char, freq in freq_map.items()]
    nodes = sorted(nodes, key=lambda x: x.freq)
    while len(nodes) > 1:
        left = nodes.pop(0)
        right = nodes.pop(0)
        merged = HuffmanNode(left.freq + right.freq, '-', left, right)
        nodes.append(merged)
        nodes = sorted(nodes, key=lambda x: x.freq)
    return nodes[0]

def set_binary_code(node, prefix, mapping):
    if node.left is None and node.right is None:
        mapping[node.data] = prefix
        return
    if node.left:
        set_binary_code(node.left, prefix + '0', mapping)
    if node.right:
        set_binary_code(node.right, prefix + '1', mapping)

def number_in_base(num: int) -> str:
    '''
    return a (str) representation of 1 digit of any decimal number (int input)
    for this purpose use asci_letters
    '''
    ...
    

    
def plage_huffman_encode(message: str) -> tuple[str, dict, HuffmanNode]:
    '''
    Retourne le codage par Plage / Huffman
    Le message initiale doit être représené en plage de paires de signes ('a', 1), ..
    On encode les paires ('a', 1) : '0', ('b', 2): '1',  ...
    On encode les codes des paires : '0' : '001', '1': '010', ...
    Input: 
        message: str
    Output: 
        code: str
        dico: dict : {('a', 1): '001', ('b',2) : '010', ...}
        root: HuffmanNode (la racine de l'arbre)
    '''
    ...

def decode_dico(code: str, dico:dict) -> str:
    '''
    Retourne le message (str) encodé à partir du code (str) et du dictionnaire d'encodage (dict)
    Eg : '001010' -> ('a',1) ('b',2) => 'abb'
    '''

In [15]:
from math import ceil, log2
def codage_binaire_brut(message: str) -> str:
    """Retourne le codage binaire brut (str) d'un message (str) donnée en entrée"""
    alphabet = sorted(set(message))
    nb_bits = ceil(log2(len(alphabet))) if alphabet else 0
    code_map = {c: format(i, f'0{nb_bits}b') for i, c in enumerate(alphabet)}
    code = ''.join(code_map[c] for c in message)
    return code

In [None]:
orig_msg: str = "il existe deux choses infinies, l'univers et la bêtise humaine."
code, dict_conv, root = plage_huffman_encode(orig_msg)
msg = decode_dico(code, dict_conv)#huffman_decode_dico(code, root, dict_conv)
print(f'{msg = }')

## Calculez le taux de compression et comparer avec le codage binaire brut
Completer (recopier) la fonction qui calcule le taux de compression

In [16]:
def compression_rate(source: str, code: str) -> float:
    """
    A function to compute the compression rate of the message
    
    # Arguments:
        - source (str): The source message
        - code (str): The code
    """
    ...

3) Calculer le taux de compression du message et conclure quant à la performance.

In [None]:
texte = """Deux choses sont infinies : l'Univers et la bêtise humaine. 
Mais, en ce qui concerne l'Univers, je n'en ai pas encore acquis la certitude absolue."""
code, dict_conv, root = plage_huffman_encode(texte)
code_bin = codage_binaire_brut(texte)
taux_compr = compression_rate(texte, code)
print(f'{len(texte) = }')
print(f'{len(code) = }')
print(f'{len(code_bin) = }')
print(f'Taux de compression de : {taux_compr * 100:.3f} %')
#export_huffman_tree(root, 'tree_plage_huf')

**Réponse (Conclusion):**

Soit la séquence :     

"111111111111111000000111111000000000000000111111111111111"

4) Coder cette séquence en utilisant le codage par plage et conclure.

In [10]:
texte = """111111111111111000000111111000000000000000111111111111111"""
...

**Conclusion 2 :**