In [17]:

import math

class Noeud:
    def __init__(self, donnee, gauche=None, droit=None):
        """
        Initialise un nœud d'arbre binaire.
        
        Paramètres:
        - donnee: La valeur stockée dans le nœud (un tuple (symbole, valeur))
        - gauche: Le fils gauche (None par défaut)
        - droit: Le fils droit (None par défaut)
        """
        self.donnee = donnee
        self.gauche = gauche
        self.droit = droit
    
    def est_feuille(self):
        """
        Vérifie si le nœud est une feuille (sans enfants).
        
        Retourne:
        - True si le nœud est une feuille, False sinon
        """
        return self.gauche is None and self.droit is None
    
    def __str__(self):
        """
        Retourne une représentation en chaîne du nœud.
        """
        return f"Noeud(donnee={self.donnee})"

def count_character_occurrences(text):
    """
    Count the occurrences of each character in the given text.
    
    Args:
        text (str): The input text to analyze
        
    Returns:
        dict: A dictionary where keys are characters and values are their occurrences
    """
    # Create an empty dictionary to store character occurrences
    occurrences = {}
    
    # Count each character in the text
    for char in text.lower():
        if char in occurrences:
            occurrences[char] += 1
        else:
            occurrences[char] = 1
            
    return occurrences

def calculate_entropy(text):
    """
    Calculate the entropy of the given text.
    
    Args:
        text (str): The input text to analyze
        
    Returns:
        float: The entropy value of the text
    """
    # Get character occurrences
    occurrences = count_character_occurrences(text)
    
    # Calculate total length of text
    total_chars = len(text)
    
    # Calculate entropy using the formula H(f) = -∑p(v)log₂p(v)
    entropy = 0
    for char, count in occurrences.items():
        # Calculate probability of each character
        probability = count / total_chars
        # Add to entropy (-p(v)log₂p(v))
        entropy -= probability * math.log2(probability)
        
    return entropy

def construire_arbre_huffman(texte):
    """
    Construit l'arbre de Huffman optimal pour le texte donné.
    
    Args:
        texte (str): Le texte à encoder
        
    Returns:
        Noeud: La racine de l'arbre de Huffman
    """
    # Obtenir les occurrences des caractères
    occurrences = count_character_occurrences(texte)
    
    # Créer une liste de nœuds, un pour chaque caractère
    liste_noeuds = [Noeud((char, freq)) for char, freq in occurrences.items()]
    
    # Trier la liste par fréquence (ordre croissant)
    liste_noeuds.sort(key=lambda noeud: noeud.donnee[1])
    
    # Construire l'arbre de Huffman
    while len(liste_noeuds) > 1:
        # Extraire les deux nœuds avec les fréquences les plus basses
        n1 = liste_noeuds.pop(0)
        n2 = liste_noeuds.pop(0)
        
        # Créer un nouveau nœud avec ces deux nœuds comme enfants
        nouveau_noeud = Noeud(('', n1.donnee[1] + n2.donnee[1]), n1, n2)
        
        # Ajouter le nouveau nœud à la liste
        liste_noeuds.append(nouveau_noeud)
        
        # Trier à nouveau la liste
        liste_noeuds.sort(key=lambda noeud: noeud.donnee[1])
    
    # Retourner la racine de l'arbre (seul élément restant dans la liste)
    return liste_noeuds[0] if liste_noeuds else None

def generer_codes_huffman(racine, code='', codes=None):
    """
    Génère les codes Huffman pour chaque caractère dans l'arbre.
    
    Args:
        racine (Noeud): La racine de l'arbre de Huffman
        code (str): Le code courant (initialement vide)
        codes (dict): Le dictionnaire pour stocker les codes (initialement vide)
        
    Returns:
        dict: Un dictionnaire où les clés sont les caractères et les valeurs sont leurs codes Huffman
    """
    if codes is None:
        codes = {}
    
    # Si c'est une feuille, stocker le code pour ce caractère
    if racine.est_feuille():
        if racine.donnee[0]:  # Si le caractère n'est pas vide
            codes[racine.donnee[0]] = code if code else '0'  # Si le code est vide (arbre avec un seul nœud), utiliser '0'
    else:
        # Parcourir les sous-arbres gauche et droit
        generer_codes_huffman(racine.gauche, code + '0', codes)
        generer_codes_huffman(racine.droit, code + '1', codes)
    
    return codes

def calculer_longueur_moyenne(codes, texte):
    """
    Calcule la longueur moyenne des codes Huffman pour le texte donné.
    
    Args:
        codes (dict): Le dictionnaire des codes Huffman
        texte (str): Le texte à encoder
        
    Returns:
        float: La longueur moyenne des codes en bits par caractère
    """
    total_bits = 0
    for char in texte:
        if char in codes:
            total_bits += len(codes[char])
    
    return total_bits / len(texte)

def afficher_arbre_huffman(noeud, niveau=0, prefixe=""):
    """
    Affiche l'arbre de Huffman sous forme hiérarchique.
    
    Args:
        noeud (Noeud): La racine de l'arbre à afficher.
        niveau (int): Le niveau actuel dans l'arbre (pour l'indentation).
        prefixe (str): Le préfixe pour indiquer gauche ('0') ou droite ('1').
    """
    if noeud is not None:
        # Afficher le nœud avec une indentation correspondant à son niveau
        print("  " * niveau + f"{prefixe}─ {noeud.donnee}")

        # Afficher les sous-arbres
        afficher_arbre_huffman(noeud.gauche, niveau + 1, "0")
        afficher_arbre_huffman(noeud.droit, niveau + 1, "1")




def main():
    """
    function to test the character counting and entropy calculation
    # Test text as specified in the exercise
    test_text = "si ton tonton tond mon tonton"
    
    # Test character occurrences function
    occurrences = count_character_occurrences(test_text)
    # Trier les occurrences avant la boucle for (par nombre d'occurrences, en ordre décroissant)
    sorted_occurrences = sorted(occurrences.items(), key=lambda item: item[1], reverse=True)
    print("Character occurrences:")
    for char, count in sorted_occurrences:
        print(f"'{char}': {count}")
    
    # Test entropy calculation function
    entropy = calculate_entropy(test_text)
    print(f"\nEntropy of the text: {entropy}")
    """

    """
    Fonction principale pour tester l'arbre de Huffman
    """
    # Textes à tester
    texte1 = "si ton tonton tond mon tonton"
    texte2 = "un chasseur sachant chasser"
    
    # Test pour le premier texte
    print(f"Texte 1: \"{texte1}\"")
    
    # Calculer l'entropie
    entropie1 = calculate_entropy(texte1)
    print(f"Entropie: {entropie1:.4f} bits/caractère")
    
    # Construire l'arbre de Huffman
    racine1 = construire_arbre_huffman(texte1)

    print("\nArbre de Huffman:")
    afficher_arbre_huffman(racine1)
    
    # Générer les codes Huffman
    codes1 = generer_codes_huffman(racine1)
    
    # Afficher les codes
    print("Codes Huffman:")
    for char, code in sorted(codes1.items()):
        print(f"'{char}': {code}")
    
    # Calculer la longueur moyenne
    longueur_moyenne1 = calculer_longueur_moyenne(codes1, texte1)
    print(f"Longueur moyenne: {longueur_moyenne1:.4f} bits/caractère")
    print(f"Comparaison avec l'entropie: {longueur_moyenne1 - entropie1:.4f} bits supplémentaires par caractère")
    
    print("\n" + "-" * 50 + "\n")
    
    # Test pour le deuxième texte
    print(f"Texte 2: \"{texte2}\"")
    
    # Calculer l'entropie
    entropie2 = calculate_entropy(texte2)
    print(f"Entropie: {entropie2:.4f} bits/caractère")
    
    # Construire l'arbre de Huffman
    racine2 = construire_arbre_huffman(texte2)
    
    # Générer les codes Huffman
    codes2 = generer_codes_huffman(racine2)
    
    # Afficher les codes
    print("Codes Huffman:")
    for char, code in sorted(codes2.items()):
        print(f"'{char}': {code}")
    
    # Calculer la longueur moyenne
    longueur_moyenne2 = calculer_longueur_moyenne(codes2, texte2)
    print(f"Longueur moyenne: {longueur_moyenne2:.4f} bits/caractère")
    print(f"Comparaison avec l'entropie: {longueur_moyenne2 - entropie2:.4f} bits supplémentaires par caractère")


if __name__ == "__main__":
    main()

Texte 1: "si ton tonton tond mon tonton"
Entropie: 2.5676 bits/caractère

Arbre de Huffman:
─ ('', 29)
  0─ ('', 13)
    0─ ('t', 6)
    1─ ('o', 7)
  1─ ('', 16)
    0─ ('n', 7)
    1─ ('', 9)
      0─ ('', 4)
        0─ ('', 2)
          0─ ('s', 1)
          1─ ('i', 1)
        1─ ('', 2)
          0─ ('d', 1)
          1─ ('m', 1)
      1─ (' ', 5)
Codes Huffman:
' ': 111
'd': 11010
'i': 11001
'm': 11011
'n': 10
'o': 01
's': 11000
't': 00
Longueur moyenne: 2.5862 bits/caractère
Comparaison avec l'entropie: 0.0187 bits supplémentaires par caractère

--------------------------------------------------

Texte 2: "un chasseur sachant chasser"
Entropie: 3.2040 bits/caractère
Codes Huffman:
' ': 001
'a': 101
'c': 010
'e': 1101
'h': 011
'n': 1100
'r': 000
's': 111
't': 1000
'u': 1001
Longueur moyenne: 3.2593 bits/caractère
Comparaison avec l'entropie: 0.0553 bits supplémentaires par caractère
