# <center><font face="arial" size="5" color=#0101DF>NUMERIQUE ET SCIENCES INFORMATIQUES Terminale NSI</font></center>
# https://cutt.ly/aTGQopm
#https://github.com/bhrigu123/huffman-coding/blob/master/huffman.py


## <font color=#013ADF>Séquence N° 4 : Projet "Compression selon la méthode de HUFMANN"</font>

On a et on aura toujours besoin de compresser les données, la réduction de la taille des fichiers facilitant leur stockage, leur transfert sur un réseau.
Plusieurs techniques sont utilisées, certaines avec pertes, d'autres sans pertes. N'hésitez pas à vous informer sur ces techniques pour votre culture personnelle.

Vous allez ici implémenter l'agorithme de compression sans perte de **David Albert Huffman**, qui l'a publié en 1952. 

### Principe

Le principe est coder un motif (ici des caractères) sur un nombre variable de bits, en utilisant peu de bits pour les caractères fréquents et plus de bits pour les caractères rares. Ce codage dépend donc du fichier à compresser. 
Les propriétés d'un tel codage doivent être les suivantes :

- Chaque caractère est codé sur un nombre différent de bits ;
- Les codes des caractères fréquents dans le fichier sont courts, ceux des caractères rares sont plus longs. Il utilise la notion de **code préfixe** ;

code préfixe : https://fr.wikipedia.org/wiki/Code_pr%C3%A9fixe
- Bien que les codes soient de longueur variable, on peut décoder le fichier compressé de façon unique.

En effet, lorsqu'on décode le fichier compressé en le lisant linéairement, dès que l'on reconnaît le code d'un caractère, on sait que l'on ne pourra pas le compléter en un autre code.

L'algorithme de Huffman, qui garantit ces propriétés, fonctionne de la façon suivante :
- On calcule d'abord les fréquences d'apparition de chaque caractère dans le fichier à compresser ;
- On calcule ensuite pour chaque caractère un code satisfaisant les propriétés énoncées précédemment ;
- On écrit ce code au début du fichier compressé (pour que le décompresseur y ait accès),suivi des données compressées elles-mêmes.

Pour calculer le code de chaque caractère, l'algorithme construit un arbre binaire par itérations :
- Les feuilles de l'arbre sont les caractères apparaissant dans le fichier ;
- Deux nœuds n1 et n2 de fréquences minimales sont choisis. On construit un nouveau nœud n qui devient :
    - père de n1 et n2, et dont la fréquence est la somme de celles de n1 et n2 ;
    - On répète l'étape précédente jusqu'à atteindre une unique racine.
    
Vous pouvez visualiser le processus en suivant le lien suivant : http://lwh.free.fr/pages/algo/compression/huffman.html


Si dans l'animation utilisée, vous saisissez le texte : "abracadabra", vous devriez obtenir un graphe ressemblant à celui ci-dessous.

On constate que la taille du texte qui contient 11 caractères est en bits est de 11 x 8 bits = 88 bits.

La compression a affecté aux caractères, les codes suivants :

a : 0
r : 10
b : 111
c : 1100
d : 1101

La lecture du code se fait en parcourant le graphe en profondeur (voir ci-dessous).

Pour 5 x a : 5 bits, 2 x r : 4 bits, 2 x b : 6 bits, 1 x c : 4 bits et 1 x d : 4 bits, soit un total de 23 bits que voici : 01111001100011010111100

Le taux de compression est de 26 % environ.

Lors de l'interprétation du message binaire :
- Le message commence par 0, ce ne peut être qu'un "a" ;
- Une serie de 1, 4 "1" successifs n'existe pas, donc c'est "b" avec le code "111" ;
- Un mot "100..." n'existe pas, c'est donc le "r" avec le code "10" ;
- Le code "01..." n'existe pas, il s'agit donc d'un "a" ;
- ...

<div class="alert alert-success">



<img src="Images/abracadabra.png" alt="Huffman" width=75% align=center>




<div>

### Travail demandé

1- On vous demande d'implémenter l'algorithme de HUFFMAN semi-adaptatif en suivant les contraintes ci-dessous. Dans sa version finale, l'application devra :

- Lire le texte à compresser dans un fichier ;
- Les caractères utilisés dans le message et leur fréquence d'apparition seront stockés dans un dictionnaire ;
- L'ensemble des caractères et leur code binaire associés seront stockés dans un dictionnaire ;
- Le texte compressé et son dictionnaire de décodage dans un fichier texte.

Voici quelques pistes de travail :
- On créera une classe **Noeud**. Vous serez amener à définir le comportement de la méthode spéciale `__lt__` afin de pouvoir comparer la fréquence de 2 objets de type Noeud lors de la construction de l'arbre ;
- Pour distinguer les feuilles et les noeuds internes de l'arbre, il faudra nommer les noeuds internes.
- Pour construire l'arbre, on utilisera la notion de **tas (heap)**, on importera le module **heapq** dont vous avez une démonstration ci-dessous (avec le lien vers la documentation);
- Pour pouvoir réaliser la décompression (semi-adaptatif), il nous faut le dictionnaire des codes affectés aux caractères. On peut imaginer sérialiser le dictionnaire (voir ci-dessous) et le placer dans le fichier compressé sauvegardé, sans le compresser lui-même.

2- Fatalement, il faut réaliser l'application inverse qui après lecture du fichier compressé et du dictionnaire de décodage, va restituer le message en clair.

*Remarques : Implicitement, il vous faut spécifier le typage des données, prévoir les assertions nécessaires, faire une approche la plus fonctionnelle possible.*

In [36]:
help(sorted)

Help on built-in function sorted in module builtins:

sorted(iterable, /, *, key=None, reverse=False)
    Return a new list containing all items from the iterable in ascending order.
    
    A custom key function can be supplied to customize the sort order, and the
    reverse flag can be set to request the result in descending order.



In [1]:
dico_sort={"a":1,"b":1,"c":1,"d":2,"f":3,"o":5}

In [2]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
https://docs.python.org/fr/3/library/heapq.html

"""
import heapq
save=[]
def test_heapq (dico:dict)->list:
    global save
    tas=[]
    for cle in dico:
        heapq.heappush(tas,(dico[cle],cle))
    while tas:
        valeur=heapq.heappop(tas)
        save.append(valeur)
        print(f'La plus petite valeur du tas était : {valeur}, tas : {tas}')
    return save # vide

# programme principal
if __name__=='__main__':
    sortietas=test_heapq(dico_sort)
    print(sortietas)

La plus petite valeur du tas était : (1, 'a'), tas : [(1, 'b'), (2, 'd'), (1, 'c'), (5, 'o'), (3, 'f')]
La plus petite valeur du tas était : (1, 'b'), tas : [(1, 'c'), (2, 'd'), (3, 'f'), (5, 'o')]
La plus petite valeur du tas était : (1, 'c'), tas : [(2, 'd'), (5, 'o'), (3, 'f')]
La plus petite valeur du tas était : (2, 'd'), tas : [(3, 'f'), (5, 'o')]
La plus petite valeur du tas était : (3, 'f'), tas : [(5, 'o')]
La plus petite valeur du tas était : (5, 'o'), tas : []
[(1, 'a'), (1, 'b'), (1, 'c'), (2, 'd'), (3, 'f'), (5, 'o')]


In [3]:
class Noeud:
    def __init__(self,cle:str,val=0, fg=None, fd=None):
        self.fils_gauche = fg
        self.fils_droit = fd
        self.cle = cle
        self.val = val
    
    def afficher(self, level=0):
        if self.fils_droit:
            self.fils_droit.afficher(level + 1)
        print(f"{' ' * 4 * level}{self.cle}")
        if self.fils_gauche:
            self.fils_gauche.afficher(level + 1)
    

In [4]:
n1=sortietas[0]
n2=sortietas[1]
a=Noeud(n1[1], n1[0])
b=Noeud(n2[1], n2[0])
c=Noeud(a.val+b.val, a.val+b.val, a, b)

In [5]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
https://docs.python.org/fr/3/library/heapq.html

"""
import heapq

def test_heapq (dico:dict)->list:
    tas=[]
    for cle in dico:
        heapq.heappush(tas,(dico[cle],cle))
    while tas:
        valeur=heapq.heappop(tas)
        print(f'La plus petite valeur du tas était : {valeur}, tas : {tas}')
    return tas # vide

# programme principal
if __name__=='__main__':
    lst1=['a','b','c','d','e']
    lst2=[4,2,1,3,0]
    dictionnaire={cle :valeur for cle, valeur in zip(lst1, lst2)}
    lst_sortie_tas=test_heapq(dictionnaire)

La plus petite valeur du tas était : (0, 'e'), tas : [(1, 'c'), (3, 'd'), (2, 'b'), (4, 'a')]
La plus petite valeur du tas était : (1, 'c'), tas : [(2, 'b'), (3, 'd'), (4, 'a')]
La plus petite valeur du tas était : (2, 'b'), tas : [(3, 'd'), (4, 'a')]
La plus petite valeur du tas était : (3, 'd'), tas : [(4, 'a')]
La plus petite valeur du tas était : (4, 'a'), tas : []


#### Sérialisation

In [6]:
"""
Rappel du format JSON
"""
import json

exemple={"musique":"rock", "nombre":6, "88":"bidon", "liste":[1,5,8], "dico":{"cle":"valeur"}, "etat":True}


# Transforme mon dictionnaire en chaine de caractères
chaine_json=json.dumps(exemple)

print(chaine_json)
print(type(chaine_json))

{"musique": "rock", "nombre": 6, "88": "bidon", "liste": [1, 5, 8], "dico": {"cle": "valeur"}, "etat": true}
<class 'str'>


#### Désérialisation

In [7]:
"""
Rappel du format JSON
"""
import json

dictionnaire=json.loads(chaine_json,encoding='utf-8')

print(dictionnaire)
print(type(dictionnaire))

{'musique': 'rock', 'nombre': 6, '88': 'bidon', 'liste': [1, 5, 8], 'dico': {'cle': 'valeur'}, 'etat': True}
<class 'dict'>


In [1]:
"""
Pour aller plus loin

Il faut être patient ...
"""

from urllib.request import urlretrieve

urlretrieve('https://www.gutenberg.org/files/2650/2650-0.txt', 'swann.txt')
file = open('swann.txt', 'r').read()
#print(file)

KeyboardInterrupt: 