*TP réalisé par Rachel Blin dans le cadre du cours d'Alexandrina Rogozan*

# Codage de Shannon-Fano

L'objectif de ce TP est de réaliser le codage de Shannon-Fano pour le message suivant :  
  
"*Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.*" (Albert Einstein)

## Simplification de la séquence

Afin de rendre la séquence plus simple à encoder, nous allons tout d'abord transformer la phrase de telle sorte à ce qu'elle ne contienne que des caractères présents dans les 26 lettres de l'alphabet en minuscule, sans accents, ainsi que les espaces.

La message à encoder devient donc :  
  
"*il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue*"

## Classification des symboles de la séquence par ordre d'occurences croissants

La première étape du codage de Shannon-Fano est de classer les symboles de la séquence à encoder par nombre d'occurences croissants.  
  
1) Dans un premier temps, répertoriez tous les caractères présents dans le message.

In [1]:
import numpy as np


m = "il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue"


def unique(message):
    
    chaine = "abcdefghijklmnopqrstuvwxyz"
    rep = list()
    for i in chaine : 
        for j in m : 
            if i == j : 
                rep = rep +  list(i) 
                
    return(np.unique(rep))

unique(m)

array(['a', 'b', 'c', 'd', 'e', 'f', 'h', 'i', 'j', 'l', 'm', 'n', 'o',
       'p', 'q', 'r', 's', 't', 'u', 'v', 'x'], dtype='<U1')

2) Calculez maintenant le nombre d'occurences de chacun de ces caractères dans le message et rangez ces occurences par nombre croissant.

In [2]:
import operator
import pandas as pd

def occurencies(message):
    
    chaine = "abcdefghijklmnopqrstuvwxyz"
    rep = list()
    for i in chaine : 
        for j in message : 
            if i == j : 
                rep = rep +  list(i) 
                
    return(pd.value_counts(rep, ascending = True))

occurencies(m)

q     1
j     1
f     1
b     2
v     2
c     2
m     2
h     2
x     2
p     2
d     3
o     3
r     4
l     5
t     5
a     6
n     7
u     8
s    10
i    12
e    17
dtype: int64

## Séparation des symboles en deux sous-groupes

Une fois les symboles classés par ordre d'occurence croissante, il est nécessaire de créer un graphe permettant de séparer les symboles en deux sous-groupes de façon à ce que le nombre total d'occurences soit sensiblement égal entre les deux sous-groupes. Il faut répéter l'opération de telle sorte à ce qu'à la fin du graphe, il ne reste plus q'un seul caractère dans chacune des branches. Ensuite, il faut attribuer au sous-groupe de gauche la valeur 0 et la valeur 1 au sous-groupe de droite.

__Exemple__ :  
Pour une séquence contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 1, 2, 2, 3) on obtient le graphe suivant : 

![graphe](TP_Shanon_Fano.png)

Ce qui donne donc le codage de Shannon-Fano suivant : 

| Caractère | Nombre d'occurences | Code Shannon-Fano |
|-----------|---------------------|-------------------|
| a         | 1                   | 000               |
| b         | 1                   | 001               |
| c         | 2                   | 01                |
| d         | 2                   | 10                |
| e         | 3                   | 11                |

3) Créez le graphe de séparation des symboles.

In [3]:
# Tree structure to hold the encoding data
class Tree(object):
    def __init__(self):
        self.g = None
        self.d = None
        self.data = []
        self.x_median = 0
        
    def set_data(self, l) :
        self.data = l
        
    def set_fils_g(self, t) : 
            self.g = t
            
    
    def set_fils_d(self, t) : 
            self.d = t 
            
    def rechercher_valeur(self,valeur):
        if self == None : 
                return False
        if valeur in self.data : 
                return True
  
        
    
        

def split_occurencies(sorted_occurencies):
     
    list_g,list_d = np.array_split(sorted_occurencies,2)
    
    return list_g,list_d




def Shannon_Fano(occurencies):
    
    """ Recursive function that encodes the coding tree for shannon fano coding.
    
    # Argument:
        - occurencies: The list of tuples containing the sorted occurencies

    # Return:
        - The coding tree corresponding the the given list of occurencies.
    
    """
    t = Tree()
    t.set_data(occurencies)
    
    list_g,list_d = split_occurencies(occurencies)
    
        
    tree_g = Tree()
    tree_d = Tree()
  
    
    if occurencies.size > 1 :
          
                       
        tree_g = Shannon_Fano(list_g)
        tree_d = Shannon_Fano(list_d)
        

    
    
    t.set_fils_g(tree_g)
    t.set_fils_d(tree_d)
            
    return(t)


            
    
def get_dict_codage_recursif(node,i,a) : 
    if (node == None or not node.rechercher_valeur(i)) :
        return ''

    else :
        return a + get_dict_codage_recursif(node.g,i,'0') + get_dict_codage_recursif(node.d,i,'1')
 

    
def get_dict_codage(node):
    """ Take a coding tree and return the associated coding dictionnary.
    
    # Argument:
        - node: The root node of the coding tree.

    # Return:
        - Dictionnary: The coding dictionnary.

    """
    
    dict_cod = dict(node.data)
    print(node.data)
    for i in dict_cod :        
        dict_cod[i] = get_dict_codage_recursif(node.g,i,'0') + get_dict_codage_recursif(node.d,i,'1')

    return dict_cod





In [4]:
print(get_dict_codage(Shannon_Fano(occurencies(m))))

q     1
j     1
f     1
b     2
v     2
c     2
m     2
h     2
x     2
p     2
d     3
o     3
r     4
l     5
t     5
a     6
n     7
u     8
s    10
i    12
e    17
dtype: int64
{'q': '00000', 'j': '00001', 'f': '0001', 'b': '00100', 'v': '00101', 'c': '0011', 'm': '01000', 'h': '01001', 'x': '0101', 'p': '0110', 'd': '0111', 'o': '10000', 'r': '10001', 'l': '1001', 't': '1010', 'a': '1011', 'n': '11000', 'u': '11001', 's': '1101', 'i': '1110', 'e': '1111'}


# 4) Effectuez maintenant le codage de Shannon-Fano.

In [5]:
def encode_message(m, dict_codage_Shannon_Fano):
    """ Helper function to encode a given message.
    
    # Arguments:
        - m: String, the message to encode
        - dict_coding_Shannon_Fano: Dictionnary containing the coding mapping

    # Return:
        - String, the coded message.
    """
    message_code = ''
    m = m.replace(" ","")
    for i in m :
        message_code = message_code + dict_codage_Shannon_Fano[i]

    return message_code

In [6]:
m_d = encode_message(m,get_dict_codage(Shannon_Fano(occurencies(m))))

q     1
j     1
f     1
b     2
v     2
c     2
m     2
h     2
x     2
p     2
d     3
o     3
r     4
l     5
t     5
a     6
n     7
u     8
s    10
i    12
e    17
dtype: int64


## Visualisation de l'encodage 

En se basant sur le codage binaire des caractères de la table ASCII, le message de départ est le suivant :  
"0100100101001100001000000100111001000101010110000100100101010011010101000100010100100000010100010101010101000101001000000100010001000101010101010101100000100000010000110100100001001111010100110100010101010011001000000100100101001110010001100100100101001110010010010100010101010011001000000100110001010101010011100100100101010110010001010101001001010011001000000100010101010100001000000100110001000001001000000100001001000101010101000100100101010011010001010010000001001000010101010100110101000001010010010100111001000101001000000100110101000001010010010101001100100000010100000100111101010101010100100010000001001100010101010100111001001001010101100100010101010010010100110010000001001010010001010010000001001110010000010100100100100000010100000100000101010011001000000100010001000101001000000100001101000101010100100101010001001001010101000101010101000100010001010010000001000001010000100101001101001111010011000101010101000101"

5) Que peut-on dire du rôle du codage de Shannon-Fano sur le message en entrée?

In [7]:
binaire = "0100100101001100001000000100111001000101010110000100100101010011010101000100010100100000010100010101010101000101001000000100010001000101010101010101100000100000010000110100100001001111010100110100010101010011001000000100100101001110010001100100100101001110010010010100010101010011001000000100110001010101010011100100100101010110010001010101001001010011001000000100010101010100001000000100110001000001001000000100001001000101010101000100100101010011010001010010000001001000010101010100110101000001010010010100111001000101001000000100110101000001010010010101001100100000010100000100111101010101010100100010000001001100010101010100111001001001010101100100010101010010010100110010000001001010010001010010000001001110010000010100100100100000010100000100000101010011001000000100010001000101001000000100001101000101010100100101010001001001010101000101010101000100010001010010000001000001010000100101001101001111010011000101010101000101"

def decoder_message(m, dict_codage_Shannon_Fano): 
    print(dict_codage_Shannon_Fano)
    message_decode = ''
    mot = ''
    
    for i in m :
        mot = mot + i 
        for k,val in dict_codage_Shannon_Fano.items():
            if mot == val:
                message_decode = message_decode + k
                mot = ''
    

    return message_decode


In [8]:
decoder_message(m_d,get_dict_codage(Shannon_Fano(occurencies(m))) )

q     1
j     1
f     1
b     2
v     2
c     2
m     2
h     2
x     2
p     2
d     3
o     3
r     4
l     5
t     5
a     6
n     7
u     8
s    10
i    12
e    17
dtype: int64
{'q': '00000', 'j': '00001', 'f': '0001', 'b': '00100', 'v': '00101', 'c': '0011', 'm': '01000', 'h': '01001', 'x': '0101', 'p': '0110', 'd': '0111', 'o': '10000', 'r': '10001', 'l': '1001', 't': '1010', 'a': '1011', 'n': '11000', 'u': '11001', 's': '1101', 'i': '1110', 'e': '1111'}


'ilnexistequedeuxchosesinfiniesluniversetlabetisehumainemaispourluniversjenaipasdecertitudeabsolue'

In [9]:
len(binaire),len(m_d)

(928, 420)

On peut voir que le codage à longueur variable en fonction de l'occurence de chaque lettre économise beaucoup de caractères. Le codage Shannon_Fano est plus optimal car il est plus court de plus de 50%!  