*TP réalisé par Rachel Blin dans le cadre du cours d'Alexandrina Rogozan*

# Codage par plage

L'objectif de ce TP est de réaliser le codage par plage de la séquence suivante :    

"*00000110000011101110010111000001101011100001101011*"

## Rassemblement des paires de signes

Dans un premier temps, on va rassembler les paires de signes présentes dans la séquence de la forme (plage, valeur) où plage représente le nombre de signes identiques successifs et valeur représente le nombre d'occurences.    

__Exemple__ :  
Pour le message Pour le message "babeecceddae" on obtient les paires de signes suivantes :  

(b,1), (a,1), (b,1), (e,2), (c,2), (e,1), (d,2), (a,1), (e,1).    

1) Transformez la séquence à coder en paires de signes.

In [1]:
s = "00000110000011101110010111000001101011100001101011"

def sequence_to_pair_of_sign(s):
    """
    A function that transforms a sequence into pairs of signs
    
    # Argument:
        - s: The sequence to be transformed
        
    # Return:
        A list of tuples containing a symbol and the lenght of its subsequence for the whole sequence
    """
    pairs = []
    char_temp = s[0]
    i = 1
    for char in s[1:]:
        if char == char_temp:
            i += 1
        else:
            pairs.append((char_temp, i))
            char_temp = char
            i = 1
    pairs.append((char_temp, i))
    return pairs

pairs = sequence_to_pair_of_sign(s)
print(pairs)        

[('0', 5), ('1', 2), ('0', 5), ('1', 3), ('0', 1), ('1', 3), ('0', 2), ('1', 1), ('0', 1), ('1', 3), ('0', 5), ('1', 2), ('0', 1), ('1', 1), ('0', 1), ('1', 3), ('0', 4), ('1', 2), ('0', 1), ('1', 1), ('0', 1), ('1', 2)]


## Encodage des paires de signes

Maintenant que la séquence a été transformée en paires de signes, chaque paire de signe peut être considérée comme un caractère à part entière. Ces caractères seront encodés avec un des algorithmes que nous avons vu dans les TP précédents au choix. Il est conseillé d'utiliser un algorithme comprenant des mots-codes variables comme l'algorithme de Huffman.

__Exemple__ :  
Pour le message Pour le message "babeecceddae" on obtient les paires de signes suivantes :  

(b,1), (a,1), (b,1), (e,2), (c,2), (e,1), (d,2), (a,1), (e,1)    

Ces paires de mots codes ont le nombre d'occurences suivantes :    

| Caractère | Nombre d'occurences |
|-----------|---------------------|
| (b,1)         | 2                   |
| (a,1)         | 2                   |
| (e,2)         | 1                   |
| (c,2)         | 1                   |
| (e,1)         | 2                   |
| (d,2)         | 1                   |

2) Encodez la séquence de paires de signes ainsi obtenue selon le codage de Huffman.

In [2]:
import operator
import collections

def unique(message):
    """ Returs all the uninque tuples in the sequence transformed into a list of tuples.
    
    # Argument:
        - message: The sequence of tuples (symbol, lenght)
        
    # Returns:
        - A list containing all the unique tuples of the sequence.
    """
    chars = [] 
    for char in message: 
        if char not in chars: 
            chars.append(char) 
    return chars

def occurencies(message):
    """ Counts the number of occurencies of the tuples in the sequence.
    
    # Argument:
        - message: The sequence transformed into a list of tuples.
    
    # Returns:
        - A dict containing the tuples (symbol,length) as keys and the number of occurencies of each tuple.
    """
    counts = []
    chars = unique(message)
    for char in chars:
        nb = message.count(char)
        counts.append(nb)
    occurencies = dict(zip(chars, counts))
    return occurencies

def order_by_values(dictionary):
    """ Helper function to order a dictionnary by its values.
    
    # Argument:
        - dictionary: The dictionary to order.
        
    # Returns:
        - An ordered list of tuples containing as first value the character and as second the number of occurencies
    
    """
    return sorted(dictionary.items(), key=operator.itemgetter(1))

print("Occurences des caractères dans le mot : ")
occ = occurencies(pairs)
print(occ)
print("\n")
print("Occurences ordonnées par ordre croissant : ")
sorted_occurencies = order_by_values(occ)
print(sorted_occurencies)

# Data simplification

def attributing_symbol_pair(sorted_occurencies):
    """
    A function attributing a symbol to each tuple contained in the sequence to be encoded.
    
    # Arguments:
        - sorted_occurences: A list of tuples containing the pair symbol, lenght and its number of occurences in the sequenced, in increasing number.
        
    # Return: 
        The new ordered list of symbols corresponding to unique tuples and its dictionary of conversion.
    """
    new_ordered_seq = []
    i = 0
    conversion_dict = dict()
    for element in sorted_occurencies:
        new_ordered_seq.append((str(i), element[1]))
        conversion_dict[str(i)] = element[0]
        i += 1
    return new_ordered_seq, conversion_dict

print("Séquence simplifiée : ")
new_ordered_seq, conversion_dict = attributing_symbol_pair(sorted_occurencies)
print(new_ordered_seq, "\n", conversion_dict) 

# Creation of the Tree type

class Tree(object):
    """ Tree object."""
    def __init__(self, g=None, d=None, data=None):
        """ Init function.
        
        # Arguments:
            - g: The left node of the tree.
            - d: The right node of the tree.
            - data: The data to be held in the node.
        """
        self.g = g
        self.d = d
        self.data = data

def update_list_node(list_node, new_node):
    """ Adds a node in the correct place in an ordered list of nodes.
    
    # Arguments:
        - list_node: The list of nodes we want to add the node to.
        - new_node: The node to be added.
    
    # Returns:
        - The list with the added node.
    """
    for index, node in enumerate(list_node):
        if node.data[1] >= new_node.data[1]:
            list_node[index:index] = [new_node]
            break
    else:
        list_node.append(new_node)
            
    return list_node

def Huffman(sorted_occurences):
    """ Creates the Huffman tree.
    
    # Argument:
        - sorted_occurences: The sorted occurencies of the message we wish to encode.
    
    # Returns:
        - The root of the Huffman tree.
    """
    list_node = [Tree(data=value) for value in sorted_occurences]
    
    while(len(list_node) > 1):
        node_left = list_node.pop(0)
        node_right = list_node.pop(0)
        new_data = (node_left.data[0] + node_right.data[0], node_left.data[1] + node_right.data[1])
        new_node = Tree(node_left, node_right, new_data)
        update_list_node(list_node, new_node)

    return list_node[0]
    

def display_graph(root_node):
    current_level = [root_node]
    nb_nodes = ""
    level = 0
    while current_level:
        next_level = list()
        nb_nodes = nb_nodes[:len(nb_nodes)//2]
        for node in current_level:
            print(nb_nodes + str(node.data))
            if node.g:
                next_level.append(node.g)
            if node.d:
                next_level.append(node.d)
            print("level : ", level)
            current_level = next_level
        level +=1
        
def get_dict_coding(graph):
    """ Creates the coding dictionnary.
    
    # Argument:
        - graph: The root of the Huffman tree.
    
    # Returns:
        - A coding dictionary.
    """
    current_level = [graph]
    nb_nodes = ""
    level = 0
    dict_Huffman = dict()
    while current_level:
        next_level = list()
        nb_nodes = nb_nodes[:len(nb_nodes)//2]
        for node in current_level:
            if node.g:
                next_level.append(node.g)
                seq = node.g.data[0]
                for char in seq:
                    if char in dict_Huffman:
                        dict_Huffman[char] += "1"
                    else:
                        dict_Huffman[char] = "1"
            if node.d:
                next_level.append(node.d)
                seq = node.d.data[0]
                for char in seq:
                    if char in dict_Huffman:
                        dict_Huffman[char] += "0"
                    else:
                        dict_Huffman[char] = "0"
            current_level = next_level
        level +=1
    return dict_Huffman

new_ordered_seq, conversion_dict = attributing_symbol_pair(sorted_occurencies)
Huffman_graph = Huffman(new_ordered_seq)

print("Affichage du graphe de séparation des symboles :")
display_graph(Huffman_graph)
print("\n")
dict_Huffman = get_dict_coding(Huffman_graph)
print("Affichage du dictionnaire des encodages de Huffman par caractère :")
print(dict_Huffman)

# Conversion of the Huffman dictionary

def conversion_dict_Huff(dict_Huffman, conversion_dict):
    """
    A function to convert the Huffman dictionary so it can use the real tuples symbol, length
    
    # Arguments:
        - dict_Huffman: The non converted Huffman dictionary 
        - conversion_dict: The dictionary of conversion
        
    # Return:
        A converted version of the Huffman dictionary so it can directly encode the sequence of tuples.
    """
    keys = list(dict_Huffman.keys()) 
    Huffman_conversion_dict = dict()
    for key in keys:
        Huffman_conversion_dict[conversion_dict[key]] = dict_Huffman[key]
    return(Huffman_conversion_dict)


# Encoding Huffman message

def encode_message(m, dict_Huffman):
    """ Encodes a given message.
    
    # Arguments:
        - m: The message to encode.
        - dict_Huffman: The coding dictionary.
    
    # Returns:
        - The encoded message.
    """
    message_Huffman = ""
    for char in m:
        message_Huffman = message_Huffman + dict_Huffman[char]
    return message_Huffman

Huffman_conversion_dict = conversion_dict_Huff(dict_Huffman, conversion_dict)
print("Dictionnaire de conversion : ", Huffman_conversion_dict)
message_Huffman = encode_message(pairs, Huffman_conversion_dict)
print("Message encodé : ")
print(message_Huffman)

Occurences des caractères dans le mot : 
{('0', 5): 3, ('1', 2): 4, ('1', 3): 4, ('0', 1): 6, ('0', 2): 1, ('1', 1): 3, ('0', 4): 1}


Occurences ordonnées par ordre croissant : 
[(('0', 2), 1), (('0', 4), 1), (('0', 5), 3), (('1', 1), 3), (('1', 2), 4), (('1', 3), 4), (('0', 1), 6)]
Séquence simplifiée : 
[('0', 1), ('1', 1), ('2', 3), ('3', 3), ('4', 4), ('5', 4), ('6', 6)] 
 {'0': ('0', 2), '1': ('0', 4), '2': ('0', 5), '3': ('1', 1), '4': ('1', 2), '5': ('1', 3), '6': ('0', 1)}
Affichage du graphe de séparation des symboles :
('5012634', 22)
level :  0
('5012', 9)
level :  1
('634', 13)
level :  1
('5', 4)
level :  2
('012', 5)
level :  2
('6', 6)
level :  2
('34', 7)
level :  2
('01', 2)
level :  3
('2', 3)
level :  3
('3', 3)
level :  3
('4', 4)
level :  3
('0', 1)
level :  4
('1', 1)
level :  4


Affichage du dictionnaire des encodages de Huffman par caractère :
{'5': '11', '0': '1011', '1': '1010', '2': '100', '6': '01', '3': '001', '4': '000'}
Dictionnaire de conversion :  {('

3) Calculer le taux de compression du message et conclure quant à la performance.

In [3]:
print("longueur du message: ", len(s))
print("longueur du message codage par plage : ", len(message_Huffman))

def compression_rate(len_source, len_coding):
    """
    A function to compute the compression rate of the message
    
    # Arguments:
        - len_source: The length of the source message
        - len_coding: The length of the obtained message
    """
    rate = 1 - (len_coding / len_source)
    return rate

rate_range_coding = compression_rate(len(s), len(message_Huffman))
print("Le taux de compression du codage par plage pour la séquence est : ", rate_range_coding)

longueur du message:  50
longueur du message codage par plage :  58
Le taux de compression du codage par plage pour la séquence est :  -0.15999999999999992


On en déduit donc que dans notre cas, le codage par plage donne un message plus long que celui en entrée. En effet le codage par plages est efficace seulement si les plages sont suffisemment grandes. 


Soit la séquence :     

"111111111111111000000111111000000000000000111111111111111"

4) Coder cette séquence en utilisant le codage par plage et conclure.

In [4]:
s = "111111111111111000000111111000000000000000111111111111111"

pairs = sequence_to_pair_of_sign(s)
occ = occurencies(pairs)
sorted_occurencies = order_by_values(occ)
new_ordered_seq, conversion_dict = attributing_symbol_pair(sorted_occurencies)
Huffman_graph = Huffman(new_ordered_seq)
print("Affichage du graphe de séparation des symboles :")
display_graph(Huffman_graph)
print("\n")
dict_Huffman = get_dict_coding(Huffman_graph)
Huffman_conversion_dict = conversion_dict_Huff(dict_Huffman, conversion_dict)
print("Dictionnaire de conversion : ", Huffman_conversion_dict)
message_Huffman = encode_message(pairs, Huffman_conversion_dict)
print("Message encodé : ")
print(message_Huffman)

print("longueur du message: ", len(s))
print("longueur du message codage par plage : ", len(message_Huffman))
rate_range_coding = compression_rate(len(s), len(message_Huffman))
print("Le taux de compression du codage par plage pour la séquence est : ", rate_range_coding)

Affichage du graphe de séparation des symboles :
('3201', 5)
level :  0
('3', 2)
level :  1
('201', 3)
level :  1
('2', 1)
level :  2
('01', 2)
level :  2
('0', 1)
level :  3
('1', 1)
level :  3


Dictionnaire de conversion :  {('1', 15): '1', ('0', 15): '01', ('0', 6): '001', ('1', 6): '000'}
Message encodé : 
1001000011
longueur du message:  57
longueur du message codage par plage :  10
Le taux de compression du codage par plage pour la séquence est :  0.8245614035087719


On constate ici que lorsque les plages sont plus grandes le taux de compression est bien plus élevé, 82% dans ce cas.