*TP réalisé par Rachel Blin dans le cadre du cours d'Alexandrina Rogozan*

# Codage Arithmétique
​
L'objectif de ce TP est de réaliser le codage Arithmétique du message suivant :  
  
"*Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.*" (Albert Einstein)
​
## Simplification de la séquence
​
Afin de rendre la séquence plus simple à encoder, nous allons tout d'abord transformer la phrase de telle sorte à ce qu'elle ne contienne que des caractères présents dans les 26 lettres de l'alphabet en minuscule, sans accents, ainsi que les espaces.
​
La message à encoder devient donc :  
  
"*il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue*"
​
## Classification des symboles de la séquence par ordre d'occurences croissants
​
La première étape du codage Arithmétique est de classer les symboles de la séquence à encoder par nombre d'occurences croissants.  
  
1) Dans un premier temps, répertoriez tous les caractères présents dans le message.

In [19]:
m = "il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue"

def unique(message): 
    """ Helper function that return a list of the unique characters in the input message.
    
    # Argument:
        - message: The input string to be processed.
    
    # Return:
        A list containing all the unique characters in the input string.
    """
    chars = [] 
    for char in message: 
        if char not in chars: 
            chars.append(char) 
    return chars

chars = unique(m)
print(chars)

['i', 'l', ' ', 'n', 'e', 'x', 's', 't', 'q', 'u', 'd', 'c', 'h', 'o', 'f', 'v', 'r', 'a', 'b', 'm', 'p', 'j']


2) Calculez maintenant le nombre d'occurences de chacun de ces caractères dans le message et rangez ces occurences par nombre croissant.

In [20]:
import operator

def occurencies(message):
    """ Function that counts the number of occurences in a message.
    
    # Argument:
        - message: The input string to be processed.
    
    # Return:
        A list of tuples containing each character and its number of occurences in the message.
    """
    chars = unique(message)
    occurencies = []
    for char in chars:
        nb = message.count(char)
        occurencies.append((nb, char))
    return occurencies

def order_by_values(occurencies_list):
    """A function that orders a list of occurences in increasing order.
    
    # Argument:
        - message: The occurencies list.
    
    # Return:
        The ordered occurencies list.
    """
    sorted_items = sorted(occurencies_list)
    return sorted_items

print("Occurences des caractères dans le mot : ")
occ = occurencies(m)
print(occ)
print("\n")
print("Occurences ordonnées par ordre croissant : ")
sorted_occurencies = order_by_values(occ)
print(sorted_occurencies)

Occurences des caractères dans le mot : 
[(12, 'i'), (5, 'l'), (19, ' '), (7, 'n'), (17, 'e'), (2, 'x'), (10, 's'), (5, 't'), (1, 'q'), (8, 'u'), (3, 'd'), (2, 'c'), (2, 'h'), (3, 'o'), (1, 'f'), (2, 'v'), (4, 'r'), (6, 'a'), (2, 'b'), (2, 'm'), (2, 'p'), (1, 'j')]


Occurences ordonnées par ordre croissant : 
[(1, 'f'), (1, 'j'), (1, 'q'), (2, 'b'), (2, 'c'), (2, 'h'), (2, 'm'), (2, 'p'), (2, 'v'), (2, 'x'), (3, 'd'), (3, 'o'), (4, 'r'), (5, 'l'), (5, 't'), (6, 'a'), (7, 'n'), (8, 'u'), (10, 's'), (12, 'i'), (17, 'e'), (19, ' ')]


## Création du tableau des intervalles

Afin de pouvoir procéder au codage Arithmétique, il est nécessaire de transformer le nombre d'occurences par lettre en probabilité d'apparition de celles-ci dans le mot. Cela permettra d'effectuer un tableau d'appartition des lettres dans le mot et ainsi de leur associer un intervalle. 

__Exemple__ :  
Pour le message "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3) on obtient le tableau suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  

3) Créez le tableau des intervalles correspondant à notre message.

In [21]:
import decimal

decimal.getcontext().prec = 140

def computation_probas(sorted_occurencies, message):
    """A function computing the probability of the character knowing its number of occurences in the message.
    
    # Arguments:
        - sorted_occurencies : A list of tuples containing each character of the string and its number of occurencies.
        - message: The input string to be processed.
    
    # Return:
        A list of tuples containing for each chracter its probability.
    """
    sorted_occurencies_probas = []
    for element in sorted_occurencies:
        sorted_occurencies_probas.append((decimal.Decimal(element[0]/len(message)), element[1]))
    return sorted_occurencies_probas
        
def computation_array(sorted_occurencies_probas):
    """The function associating a range to each character.
    
    # Arguments:
        - sorted_occurencies : A list of tuples containing each character of the string and its number of occurencies.
    
    # Return:
        A list of tuples containing for each character its probability and its range.
    """
    array = [(sorted_occurencies_probas[-1][1], sorted_occurencies_probas[-1][0], [0, sorted_occurencies_probas[-1][0]])]
    i = 0
    for element in reversed(sorted_occurencies_probas[0:len(sorted_occurencies_probas)-1]):
        lower_bound = array[i][2][1]
        upper_bound = lower_bound + element[0]
        array.append((element[1], element[0], [lower_bound, upper_bound]))
        i +=1
    return array

sorted_occurencies_probas = computation_probas(sorted_occurencies, m)
for element in sorted_occurencies_probas:
    print(element)
array = computation_array(sorted_occurencies_probas)
for element in array:
    print(element)

(Decimal('0.0086206896551724136734673464843581314198672771453857421875'), 'f')
(Decimal('0.0086206896551724136734673464843581314198672771453857421875'), 'j')
(Decimal('0.0086206896551724136734673464843581314198672771453857421875'), 'q')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'b')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'c')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'h')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'm')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'p')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'v')
(Decimal('0.017241379310344827346934692968716262839734554290771484375'), 'x')
(Decimal('0.0258620689655172410204020394530743942596018314361572265625'), 'd')
(Decimal('0.0258620689655172410204020394530743942596018314361572265625'), 'o')
(Decimal('0.03448275862068965469386938593743252567946910858

## Algorithme de la modification des bornes supérieures et inférieures

Le but du codage Arithmétique est de remplacer le message d'origine par un nombre flottant qui lui correspond. Le message va donc se transformer en nombre compris entre 0 et 1.   

L'algorithme pour trouver ce nombre et le suivant :  

__Initialisation__   
borne_inf = 0  
borne_sup = 1    

__Traitement__  
Pour caractère dans message :  
    new_borne_inf = borne_inf + (borne_sup - borne_inf) * borne_inf(caractère)  
    borne_sup = borne_inf + (borne_sup - borne_inf) * borne_sup(caractère)  
    borne_inf = new_borne_inf    
    
Pour illustrer cet algorithme, nous allons reprendre l'exemple plus haut.

__Exemple__ :  
Pour rappel, le message étudié est "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3). Le tableau d'intervalles qui résulte de ce message est le suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  
  
  
Pour la première lettre (b) on obtient les résultats suivants :  
borne_inf = 0.0 + (1 - 0.0) * 0.7 = 0.7
borne_sup = 0.0 + (1 - 0.0) * 0.9 = 0.9    

Pour la deuxième lettre (a) on on obtient les résultats suivants :  
borne_inf = 0.7 + (0.9 - 0.7) * 0.9 = 0.88
borne_sup = 0.7 + (0.9 - 0.7) * 1 = 0.9  

On répète l'opération jusqu'à obtenir le tableau suivant :    
    
| Caractère | Borne inférieure | Borne supérieure |
|-----------|---------------------|-------------------|
| initialisation | 0.0     | 1.0     |
| b         | 0.7     | 0.9     |
| a         | 0.88   | 0.9         |
| b         | 0.894     | 0.898     |
| e         | 0.894   | 0.8952          |
| c         | 0.8946     | 0.89484       |  
| e         | 0.8946       | 0.894672       |  
| c         | 0.894636     | 0.8946504         |  
| e         | 0.894636   | 0.89464032        |  
| d         | 0.894637296      | 0.89463816     |  
| d         |  0.8946375552  |  0.894637728 |    

Une fois tout ça calculé on en déduit que tous les nombres flottants compris entre 0.8946375552 et 0.894637728 est le format compressé du mot "babececedd"

4) Calculez le format compressé de notre message.

In [22]:
decimal.getcontext().prec = 140

def update_bounds(lower_bound, upper_bound, lower_bound_char, upper_bound_char):
    """A function to update the bounds of the encoded message.
    
    # Arguments:
        - lower_bound: The lower bound of the encoded message.
        - upper_bound: The upper bound of the encoded message.
        - lower_bound_char: The lower  bound of the character.
        - upper_bound_char: The upper bound of the character.
    
    # Return:
        The lower and upper bounds of the encoded message.
    """
    new_lower_bound = lower_bound + (upper_bound - lower_bound) * lower_bound_char
    new_upper_bound = lower_bound + (upper_bound - lower_bound) * upper_bound_char
    return new_lower_bound, new_upper_bound

def arithmetic_coding(probability_array, message):
    """A function to make the arithmetic coding of a message
    
    # Arguments:
        - probability_array: The array containing the probability of each character.
        - message: The message to be encoded.
    
    # Return:
        The arithmetic coding of the message.
    """
    coding = [("", 0, 1)]
    lower_bound = 0
    upper_bound = 1
    for char in message:
        for element in probability_array :
            if element[0] == char:
                lower_bound_char = element[2][0]
                upper_bound_char = element[2][1]
                lower_bound, upper_bound = update_bounds(lower_bound, upper_bound, lower_bound_char, upper_bound_char)
        coding.append((char, lower_bound, upper_bound))
    return coding

coding = arithmetic_coding(array, m)
for element in coding:
    print(element)
print("\n")
print("Le format compressé du message correspond à tous les nombres compris entre : ", coding[-1][1], " et ", coding[-1][2])

('', 0, 1)
('i', Decimal('0.3103448275862068783670366656224359758198261260986328125'), Decimal('0.41379310344827584244864482343473355285823345184326171875'))
('l', Decimal('0.38525564803804992028308748157413450253342752014922006822551847596318918762192673455047042807564139366149902343750'), Decimal('0.38971462544589772075604643075529503201771466757092379315215605425942084830137623896462173433974385261535644531250'))
(' ', Decimal('0.38525564803804992028308748157413450253342752014922006822551847596318918762192673455047042807564139366149902343750'), Decimal('0.38598599778588705999012148505479342410608983594076674990288901299262351645269345840119733841137045169619846039202733021633139748329810458927'))
('n', Decimal('0.38567119186009518941591011101639860514027073144660684938671587445720596582278736256274192548970244923969080415110438099586306719932284360654'), Decimal('0.38571526468970605129670512893481286460884085779570704654801480972914400982437123885906906471232533583625346192038865698

## Décompression

Afin de retrouver notre message de départ à partir du décimal reçu, il faut effectuer  un algorithme de décompression. Pour effectuer cette décompression, on va partir de la borne inférieure de l'intervalle correspondant au message reçu qu'on appellera nombre du mot. Le premier caractère du message est le caractère dont l'intervalle comprend le nombre du mot. Une fois ce caractère trouvé, on modifie le nombre représentant le mot par la formule suivante :    

nombre_du_mot = (nombre_du_mot - borne_inf_char)/proba_char

On va illustrer cette décompression toujours en revenant à notre exemple.

__Exemple__ :  
Pour rappel, le message étudié est "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3). Le tableau d'intervalles qui résulte de ce message est le suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  
    
Après calcul du codage Arithmétique de ce message, on en déduit que tous les nombres flottants compris entre 0.8946375552 et 0.894637728 est le format compressé du mot "babececedd".    

On a donc :  
nombre_du_mot = 0.8946375552

Le nombre du mot étant compris entre 0.7 et 0.9, il correspond donc à la lettre b. Le nombre du mot est donc mis à jour par la formule suivante :  
nombre_du_mot = (0.8946375552 - 0.7) / 0.2 = 0.973187776    

Le nombre du mot étant compris entre 0.9 et 1, c'est la lettre a qui est la suivante dans notre message. On répètera donc le processus jusqu'à obtenir le décodage du message illustré dans le tableau suivant :    

| Mot | Lettre | Nouveau code |
|-----------|---------------------|-------------------|
| initialisation | - | 0.8946375552 |
| - | b | 0.973187776 |
| b | a | 0.73187776 |
| ba | b | 0.1593888 |
| bab | e | 0.531296 |
| babe | c | 0.15648 |
| babec | e | 0.5216 |
| babece | c | 0.108 |
| babecec | e | 0.36 |
| babecece | d | 0.3 |
| babececed | d | 0 |
| babececedd | - | - |

5) Pour des raisons de gestions des décimales en Python, nous allons effectuer le travail de décodage sur un message plus court. Le message à encoder puis décoder est "*rouen*". Encodez ce message avec le codage Arithmétique puis décodez-le.

In [23]:
m = "rouen"

decimal.getcontext().prec = 140

occ = occurencies(m)
print(occ)
sorted_occurencies = order_by_values(occ)
probas = computation_probas(sorted_occurencies, m)
for element in probas:
    print(element)
array = computation_array(probas)
for element in array:
    print(element)
coding = arithmetic_coding(array, m)
print("Message encodé : ", coding[-1][1], "\n")

def arithmetic_decoding(arithmetic_coding, probability_array):
    """A function to decode the message.
    
    # Arguments:
        - arithmetic_coding: The arithmetic coding of the message.
        - probability_array: The probability of apparition of the characters.
    
    # Return:
        The decoded message.
    """
    nb_of_the_word = arithmetic_coding[-1][1]
    decoding = [("", "", nb_of_the_word)]
    word = ""
    stop = 0
    while nb_of_the_word > 0.000001:
        for i in range(len(probability_array)):
            if nb_of_the_word >= probability_array[i][2][0] and nb_of_the_word < probability_array[i][2][1]:
                lower_bound_char = probability_array[i][2][0]
                proba_char = probability_array[i][1]
                nb_of_the_word = (nb_of_the_word - lower_bound_char) / proba_char
                decoding.append((word, probability_array[i][0], nb_of_the_word))
                word = word + probability_array[i][0]
    decoding.append((decoding[-1][0]+decoding[-1][1], "", ""))
    return decoding 

decoding = arithmetic_decoding(coding, array)
print("Message décodé : ", decoding[-1][0])

[(1, 'r'), (1, 'o'), (1, 'u'), (1, 'e'), (1, 'n')]
(Decimal('0.200000000000000011102230246251565404236316680908203125'), 'e')
(Decimal('0.200000000000000011102230246251565404236316680908203125'), 'n')
(Decimal('0.200000000000000011102230246251565404236316680908203125'), 'o')
(Decimal('0.200000000000000011102230246251565404236316680908203125'), 'r')
(Decimal('0.200000000000000011102230246251565404236316680908203125'), 'u')
('u', Decimal('0.200000000000000011102230246251565404236316680908203125'), [0, Decimal('0.200000000000000011102230246251565404236316680908203125')])
('r', Decimal('0.200000000000000011102230246251565404236316680908203125'), [Decimal('0.200000000000000011102230246251565404236316680908203125'), Decimal('0.400000000000000022204460492503130808472633361816406250')])
('o', Decimal('0.200000000000000011102230246251565404236316680908203125'), [Decimal('0.400000000000000022204460492503130808472633361816406250'), Decimal('0.600000000000000033306690738754696212708950042724609375