*TP réalisé par Rachel Blin dans le cadre du cours d'Alexandrina Rogozan*

# Codage Arithmétique
​
L'objectif de ce TP est de réaliser le codage Arithmétique du message suivant :  
  
"*Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.*" (Albert Einstein)
​
## Simplification de la séquence
​
Afin de rendre la séquence plus simple à encoder, nous allons tout d'abord transformer la phrase de telle sorte à ce qu'elle ne contienne que des caractères présents dans les 26 lettres de l'alphabet en minuscule, sans accents, ainsi que les espaces et un point final qui fera office de symbole "end-of-data".
​
Le message à encoder devient donc :  
  
"*il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue.*"
​
## Classification des symboles de la séquence par ordre d'occurences croissants
​
La première étape du codage Arithmétique est de classer les symboles de la séquence à encoder par nombre d'occurences croissants.  
  
1) Dans un premier temps, répertoriez tous les caractères présents dans le message.

In [1]:
m = "il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue."

def unique(message):
    """ Helper function that return a list of the unique characters in the input message.
    
    # Argument:
        - message: The input string to be processed.
    
    # Return:
        A list containing all the unique characters in the input string.
    """
    
    chars = [ ] 
    for char in message: 
        if char not in chars: 
            chars.append(char) 
    return chars

chars = unique(m)
print(chars)

['i', 'l', ' ', 'n', 'e', 'x', 's', 't', 'q', 'u', 'd', 'c', 'h', 'o', 'f', 'v', 'r', 'a', 'b', 'm', 'p', 'j', '.']


2) Calculez maintenant le nombre d'occurences de chacun de ces caractères dans le message et rangez ces occurences par nombre croissant.

In [2]:
import operator

def occurences(message):
    """ Function that counts the number of occurences in a message.
    
    # Argument:
        - message: The input string to be processed.
    
    # Return:
        A list of tuples containing each character and its number of occurences in the message.
    """
    
    occurences = []
    chars = unique(message)
    for char in chars:
        nb = message.count(char)
        occurences.append((char, nb))
       
    return sorted(occurences, key=lambda x: x[1])

sorted_occurences = occurences(m)
print(sorted_occurences)

    
def order_by_values(occurencies_list):
    """A function that orders a list of occurences in increasing order.
    
    # Argument:
        - message: The occurencies list.
    
    # Return:
        The ordered occurencies list.
    """

[('q', 1), ('f', 1), ('j', 1), ('.', 1), ('x', 2), ('c', 2), ('h', 2), ('v', 2), ('b', 2), ('m', 2), ('p', 2), ('d', 3), ('o', 3), ('r', 4), ('l', 5), ('t', 5), ('a', 6), ('n', 7), ('u', 8), ('s', 10), ('i', 12), ('e', 17), (' ', 19)]


## Création du tableau des intervalles

Afin de pouvoir procéder au codage Arithmétique, il est nécessaire de transformer le nombre d'occurences par lettre en probabilité d'apparition de celles-ci dans le mot. Cela permettra d'effectuer un tableau d'appartition des lettres dans le mot et ainsi de leur associer un intervalle. 

__Exemple__ :  
Pour le message "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3) on obtient le tableau suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  

3) Créez le tableau des intervalles correspondant à notre message. Pour éviter de travailler avec des nombres inexacts, nous allons utiliser le type "Fraction" de la librairie fraction.

In [3]:
from fractions import Fraction

def calcul_probas(sorted_occurences, message):
    """A function computing the probability of the character knowing its number of occurences in the message.
    
    # Arguments:
        - sorted_occurencies : A list of tuples containing each character of the string and its number of occurencies.
        - message: The input string to be processed.
    
    # Return:
        A list of tuples containing for each chracter its probability.
    """
    
    proba_tot = len(message) 
    proba = []
    
    for i in range(len(sorted_occurences)): 
        proba += [[sorted_occurences[i][0],Fraction(sorted_occurences[i][1],proba_tot)]]
    
    return proba
        
    
def calcul_tableau(sorted_occurences_probas):
    """The function associating a range to each character.
    
    # Arguments:
        - sorted_occurencies : A list of tuples containing each character of the string and its number of occurencies.
    
    # Return:
        A list of tuples containing for each character its probability and its range.
    """
    tab_proba = []
    upper_bound = 1
    
    for i in sorted_occurences_probas :
        tab_proba += [[i[0],i[1], Fraction(upper_bound-i[1]), upper_bound]]
        upper_bound = Fraction(upper_bound-i[1]) 
        
    return tab_proba
    
calcul_tableau(calcul_probas(sorted_occurences,m))

[['q', Fraction(1, 117), Fraction(116, 117), 1],
 ['f', Fraction(1, 117), Fraction(115, 117), Fraction(116, 117)],
 ['j', Fraction(1, 117), Fraction(38, 39), Fraction(115, 117)],
 ['.', Fraction(1, 117), Fraction(113, 117), Fraction(38, 39)],
 ['x', Fraction(2, 117), Fraction(37, 39), Fraction(113, 117)],
 ['c', Fraction(2, 117), Fraction(109, 117), Fraction(37, 39)],
 ['h', Fraction(2, 117), Fraction(107, 117), Fraction(109, 117)],
 ['v', Fraction(2, 117), Fraction(35, 39), Fraction(107, 117)],
 ['b', Fraction(2, 117), Fraction(103, 117), Fraction(35, 39)],
 ['m', Fraction(2, 117), Fraction(101, 117), Fraction(103, 117)],
 ['p', Fraction(2, 117), Fraction(11, 13), Fraction(101, 117)],
 ['d', Fraction(1, 39), Fraction(32, 39), Fraction(11, 13)],
 ['o', Fraction(1, 39), Fraction(31, 39), Fraction(32, 39)],
 ['r', Fraction(4, 117), Fraction(89, 117), Fraction(31, 39)],
 ['l', Fraction(5, 117), Fraction(28, 39), Fraction(89, 117)],
 ['t', Fraction(5, 117), Fraction(79, 117), Fraction(28, 

## Algorithme de la modification des bornes supérieures et inférieures

Le but du codage Arithmétique est de remplacer le message d'origine par un nombre flottant qui lui correspond. Le message va donc se transformer en nombre compris entre 0 et 1.   

L'algorithme pour trouver ce nombre et le suivant :  

__Initialisation__   
borne_inf = 0  
borne_sup = 1    

__Traitement__  
Pour caractère dans message :  
    new_borne_inf = borne_inf + (borne_sup - borne_inf) * borne_inf(caractère)  
    borne_sup = borne_inf + (borne_sup - borne_inf) * borne_sup(caractère)  
    borne_inf = new_borne_inf    
    
Pour illustrer cet algorithme, nous allons reprendre l'exemple plus haut.

__Exemple__ :  
Pour rappel, le message étudié est "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3). Le tableau d'intervalles qui résulte de ce message est le suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  
  
  
Pour la première lettre (b) on obtient les résultats suivants :  
borne_inf = 0.0 + (1 - 0.0) * 0.7 = 0.7  
borne_sup = 0.0 + (1 - 0.0) * 0.9 = 0.9    

Pour la deuxième lettre (a) on on obtient les résultats suivants :  
borne_inf = 0.7 + (0.9 - 0.7) * 0.9 = 0.88  
borne_sup = 0.7 + (0.9 - 0.7) * 1 = 0.9  

On répète l'opération jusqu'à obtenir le tableau suivant :    
    
| Caractère | Borne inférieure | Borne supérieure |
|-----------|---------------------|-------------------|
| initialisation | 0.0     | 1.0     |
| b         | 0.7     | 0.9     |
| a         | 0.88   | 0.9         |
| b         | 0.894     | 0.898     |
| e         | 0.894   | 0.8952          |
| c         | 0.8946     | 0.89484       |  
| e         | 0.8946       | 0.894672       |  
| c         | 0.894636     | 0.8946504         |  
| e         | 0.894636   | 0.89464032        |  
| d         | 0.894637296      | 0.89463816     |  
| d         |  0.8946375552  |  0.894637728 |    

Une fois tout ça calculé on en déduit que tous les nombres flottants compris entre 0.8946375552 et 0.894637728 est le format compressé du mot "babececedd"

4) Calculez le format compressé de notre message.

In [4]:
def update_bounds(lower_bound, upper_bound, lower_bound_char, upper_bound_char):
    """A function to update the bounds of the encoded message.
    
    # Arguments:
        - lower_bound: The lower bound of the encoded message.
        - upper_bound: The upper bound of the encoded message.
        - lower_bound_char: The lower  bound of the character.
        - upper_bound_char: The upper bound of the character.
    
    # Return:
        The lower and upper bounds of the encoded message.
    """

    new_lower_bound = lower_bound + (upper_bound - lower_bound) *lower_bound_char
    upper_bound = lower_bound + (upper_bound - lower_bound) *upper_bound_char
    lower_bound = new_lower_bound
    
    return lower_bound,upper_bound
    
def arithmetic_coding(probability_array, message):
    """A function to make the arithmetic coding of a message
    
    # Arguments:
        - probability_array: The array containing the probability of each character.
        - message: The message to be encoded.
    
    # Return:
        The arithmetic coding of the message.

    """
    lower_bound = 0 
    upper_bound = 1
    for i in message :
        for j in probability_array :
            if i == j[0] : 
                lower_bound,upper_bound = update_bounds(lower_bound,upper_bound,j[2],j[3])
                
        
    return lower_bound,upper_bound

In [11]:

lower_bound,upper_bound = arithmetic_coding(calcul_tableau(calcul_probas(sorted_occurences,m)),m)
lower_bound, upper_bound

(Fraction(128412153169200988783424484232938540907182544254885193499248137532835704483122612762255347885303063177570702174972584319031278584182828663477848127026660587508329758275417112881523794282898015947531521432485797984071100185489957060, 336384294712353114063350279183244962030994145671351657996042557211308632260916606995650615941024673246635016358004287827908894919105393932800585126275368391209577064859525092338012473419464146810444500873889422595049480804373051717),
 Fraction(42804051056400329594474828077646180302394181418295064499749379177611901494374204254085115961767687725856900724990861439677092861394276221162597795172069427792852674156705318477822612578067793368213799424351679861357033395163319020, 112128098237451038021116759727748320676998048557117219332014185737102877420305535665216871980341557748878338786001429275969631639701797977600195042091789463736525688286508364112670824473154715603481500291296474198349826934791017239))

In [6]:
128412153169200988783424484232938540907182544254885193499248137532835704483122612762255347885303063177570702174972584319031278584182828663477848127026660587508329758275417112881523794282898015947531521432485797984071100185489957060/336384294712353114063350279183244962030994145671351657996042557211308632260916606995650615941024673246635016358004287827908894919105393932800585126275368391209577064859525092338012473419464146810444500873889422595049480804373051717

0.3817424154091617

## Décompression

Afin de retrouver notre message de départ à partir du décimal reçu, il faut effectuer  un algorithme de décompression. Pour effectuer cette décompression, on va partir de la borne inférieure de l'intervalle correspondant au message reçu qu'on appellera nombre du mot. Le premier caractère du message est le caractère dont l'intervalle comprend le nombre du mot. Une fois ce caractère trouvé, on modifie le nombre représentant le mot par la formule suivante :    

nombre_du_mot = (nombre_du_mot - borne_inf_char)/proba_char

On va illustrer cette décompression toujours en revenant à notre exemple.

__Exemple__ :  
Pour rappel, le message étudié est "babececedd" contenant les caractères (a, b, c, d, e) d'occurences respectives (1, 2, 2, 2, 3). Le tableau d'intervalles qui résulte de ce message est le suivant : 

| Caractère | Probabilité de la lettre | Intervalle |
|-----------|---------------------|-------------------|
| e         | 3/10                   | [0, 0.3[               |
| d         | 2/10                   | [0.3, 0.5[               |
| c         | 2/10                   | [0.5, 0.7[                |
| b         | 2/10                   | [0.7, 0.9[                |
| a         | 1/10                   | [0.9, 1[                |  
    
Après calcul du codage Arithmétique de ce message, on en déduit que tous les nombres flottants compris entre 0.8946375552 et 0.894637728 est le format compressé du mot "babececedd".    

On a donc :  
nombre_du_mot = 0.8946375552

Le nombre du mot étant compris entre 0.7 et 0.9, il correspond donc à la lettre b. Le nombre du mot est donc mis à jour par la formule suivante :  
nombre_du_mot = (0.8946375552 - 0.7) / 0.2 = 0.973187776    

Le nombre du mot étant compris entre 0.9 et 1, c'est la lettre a qui est la suivante dans notre message. On répètera donc le processus jusqu'à obtenir le décodage du message illustré dans le tableau suivant :    

| Mot | Lettre | Nouveau code |
|-----------|---------------------|-------------------|
| initialisation | - | 0.8946375552 |
| - | b | 0.973187776 |
| b | a | 0.73187776 |
| ba | b | 0.1593888 |
| bab | e | 0.531296 |
| babe | c | 0.15648 |
| babec | e | 0.5216 |
| babece | c | 0.108 |
| babecec | e | 0.36 |
| babecece | d | 0.3 |
| babececed | d | 0 |
| babececedd | - | - |

5) Encodez ce message avec le codage Arithmétique puis décodez-le.

In [20]:
m = "il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absolue."

def arithmetic_decoding(arithmetic_coding, probability_array):
    """A function to decode the message.
    
    # Arguments:
        - arithmetic_coding: The arithmetic coding of the message.
        - probability_array: The probability of apparition of the characters.
    
    # Return:
        The decoded message.
    """
    message_decode = ''
    
    while arithmetic_coding > 1e-20 : 
        for i in probability_array : 
            if (i[2]<=arithmetic_coding) and (i[3]>arithmetic_coding) :
                message_decode += i[0]
                arithmetic_coding = Fraction((arithmetic_coding-i[2])/(i[3]-i[2]))
                
    return message_decode

In [21]:
arithmetic_decoding(upper_bound,calcul_tableau(calcul_probas(sorted_occurences,m)))

'il nexiste que deux choses infinies lunivers et la betise humaine mais pour lunivers je nai pas de certitude absoluej '