# Un jeu de caractères défectif

## Objectif

Établissez un jeu de caractères minimal pour encoder le poème *La môme néant* (1951) de Jean Tardieu :

```txt
Quoi qu’a dit ?
– A dit rin.
Quoi qu’a fait ?
– A fait rin.
A quoi qu’a pense ?
– A pense à rin.
Pourquoi qu’a dit rin ?
Pourquoi qu’a fait rin ?
Pourquoi qu’a pense à rin ?
– A’ xiste pas.
```

## Charger les données

Le texte est disponible dans un fichier texte du dossier *data* :

In [1]:
path_to_text = '../data/la-mome-neant.txt'

Chargez les données dans une variable `text` :

In [2]:
# your code here

with open(path_to_text) as file:
    text = file.read()

Vérifiez que les données sont correctement chargées :

In [3]:
if len(text) == 189 and isinstance(text, str):
    print("Le texte est bien chargé !")

Le texte est bien chargé !


## Préparer la table de conversion

L’objectif est d’associer à chaque caractère un numéro d’ordre en base décimale et un codage binaire. Par exemple, si les caractères *h* et *w* se trouvaient dans le texte et que nous les avions placés respectivement au troisième et septième rangs de notre jeu de caractère, on les représenteraient ainsi :

| character | decimal | binary  |
|-----------|---------|---------|
| h         | 2       | 010     |
| w         | 6       | 110     |

### Étape 1

Constituez une liste des caractères uniques présents dans le poème :

In [4]:
# your code here

characters = set( [ c for c in text ] )

Le poème doit être composé de vingt-quatre caractères différents:

In [5]:
if len(characters) == 24:
    print("Résultat correct !")

Résultat correct !


### Étape 2

Sachant qu’un bit ne peut représenter que deux caractères, enregistrez dans une variable `n` le nombre nécessaire pour afficher la totalité des caractères du poème :

In [6]:
# your code here

from math import ceil, log2

nb_chars = len(characters)
n = ceil(log2(nb_chars))

# or
n = len(f"{nb_chars - 1:b}")

In [14]:
ceil(log2(27))

5

In [16]:
2 ** 8

256

Constituez à présent une liste `bits` de tous les *n* bits qui seront nécessaires pour encoder le poème :

In [7]:
# your code here

bits = [ f"{idx:0{n}b}" for idx, c in enumerate(characters) ]

Fusionnez ensuite la liste des caractères et celle des représentations binaires afin d’obtenir une liste de tuples. Par exemple, pour nos caractères *h* et *w*, nous aurions :

```python
[('h', '010'), ('w', '110')]
```

In [8]:
# your code here

character_set = zip(characters, bits)

Dans un dernier temps, convertissez votre liste de tuples en dictionnaire.

In [9]:
# your code here

character_set = dict(character_set)

## Convertir le poème en bits

Grâce à votre table de conversion, encodez le poème selon votre jeu de caractères personnalisé :

In [10]:
# your code here

for c in text:
    print(character_set[c], end="")

001100100010000000010010101011010001011110110001011001100001011010010101100011111000100101000100010110011000010110100101010010000101010000110111100110010001000000001001010101101000101111011000101000001011000001011010010101100011111000100101000100010100000101100000101101001010100100001010100001101111000100010101011010001000000001001010101101000101111011000101100101010001010011101010000101011000111110001001010001000101100101010001010011101010000101001000010101001000010101000011011111010110000010000100101011010001000000001001010101101000101111011000101100110000101101001010100100001010100010101100011111010110000010000100101011010001000000001001010101101000101111011000101000001011000001011010010101001000010101000101011000111110101100000100001001010110100010000000010010101011010001011110110001011001010100010100111010100001010010000101010010000101010001010110001111100010010100010101110010100111000010111001101101000010110010101100111000011