# Les jeux de caractères codés

## Un *charset* ?

**Charset :** *Character set*, association d’un caractère abstrait avec une représentation numérique (décimale, octale, hexadécimale…)

Un *character set*, ou jeu de caractères, est indispensable à l’échange d’informations sur Internet. Le Morse, l’ASCII ou l’UTF-8 sont des exemples de jeux de caractères. Chaque système (serveur, BDD, système de fichiers…) doit savoir dans quel format sont échangées les informations.

## Principes de l’encodage de caractères

### Le décodage naturel des caractères

Le cerveau décode plus ou moins bien les caractères :

```txt
小さな猫は牛乳を飲んでいます。

Mały kot pije mleko.
```

Des traits forment des glyphes auxquels sont associés des caractères. Un processus de décodage par blocs est ensuite mobilisé pour obtenir des mots et des phrases. Exemple :

```txt
Lepetitchatboitdulait.
```

Segmentation + décodage (français) = « Le petit chat boit du lait. »

### Comment l’informatique encode-t-elle l’information ?

En informatique, l’unité de base qui sert à l’échange d’informations est le **bit**. Or, le bit ne peut revêtir que deux formes primordiales, `0` ou `1`. Utilisé isolément, un bit ne permettrait d’encoder que deux caractères. Par exemple, avec la table de conversion suivante :

|bit|caractère|
|:-:|:-:|
|`0`|a|
|`1`|b|

On obtiendrait pour le texte « Le petit chat boit du lait. » :

```txt
Le petit chat boit du lait.  
?? ????? ??0? 1??? ?? ?0??.
```

Clairement, un bit ne suffit pas pour encoder tous les caractères du message. Qu’en serait-il avec deux bits ?

|bit|caractère|
|:-:|:-:|
|`00`|a|
|`01`|b|
|`10`|c|
|`11`|d|

```txt
L  e   p  e  t  i  t  c  h  a  t  
?? ??  ?? ?? ?? ?? ?? 10 ?? 00 ??
b  o  i  t  d  u  l  a  i  t  .
01 ?? ?? ?? 11 ?? ?? 00 ?? ?? .
```

Si deux bits ne suffisent pas non plus, comment savoir, pour un message, le nombre nécessaire ? Faisons l’inventaire du besoin : $[L, e, p, t, i, c, h, a, b, o, d, u, l, .,  ] = 15 \text{ caractères}$ (ponctuation incluse). Sachant que 1 bit peut représenter 2 caractères ($2^1$) et 2 bits 4 caractères ($2^2$), il nous faudrait 4 bits  ($2^4$ caractères) pour représenter les 15 caractères du message.

## Code Baudot

**1832 :** code Morse
- caractère associé à signal (lumière, son, geste)
- communication souvent chiffrée

**1874 :** code Baudot

![Code Baudot](images/code-baudot.png)

- codage sur 5 bits
- $2^5$ soit 32 caractères
- 2 jeux de caractères, soit $2 \times 32 = 64$ caractères
- caractères spéciaux `LTRS` et `FIGS` pour basculer
- système probabiliste

**Exemple :** *On boit le thé à 16 heures.*

Encodage Baudot :

```
18 0C 04 19 18 06 10 04 12 01 04 10 14 01 04 03 04
1B 17 15 04 1F 14 01 07 0A 01 05 1B 1C
```

Transcription :

```
o n SP b o i t SP l e SP t h e SP a SP FIGS 1 6 SP
LTRS h e u r e s FIGS .
```

Remarques :

- `LTRS` et `FIGS` pour basculer entre jeux de caractères
- message commence probablement par une lettre
- certains caractères communs aux deux jeux (`SP` `LF`…)
- perte majuscules et diacritiques
- poids : $30 \text{ signes} \times 5 \text{ bits} = 150 \text{ bits}$ (232 en ASCII)

## Vers l’uniformisation

### ASCII

**ASCII :** *American Standard Code for Information Interchange* (1968)

- 62 caractères : A-Z, a-z, 0-9
- 33 contrôles : sauts, tabulations…
- 33 signes de ponctuation

Les 128 caractères sont codés sur 7 bits. Comme un octet comporte 8 bits, le premier est toujours fixé à 0.

| Lettre | Décimal  | Binaire |
|---|-----|----------|
| C | 67  | 01000011 |
| a | 97  | 01100001 |
| t | 116 | 01110100 |

**Avantage :** économie de stockage

**Limite :** prolifération de systèmes *ad hoc*

![Table ASCII](images/ascii.svg)

« Le petit chat boit du lait. » en ASCII :

```txt
01001100 01100101 00100000 01110000 01100101 01110100
01101001 01110100 00100000 01100011 01101000 01100001
01110100 00100000 01100010 01101111 01101001 01110100
00100000 01100100 01110101 00100000 01101100 01100001
01101001 01110100 00101110
```

Sur un terminal :

```bash
$ echo "Le petit chat boit du lait" | xxd -b
```

In [None]:
!echo "Le petit chat boit du lait" | xxd -b

Et, avec Python, la fonction `ord()` permet de renvoyer le point de code Unicode d’un caractère donné :

In [None]:
for c in "Le petit chat boit du lait.":
    print(f"{ c } => { ord(c) }")

Les spécifications de format permettent en plus d’en obtenir une représentation en binaire :

In [None]:
for c in "Le petit chat boit du lait.":
    print(f"{ c } => {ord(c) :08b}")

La fonction inverse, pour afficher le caractère associé à un point de code Unicode, est `chr()` :

In [None]:
chr(76)

**Remarques :**

- message ne tient pas compte des caractères de contrôle
- codage sur 7 bits
- 1er bit = 0
- poids information supérieur en binaire

Évolution du codage des protocoles de communication Internet sur 8 bits (soit 1 octet).

ASCII étendu à 256 caractères ($2^8$) :

- développement de l’ISO-8859-1 ou Latin1 pour les langues européennes, puis ISO-8859-15 (Latin9) qui introduit le symbole €
- langues asiatiques évoluent de leur côté
- documents illisibles à l’international, dès que l’on change les systèmes

### Unicode

**1991 :** Unicode 1.0 par le consortium Unicode

Représenter tout caractère (110 000 env.), peu importe le système d’écriture (alphabétique, syllabique, logographique…) :

- nom
- identifiant numérique

Compatible avec la norme ISO/CEI 10646 dont il est un sous-ensemble.

Chaque caractère dispose d’un point de code :

- préfixé `U+`
- base hexadécimale sur 4 à 6 caractères selon le plan

Points de code encodés selon un format (UTF-8, UTF-16…)

| Caractère | Nom  | Point de code | Représentation binaire UTF-8 |
|---|-----|----------|-----|
| ἐ | Lettre minuscule grecque epsilon esprit doux  | U+1F10 | `11100001 10111100 10010000`
| ㆞ | Marque d'annotation idéographique de la terre  | U+319E | `11100011 10000110 10011110` |
| ܬ | Lettre syriaque taw | U+072C | `11011100 10101100` |

### UTF-8

**1992 :** UTF-8 (*Universal character set Transformation Format 8 bits*) par Kenneth Thompson

Il s’agit d’un système de codage sur 4 octets maximum qui est rétrocompatible avec les anciens systèmes basés sur 1 octet.

![Martine écrit en UTF-8](images/martine-utf8.jpg)

Potentiellement, UTF-8 peut représenter $2^{32}$ (> 4 milliards) caractères soit l’ensemble de tous les systèmes d’écriture actuels. Il est proposé en 1996 au consortium Unicode et devient universel deux ans après.

**Question :** UTF-8 est-il 4 fois plus lourd que l’ASCII ? (4 octets vs 1)

| Caractère | ASCII  | UTF-8 |
|---|-----|----------|
| C | `01000011` | `01000011 00000000 00000000 00000000` |
| a | `01100001` | `01100001 00000000 00000000 00000000` |
| t | `01110100` | `01110100 00000000 00000000 00000000` |

**Faux !** UTF-8 à la fois compatible ASCII et Unicode !

| Caractère | ASCII  | UTF-8 |
|---|-----|----------|
| C | `01000011` | `01000011` |
| a | `01100001` | `01100001` |
| t | `01110100` | `01110100` |

**Caractéristiques :**

- 4 octets maximum
- si 1er bit vaut 0 : caractère ASCII donc 1 octet
- si 1er et 2e bits valent 11 : 1er octet d’une suite
- si 1er et 2e bits valent 10 : octet d’une suite

**Exemple :**

In [None]:
!echo "Mały kot pije mleko." | xxd -b

**Remarques :**

- ł = Unicode (`11000101 10000010`)
- autres = ASCII (1 octet, premier bit vaut 0)

**Conclusion :** UTF-8 cumule les avantages de l’ASCII et de l’Unicode.

## Encodages disponibles avec Python

Le module *encodings* permet de lister tous les encodages pris en charge par Python :

In [None]:
import encodings

list_encodings = set(encodings.aliases.aliases.values())

sorted_list = sorted(list_encodings)

print(sorted_list)