# Représentation des textes

À quoi servirait un ordinateur s'il ne pouvait pas afficher de texte?

Ainsi, hormis les nombres, il est indispensable d'avoir un codage pour chaque **caractère imprimable** et aussi **non imprimable** appelé **caractère de controle**.

Les **caractères de contrôle** correspondent à des *actions élémentaires* telles que «passer à la ligne», «supprimer le caractère précédent», «accuser réception», ...

De plus, ce codage doit être *universel* afin de pouvoir communiquer d'une machine à une autre.

## Codage ASCII (7 bits)

Ce codage à vu le jour dans les années 60 pour mettre de l'ordre dans le chao qui régnait à l'époque.

Il a été proposé par l'ANSI (**A**merican **N**ational **S**tandards **I**nstitute).

Il défini un jeu de **128** caractères codés sur un octet (même si le bit de poids fort est nul) dont la valeur est appelé **point de code** du caractère.

*ASCII*: **A**merican **S**tandard **C**ode for **I**nformation **I**nterchange

|       |   0   |   1   |   2   |   3   |   4   |   5   |   6   |   7   |   8   |   9  |   A   |   B   |   C  |   D  |   E  |   F   |
|-------|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:----:|:-----:|:-----:|:----:|:----:|:----:|:-----:|
| **0** | `NUL` | `SOH` | `STX` | `ETX` | `EOT` | `ENQ` | `ACK` | `BEL` |  `BS` | `HT` |  `LF` |  `VT` | `FF` | `CR` | `SO` |  `SI` |
| **1** | `DLE` | `DC1` | `DC2` | `DC3` | `DC4` | `NAK` | `SYN` | `ETB` | `CAN` | `EM` | `SUB` | `ESC` | `FS` | `GS` | `RS` |  `US` |
| **2** |  `SP` |   !   |   "   |   #   |   $   |   %   |   &   |   '   |   (   |   )  |   *   |   +   |   ,  |   -  |   .  |   /   |
| **3** |   0   |   1   |   2   |   3   |   4   |   5   |   6   |   7   |   8   |   9  |   :   |   ;   |   <  |   =  |   >  |   ?   |
| **4** |   @   |   A   |   B   |   C   |   D   |   E   |   F   |   G   |   H   |   I  |   J   |   K   |   L  |   M  |   N  |   O   |
| **5** |   P   |   Q   |   R   |   S   |   T   |   U   |   V   |   W   |   X   |   Y  |   Z   |   [   |   \  |   ]  |   ^  |   _   |
| **6** |   `   |   a   |   b   |   c   |   d   |   e   |   f   |   g   |   h   |   i  |   j   |   k   |   l  |   m  |   n  |   o   |
| **7** |   p   |   q   |   r   |   s   |   t   |   u   |   v   |   w   |   x   |   y  |   z   |   {   |  \|  |   }  |   ~  | `DEL` |

*Quelques explications*: 
- le caractère `b` (par exemple) a le **point de code** `62` (en base 16) soit 98 en base 10.
- Les caractères dont le point de code est situé entre `0` et `20` (32) et `7F` (127) sont appelés **caractères de contrôle** par opposition aux autres dits **caractères imprimables**.

  Ces caractères correspondent à des *actions* qui visent à contrôler des périphériques (écran, imprimante...) ou à fournir des informations sur «les flux de données». [Pour en savoir plus](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#Caract%C3%A8res_de_contr%C3%B4le)
  
  Certains peuvent être utile dans les chaînes de caractères en Python comme: `\t` (`HT`) tabulation horizontale, `\n` (`LF`) saut de ligne, ... 



Un texte codé en ASCII est simplement une séquence d'octets correspondant à cette séquence de caractères.

*Exemple*: Le texte `"Python est RoYaL!"` correspond à la suite d'octets (en hexa):
   
    P  y  t  h  o  n     e  s  t     R  o  Y  a  L  !
    50 79 74 68 6F 6E 20 65 73 74 20 52 6F 59 61 4C 21

#### Python 

La fonction `str.encode(encodage)` renvoie un tableau d'**octets** qui traduit la chaîne `str` dans le système d'`encodage` indiqué (par défaut `uft8` qui sera détaillé plus loin).

Voici un exemple:

In [None]:
chaine_exemple = "Python est RoYaL!"
# en ascii
octets = chaine_exemple.encode("ascii")
for octet in octets:
    # conversion de l'octet dans l'écriture hexadécimal
    print(hex(octet), end = " ")

La fonction `ord(caractere)` renvoie le point de code de `caractère`.

In [None]:
a, b, c = "e", "é", "è"
# en base 10 par défaut,
print( f"'{a}' a pour point de code: {ord(a)}, '{b}': {ord(b)}, '{c}': {ord(c)}" )
# en hexa {var:x} (en binaire avec :b)
print( f"'{a}' a pour point de code: {ord(a):x}, '{b}': {ord(b):x}, '{c}': {ord(c):x}" )

- Modifier ce code pour afficher le point de code de chaque lettre en hexadécimal.
- pourquoi les caractères 'é' et 'è' ne peuvent faire partie du codage ASCII?

La fonction `chr(point_de_code)` renvoie le caractère *unicode* correspondant au `point_de_code` indiqué. Tester là.

Bien sûr, le code ASCII ne suffit pas pour représenter tous les textes du monde: le caractère "œ" par exemple n'y figure pas! (et les lettres grecs, signes arabes, les idéogrammes chinois ....)

## Normes ISO 8859 - *International Standard Organisation*

Pour résoudre le problème de l'insuffisance de caractères, dans les années (19)80, l'ISO à proposé des **extensions de l'ASCII** utilisant les 8 bits (et non 7) permettant de coder 256 caractères ($2^8$).

Parmi ces **extensions** - *les 128 premiers caractères sont ceux de l'ASCII*! - on trouve:
- `latin-1` alias de `ISO-8858-1` pour l'europe occidentale,
- `latin-2` alias de `ISO-8859-2` pour l'europe centrale et de l'est,
- `ISO-8859-7` pour le Grec (n'est pas *latin* ...)
- `latin-9` alias de `ISO-8859-15` qui est une révision du *latin-1* (avec le caractère €)
- ... il y a seize tables au total - voir la [liste complète](https://en.wikipedia.org/wiki/ISO/IEC_8859#The_parts_of_ISO/IEC_8859)

Par exemple, en `latin-1`, on trouve les caractères supplémentaires `àéèêï` ... mais pas `œ` ni `€`. (on les trouve en `latin-9`). Pour les voir (explications un peu plus loin):

In [None]:
# Affichons les caractères imprimables du latin-1 et latin-9 (autre que ASCII)
points_de_code_decimal = [i for i in range(128, 256)]
octets = bytes(points_de_code_decimal)
# latin-1
print(octets.decode('iso-8859-1'))
print()
# latin-9 
print(octets.decode('iso-8859-15', 'ignore')) # il est instructif d'enlever le print ...
# NOTE: 'ignore' pour supprimer l'erreur lorsque le point de code n'est pas attribué.

Explications:
 - `bytes(entiers)` renvoie un tableau d'octets où chaque octet traduit l'entier correspondant de `entiers` (qui doit être entre 0 et 255!)
 - `bytes.decode(encodage)` renvoie la chaîne dont les caractères sont ceux qui correpondent aux octets de `bytes` (tableau d'octets) suivant l'`encodage` précisé.

Heureusement, tout cela a été rendu obsolète - dans une certaine mesure car on rencontre encore ces encodages! - par **Unicode**.

## Unicode

Les *ascii étendus* ce sont avérés insuffisants notamment pour gérer le problème des documents «multi-langues».

L'ISO a donc décider de créer un *jeu universel de caractères* (**UCS** pour *Universal Character Set*) dans sa norme `ISO-10646` qui est devenu **unicode**.

À chaque caractère - de contrôle ou imprimable - est associé un *nom* et un *point de code* unique:
- le point de code est sur 32 bits (4 octets) - donc $2^{32}\approx 4$ milliards de possibilités. En fait le *point de code* unicode le plus grand est `ox10FFFF`.
- Les 256 premiers points de code sont ceux de `latin-1`.

Pour désigner un **point de code** on utilise de manière conventionnelle la notation `U+<hexa>` où hexa comporte de 4 à 6 chiffres hexadécimaux.

### Python

On peut utiliser les notations `\uxxxx` (pour un point de code d'au plus 16 bits) et `\Uxxxxxxxxx` (pour un point de code d'au plus 32 bits) afin d'introduire le caractère correspondant.

In [None]:
print("Rester zen \u262F et en avant 🚀! \U0001F60E")

Dans les années 19(90), **Unicode** reprend cette norme ISO et définit plusieurs techniques de codage connus sous le doux nom de *Universal Transformation Format* (**UTF**):
- **UTF-8** (encodage le plus utilisé): compatible ASCII, le nombre d'octets par caractère est variable,
- UTF-16 et UTF-32 que nous n'aborderons pas.

## Encodage UTF-8

C'est devenu l'encodage le plus utilisé au monde et il est bon d'entrer un peu dans les détails.

Le 8 de UTF-8 signifie que le motif binaire d'un point de code comporte **au moins** 8 bits (1 octet).

*Note*: UTF-16 donc au moins 2 octets, UTF-32 au moins 4 octets (en fait exactement dans ce cas).

Chaque caractère - point de code - est représenté sur:
- 1 octet: ASCII (`U+0000` à `U+007F`),
- 2 octets: si le caractère a un point de code dans l'intervalle `U+0080` à `U+07FF`,
- 3 octets pour l'intervalle `U+0800` à `U+FFFF`,
- 4 octets pour l'intervalle `U+10000` à `U+10FFFF`.

| plages de points de code | Suite d'octets - *codet* - (en binaire)                                                  | bits significatifs | caractères             |
|:------------------------:|-------------------------------------------------------------------------------------------|:------------------:|------------------------|
| `U+0000` - `U+007F`      | $\color{red}{0}bbbbbbb$                                                                   |        0 à 7       | ASCII                  |
| `U+0080` - `U+07FF`      | $\color{red}{110}bbbbb~\color{red}{10}bbbbbb$                                              |       8 à 11       | Europe et Moyen-Orient |
| `U+0800` - `U+FFFF`      | $\color{red}{1110}bbbb~\color{red}{10}bbbbbb~\color{red}{10}bbbbbb$                       |       12 à 16      | autres alphabets       |
| `U+10000` - `U+10FFFF`   | $\color{red}{11110}bbb~\color{red}{10}bbbbbb~\color{red}{10}bbbbbb~\color{red}{10}bbbbbb$ |       17 à 21      | ...                    |

Par exemple, le point de code `10FFFF` s'exprime en binaire par $$000\underbrace{1\,0000\,1111\,1111\,1111\,1111}_{\text{bits significatifs}}$$soit $4\times 5+1 = {\bf 21}$ **bits significatifs**.

le caractère correspond aura donc un **codet de quatre octets** qu'on obtient en *insérant ses bits* au fur et à mesure dans les places manquantes indiquées par les $b$: 

$$\text{point de code: }\overline{1}\,\underline{0000}\,\overline{1111}\,\underline{1111}\,\overline{1111}\,\underline{1111} \\\text{codet UTF-8 correspondant: }\color{red}{11110}\overline{1}\underline{00}~\color{red}{10}\underline{00}\overline{1111}~\color{red}{10}\underline{1111}\overline{11}~\color{red}{10}\overline{11}\underline{1111}$$

*Exercice*: Trouver le codet UTF-8 de ☯ dont le point de code est **262F**

le point de code en hexadécimal **262F** correpond au motif binaire **0010 0110 0010 1111** soit 14 bits significatifs.

Son codet aura donc **trois octets** (voir tableau):
$$\text{point de code: }\overline{0110}\,\underline{0110}\,\overline{0010}\,\underline{1111} \\\text{codet UTF-8 correspondant: }\color{red}{1110}\overline{0010}~\color{red}{10}\underline{0110}\overline{00}~\color{red}{10}\overline{10}\underline{1111}$$

*Exercice*: Écrire la fonction `utf_8(pt_code)` qui renvoie le codet (sous la forme d'une chaîne) correspondant à `pt_code` (un `int`) en UTF-8.

In [None]:
def utf_8(entier): 
    bits = bin(entier)[2:]
    N = len(bits)
    
    assert N <= 21, "n'est pas un point de code valide (pour Unicode)"
    
    if N <= 7:
        bits = "0" * (7 - N) + bits
        return f"0{bits}"
    elif N <= 11:
        bits = "0" * (11 - N) + bits
        return f"110{bits[:5]} 10{bits[5:]}"
    elif N <= 16:
        bits = "0" * (16 - N) + bits
        return f"1110{bits[:4]} 10{bits[4:10]} 10{bits[10:]}"
    else:
        bits = "0" * (21 - N) + bits
        return f"11110{bits[:3]} 10{bits[3:9]} 10{bits[9:15]} 10{bits[15:]}"

# exemples d'utilisation
print(f"{chr(127)} de point de code 127 a le codet: {utf_8(127)}")
print(f"'à' de point de code {ord('à'):x} (hexa) a le codet: { utf_8(ord('à')) }")
print(f"'€' de point de code {ord('€'):x} (hexa) a le codet: { utf_8(ord('€')) }")
a, b, c = '\u262F', '\U0001F60E', '\U0010FFFF'
print(f"'{chr(0x262F)}' de point de code '262F' (hexa) a le codet: { utf_8(ord(a)) }")
print(f"'{chr(0x1F60E)}' de point de code '1F60E' (hexa) a le codet: { utf_8(ord(b)) }")
print(f"'{chr(0x10FFFF)}' de point de code '10FFFF' (hexa) a le codet: { utf_8(ord(c)) }")