# Encodage et décodage du texte

## De quoi s'agit-il ?

Quand nous manipulons du texte, même s'il apparaît "tel quel" sur les écrans, en réalité il est codé en machine par une suite de 1 et de 0 (comme n'importe quelle donnée, voir [cours d'introduction à la représentation des données](../Cours_Introduction_a_la_representation_des_donnees.ipynb))

![Encodage et Decodage](img/encodageDecodage.png)

 * Quand on **écrit du texte** et qu'on l'**enregistre dans un fichier**, l'ordinateur réalise un **encodage**
 * Quand on **ouvre un fichier** contenant du texte pour l'**afficher** à l'écran, l'ordinateur réalise un **décodage**

L'encodage se fait grâce à une **table** ou **norme** qui fait correspondre pour chaque caractère "humain" un nombre (donc une suite de 1 et de 0).

Il existe beaucoup de tables différentes, parmi lesquelles 3 sont à connaître : la table **ASCII**, la table **ISO-8859-1** (encore appelée **Latin-1**) et la norme **UNICODE**.
 
## ASCII
ASCII (*American Standard Code for Information Interchange*) est la **première norme** largement utilisée pour encoder des caractères.  Comme son nom l'indique cette norme est **américaine et elle n'inclut donc que les lettres latines non
accentuées** (en plus des chiffres, opérateurs mathématiques, caractères de ponctuation ou de délimitation et certains caractères spéciaux).

Voici les caractères de la table ASCII (les 33 premiers, et le dernier, ne sont pas imprimables) :

![table ascii](img/ASCII.png) _"Source : Wikipedia"_

Exemple : En ASCII, le caractère **`a`** est codé par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$  
Autrement dit, le caractère **`a`** est **encodé** en machine par la suite 0110 0001

### Quelques caractéristiques à connaître sur la norme ASCII

* Chaque caractère est encodé sur 1 octet (donc 8 bits) mais en pratique **7 bits** servent à l'encodage (le 8ème étant réservé pour détecter les éventuelles erreurs de transmission). 


* La norme ASCII permet d'encoder uniquement $2^7 = 128$ caractères


* Les caractères accentués ne sont pas encodables en ASCII

## ISO-8859-1 ou LATIN-1

Par la suite d'autres encodages ont vu le jour afin de pallier les limites de l'ASCII.  L'ISO-8859-1 a vu le jour en 1986 en Europe occidentale pour combler les caractères non encodables en ASCII. Pour le français il manque cependant le œ, le Œ et le Ÿ et, bien entendu, le symbole €.  

Voici [la table des caractères ISO-8859-1](http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf) :

![latin1](img/iso-8859-1.png) _"Source : http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf"_

Exemple : En ISO-8859-1, le caractère **`é`** est codé par le nombre $E9_{(16)} = 233 = 1110 1001_{(2)}$

### Quelques caractéristiques à connaître sur la norme ISO-8859-1

* Chaque caractère est encodé sur 1 octet (donc 8 bits)


* La norme ISO-8859-1 permet d'encoder uniquement $2^8 = 256$ caractères


* La norme ISO-8859-1 est **compatible avec la norme ASCII**. Ceci veut dire que les 128 caractères de la table ASCII possède le même encodage en ISO-8859-1.  
_Exemple : le caractère **`a`** est codé par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$ en ASCII comme en ISO-8859-1_


* La norme ISO-8859-1 permet d'encoder la plupart des caractères utilisés dans les langues d'Europe occidentale

## Comment manipuler l'encodage en Python

Les méthodes `encode` et `decode` permettent d'encoder et de décoder des chaînes de caractères dans différentes normes. Exemples :

In [8]:
caractereEncode = 'é'.encode('iso-8859-1')

print(caractereEncode)

b'\xe9'


On retrouve bien que le caractère **`é`** s'encode en $E9_{(16)}$ dans la norme ISO-8859-1.  

**Remarque :** 
* le `b` montre que le résultat est de type `bytes` : qui correspond à la suite de 1 et de 0 stockée en machine, c'est-à-dire à l'encodage
* le `\x` montre que le résultat est exprimé en hexadécimal.

In [9]:
# La méthode decode permet bien de retrouver le caractère 'é'

caractereDecode = caractereEncode.decode('latin1')
print(caractereDecode)

é


**Activité :** Faire les exercices 1 à 5 de la feuille de TD

## Dans la jungle des normes d'encodage...

La norme ISO-8859-1 ne permet bien sûr pas d'encoder des caractères particuliers à certains alphabet (comme l'alphabet cyrillique par exemple). Ceci a conduit d'autres pays à créer leur propre norme. C’est pourquoi il n’y a pas une mais seize tables notées ISO-8859-1 à ISO-8859-16. Certaines de ces tables ont un nom simplifié (latin-1 à latin-10).

| Norme ISO|Zone|
|:--------:|:--:|
| 8859-1 (latin-1)|Europe occidentale|
|8859-2 (latin-2)|Europe centrale ou de l’est|
|8859-3 (latin-3)|Europe du sud|
|8859-4 (latin-4)|Europe du nord|
|8859-5|Cyrillique|
|8859-6|Arabe|
|...|...|
|8859-15 (latin-9)|Révision du latin-1 avec le symbole € |
8859-16 (latin-10)|Europe du sud-est

Néanmoins, avec ces seizes tables, il n’est toujours pas possible d’écrire en chinois, en japonais, etc... Et il est compliqué d’écrire en plusieurs langues dans le même document. Ainsi d'autres normes ont encore été créées. En plus de cela, certaines entreprises informatiques ont créées leur propre norme, comme Microsoft avec le [cp1252](https://fr.wikipedia.org/wiki/Windows-1252) utilisé par windows en Europe occidentale, dont la France. Et non **cp1252** n'est pas compatible avec la norme ISO-8859-1 !! 

Au final, il existe de [très nombreux encodages différents](https://fr.wikipedia.org/wiki/Codage_des_caract%C3%A8res#Jeux_de_caract%C3%A8res_cod%C3%A9s_populaires,_par_pays). Vous pouvez exécuter les lignes de code ci-dessous pour obtenir la liste des encodage que peut gérer python...

In [None]:
import encodings
>>> print(''.join('- ' + e + '\n' for e in sorted(set(encodings.aliases.aliases.values()))))

## ... Source de bugs informatiques et de problèmes d'affichage

Alice écrit un texte qu'elle enregistre dans un fichier. Cela peut être un mail, un fichier html, un code source python, un rapport écrit dans un logiciel de traitement de texte comme ~~Word~~ ou LibreOffice etc... Au moment où elle enregistre son texte, celui-ci est **ENCODE avec la norme d'encodage utilisée sur SA MACHINE A ELLE**

Ce texte est lu par Bob sur sa machine. Au moment où il ouvre le fichier produit par Alice, le texte est **DECODE avec la norme d'encodage utilisée sur SA MACHINE A LUI**

Si la norme utilisée par la machine d'Alice pour encoder et la norme utilisée par la machine de Bob pour décoder ne sont pas les mêmes, on peut avoir au mieux des **Ã©**trange probl**Ã¨**me d'affichage génant pour la lecture, au pire des bugs informatiques. 

**Activité :** Ouvrir les fichiers la_guerre_des_mondes.txt en choisissant le mauvais encodage.  
**Activité :** Ouvrir les pages web `premier.html` et `deuxieme.html`

### Illustration en python

In [10]:
# Utilisation de la même norme (latin1) pour l'encodage et le décodage : Pas de problème d'affichage
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin1') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le père Noël est une ordure


In [11]:
# Utilisation d'une norme différente pour l'encodage (latin1) et le décodage(hp_roman8) : Problème d'affichage
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('hp_roman8') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le pÒre NoŠl est une ordure


In [12]:
# Mais ça peut être bien pire...
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('cp1026') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : <ÁøYÊÁ+?Ô%ÁËÈÍ>Á?ÊÀÍÊÁ


In [13]:
# Certaines normes sont compatibles entre elles... du moins pour les caractères utilisés ici...
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin8') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le père Noël est une ordure


In [14]:
# Et parfois engendrer un bug
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('ascii') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 4: ordinal not in range(128)

## Bilan et bonnes pratiques sur l'encodage

* Lorsqu'on encode un texte : il faut toujours préciser l'encodage utilisé !!

* Privilégier autant que possible un encodage "universel" : l'**UTF-8**  

* Pour aller plus loin, lire [cette page](http://nsivaugelas.free.fr/premiere/fichiers/texte_encodage/encoding_sametmax.html)


**Exemple de bonne pratique :**

Ici Atom a été configuré pour **encoder** le texte en **UTF-8** (voir en bas de la fenêtre)  
En HTML, on précise grâce à la balise `<meta>` que l'encodage utilisé est UTF-8. Ainsi le navigateur sait avec quel norme il doit **décoder** le fichier HTML (ce qui évite les problèmes d'affichage)

![atom](img/encodageAtom.png)

## [UTF-8](https://unicode-table.com)

Afin de régler les problèmes d’encodages qui persistaient, l’[ISO](https://www.iso.org/fr/home.html) a défini un jeu universel de caractères appelé UCS (Universal Character Set), aussi appelé ISO-10646. Chaque caractère (lettre, symbole, idéogramme, emoji  😇 ... ) est associé à un entier positif en base 10 appelé [point de code](https://fr.wikipedia.org/wiki/Point_de_code). Il y a environ 150 000 caractères recensés dans cette norme, qui devrait contenir tous les symboles nécessaires pour toutes les langues existantes. La capacité maximale est fixée à 4 294 967 295 caractères, c’est-à-dire le maximum pouvant être représenté sur 32 bits. Les 256 premiers points de codecorrespondent à l’ISO-8859-1.  
On note en général **`U+xxxx` les points de code, où les x représentent des chiffres en hexadécimal**. Si c’est nécessaire, il est possible de rajouter des chiffres, mais il en faut au moins 4. Cette norme pose le problème de comporter beaucoup de 0 inutiles dans le cas d’un texte avec  des  caractères  des  tables  ASCII  ou  latin-1.  C’est  pourquoi  le  consortium  **Unicode** a proposé des techniques d’encodage. La plus utilisée est l'[UTF-8](https://fr.wikipedia.org/wiki/UTF-8), créé en 1992. L’idée est de pouvoir représenter les points de code sur un nombre variable d’octets, allant de 1 à 4. Ainsi lorsqu’on se restreint à l’ASCII, on n’utilise qu’un octet par caractère.

|points de code|Suite d’octets (en binaire)|bits significatifs|Caractères disponibles dans cet intervalle|
|:------------:|:-------------------------:|:----------------:|:----------------------------------------:|
|U+0000 à U+007F|0xxxxxxx|7|caractères ASCII|
|U+0080 à U+07FF|110xxxxx 10xxxxxx|11|alphabets d’Europe et du Moyen-Orient |
U+0800 à U+FFFF|1110xxxx 10xxxxxx 10xxxxxx|16|la quasi-totalité des alphabets actuels ([BMP](https://en.wikipedia.org/wiki/Plane_%28Unicode%29#Basic_Multilingual_Plane))|
U+10000 à U+10FFFF|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|21|tout le reste|

En UTF-8, les bits de poids fort du premier octet de la séquence codée forment une suite de 1 de longueur égale au nombre total d’octets (au moins 2) utilisés pour la séquence entière suivie d'un 0 et les octets suivants nécessaires ont leurs deux bits de poids fort positionnés à 10

L’UTF-16 utilise 2 ou 4 octets. Enfin, l’UTF-32 utilise 4 octets pour chaque caractère, ce qui est plus pratique pour la gestion des chaînes de caractères, mais bien plus gourmand en espace mémoire

> **Remarque :** Pour être complet, utiliser l'UTF-8 ne garantit pas à lui seul l'absence de problème d'affichage des "caractères exotiques". En effet, il faut encore s'assurer que le **glyphe** c'est-à-dire le dessin, correspondant à ce caractère existe bien dans la police utilisée 

### Quelques caractéristiques à connaître sur la norme UTF-8

* UTF-8 est **compatible avec l'ASCII**


* UTF-8 est **incompatible avec l'ISO-8859-1** (pour les 128 derniers caractères non ascii)


* UTF-8 est un **encodage de longueur variable**, contrairement à l'ASCII et au codage ISO-8859-1. Certains caractères sont codés sur un seul octet, ce sont les 128 caractères du codage ASCII.  Les autres caractères peuvent être codés sur 2, 3 ou 4 octets.  


* Avantage : Comme UTF-8 possède tous les caractères du monde, il s'impose très largemement de nos jour, ce qui limite les problèmes d'encodage/décodage puisque tout le monde (doit) utilise(r) UTF-8. Ainsi, Python3 utilise UTF-8, UTF-8 est aussi devenu le standard du web. **Par défaut, vous DEVEZ UTILISER UTF-8**


* Inconvénients : 
    * Perte de la correspondance _1 caractère $\Leftrightarrow$ 1 octet_
    * UTF-8 est un codage qui (pour les caractères non ascii) utilise **plus de ressource mémoire** que les autres normes pour encoder un texte
    
**Activité :** Faire avec le professeur l'exercice 11 de la feuille de TD