# Encodage et décodage du texte

## De quoi s'agit-il ?

Quand nous manipulons du texte, même s'il apparaît "tel quel" sur les écrans, en réalité il est codé en machine par une suite de 1 et de 0 (comme n'importe quelle donnée, voir [cours d'introduction à la représentation des données](../Cours_Introduction_a_la_representation_des_donnees.ipynb)

![Encodage et Decodage](img/encodageDecodage.png)

 * Quand on **écrit du texte** et qu'on l'**enregistre dans un fichier**, l'ordinateur réalise un **encodage**
 * Quand on **ouvre un fichier** contenant du texte pour l'**afficher** à l'écran, l'ordinateur réalise un **décodage**

L'encodage se fait grâce à des **tables** ou **norme** qui fait correspondre pour chaque caractère "humain" un nombre (donc une suite de 1 et de 0).

Il existe beaucoup de tables différentes, parmi lesquelles 3 sont à connaître : la table **ASCII**, la table **ISO-8859-1** (encore appelée **Latin-1**) et la table **UNICODE**.
 
## ASCII
ASCII (*American Standard Code for Information Interchange*) est la **première norme** largement utilisée pour encoder des caractères.  Comme son nom l'indique cette norme est **américaine et elle n'inclut donc que les lettres latines non
accentuées** (en plus des chiffres, opérateurs mathématiques, caractères de ponctuation ou de délimitation et certains caractères spéciaux).

Voici les caractères de la table ASCII (les 33 premiers, et le dernier, ne sont pas imprimables) :

![table ascii](img/ASCII.png) _"Source : Wikipedia"_

Exemple : En ASCII, le caracère **'a'** est codé par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$  
Autrement dit, le caractère 'a' est **encodé** en machine par la suite 0110 0001

### Quelques caractéristiques à connaître sur la norme ASCII

* Chaque caractère est encodé sur 1 octet (donc 8 bits) mais en pratique **7 bits** servent à l'encodage (le 8ème étant réservé pour détecter les éventuelles erreurs de transmission). 


* La norme ASCII permet d'encoder uniquement $2^7 = 128$ caractères


* Les caractères accentués ne sont pas encodables en ASCII

## ISO-8859-1 ou LATIN-1

Par la suite d'autres encodages ont vu le jour afin de pallier les limites de l'ASCII.  L'ISO-8859-1 a vu le jour en 1986 en Europe occidentale pour combler les caractères non encodables en ASCII. Pour le français il manque cependant le œ, le Œ et le Ÿ et, bien entendu, le symbole €.  

Voici [la table des caractères ISO-8859-1](http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf) :

![latin1](img/iso-8859-1.png) _"Source : http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf"_

Exemple : En ISO-8859-1, le caracère **'é'** est codé par le nombre $E9_{(16)} = 233 = 1110 1001_{(2)}$

### Quelques caractéristiques à connaître sur la norme ISO-8859-1

* Chaque caractère est encodé sur 1 octet (donc 8 bits)


* La norme ISO-8859-1 permet d'encoder uniquement $2^8 = 256$ caractères


* La norme ISO-8859-1 est **compatible avec la norme ASCII**. Ceci veut dire que les 128 caractères de la table ASCII possède le même encodage en ISO-8859-1.  
_Exemple : le caracère **'a'** est codé par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$ en ASCII comme en ISO-8859-1_


* La norme ISO-8859-1 permet d'encoder la plupart des caractères utilisés dans les langues d'Europe occidentale

## Comment manipuler l'encodage en Python

Les méthodes `encode` et `decode` permettent d'encoder er de décoder des chaînes de caractères dans différentes normes. Exemples :

In [15]:
caractereEncode = 'é'.encode('latin1')

print(caractereEncode)

b'\xe9'


On retrouve bien que 'é' s'encode en $E9_{(16)}$ dans la norme ISO-8859-1.  

**Remarque :** 
* le `\x` montre bien que le résultat est exprimé en hexadécimal.
* le `b` montre que le résultat est de type `bytes` (hors programme)

In [17]:
# La méthode decode permet bien de retrouver le caractère 'é'

caractereDecode = caractereEncode.decode('latin1')
print(caractereDecode)

é


## Problème d'encodage

 Il existe de [très nombreux encodages différents](https://fr.wikipedia.org/wiki/Codage_des_caract%C3%A8res#Jeux_de_caract%C3%A8res_cod%C3%A9s_populaires,_par_pays), chaque pays ou entreprise développant sa propre norme en fonction de ses besoins.

Des problèmes d'affichage apparaissent lorsqu'un texte n'est pas décodé avec la même norme utilisée pour son encodage, ce qui se manifeste par un "affichage étrange" de certains caractères comme ici : un Ã©trange problÃ¨me d'affichage.
Cela arrive parfois (dans des mails, sur des sites web ou encore dans un fichier texte)

In [18]:
# Utilisation de la même norme (latin1) pour l'encodage et le décodage : Pas de problème d'affichage
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin1') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le père Noël est une ordure


In [19]:
# Utilisation d'une norme différente pour l'encodage (latin1) et le décodage(hp_roman8) : Problème d'affichage
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('hp_roman8') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le pÒre NoŠl est une ordure


In [20]:
# Mais ça peut être bien pire...
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('cp1026') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : <ÁøYÊÁ+?Ô%ÁËÈÍ>Á?ÊÀÍÊÁ


In [21]:
# Certaines normes sont compatibles entre elles... du moins pour les caractères utilisés ici...
chaine = "Le père Noël est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin8') #décodage

print("la chaîne originale :",chaine)
print("la chaîne décodée :",decodage)

la chaîne originale : Le père Noël est une ordure
la chaîne décodée : Le père Noël est une ordure


### Bilan et bonnes pratiques

* Lorsqu'on encode un texte : il faut toujours préciser l'encodage utilisé !!

* Privilégier autant que possible un encodage "universel" : l'**UTF-8**  


**Exemple de bonne pratique :**

Ici Atom a été configuré pour encoder le texte en **UTF-8** (voir en bas de la fenêtre)  
En HTML, on précise grâce à la balise `<meta>` que l'encodage utilisé est UTF-8. Ainsi le navigateur sait avec quel norme il doit lire le fichier HTML (ce qui évite les problèmes d'affichage)

![atom](img/encodageAtom.png)

## [UTF-8](https://unicode-table.com)

Afin d'éviter les problèmes d'affichage liés à la profusion des normes, l'[UTF-8](https://fr.wikipedia.org/wiki/UTF-8) a été développé dans les années 90


* L'UTF-8 permet de représenter plusieurs centaines de milliers de caractères, ce qui est suffisant pour toutes les langues vivantes ou mortes et également de nombreux emojis indispensables 😇 ...


* UTF-8 est **compatible avec l'ASCII**


* UTF-8 est **incompatible avec l'ISO-8859-1**


* UTF-8 est un **encodage de longueur variable**, contrairement à l'ASCII et au codage ISO-8859-1. Certains caractères sont codés sur un seul octet, ce sont les 128 caractères du codage ASCII.  Les autres caractères peuvent être codés sur 2, 3 ou 4 octets.  


* Avantage : Comme UTF-8 possède tous les caractères du monde, il s'impose très largemement de nos jour, ce qui limite les problèmes d'encodage/décodage puisque tout le monde utilise UTF-8. Ainsi, Python3 utilise UTF-8, UTF-8 est aussi devenu le standard du web. **Par défaut, vous DEVEZ UTILISER UTF-8**


* Inconvénients : 
    * Perte de la correspondance _"1 caractère / 1 octet"_
    * UTF-8 est un codage qui (pour les caractères non ascii) utilise **plus de ressource mémoire** que les autres normes pour encoder un texte