# Encodage et d√©codage du texte

## De quoi s'agit-il ?

Quand nous manipulons du texte, m√™me s'il appara√Æt "tel quel" sur les √©crans, en r√©alit√© il est cod√© en machine par une suite de 1 et de 0 (comme n'importe quelle donn√©e, voir [cours d'introduction √† la repr√©sentation des donn√©es](../Cours_Introduction_a_la_representation_des_donnees.ipynb)

![Encodage et Decodage](img/encodageDecodage.png)

 * Quand on **√©crit du texte** et qu'on l'**enregistre dans un fichier**, l'ordinateur r√©alise un **encodage**
 * Quand on **ouvre un fichier** contenant du texte pour l'**afficher** √† l'√©cran, l'ordinateur r√©alise un **d√©codage**

L'encodage se fait gr√¢ce √† des **tables** ou **norme** qui fait correspondre pour chaque caract√®re "humain" un nombre (donc une suite de 1 et de 0).

Il existe beaucoup de tables diff√©rentes, parmi lesquelles 3 sont √† conna√Ætre : la table **ASCII**, la table **ISO-8859-1** (encore appel√©e **Latin-1**) et la table **UNICODE**.
 
## ASCII
ASCII (*American Standard Code for Information Interchange*) est la **premi√®re norme** largement utilis√©e pour encoder des caract√®res.  Comme son nom l'indique cette norme est **am√©ricaine et elle n'inclut donc que les lettres latines non
accentu√©es** (en plus des chiffres, op√©rateurs math√©matiques, caract√®res de ponctuation ou de d√©limitation et certains caract√®res sp√©ciaux).

Voici les caract√®res de la table ASCII (les 33 premiers, et le dernier, ne sont pas imprimables) :

![table ascii](img/ASCII.png) _"Source : Wikipedia"_

Exemple : En ASCII, le carac√®re **'a'** est cod√© par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$  
Autrement dit, le caract√®re 'a' est **encod√©** en machine par la suite 0110 0001

### Quelques caract√©ristiques √† conna√Ætre sur la norme ASCII

* Chaque caract√®re est encod√© sur 1 octet (donc 8 bits) mais en pratique **7 bits** servent √† l'encodage (le 8√®me √©tant r√©serv√© pour d√©tecter les √©ventuelles erreurs de transmission). 


* La norme ASCII permet d'encoder uniquement $2^7 = 128$ caract√®res


* Les caract√®res accentu√©s ne sont pas encodables en ASCII

## ISO-8859-1 ou LATIN-1

Par la suite d'autres encodages ont vu le jour afin de pallier les limites de l'ASCII.  L'ISO-8859-1 a vu le jour en 1986 en Europe occidentale pour combler les caract√®res non encodables en ASCII. Pour le fran√ßais il manque cependant le ≈ì, le ≈í et le ≈∏ et, bien entendu, le symbole ‚Ç¨.  

Voici [la table des caract√®res ISO-8859-1](http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf) :

![latin1](img/iso-8859-1.png) _"Source : http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf"_

Exemple : En ISO-8859-1, le carac√®re **'√©'** est cod√© par le nombre $E9_{(16)} = 233 = 1110 1001_{(2)}$

### Quelques caract√©ristiques √† conna√Ætre sur la norme ISO-8859-1

* Chaque caract√®re est encod√© sur 1 octet (donc 8 bits)


* La norme ISO-8859-1 permet d'encoder uniquement $2^8 = 256$ caract√®res


* La norme ISO-8859-1 est **compatible avec la norme ASCII**. Ceci veut dire que les 128 caract√®res de la table ASCII poss√®de le m√™me encodage en ISO-8859-1.  
_Exemple : le carac√®re **'a'** est cod√© par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$ en ASCII comme en ISO-8859-1_


* La norme ISO-8859-1 permet d'encoder la plupart des caract√®res utilis√©s dans les langues d'Europe occidentale

## Comment manipuler l'encodage en Python

Les m√©thodes `encode` et `decode` permettent d'encoder er de d√©coder des cha√Ænes de caract√®res dans diff√©rentes normes. Exemples :

In [15]:
caractereEncode = '√©'.encode('latin1')

print(caractereEncode)

b'\xe9'


On retrouve bien que '√©' s'encode en $E9_{(16)}$ dans la norme ISO-8859-1.  

**Remarque :** 
* le `\x` montre bien que le r√©sultat est exprim√© en hexad√©cimal.
* le `b` montre que le r√©sultat est de type `bytes` (hors programme)

In [17]:
# La m√©thode decode permet bien de retrouver le caract√®re '√©'

caractereDecode = caractereEncode.decode('latin1')
print(caractereDecode)

√©


## Probl√®me d'encodage

 Il existe de [tr√®s nombreux encodages diff√©rents](https://fr.wikipedia.org/wiki/Codage_des_caract%C3%A8res#Jeux_de_caract%C3%A8res_cod%C3%A9s_populaires,_par_pays), chaque pays ou entreprise d√©veloppant sa propre norme en fonction de ses besoins.

Des probl√®mes d'affichage apparaissent lorsqu'un texte n'est pas d√©cod√© avec la m√™me norme utilis√©e pour son encodage, ce qui se manifeste par un "affichage √©trange" de certains caract√®res comme ici : un √É¬©trange probl√É¬®me d'affichage.
Cela arrive parfois (dans des mails, sur des sites web ou encore dans un fichier texte)

In [18]:
# Utilisation de la m√™me norme (latin1) pour l'encodage et le d√©codage : Pas de probl√®me d'affichage
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin1') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√®re No√´l est une ordure


In [19]:
# Utilisation d'une norme diff√©rente pour l'encodage (latin1) et le d√©codage(hp_roman8) : Probl√®me d'affichage
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('hp_roman8') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√íre No≈†l est une ordure


In [20]:
# Mais √ßa peut √™tre bien pire...
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('cp1026') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : <√Å¬Ä√∏Y√ä√Å¬Ä+?√î%¬Ä√Å√ã√à¬Ä√ç>√Å¬Ä?√ä√Ä√ç√ä√Å


In [21]:
# Certaines normes sont compatibles entre elles... du moins pour les caract√®res utilis√©s ici...
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin8') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√®re No√´l est une ordure


### Bilan et bonnes pratiques

* Lorsqu'on encode un texte : il faut toujours pr√©ciser l'encodage utilis√© !!

* Privil√©gier autant que possible un encodage "universel" : l'**UTF-8**  


**Exemple de bonne pratique :**

Ici Atom a √©t√© configur√© pour encoder le texte en **UTF-8** (voir en bas de la fen√™tre)  
En HTML, on pr√©cise gr√¢ce √† la balise `<meta>` que l'encodage utilis√© est UTF-8. Ainsi le navigateur sait avec quel norme il doit lire le fichier HTML (ce qui √©vite les probl√®mes d'affichage)

![atom](img/encodageAtom.png)

## [UTF-8](https://unicode-table.com)

Afin d'√©viter les probl√®mes d'affichage li√©s √† la profusion des normes, l'[UTF-8](https://fr.wikipedia.org/wiki/UTF-8) a √©t√© d√©velopp√© dans les ann√©es 90


* L'UTF-8 permet de repr√©senter plusieurs centaines de milliers de caract√®res, ce qui est suffisant pour toutes les langues vivantes ou mortes et √©galement de nombreux emojis indispensables üòá ...


* UTF-8 est **compatible avec l'ASCII**


* UTF-8 est **incompatible avec l'ISO-8859-1**


* UTF-8 est un **encodage de longueur variable**, contrairement √† l'ASCII et au codage ISO-8859-1. Certains caract√®res sont cod√©s sur un seul octet, ce sont les 128 caract√®res du codage ASCII.  Les autres caract√®res peuvent √™tre cod√©s sur 2, 3 ou 4 octets.  


* Avantage : Comme UTF-8 poss√®de tous les caract√®res du monde, il s'impose tr√®s largemement de nos jour, ce qui limite les probl√®mes d'encodage/d√©codage puisque tout le monde utilise UTF-8. Ainsi, Python3 utilise UTF-8, UTF-8 est aussi devenu le standard du web. **Par d√©faut, vous DEVEZ UTILISER UTF-8**


* Inconv√©nients : 
    * Perte de la correspondance _"1 caract√®re / 1 octet"_
    * UTF-8 est un codage qui (pour les caract√®res non ascii) utilise **plus de ressource m√©moire** que les autres normes pour encoder un texte