# Encodage et d√©codage du texte

## De quoi s'agit-il ?

Quand nous manipulons du texte, m√™me s'il appara√Æt "tel quel" sur les √©crans, en r√©alit√© il est cod√© en machine par une suite de 1 et de 0 (comme n'importe quelle donn√©e, voir [cours d'introduction √† la repr√©sentation des donn√©es](../Cours_Introduction_a_la_representation_des_donnees.ipynb))

![Encodage et Decodage](img/encodageDecodage.png)

 * Quand on **√©crit du texte** et qu'on l'**enregistre dans un fichier**, l'ordinateur r√©alise un **encodage**
 * Quand on **ouvre un fichier** contenant du texte pour l'**afficher** √† l'√©cran, l'ordinateur r√©alise un **d√©codage**

L'encodage se fait gr√¢ce √† une **table** ou **norme** qui fait correspondre pour chaque caract√®re "humain" un nombre (donc une suite de 1 et de 0).

Il existe beaucoup de tables diff√©rentes, parmi lesquelles 3 sont √† conna√Ætre : la table **ASCII**, la table **ISO-8859-1** (encore appel√©e **Latin-1**) et la norme **UNICODE**.
 
## ASCII
ASCII (*American Standard Code for Information Interchange*) est la **premi√®re norme** largement utilis√©e pour encoder des caract√®res.  Comme son nom l'indique cette norme est **am√©ricaine et elle n'inclut donc que les lettres latines non
accentu√©es** (en plus des chiffres, op√©rateurs math√©matiques, caract√®res de ponctuation ou de d√©limitation et certains caract√®res sp√©ciaux).

Voici les caract√®res de la table ASCII (les 33 premiers, et le dernier, ne sont pas imprimables) :

![table ascii](img/ASCII.png) _"Source : Wikipedia"_

Exemple : En ASCII, le caract√®re **`a`** est cod√© par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$  
Autrement dit, le caract√®re **`a`** est **encod√©** en machine par la suite 0110 0001

### Quelques caract√©ristiques √† conna√Ætre sur la norme ASCII

* Chaque caract√®re est encod√© sur 1 octet (donc 8 bits) mais en pratique **7 bits** servent √† l'encodage (le 8√®me √©tant r√©serv√© pour d√©tecter les √©ventuelles erreurs de transmission). 


* La norme ASCII permet d'encoder uniquement $2^7 = 128$ caract√®res


* Les caract√®res accentu√©s ne sont pas encodables en ASCII

## ISO-8859-1 ou LATIN-1

Par la suite d'autres encodages ont vu le jour afin de pallier les limites de l'ASCII.  L'ISO-8859-1 a vu le jour en 1986 en Europe occidentale pour combler les caract√®res non encodables en ASCII. Pour le fran√ßais il manque cependant le ≈ì, le ≈í et le ≈∏ et, bien entendu, le symbole ‚Ç¨.  

Voici [la table des caract√®res ISO-8859-1](http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf) :

![latin1](img/iso-8859-1.png) _"Source : http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf"_

Exemple : En ISO-8859-1, le caract√®re **`√©`** est cod√© par le nombre $E9_{(16)} = 233 = 1110 1001_{(2)}$

### Quelques caract√©ristiques √† conna√Ætre sur la norme ISO-8859-1

* Chaque caract√®re est encod√© sur 1 octet (donc 8 bits)


* La norme ISO-8859-1 permet d'encoder uniquement $2^8 = 256$ caract√®res


* La norme ISO-8859-1 est **compatible avec la norme ASCII**. Ceci veut dire que les 128 caract√®res de la table ASCII poss√®de le m√™me encodage en ISO-8859-1.  
_Exemple : le caract√®re **`a`** est cod√© par le nombre $97 = 61_{(16)} = 0110 0001_{(2)}$ en ASCII comme en ISO-8859-1_


* La norme ISO-8859-1 permet d'encoder la plupart des caract√®res utilis√©s dans les langues d'Europe occidentale

## Comment manipuler l'encodage en Python

Les m√©thodes `encode` et `decode` permettent d'encoder et de d√©coder des cha√Ænes de caract√®res dans diff√©rentes normes. Exemples :

In [8]:
caractereEncode = '√©'.encode('iso-8859-1')

print(caractereEncode)

b'\xe9'


On retrouve bien que le caract√®re **`√©`** s'encode en $E9_{(16)}$ dans la norme ISO-8859-1.  

**Remarque :** 
* le `b` montre que le r√©sultat est de type `bytes` : qui correspond √† la suite de 1 et de 0 stock√©e en machine, c'est-√†-dire √† l'encodage
* le `\x` montre que le r√©sultat est exprim√© en hexad√©cimal.

In [9]:
# La m√©thode decode permet bien de retrouver le caract√®re '√©'

caractereDecode = caractereEncode.decode('latin1')
print(caractereDecode)

√©


**Activit√© :** Faire les exercices 1 √† 5 de la feuille de TD

## Dans la jungle des normes d'encodage...

La norme ISO-8859-1 ne permet bien s√ªr pas d'encoder des caract√®res particuliers √† certains alphabet (comme l'alphabet cyrillique par exemple). Ceci a conduit d'autres pays √† cr√©er leur propre norme. C‚Äôest pourquoi il n‚Äôy a pas une mais seize tables not√©es ISO-8859-1 √† ISO-8859-16. Certaines de ces tables ont un nom simplifi√© (latin-1 √† latin-10).

| Norme ISO|Zone|
|:--------:|:--:|
| 8859-1 (latin-1)|Europe occidentale|
|8859-2 (latin-2)|Europe centrale ou de l‚Äôest|
|8859-3 (latin-3)|Europe du sud|
|8859-4 (latin-4)|Europe du nord|
|8859-5|Cyrillique|
|8859-6|Arabe|
|...|...|
|8859-15 (latin-9)|R√©vision du latin-1 avec le symbole ‚Ç¨ |
8859-16 (latin-10)|Europe du sud-est

N√©anmoins, avec ces seizes tables, il n‚Äôest toujours pas possible d‚Äô√©crire en chinois, en japonais, etc... Et il est compliqu√© d‚Äô√©crire en plusieurs langues dans le m√™me document. Ainsi d'autres normes ont encore √©t√© cr√©√©es. En plus de cela, certaines entreprises informatiques ont cr√©√©es leur propre norme, comme Microsoft avec le [cp1252](https://fr.wikipedia.org/wiki/Windows-1252) utilis√© par windows en Europe occidentale, dont la France. Et non **cp1252** n'est pas compatible avec la norme ISO-8859-1 !! 

Au final, il existe de [tr√®s nombreux encodages diff√©rents](https://fr.wikipedia.org/wiki/Codage_des_caract%C3%A8res#Jeux_de_caract%C3%A8res_cod%C3%A9s_populaires,_par_pays). Vous pouvez ex√©cuter les lignes de code ci-dessous pour obtenir la liste des encodage que peut g√©rer python...

In [None]:
import encodings
>>> print(''.join('- ' + e + '\n' for e in sorted(set(encodings.aliases.aliases.values()))))

## ... Source de bugs informatiques et de probl√®mes d'affichage

Alice √©crit un texte qu'elle enregistre dans un fichier. Cela peut √™tre un mail, un fichier html, un code source python, un rapport √©crit dans un logiciel de traitement de texte comme ~~Word~~ ou LibreOffice etc... Au moment o√π elle enregistre son texte, celui-ci est **ENCODE avec la norme d'encodage utilis√©e sur SA MACHINE A ELLE**

Ce texte est lu par Bob sur sa machine. Au moment o√π il ouvre le fichier produit par Alice, le texte est **DECODE avec la norme d'encodage utilis√©e sur SA MACHINE A LUI**

Si la norme utilis√©e par la machine d'Alice pour encoder et la norme utilis√©e par la machine de Bob pour d√©coder ne sont pas les m√™mes, on peut avoir au mieux des **√É¬©**trange probl**√É¬®**me d'affichage g√©nant pour la lecture, au pire des bugs informatiques. 

**Activit√© :** Ouvrir les fichiers la_guerre_des_mondes.txt en choisissant le mauvais encodage.  
**Activit√© :** Ouvrir les pages web `premier.html` et `deuxieme.html`

### Illustration en python

In [10]:
# Utilisation de la m√™me norme (latin1) pour l'encodage et le d√©codage : Pas de probl√®me d'affichage
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin1') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√®re No√´l est une ordure


In [11]:
# Utilisation d'une norme diff√©rente pour l'encodage (latin1) et le d√©codage(hp_roman8) : Probl√®me d'affichage
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('hp_roman8') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√íre No≈†l est une ordure


In [12]:
# Mais √ßa peut √™tre bien pire...
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('cp1026') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : <√Å¬Ä√∏Y√ä√Å¬Ä+?√î%¬Ä√Å√ã√à¬Ä√ç>√Å¬Ä?√ä√Ä√ç√ä√Å


In [13]:
# Certaines normes sont compatibles entre elles... du moins pour les caract√®res utilis√©s ici...
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('latin8') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

la cha√Æne originale : Le p√®re No√´l est une ordure
la cha√Æne d√©cod√©e : Le p√®re No√´l est une ordure


In [14]:
# Et parfois engendrer un bug
chaine = "Le p√®re No√´l est une ordure"

encodage = chaine.encode('latin1') #encodage
decodage = encodage.decode('ascii') #d√©codage

print("la cha√Æne originale :",chaine)
print("la cha√Æne d√©cod√©e :",decodage)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 4: ordinal not in range(128)

## Bilan et bonnes pratiques sur l'encodage

* Lorsqu'on encode un texte : il faut toujours pr√©ciser l'encodage utilis√© !!

* Privil√©gier autant que possible un encodage "universel" : l'**UTF-8**  

* Pour aller plus loin, lire [cette page](http://nsivaugelas.free.fr/premiere/fichiers/texte_encodage/encoding_sametmax.html)


**Exemple de bonne pratique :**

Ici Atom a √©t√© configur√© pour **encoder** le texte en **UTF-8** (voir en bas de la fen√™tre)  
En HTML, on pr√©cise gr√¢ce √† la balise `<meta>` que l'encodage utilis√© est UTF-8. Ainsi le navigateur sait avec quel norme il doit **d√©coder** le fichier HTML (ce qui √©vite les probl√®mes d'affichage)

![atom](img/encodageAtom.png)

## [UTF-8](https://unicode-table.com)

Afin de r√©gler les probl√®mes d‚Äôencodages qui persistaient, l‚Äô[ISO](https://www.iso.org/fr/home.html) a d√©fini un jeu universel de caract√®res appel√© UCS (Universal Character Set), aussi appel√© ISO-10646. Chaque caract√®re (lettre, symbole, id√©ogramme, emoji  üòá ... ) est associ√© √† un entier positif en base 10 appel√© [point de code](https://fr.wikipedia.org/wiki/Point_de_code). Il y a environ 150 000 caract√®res recens√©s dans cette norme, qui devrait contenir tous les symboles n√©cessaires pour toutes les langues existantes. La capacit√© maximale est fix√©e √† 4 294 967 295 caract√®res, c‚Äôest-√†-dire le maximum pouvant √™tre repr√©sent√© sur 32 bits. Les 256 premiers points de codecorrespondent √† l‚ÄôISO-8859-1.  
On note en g√©n√©ral **`U+xxxx` les points de code, o√π les x repr√©sentent des chiffres en hexad√©cimal**. Si c‚Äôest n√©cessaire, il est possible de rajouter des chiffres, mais il en faut au moins 4. Cette norme pose le probl√®me de comporter beaucoup de 0 inutiles dans le cas d‚Äôun texte avec  des  caract√®res  des  tables  ASCII  ou  latin-1.  C‚Äôest  pourquoi  le  consortium  **Unicode** a propos√© des techniques d‚Äôencodage. La plus utilis√©e est l'[UTF-8](https://fr.wikipedia.org/wiki/UTF-8), cr√©√© en 1992. L‚Äôid√©e est de pouvoir repr√©senter les points de code sur un nombre variable d‚Äôoctets, allant de 1 √† 4. Ainsi lorsqu‚Äôon se restreint √† l‚ÄôASCII, on n‚Äôutilise qu‚Äôun octet par caract√®re.

|points de code|Suite d‚Äôoctets (en binaire)|bits significatifs|Caract√®res disponibles dans cet intervalle|
|:------------:|:-------------------------:|:----------------:|:----------------------------------------:|
|U+0000 √† U+007F|0xxxxxxx|7|caract√®res ASCII|
|U+0080 √† U+07FF|110xxxxx 10xxxxxx|11|alphabets d‚ÄôEurope et du Moyen-Orient |
U+0800 √† U+FFFF|1110xxxx 10xxxxxx 10xxxxxx|16|la quasi-totalit√© des alphabets actuels ([BMP](https://en.wikipedia.org/wiki/Plane_%28Unicode%29#Basic_Multilingual_Plane))|
U+10000 √† U+10FFFF|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|21|tout le reste|

En UTF-8, les bits de poids fort du premier octet de la s√©quence cod√©e forment une suite de 1 de longueur √©gale au nombre total d‚Äôoctets (au moins 2) utilis√©s pour la s√©quence enti√®re suivie d'un 0 et les octets suivants n√©cessaires ont leurs deux bits de poids fort positionn√©s √† 10

L‚ÄôUTF-16 utilise 2 ou 4 octets. Enfin, l‚ÄôUTF-32 utilise 4 octets pour chaque caract√®re, ce qui est plus pratique pour la gestion des cha√Ænes de caract√®res, mais bien plus gourmand en espace m√©moire

> **Remarque :** Pour √™tre complet, utiliser l'UTF-8 ne garantit pas √† lui seul l'absence de probl√®me d'affichage des "caract√®res exotiques". En effet, il faut encore s'assurer que le **glyphe** c'est-√†-dire le dessin, correspondant √† ce caract√®re existe bien dans la police utilis√©e 

### Quelques caract√©ristiques √† conna√Ætre sur la norme UTF-8

* UTF-8 est **compatible avec l'ASCII**


* UTF-8 est **incompatible avec l'ISO-8859-1** (pour les 128 derniers caract√®res non ascii)


* UTF-8 est un **encodage de longueur variable**, contrairement √† l'ASCII et au codage ISO-8859-1. Certains caract√®res sont cod√©s sur un seul octet, ce sont les 128 caract√®res du codage ASCII.  Les autres caract√®res peuvent √™tre cod√©s sur 2, 3 ou 4 octets.  


* Avantage : Comme UTF-8 poss√®de tous les caract√®res du monde, il s'impose tr√®s largemement de nos jour, ce qui limite les probl√®mes d'encodage/d√©codage puisque tout le monde (doit) utilise(r) UTF-8. Ainsi, Python3 utilise UTF-8, UTF-8 est aussi devenu le standard du web. **Par d√©faut, vous DEVEZ UTILISER UTF-8**


* Inconv√©nients : 
    * Perte de la correspondance _1 caract√®re $\Leftrightarrow$ 1 octet_
    * UTF-8 est un codage qui (pour les caract√®res non ascii) utilise **plus de ressource m√©moire** que les autres normes pour encoder un texte
    
**Activit√© :** Faire avec le professeur l'exercice 11 de la feuille de TD