<center><h1 style="color:#702637">TP : Encodages de caractères<h1></center>

Python est un langage de haut niveau. Ses concepteurs essaient de le rendre le plus proche possible de l'esprit humain.

Ainsi on peut écrire :

In [None]:
'a' < 'b'

Cela semble logique : dans l'ordre alphabétique, `a` est bien avant `b`. On peut donc dire que `a` est "inférieur" à `b`. 

Mais dans ce cas que dire de :

In [None]:
'à' < 'b'

Dans l'ordre alphabétique, cela ne colle pas... Comment Python compare-t-il les caractères ?

Et surtout comment les caractères et les textes sont-ils codés dans l'ordinateur ?

Quelle suite de $0$ et de $1$ permet de coder les caractères `a`, `b` et `à`?

## <span style="color:#702637; text-decoration:underline;">I. Le code ASCII :</span>

Au début de l'informatique, de nombreuses façon de coder les caractères existaient.

Si l'on achetait deux machines de fabriquants différents il était probable que leurs façons de coder les textes soient différente...

Au début des années $1960$, l'_Organisation Internationale de Normalisation_ prend le problème en main.

L'_American Standart Association_ se charge du développement d'une norme ce codage des caractères pour les Etats-Unis.

Cette norme est l'**ASCII** pour _American Standard Code for Information Interchange_ et est publiée pour la première fois en $1963$. Elle s'impose au niveau international.

En ASCII, chaque caractère est codé sur $8$ bits mais en fait le bit de poids fort n'est jamais utilisé. Un caractère occupe donc $7$ bits ce qui fait $2^7 = 128$ caractères possibles :

![Table ASCII](ascii.png)

On le voit, à chaque caractère est associé un nombre.

Ainsi, le `A` est codé par $65$ en décimal ou $41$ en hexadécimal ou $1000001$ en binaire.

Le standart est astucieux : le `a` est codé par $97$, il est donc $32$ caractères après le `A`. Leurs codes binaires diffèrent donc peu ($1100001$ pour le `a`).

Python connaît cette table. Les fonctions `ord` et `chr` permettent de passer d'un caractère à son code et réciproquement :

In [None]:
ord('A')

In [None]:
chr(65)

On peut ainsi, très facilement faire du code de César (décalage de la lettre dans l'alphabet) :

In [None]:
cle = 8

texte_clair = "Hello World"

texte_code = ""
for lettre in texte_clair :
    numero = ord(lettre)
    texte_code += chr(numero + cle)

print(texte_code)


texte_decode = ""
for lettre in texte_code :
    numero = ord(lettre)
    texte_decode += chr(numero - cle)

print(texte_decode)

**Exercice :** Utiliser la remarque concernant les codes ASCII de majuscule et minuscule d'une même lettre pour écrire une fonction `maj_2_min( )` prenant en paramètre une lettre majuscule et renvoyant la lettre minuscule correspondante. 

In [None]:
# Entrer votre code ici

L'ASCII a tout de même un (très) gros défaut : il ne code que les caractères américains. Pas d'accents, pas d'idéogrammes chinois, de lettres arabes... Il a donc fallu compléter cela.

## <span style="color:#702637; text-decoration:underline;">II. La norme ISO-8859-1 :</span>

Afin de pallier les manques d'ASCII, de nouvelles tables ont été créées.

L'une d'entre elle, la table **ISO-8859-1** a été reconnue comme standart pour internet.

Elle complète la table ASCII en utilisant les $8$ bits du codage. On peut donc désomais coder jusqu'à $256$ caractères ce qui est suffisant pour écrire le français (quoique, le &#x153; de &#x153;sophage manque à l'appel...)

![ISO-8859-1](iso-8859-1.png)

Une étude attentive montre que les $128$ premiers caractères sont les mêmes que dans la table ASCII (retro-compatibilité !).

En fait, Python connaît aussi cette norme :

In [None]:
ord('ÿ')

In [None]:
chr(254)

Cette table permet d'expliquer notre comparaison initiale : on a `à` > `b` car leur numéros de caractères sont $e0_{16} = 224_{10}$ et $62_{16} = 98_{10}$.

On a donc de même :

In [None]:
'à' < 'â' < 'ã'

Cette nouvelle table est utilisée pour les textes européens. Elle est même courament appelée `latin1` (elle met en forme l'alphabet latin).

Toutefois, on a toujours pas d'idéogrammes, de lettres arabes... Il existe bien des tables adaptées à différentes langues mais aucune commune à toute. Ainsi, si vous échangez avec un camarade en Chine, vous ne pourrez pas utiliser les mêmes tables de caractères...

**Python et iso-8859-1** Si nécessaire on peut coder un caractère spécifique en utilisant son point de code. Observer l'exemple ci-dessous utilisant deux techniques différentes,  puis compléter la cellule pour répondre aux deux questions posées (on réutilisera ces deux techniques):
affichage du symbole "plus moins" :


In [None]:
print('\u00B1')
# ou :
print(chr(0x00B1))

**Exercice :** 
- Comment afficher le symbole minuscule "1/4" (voir la table 8859-1 donnée sur le slide du cours) :
- Comment afficher le symbole de l'euro (Rque : ce symbole n'existe pas dans la table 8859-1, 
il fait partie des deux autres tables 8859-x gérant l'europe de l'ouest)
Trouver le code numérique qui le représente :


In [None]:
# Votre code ici

## <span style="color:#702637; text-decoration:underline;">III. L'Unicode :</span>

Cette dernière table vise à pallier les manques des précédentes.


L'Unicode est maintenu par l'_Unicode Consortium_. Cette table est en fait un répertoire de caractères.

A chaque caractère est associé un code, appelé point unicode.

La version de mars $2019$ de la table compte $137\:928$ caractères ! Elle vient même d'ajouter des émoticônes : &#x1F606; est le caractère U+1F606.

Il serait fastidieux d'afficher ici tous les caractères de l'unicode. Le site https://unicode-table.com/fr/ permet toutefois de les trouver. Pouvez-vous trouver le &#2951;, fameuse lettre tamoule ?

L'unicode est donc un "simple" répertoire. L'encodage des caractères, la façon de les coder en binaire dans l'ordinateur, peut varier. On retient trois standarts :
* UTF-8 : les caractères sont codés sur $8$ bits ($256$ valeurs). Ces $256$ valeurs correspondent globalement à l'ISO-8859-1. Si un caractère "dépasse" la $256$-ième valeur, on utilise un autre octet, voire plusieurs autres. On peut ainsi coder l'ensemble des caractères unicode en utilisant dans la plupart des cas (textes de l'alphabet latin) que peu de données ($8$ bits)
* UTF-16 : même idée mais sur 16 bits. On code par défaut plus de caractères mais on prend plus de place...
* UTF-32 : idem en 32 bits. Pas besoin d'ajouter de nouveaux caractères, tous y sont déjà par défaut

Python connaît aussi l'unicode :

In [None]:
# Affiche un caractère unicode indiqué par son code
print(u'\u0B87')

In [None]:
# Donne l'encodage utf-8 en hexadécimal du code unicode
print('UTF-8', u'\u0B87'.encode('utf-8'))

# Vérifier avec : https://unicode-table.com/fr/0B87/