[Accueil](../../index.ipynb) > [Sommaire Première](../index.ipynb)

# 2.5 Types construits : représentation d'un texte

En machine tout est binaire. Nous l'avons déjà vu pour :

- les entiers naturels
- les entiers relatifs
- les images

Il en est évidemment de même pour les **lettres**.

Bien entendu un même nombre peut représenter, dans un contexte donné, un entier naturel mais dans un autre contexte une lettre, une couleur...

## Le codage ASCII

ASCII est l'acronyme de **A**merican **S**tandard **C**ode for **I**nformation **I**nterchange.
Voir [la page Wikipédia](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange)

Ce standard a été créé dans les années 60 par l'ANSI (**A**merican **N**ational **S**tandards **I**nstitute). Il permet de coder des textes en **anglais**. Il est codé sur 7 bits et permet donc de faire correspondre $2^7=128$ nombres à des caractères.

Le huitième bit (bit de poids fort) est un **bit de parité** qui permet de vérifier si il n'y a pas eu d'erreur:

- il vaut 1 si le nombre de 1 est pair dans les 7 autres bits;
- 0 sinon.

L'ASCII comporte 
- 95 caractères imprimables:
  - les chiffres de 0 à 9;
  - les lettres minuscules et majuscules;
  - les symboles mathématiques et de la ponctuation (+,-, <, >, {, @ .....)
- 33 caractères de contrôle (début de texte, tabulation...+ DEL qui est le dernier de la table)

  
  
![](https://upload.wikimedia.org/wikipedia/commons/1/1b/ASCII-Table-wide.svg)

Dans le tableau ci dessous on peut voir que la lettre Z se code en hexa $5A_{16}$, soit en binaire $1011010_2$

**A Faire**
 - Vérifier avec la commande [ord](https://docs.python.org/fr/3/library/functions.html#ord) que les numéros des lettres corresponde bien aux données du tableau.
 - Vérifier que la commande inverse [chr](https://docs.python.org/fr/3/library/functions.html#chr) retourne bien la lettre correspondant au numéro donné.

In [None]:
texte = "aAbB;"
for character in texte:
    print(character, ":", ord(character))                       

In [None]:
# tester la commande chr pour les numéros allant de 32 à 127 (exclu)


## Les codages ASCII étendus

### Les limites de ASCII

On peut faire correspondre l'ensemble des lettres pour la langue anglaises sur 128 caractères mais qu'en est-il des caractères é,à, и, П, ゆ... ?

On a utilisé le 8ème bit disponible pour créer des normes ASCII étendues. Pour y remédier, l'[ISO](https://www.iso.org/fr/home.html) (International Organization for Standardization​) a créé de nouvelles normes.

### Exemple : ISO 8859

Il existe plusieurs parties pour la norme iso 8859 : 

- 8859-1 pour la plupart des langues européennes occidentales
- 8859-2 pour les langues d'europe centrale ( croate, tchèque...)
- 8859-3 pour l'europe du sud (turc, maltais)
- ...
- 8859-15 révision de la 8859-1 en incluant le symbole euro € ainsi que œ

[voir la liste complète ici](https://fr.wikipedia.org/wiki/ISO/CEI_8859#Les_parties_de_la_norme_ISO_8859)

La norme ISO 8859-1, souvent appelé **Latin-1** permet donc de coder $2^8=256$ caractères. Voir [page wikipedia](https://fr.wikipedia.org/wiki/ISO/CEI_8859-1)

<div class="alert alert-block alert-success">
<b>Remarque : </b> La norme ISO 8859 conserve les 128 premiers caractères de l'ASCII.
</div>

### Les limites de la norme ISO 8859

On peut dorénavant écrire l'ensemble des caractères en précisant le codage utilisé. Cependant si un fichier est enregistré dans un certain format puis ouvert dans un autre format celui ci n'affichera pas correctement les caractères en dehors de ceux de la plage ASCII (de 0 à  127).

Il est également impossible d'écrire un texte qui contient, par exemple, de l'hébreu et du russe.

### Activité sur la norme [ISO 8859-15](https://fr.wikipedia.org/wiki/ISO/CEI_8859-15)

Vérifier la valeur décimale de certains caractères de cette norme.

In [None]:
caractere = '€'
caractere_iso = caractere.encode('iso-8859-15')
value = ord(caractere_iso)
print(f"valeur décimale de {caractere} : {value}")
print(f"valeur hexadécimale de {caractere} : {hex(value)}")


## Unicode

<div class="alert alert-block alert-success">
    <b>Définitions : </b>
    <ul>
        <li>Une <b>table de codage</b> ou <b>jeu de caractères</b> ou <b>charset</b>, associe un entier nommé <u>point de code</u> à un <u>caractère</u>.</li>
        <li>Un <b>encodage</b> associe à un <u>point de code</u> une <u>séquence d’octets</u>.</li>
    </ul>
</div>

Pour assurer l'universalité de la représentation des caractères, l'ISO a défini une table de codage universelle l'[ISO-106-46](https://fr.wikipedia.org/wiki/ISO/CEI_10646). Depuis 1991 le [consortium Unicode](https://home.unicode.org/) collabore avec l'ISO  pour créer l'[UNICODE](https://fr.wikipedia.org/wiki/Unicode), un standard informatique qui permet l'échange de documents dans différentes langues. Unicode contient l'**ensemble des caractères des langues mondiales** ainsi que d'autres caractères ( musique, flèches...)

Chaque **point de code** est de la forme **U+wxyz** où chaque lettre est un caractère hexadécimal. Ainsi chaque point de code se code sur 4 octects mais des encodages moins gourmands en mémoire ont été imaginé par unicode.

Pour implémenter unicode il existe 3 formats :

1. [UTF-8](https://fr.wikipedia.org/wiki/UTF-8)
2. UTF-16
3. UTF-32

Dans UTF-**n**, **n** est le nombre minimal de bits pour coder 1 caractère.

**A Faire :**

- Ouvrir sublime text
  - Ecrire la lettre é;
  - sauvegarder le fichier au format UTF-8 avec le nom utf8.txt;
  - lire la taille du fichier;
  - ouvrir le fichier avec l'editeur hexa;
- Ouvrir un nouveau fichier
  - Ecrire la lettre é;
  - sauvegarder le fichier au format iso-8859-1 avec le nom iso-8859-1.txt;
  - lire la taille du fichier;
  - ouvrir le fichier avec l'editeur hexa;

Procéder de même avec la lettre A

Quelles sont vos conclusions ?

L'encodage UFT-8 est utilisé majoritairement :
- dans les sites web (ce site est codé en UTF-8 : faire un clic droit puis 'afficher le code source');
- dans Python qui utilise l'UTF-8 pour les chaines de caractère;
- dans Le systeme GNU/Linux.
- ...
![](https://w3techs.com/diagram/history_overview/character_encoding/ms/y)

Quel est l'encoge utilisé sur cette workstation ?

In [None]:
!locale charmap

Quels sont les encodages possibles ?

In [None]:
!locale -m

En Python 3, l'encodage par défaut des fichiers sources est l'UTF-8.

Si votre éditeur n'est pas configuré en UTF-8 alors il faut préciser l'encodage dans les premières lignes de votre fichier source. Par exemple:

In [None]:
# coding: latin-1

### Caractéristiques de l'UTF-8

- UTF-8 est rétro-compatible avec l'ASCII : tout caractère ASCII se code sur 1 octet de manière identique à l'ASCII
- tout caractère ASCII se code sur un octet. Ainsi un texte qui utilise uniquement des caractères ASCII, encodé en ASCII sera identique à celui encodé en UTF-8. 
- Les autres caractères se codent sur 2 à 4 octets.

L'ensemble des caractères unicode peut être consulté sur [https://unicode-table.com/](https://unicode-table.com/)

**A FAIRE :**

- Trouver le symbole dont le point de code est U+1F40D. 
- Quelle est alors sa valeur décimale ?
- Comment ai-je ajouté le symbole <b style="font-size: 30px;">&#129440;</b> dans ce cours ?
- Et en Python ?

In [None]:
print(chr(0x1F9A0))