# Représentation des données : types et valeurs de base - les textes

La représentation des textes en machine utilise des encodages différents par les caractères représentables et la taille en octets d'un code.

Exemples : ASCII, ISO-8859-1, Unicode (UTF 8)

## ASCII

Le codage des caractères ASCII (*American Standard Code for Information
Interchange*) date des années 60. La table ASCII compte 128 caractères. En voici
un extrait (caractères 48 à 71) :

| Code | Carac | Code | Carac | Code | Carac | Code | Carac | Code | Carac | Code | Carac |
|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:| ----- |
| 48   | 0     | 49   | 1     | 50   | 2     | 51   | 3     | 52   | 4     | 53   | 5     |
| 54   | 6     | 55   | 7     | 56   | 8     | 57   | 9     | 58   | :     | 59   | ;     |
| 60   | <     | 61   | =     | 62   | >     | 63   | ?     | 64   | @     | 65   | A     |
| 66   | B     | 67   | C     | 68   | D     | 69   | E     | 70   | F     | 71   | G     |

Notons que la table ASCII contient lettres, chiffres, mais aussi des caractères
invisibles (tabulation, espace, retour chariot). Elle ne contient aucun
caractère accentué.

## Formats ISO

Répondant à la nécessité de représenter les caractères accentués et afin de
rester compatible avec l'ASCII, des tables d'encodage supplémentaires sont alors
apparues. Leurs 128 premiers caractères restent ceux de l'ASCII, et 128
caractères supplémentaires spécifiques à une langue particulière sont ajoutés
(le code passe donc de 7 à 8 bits).

À chaque langage sa table :

* l'ISO 8859-1, ou *latin 1*, contient les caractères accentués utilisés dans
  les langues latines,
* l'ISO 8859-7 contient, outre les 128 caractères de l'ASCII, les caractères
  grecs.
* l'ISO 8859-15 ou *latin 9*, est presque identique au *latin 1* à 8 caractères
  près (le *latin 9* contient par exemple les caractères œ, Œ et € qui ne sont
  pas dans la table *latin 1*)

L'encodage utilisé ne fait pas partie du contenu du fichier. Si on se trompe sur
l'encodage utilisé, certains caractères seront donc mal interprétés.

## Formats Unicode

Au début des années 90 apparaît la norme **Unicode** qui réunit *tous les
caractères* dans une seule table, encore en construction, et qui contient
actuellement plus de 135 000 symboles. Le but est de couvrir tous les besoins.
Actuellement numérotés sur 21 bits, le code unicode n'est pas utilisé
directement comme encodage de fichiers (sous peine de voir la taille des
fichiers texte multipliés par 3.

Ce sont des encodages comme UTF-8 qui permettent actuellement d'utiliser
Unicode. Le principe est de coder les caractères courants sur un seul octet, et
d'utiliser des séquences d'échappement pour accéder à d'autres parties de la
table. En UTF8, tous les caractères n'occupent donc pas la même place. Certains
sont codés sur 1 octet, et d'autres sur 2 à 4 octets.

Actuellement, la bonne pratique est d'utiliser UTF-8 dès que c'est possible,
afin de garantir une bonne interopérabilité, et une durée de vie importante des
fichiers.

## En Python

Depuis la version 3, Python représente ses chaînes de caractères en
Unicode, et utilise par défaut l'encodage UTF-8 pour écrire des fichiers.

On peut passer d'un caractère à son code unicode par la fonction `ord` et réciproquement avec la fonction `chr`.

In [None]:
ord('A')

In [None]:
chr(65)

In [None]:
ord('€')

* **Activité** : Afficher une partie des codes unicode.

In [None]:
for i in range (8352, 8384):
    print (chr(i), end=" ")

La méthode `encode` permet d'encoder une chaîne en choisissant le système de codage (UTF8 par défaut), et donne une suite d'octets représentés en hexadécimal, pouvant ensuite être convertie en liste d'entiers pour l'affichage.

In [None]:
"€".encode()

In [None]:
list("€".encode("utf8"))

In [None]:
list("€".encode("iso8859-15"))

## Lecture et écriture de fichiers

Il convient d'être vigilant lors de la lecture/écriture de fichiers texte pour bien relire un fichier en spécifiant l'encodage avec lequel il a été encodé (par défaut UTF-8).

Un encodage différent peut être spécifié à l'ouverture du fichier en lecture ou en écriture.
La liste des encodages standard peut être trouvée dans la [documentation du langage Python](https://docs.python.org/fr/3/library/codecs.html#standard-encodings).

In [None]:
f = open("monfichier.txt", mode="w", encoding="latin1")
f.write("Ceci est un texte accentué enregistré en latin1")
f.close()

* **Activité** : Ecrire un programme qui lit un fichier texte en latin1 et le réécrit en UTF-8. 

Equipe pédagoqique DIU EIL, ressource éducative libre distribuée sous [Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International](http://creativecommons.org/licenses/by-nc-sa/4.0/) ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)