[Accueil](../../index.ipynb) > [Sommaire Premi√®re](../index.ipynb)

# 2.5 Types construits : repr√©sentation d'un texte

En machine tout est binaire. Nous l'avons d√©j√† vu pour :

- les entiers naturels
- les entiers relatifs
- les images

Il en est √©videmment de m√™me pour les **lettres**.

Bien entendu un m√™me nombre peut repr√©senter, dans un contexte donn√©, un entier naturel mais dans un autre contexte une lettre, une couleur...

## Le codage ASCII

ASCII est l'acronyme de **A**merican **S**tandard **C**ode for **I**nformation **I**nterchange.
Voir [la page Wikip√©dia](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange)

Ce standard a √©t√© cr√©√© dans les ann√©es 60 par l'ANSI (**A**merican **N**ational **S**tandards **I**nstitute). Il permet de coder des textes en **anglais**. Il est cod√© sur 7 bits et permet donc de faire correspondre $2^7=128$ nombres √† des caract√®res.

Le huiti√®me bit (bit de poids fort) est un **bit de parit√©** qui permet de v√©rifier si il n'y a pas eu d'erreur:

- il vaut 1 si le nombre de 1 est pair dans les 7 autres bits;
- 0 sinon.

L'ASCII comporte 
- 95 caract√®res imprimables:
  - les chiffres de 0 √† 9;
  - les lettres minuscules et majuscules;
  - les symboles math√©matiques et de la ponctuation (+,-, <, >, {, @ .....)
- 33 caract√®res de contr√¥le (d√©but de texte, tabulation...+ DEL qui est le dernier de la table)

  
  
![](https://upload.wikimedia.org/wikipedia/commons/1/1b/ASCII-Table-wide.svg)

Dans le tableau ci dessous on peut voir que la lettre Z se code en hexa $5A_{16}$, soit en binaire $1011010_2$

**A Faire**
 - V√©rifier avec la commande [ord](https://docs.python.org/fr/3/library/functions.html#ord) que les num√©ros des lettres corresponde bien aux donn√©es du tableau.
 - V√©rifier que la commande inverse [chr](https://docs.python.org/fr/3/library/functions.html#chr) retourne bien la lettre correspondant au num√©ro donn√©.

In [1]:
texte = "aAbB;"
for character in texte:
    print(character, ":", ord(character))                       

a : 97
A : 65
b : 98
B : 66
; : 59


In [None]:
# tester la commande chr pour les num√©ros allant de 32 √† 127 (exclu)


## Les codages ASCII √©tendus

### Les limites de ASCII

On peut faire correspondre l'ensemble des lettres pour la langue anglaises sur 128 caract√®res mais qu'en est-il des caract√®res √©,√†, –∏, –ü, „ÇÜ... ?

On a utilis√© le 8√®me bit disponible pour cr√©er des normes ASCII √©tendues. Pour y rem√©dier, l'[ISO](https://www.iso.org/fr/home.html) (International Organization for Standardization‚Äã) a cr√©√© de nouvelles normes.

### Exemple : ISO 8859

Il existe plusieurs parties pour la norme iso 8859 : 

- 8859-1 pour la plupart des langues europ√©ennes occidentales
- 8859-2 pour les langues d'europe centrale ( croate, tch√®que...)
- 8859-3 pour l'europe du sud (turc, maltais)
- ...
- 8859-15 r√©vision de la 8859-1 en incluant le symbole euro ‚Ç¨ ainsi que ≈ì

[voir la liste compl√®te ici](https://fr.wikipedia.org/wiki/ISO/CEI_8859#Les_parties_de_la_norme_ISO_8859)

La norme ISO 8859-1, souvent appel√© **Latin-1** permet donc de coder $2^8=256$ caract√®res. Voir [page wikipedia](https://fr.wikipedia.org/wiki/ISO/CEI_8859-1)

<div class="alert alert-block alert-success">
<b>Remarque : </b> La norme ISO 8859 conserve les 128 premiers caract√®res de l'ASCII.
</div>

### Les limites de la norme ISO 8859

On peut dor√©navant √©crire l'ensemble des caract√®res en pr√©cisant le codage utilis√©. Cependant si un fichier est enregistr√© dans un certain format puis ouvert dans un autre format celui ci n'affichera pas correctement les caract√®res en dehors de ceux de la plage ASCII (de 0 √†  127).

Il est √©galement impossible d'√©crire un texte qui contient, par exemple, de l'h√©breu et du russe.

### Activit√© sur la norme [ISO 8859-15](https://fr.wikipedia.org/wiki/ISO/CEI_8859-15)

V√©rifier la valeur d√©cimale de certains caract√®res de cette norme.

In [11]:
caractere = '‚Ç¨'
caractere_iso = caractere.encode('iso-8859-15')
value = ord(caractere_iso)
print(f"valeur d√©cimale de {caractere} : {value}")
print(f"valeur hexad√©cimale de {caractere} : {hex(value)}")


valeur d√©cimale de ‚Ç¨ : 164
valeur hexad√©cimale de ‚Ç¨ : 0xa4


## Unicode

<div class="alert alert-block alert-success">
    <b>D√©finitions : </b>
    <ul>
        <li>Une <b>table de codage</b> ou <b>jeu de caract√®res</b> ou <b>charset</b>, associe un entier nomm√© <u>point de code</u> √† un <u>caract√®re</u>.</li>
        <li>Un <b>encodage</b> associe √† un <u>point de code</u> une <u>s√©quence d‚Äôoctets</u>.</li>
    </ul>
</div>

Pour assurer l'universalit√© de la repr√©sentation des caract√®res, l'ISO a d√©fini une table de codage universelle l'[ISO-106-46](https://fr.wikipedia.org/wiki/ISO/CEI_10646). Depuis 1991 le [consortium Unicode](https://home.unicode.org/) collabore avec l'ISO  pour cr√©er l'[UNICODE](https://fr.wikipedia.org/wiki/Unicode), un standard informatique qui permet l'√©change de documents dans diff√©rentes langues. Unicode contient l'**ensemble des caract√®res des langues mondiales** ainsi que d'autres caract√®res ( musique, fl√®ches...)

Chaque **point de code** est de la forme **U+wxyz** o√π chaque lettre est un caract√®re hexad√©cimal. Ainsi chaque point de code se code sur 4 octects mais des encodages moins gourmands en m√©moire ont √©t√© imagin√© par unicode.

Pour impl√©menter unicode il existe 3 formats :

1. [UTF-8](https://fr.wikipedia.org/wiki/UTF-8)
2. UTF-16
3. UTF-32

Dans UTF-**n**, **n** est le nombre minimal de bits pour coder 1 caract√®re.

**A Faire :**

- Ouvrir sublime text
  - Ecrire la lettre √©;
  - sauvegarder le fichier au format UTF-8 avec le nom utf8.txt;
  - lire la taille du fichier;
  - ouvrir le fichier avec l'editeur hexa;
- Ouvrir un nouveau fichier
  - Ecrire la lettre √©;
  - sauvegarder le fichier au format iso-8859-1 avec le nom iso-8859-1.txt;
  - lire la taille du fichier;
  - ouvrir le fichier avec l'editeur hexa;

Proc√©der de m√™me avec la lettre A

Quelles sont vos conclusions ?

L'encodage UFT-8 est utilis√© majoritairement :
- dans les sites web (ce site est cod√© en UTF-8 : faire un clic droit puis 'afficher le code source');
- dans Python qui utilise l'UTF-8 pour les chaines de caract√®re;
- dans Le systeme GNU/Linux.
- ...
![](https://w3techs.com/diagram/history_overview/character_encoding/ms/y)

Quel est l'encoge utilis√© sur cette workstation ?

In [12]:
!locale charmap

UTF-8


Quels sont les encodages possibles ?

In [13]:
!locale -m


gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe

gzip: stdout: Broken pipe
ANSI_X3.110-1983
ANSI_X3.4-1968
ARMSCII-8
ASMO_449
BIG5
BIG5-HKSCS
BRF
BS_4730
BS_VIEWDATA
CP10007
CP1125
CP1250
CP1251
CP1252
CP1253
CP1254
CP1255
CP1256
CP1257
CP1258
CP737
CP770
CP771
CP772
CP773
CP774
CP775
CP949
CSA_Z243.4-1985-1
CSA_Z243.4-1985-2
CSA_Z243.4-1985-GR
CSN_369103
CWI
DEC-MCS
DIN_66003
DS_2089
EBCDIC-AT-DE
EBCDIC-AT-DE-A
EBCDIC-CA-FR
EBCDIC-DK-NO
EBCDIC-DK-NO-A
EBCDIC-ES
EBCDIC-ES-A
EBCDIC-ES-S
EBCDIC-FI-SE
EBCDIC-FI-SE-A
EBCDIC-FR
EBCDIC-IS-FRISS
EBCDIC-IT
EBCDIC-PT
EBCDIC-UK
EBCDIC-US
ECMA-CYRILLIC
ES
ES2
EUC-JISX02

En Python 3, l'encodage par d√©faut des fichiers sources est l'UTF-8.

Si votre √©diteur n'est pas configur√© en UTF-8 alors il faut pr√©ciser l'encodage dans les premi√®res lignes de votre fichier source. Par exemple:

In [None]:
# coding: latin-1

### Caract√©ristiques de l'UTF-8

- UTF-8 est r√©tro-compatible avec l'ASCII : tout caract√®re ASCII se code sur 1 octet de mani√®re identique √† l'ASCII
- tout caract√®re ASCII se code sur un octet. Ainsi un texte qui utilise uniquement des caract√®res ASCII, encod√© en ASCII sera identique √† celui encod√© en UTF-8. 
- Les autres caract√®res se codent sur 2 √† 4 octets.

L'ensemble des caract√®res unicode peut √™tre consult√© sur [https://unicode-table.com/](https://unicode-table.com/)

**A FAIRE :**

- Trouver le symbole dont le point de code est U+1F40D. 
- Quelle est alors sa valeur d√©cimale ?
- Comment ai-je ajout√© le symbole <b style="font-size: 30px;">&#129440;</b> dans ce cours ?
- Et en Python ?

In [17]:
print(chr(0x1F9A0))

ü¶†
