<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">Thierry Parmentelat &amp; Arnaud Legout&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Caract√®res accentu√©s

Ce compl√©ment expose quelques bases concernant les caract√®res accentu√©s, et notamment les pr√©cautions √† prendre pour pouvoir en ins√©rer dans un programme python. Nous allons voir que cette question, assez scabreuse, d√©passe tr√®s largement le cadre de python *per se*.

## Compl√©ment - niveau basique

Notre premier conseil, si vous voulez √©viter les soucis et vous concentrer sur notre objectif qui est d'apprendre le langage python, est autant que possible **d'√©viter d'utiliser des accents** dans le code source.

D'ailleurs nous vous recommandons dans toute la mesure du possible d'√©crire votre code en anglais, comme c'est le cas pour la quasi-totalit√© du code que vous serez amen√©s √† utiliser sous forme de librairies - m√™me si dans ce cours nous avons essay√© de produire nos exemples en fran√ßais.

## Compl√©ment - niveau interm√©diaire

### O√π peut-on mettre des accents ?

Cela √©tant dit, si vous devez vraiment mettre des accents dans vos sources, voici ce qu'il faut savoir.

#### Noms de variables

* S'il n'√©tait **pas possible en python-2** d'utiliser un caract√®re accentu√© dans un **nom de variable** (ou d'un identificateur au sens large), cela est √† pr√©sent **permis en python-3**:

In [None]:
# pas recommand√©, mais autoris√© par le langage
nb_√©l√®ves = 12

* On peut m√™me utiliser des symboles, comme par exemple

In [None]:
from math import cos, pi as ùûü
Œ∏ = ùûü / 4
cos(Œ∏)

* Je vous recommande toutefois de **ne pas utiliser** cette possibilit√©, si vous n'√™tes pas extr√™mement familier avec les caract√®res Unicode. 

* Enfin pour √™tre exhaustif, sachez que seule une partie des caract√®res Unicode sont autoris√©s dans ce cadre; c'est heureux parce que les caract√®res comme, par exemple, [l'espace non-s√©cable](http://www.fileformat.info/info/unicode/char/a0/index.htm) pourraient, s'ils √©taient autoris√©s, cr√©er des milliers d'heures de debugging √† frustration garantie :) 

Pour les curieux, vous pouvez en savoir plus [√† cet endroit de la documentation officielle (en anglais)](https://docs.python.org/3/reference/lexical_analysis.html#identifiers)

#### Cha√Ænes de caract√®res

* Vous pouvez naturellement mettre des accents dans les cha√Ænes de caract√®res. Cela dit, les donn√©es manipul√©es par un programme proviennent pour l'essentiel de sources externes, comme une base de donn√©es ou un formulaire web, et donc le plus souvent pas directement du code source. Les cha√Ænes de caract√®res pr√©sentes dans du vrai code sont bien souvent limit√©es √† des messages de logging, et le plus souvent d'ailleurs en anglais, donc sans accent.

    message = "on peut mettre un caract√®re accentu√© dans une cha√Æne"

#### Commentaires

  * Enfin on peut aussi mettre des caract√®res accentu√©s dans les commentaires, si on choisit malgr√© tout d'√©crire le code en fran√ßais

    # on peut mettre un caract√®re accentu√© dans un commentaire

### Pr√©cautions √† prendre

Nous vous conseillons de prendre l'habitude de faire figurer dans vos fichiers, **en premi√®re ou deuxi√®me ligne**, une d√©claration comme ceci

    # -*- coding: <nom_de_l_encodage> -*-

Ainsi il est sans doute raisonnable d'utiliser ceci&nbsp;:

    # -*- coding: utf-8 -*-

Le nom **`utf-8`** fait r√©f√©rence √† **Unicode** (ou pour √™tre pr√©cis, √† l'encodage le plus r√©pandu parmi ceux qui sont d√©finis dans la norme Unicode, comme nous le verrons plus bas). Sur certains syst√®mes plus anciens vous pourrez √™tre amen√©s √† utiliser un autre encodage. Pour d√©terminer la valeur √† utiliser dans votre cas pr√©cis vous pouvez faire dans l'interpr√©teur interactif&nbsp;:

    # ceci doit √™tre ex√©cut√© sur votre machine
    import sys
    print sys.getdefaultencoding()

Par exemple avec d'anciennes versions de Windows (en principe de plus en plus rares) vous pouvez √™tre amen√©s √† √©crire&nbsp;:

    # -*- coding: cp1252 -*-

La syntaxe de la ligne `coding` est pr√©cis√©e dans [cette documentation](https://docs.python.org/2/reference/lexical_analysis.html#encoding-declarations)

### Qu'est-ce qu'un encodage ?

Comme vous le savez, la m√©moire - ou le disque - d'un ordinateur ne permet que de stocker des repr√©sentations binaires. Il n'y a donc pas de fa√ßon "naturelle" de repr√©senter un caract√®re comme 'A' ou  un guillemet ou un point-virgule.

On utilise pour cela un encodage; par exemple le code US-ASCII - http://www.asciitable.com/ - stipule, pour faire simple, qu'un 'A' est repr√©sent√© par l'octet 65 qui s'√©crit en binaire 01000001. Il se trouve qu'il existe plusieurs encodages, bien s√ªr incompatibles, selon les syst√®mes et les langues. Vous trouverez plus de d√©tails ci-dessous.

Le point important est que pour pouvoir ouvrir un fichier "proprement", il faut bien entendu disposer du **contenu** du fichier, mais il faut aussi conna√Ætre l'**encodage** qui a √©t√© utilis√© pour l'√©crire.

### Le grand malentendu

Cela signifie que si je vous envoie un fichier contenant du fran√ßais encod√© avec, disons, ISO-latin-15 -- http://en.wikipedia.org/wiki/ISO/IEC_8859-15 --  vous pouvez voir dans la table qu'un caract√®re '‚Ç¨' va √™tre mat√©rialis√© dans mon fichier par un octet '0xA4', soit 164.

Imaginez maintenant que vous essayez d'ouvrir ce m√™me fichier depuis un vieil ordinateur Windows configur√© pour le fran√ßais.
Si on ne lui donne aucune indication sur l'encodage, le programme qui va lire ce fichier sur Windows va utiliser l'encodage par d√©faut du syst√®me, c'est-√†-dire `cp1252` -- http://en.wikipedia.org/wiki/Windows-1252. Comme vous le voyez dans cette table, l'octet '0xA4' correspond au caract√®re ¬§ et c'est √ßa que vous allez voir √† la place de ‚Ç¨.

C'est √† cela que sert la balise `# -*- coding: <nom_de_l_encodage> -*-` 

De cette mani√®re, python lorsqu'il lit votre code source, a les moyens d'interpr√©ter correctement son contenu car il sait quel encodage utiliser. 

### Pourquoi √ßa marche en local ?

Lorsque le producteur (le programme qui √©crit le fichier) et le consommateur (le programme qui le lit) tournent dans le m√™me ordinateur, tout fonctionne bien - en g√©n√©ral - parce que les deux programmes se ram√®nent √† l'encodage d√©fini comme l'encodage par d√©faut.  
On a vu pourquoi il vaut mieux toutefois √™tre explicite, et sp√©cifier la balise `coding:` 

Il y a une limite toutefois; si vous utiliser un linux configur√© de mani√®re minimale, il se peut qu'il utilise par d√©faut l'encodage US-ASCII - voir plus bas - qui √©tant tr√®s ancien ne "conna√Æt" pas un simple √©, ni a fortiori ‚Ç¨. Pour √©crire du fran√ßais il faut donc au minimum que l'encodage par d√©faut de votre ordinateur contienne les caract√®res fran√ßais, comme par exemple 
 * iso-latin-1
 * iso-latin-15
 * utf-8
 * cp1252

### Un peu d'histoire sur les encodages

##### Le code US-ASCII

Jusque dans les ann√©es 1980, les ordinateurs ne parlaient pour l'essentiel que l'anglais. La premi√®re vague de standardisation avait cr√©√© l'encodage dit ASCII, ou encore US-ASCII - voir par exemple http://www.asciitable.com, ou en version longue http://en.wikipedia.org/wiki/ASCII.

Le code ASCII s'√©tend sur 128 valeurs, soit 7 bits, mais est le plus souvent impl√©ment√© sur un octet pour pr√©server l'alignement, le dernier bit pouvant √™tre utilis√© par exemple pour ajouter un code correcteur d'erreur - ce qui √† l'√©poque des modems n'√©tait pas superflu. Bref, la pratique courante √©tait alors de manipuler une cha√Æne de caract√®res comme un tableau d'octets.

##### Les encodages ISO-latin

Dans les ann√©es 1990, pour satisfaire les besoins des pays europ√©ens, ont √©t√© d√©finis plusieurs encodages alternatifs, connus sous le nom de [ISO-latin](http://en.wikipedia.org/wiki/ISO/IEC_8859), ou encore [ISO-8859](http://en.wikipedia.org/wiki/ISO/IEC_8859). Id√©alement, on aurait pu et **certainement d√ª** d√©finir un seul encodage pour repr√©senter tous les nouveaux caract√®res; mais entre toutes les langues europ√©ennes, le nombre de caract√®res √† ajouter √©tait substantiel, et cet encodage unifi√© aurait largement d√©pass√© 256 caract√®res diff√©rents, il n'aurait donc **pas √©t√© possible** de tout faire tenir sur un octet.

Mais on a pr√©f√©r√© pr√©server la "bonne propri√©t√©" du mod√®le *un caract√®re* == *un octet*, ceci afin de pr√©server le code existant qui aurait sinon d√ª √™tre retouch√© ou r√©crit.

D√®s lors il n'y avait pas d'autre choix que de d√©finir **plusieurs** encodages distincts; par exemple pour le fran√ßais on a utilis√© √† l'√©poque [ISO-latin-1](http://en.wikipedia.org/wiki/ISO/IEC_8859-1); pour le russe [ISO-latin-5](http://en.wikipedia.org/wiki/ISO/IEC_8859-5).

√Ä ce stade, le ver √©tait dans le fruit. Depuis cette √©poque pour ouvrir un fichier il faut conna√Ætre son encodage.  

##### Unicode


Lorsqu'on a ensuite cherch√© √† manipuler aussi les langues asiatiques, il a de toutes fa√ßons fallu d√©finir de nouveaux encodages beaucoup plus larges. C'est ce qui a √©t√© fait par le standard [Unicode](http://en.wikipedia.org/wiki/Unicode) qui d√©finit 3 nouveaux encodages:
 * [UTF-8](http://en.wikipedia.org/wiki/UTF-8) : un encodage √† taille variable, √† base d'octets, qui maximise la compatibilit√© avec ASCII,
 * [UTF-16](http://en.wikipedia.org/wiki/UTF-16) : un encodage √† taille variable, √† base de mots de 16 bits
 * [UTF-32](http://en.wikipedia.org/wiki/UTF-32) : un encodage √† taille fixe, √† base de mots de 32 bits
 
Ces 3 standards couvrent le m√™me jeu de caract√®res (113 021 tout de m√™me dans la derni√®re version). Parmi ceux-ci le plus utilis√© est certainement `utf-8`. Un texte ne contenant que des caract√®res du code US-ASCII initial peut √™tre lu avec l'encodage UTF-8.

Pour √™tre enfin tout √† fait exhaustif, si on sait qu'un fichier est au format Unicode, on peut d√©terminer quel est l'encodage qu'il utilise, en se basant sur les 4 premiers octets du document; ainsi dans ce cas particulier (lorsqu'on est s√ªr qu'un document est dans un des formats Unicode) il n'est plus n√©cessaire de conna√Ætre son encodage de mani√®re "externe".

##### Un caract√®re ce n'est pas un octet

Avec Unicode, vous voyez qu'on a cass√© le mod√®le *un caract√®re* == *un octet*. Avec ISO-latin, l'humanit√© a gagn√© du temps pour r√©crire tous les programmes qui faisaient, de mani√®re erron√©e, la confusion entre les deux.

Pour revenir √† python-3, et pour anticiper un peu: lorsqu'il s'agit de manipuler des donn√©es  provenant de diverses sources de donn√©es:
 * le type `byte` est appropri√© si vous voulez charger en m√©moire les donn√©es binaires brutes, sous forme d'octets donc;
 * le type `str` est appropri√© pour repr√©senter une cha√Æne de caract√®res - qui, √† nouveau ne sont pas forc√©ment des octets;
 * on passe de l'un √† l'autre de ces types par des op√©rations d'encodage et d√©codage, comme illustr√© ci-dessous;
 * et pour **toutes** les op√©rations d'encodage et d√©codage, il est n√©cessaire de conna√Ætre l'encodage utilis√©.
 

![les types bytes et str](media/str-bytes.png)

Les fonctions `encode` et `decode` fournissent le plus souvent un m√©canisme permettant qu'on les appelle sans pr√©ciser l'encodage (par exemple en se r√©f√©rant aux r√®glages syst√®me). Cela dit, il est de loin pr√©f√©rable d'√™tre explicite et de choisir son encodage. 

En cas de doute, il me semble pr√©f√©rable de sp√©cifier explicitement `utf-8`, qui se g√©n√©ralise au d√©triment d'encodages anciens comme `cp1242` et `iso-latin-*`, que de laisser le syst√®me h√¥te choisir pour vous. 

-----

Je vous avais bien dit que les accents, c'√©tait scabreux !