# La prise en charge d‚ÄôUnicode par le langage Python

Python 3 introduit une r√©volution dans la gestion de l‚Äôencodage des caract√®res, au prix d‚Äôune confusion troublante pour qui vient de Python 2¬†:

- en Python 2, les cha√Ænes de caract√®res (type `str`) sont par d√©faut encod√©es
- en Python 3, elles sont d√©cod√©es

Type par d√©faut d‚Äôune cha√Æne de caract√®res d√©cod√©e en Python 3¬†:

In [None]:
# decoded string
type('cha√Æne de caract√®res')

Une cha√Æne encod√©e **ne** doit contenir **que** des caract√®res ASCII¬†:

In [None]:
# encoded string (type 'bytes')
print(b'cha√Æne de caract√®res')

Pour la manipuler sous forme d‚Äôoctets, il faut alors l‚Äôencoder en choisissant un encodage¬†:

In [None]:
print(
    'cha√Æne de caract√®res'.encode('utf8'),
    bytes('cha√Æne de caract√®res', 'latin1'),
    sep="\n"
)

√Ä l‚Äôinverse, une liste d‚Äôoctets en entr√©e doit √™tre d√©cod√©e pour s‚Äôafficher¬†:

In [None]:
segment = 'cha√Æne de caract√®res'.encode('utf8')

print(segment.decode('utf8'))

Il convient donc de conna√Ætre l‚Äôencodage utilis√©, sinon le d√©codage se passe mal¬†:

In [None]:
print(
    segment.decode('latin1'),
    segment.decode('mac-roman'),
    segment.decode('cp855'),
    sep="\n"
)

En bref, lorsque Python 3 manipule du texte, il offre toujours un affichage Unicode. Les ennuis commencent lorsque l‚Äôon veut manipuler des donn√©es binaires¬†:

In [None]:
a = 'cha√Æne de caract√®res'
b = 'cha√Æne de caract√®res'.encode('latin1')

print(a[3], b[3], sep="\n")

L‚Äôacc√®s atomique √† des donn√©es binaires se fait donc sous forme d‚Äôoctet. Pour savoir quel caract√®re Unicode se cache derri√®re un entier, on utilise la fonction `chr()` avec un nombre dans un intervalle $[0, 1114111]$¬†:

In [None]:
print(
    chr(b[3]),
    chr(238),
    sep="\n"
)

Et pour conna√Ætre le point de code Unicode d‚Äôun caract√®re d√©cod√©, on utilise la fonction `ord()`¬†:

In [None]:
letters = ['Œµ', '‹¨', 'êÑç']

[ ord(l) for l in letters ]

## Cas pratique

En japonais, le mot *paix* s‚Äôorthographie *Âπ≥Âíå* (*heiwa*). Il est constitu√© de deux caract√®res¬†:

- *Âπ≥*
- *Âíå*

Leurs num√©ros d‚Äôordre Unicode s‚Äôobtiennent facilement¬†:

In [None]:
[ ord(c) for c in 'Âπ≥Âíå' ]

Ces num√©ros sont fournis en base 10 (d√©cimale). Or, le langage informatique repose sur une base 2 (binaire). Si le premier id√©ogramme peut se repr√©senter sur 5 signes allant de 0 √† 9 (24179), il est impossible de le repr√©senter sur un octet (8 signes allant de 0 √† 1).

Comme il faut plus d‚Äôun octet pour le repr√©senter, toute conversion est impossible :

In [None]:
print(b'Âπ≥')

Pour rendre la conversion possible, on doit d‚Äôabord fournir un encodage ad√©quat¬†:

In [None]:
# Âπ≥ is not part of latin1 character set
c = 'Âπ≥'.encode('latin1')

In [None]:
# UTF-8 works well!
c = 'Âπ≥'.encode('utf8')

**Attention !** `c` est d√©sormais une donn√©e binaire, repr√©sent√©e sous forme d‚Äôoctets !

In [None]:
# how many bytes to encode ideogram Âπ≥ in UTF-8?
print(len(c))

# 3 bytes: e5 b9 b3 (in hexa form)
print(c)

# bytes in decimal form
for byte in c:
    print(byte)

# in binary form
for byte in c:
    print(bin(byte))

# f-String with format spectifier
for byte in c:
    print(f"{byte:b}")

## Unicode et Python

Rappelons tout d‚Äôabord que toute cha√Æne affich√©e par Python3 est compatible Unicode. On peut afficher un caract√®re en l‚Äôimprimant directement¬†:

In [None]:
print("·õ¢")

Comme en indiquant son point de code Unicode ou son identifiant normalis√©¬†:

In [None]:
print(
    "\u16E2", # four-digit Unicode escape
    "\U0001F334", # eight-digit Unicode escape
    "\xEE", # two-digit hexadecimal escape
    "\N{AVESTAN LETTER SHYE}", # Unicode name
    "\N{LATIN SMALL LETTER A}\N{COMBINING GRAVE ACCENT}", # combining two characters
    sep="\n"
)

Le module qui permet d‚Äôinteragir avec Unicode s‚Äôappelle *unicodedata*. Il expose des m√©thodes pour manipuler les caract√®res :

- `.lookup()` : rechercher un caract√®re par son nom
- `.normalize()` : obtenir une version normalis√©e du caract√®re
- `.name()` : obtenir l‚Äôidentifiant unique du caract√®re
- ‚Ä¶

In [None]:
import unicodedata as ud

char = '„àé'

print(
    ud.name(char),
    ud.category(char),
    ud.decomposition(char),
    sep="\n"
)

#### Ordre lexicographique

Une op√©ration commune en analyse textuelle consiste √† trier des √©l√©ments (*i.e.* des mots) par ordre alphab√©tique¬†:

In [None]:
words = ['lettre', 'apostrophe']
words.sort()

print(words)

Le premier √©cueil se manifeste d√®s que des majuscules s‚Äôinvitent dans la liste :

In [None]:
words = ['lettre', 'apostrophe', 'Ellipse']
words.sort()

print(words)

C‚Äôest ici qu‚Äôintervient le param√®tre `key` pour transmettre une fonction √† chaque √©l√©ment de la liste, avant toute comparaison¬†:

In [None]:
words = ['lettre', 'apostrophe', 'Ellipse']

# each word is converted to lowercase before sorting
words.sort(key=str.lower)

print(words)

M√©thode plut√¥t efficace et suffisante pour l‚Äôanglais, mais qui montre ses limites d√®s qu‚Äôentrent en jeu des caract√®res accentu√©s¬†:

In [None]:
words = ['lettre', 'apostrophe', 'Ellipse', '√†']
words.sort(key=str.lower)

print(words)

L‚Äôun des rem√®des possibles consiste √† supprimer les accents des cha√Ænes de caract√®res.

Plut√¥t que de pr√©voir tous les cas possibles (*Si le caract√®re se trouve parmi \[√†, √¢, √§\], alors le transformer en "a", et sinon, si le caract√®re est un parmi \[√©√®\]‚Ä¶*), la m√©thode `.normalize()` du module `unicodedata` permet d‚Äôeffectuer ce calcul plus simplement.

En r√©sum√©, la fonction d√©compose un caract√®re en ses diff√©rents composants. Exemple avec la "ligature minuscule latine fi" :

In [None]:
fi = ud.lookup('Latin Small Ligature Fi')
components = ud.normalize('NFKD', fi)

print(f'Le caract√®re "{ fi }" est compos√© de : { [ c for c in components ] }')

Appliqu√©e √† notre collection de mots, les caract√®res accentu√©s ne sont plus rel√©gu√©s √† la fin¬†:

In [None]:
words = ['lettre', 'apostrophe', 'Ellipse', '√†']

words.sort(
    key=lambda ch:ud.normalize('NFKD', ch)
)

print(words)

En revanche, elle soul√®ve d‚Äôautres probl√®mes :

- perte de la distinction majuscules/minuscules
- perte du tri par nombre de caract√®res

Plut√¥t que de transmettre une fonction anonyme au param√®tre `key`, autant d√©finir une fonction utilisateur¬†:

In [None]:
def comparison(word):
    """Removes the accent marks on every character in a word.
    
    Keyword argument:
    word -- the word to analyze
    """
    norm = ""
    word = word.lower()
    for ch in word:
        components = ud.normalize('NFKD', ch)
        norm += components[0]
    return norm

words = ['lettre', 'apostrophe', 'Ellipse', '√†']
words.sort(key=comparison)

print(words)