# Avant de commencer : repr√©sentation hexad√©cimale ou binaire d'entiers

### Entiers donn√©s en hexa


Rappelons que l'on peut facilement indiquer √† python que l'on souhaite d√©finir un entier de type <code>int</code> repr√©sent√© en hexad√©cimal en le pr√©fixant par <code>0x</code> :

In [None]:
0xFF

In [None]:
0x01+0xA1

### Entiers donn√©s en binaire


Rappelons que l'on peut facilement indiquer √† python que l'on souhaite d√©finir un entier de type <code>int</code> repr√©sent√© en binaire en le pr√©fixant par <code>0b</code> :

In [None]:
0b1101

In [None]:
0b10000000000

### Repr√©senter en hexa ou en binaire un nombre entier donn√© en d√©cimal
Rappelons que l'on peut utiliser les fonctions <code>hex()</code> ou <code>bin()</code> **qui renvoient des cha√Ænes de caract√®res**.

In [None]:
bin(13)

In [None]:
hex(255)

# Sp√©cifier un caract√®re √† partir de son point de code Unicode

Nous prenons comme exemples les caract√®res 'A' et '≈ì' et 'ìÖá' dont les points de code Unicode sont respectivement U+0041 (65 en d√©cimal), U+0153 (339 en d√©cimal) et 'U+013147' (78151 en d√©cimal).

### gr√¢ce √† la fonction <code>chr()</code>

In [None]:
chr(65)

In [None]:
chr(0x0041)

In [None]:
chr(0x0153)

In [None]:
chr(339)

In [None]:
chr(0x13147)

In [None]:
chr(78151)

### gr√¢ce √† des s√©quences d'√©chappement

Selon que le caract√®re a un point de code Unicode qui se code en hexa sur 2 chiffres, 4 chiffres ou 8 chiffres, on utilisera directement dans une cha√Æne de caract√®res les pr√©fixes <code>\x</code> ou <code>\u</code> ou <code>\U</code>. On indiquera **toujours** 2 chiffres, 4 chiffres ou 8 chiffres, quitte √† compl√©ter avec des z√©ros.

In [None]:
'D√©but de la cha√Æne : \x41 \u0153 \U00013147. Noter les z√©ros en plus pour arriver √† 2, 4 ou 8 chiffres.'

# R√©cup√©rer le point de code Unicode √† partir d'un caract√®re 

### gr√¢ce √† la fonction <code>ord()</code>

In [None]:
ord('A')

In [None]:
ord('≈ì')

In [None]:
ord('ìÖá')

In [None]:
def retourner_point_de_code(car):
    SD = ord(car)
    SX = '{:x}'.format(ord(car))
    SB = '{:b}'.format(ord(car))
    return SD, SX, SB

PC1 = retourner_point_de_code('√Ü')
PC2 = retourner_point_de_code('u')
PC2 = retourner_point_de_code('u')
PC1, PC2

# Module <code>unicodedata</code>

Le module <code>unicodedata</code> permet de r√©cup√©rer des informations unicode sur des caract√®res.

In [None]:
import unicodedata

### fonction **<code>unicode.name()</code>**
Retourne l'intitul√© du caract√®re abstrait.

In [None]:
seq = "L'√©pais colima√ßon !"
for car in seq:
    print(unicodedata.name(car))


In [None]:
seq = '\x41 \x42 \u0647 \u0911 \u31F9 \u22C2 \U00013147'
for car in seq:
    print(unicodedata.name(car))

In [None]:
'\xc6'

# <code>encode()</code> et <code>decode()</code> : caract√®re <--> caract√®re encod√©

**Attention :** si besoin retourner voir le cours, mais il est crucial de ne pas confondre *point de code Unicode* et *caract√®re encod√©*.

### fonction <code>encode()</code>

Elle permet d'encoder une cha√Æne de caract√®res dans l'encodage sp√©cifi√©. On pourra consulter sur cette [documentation](https://docs.python.org/3.7/library/codecs.html#standard-encodings) la liste de tous les encodages disponibles en python.

Cette fonction retourne un objet de type <code>bytes</code>que l'on peut s'imaginer un peu comme un tableau d'octets. Par exemple, dans le cours nous avions vu que la cha√Æne de caract√®res :  


'‚ùº √Ü L'  


est encod√©e sur six octets en UTF-8, plus pr√©cis√©ment cela donne :


<code>11100010 10011101 10111100 11000011 10000110 01001100</code> en binaire soit   


<code>0xE2 0x9D 0xBC 0xC3 0x86 0x4C</code> en hexad√©cimal.   



Python peut le faire √† notre place :

In [None]:
z = '‚ùº√ÜL'
z_bytes = z.encode('utf-8')

In [None]:
z_bytes

In [None]:
z_bytes[0]

In [None]:
z_bytes[4]

In [None]:
z_bytes[5]

On obtient bien les octets souhait√©s. Sauf le dernier qui surprend un peu : en fait **lorsqu'un byte  ou octet correspond √† un caract√®re ascii valide, python l'affiche sous forme du caract√®re ascii correspondant. D'o√π le L ...** On remarque aussi qu'un objet de type <code>bytes</code> est √©crit comme une cha√Æne de caract√®res avec des simple quotes, pr√©fix√©e par le caract√®re b.

On peut aussi encoder en ascii ou en iso-8859-1 :

In [None]:
z = 'chaton'
z_bytes = z.encode('ascii')

In [None]:
z_bytes

In [None]:
k = '√ßA O√π L√† K√®@$'
k_bytes = k.encode('iso-8859-1')

In [None]:
k_bytes

### fonction <code>decode()</code>

Permet de d√©coder un objet de type <code>bytes</code> en cha√Æne de caract√®res

In [None]:
T = b'\xc3\x91\x59\xe2\x9c\xb0'.decode('utf-8')

In [None]:
print(T)

# Exercices

## Exercice 1

En utilisant le fichier <code>caract√®res_√©trangers.txt</code> situ√© dans le dossier de ce notebook : 
- choisir trois caract√®res pr√©lev√©s dans trois lignes diff√©rentes
- pour chacun d'eux, en utilisant python :
    - retrouver le nom Unicode de ce caract√®re
    - retrouver son point de code Unicode
    - retrouver sa repr√©sentation encod√©e en UTF-8
    - retrouver, en utilisant la [documentation Unicode](https://www.unicode.org/charts/), de quel alphabet il est issu.

## Exercice 2

Si on encode un caract√®re en UTF-8 puis qu'on le d√©code en iso-8859-1, on risque fort de ne pas retrouver le caract√®re de d√©part.  


En utilisant python, effectuer cette manipulation sur les caract√®res suivants et garder une trace des caract√®res obtenus finalement
- a
- √©
- O
- √π
- &
- √®
- ‚ùº
- ‚ú∞


## Exercice 3

Si on encode un caract√®re en iso-8859-1 puis qu'on le d√©code en UTF-8, on risque fort d'avoir des probl√®mes. 


V√©rifier avec python que c'est bien le cas puis expliquer pr√©cis√©ment pourquoi on a un probl√®me.
- a
- √©
- O
- √π
- &
- √®
- ‚ùº
- ‚ú∞


## Exercice 4  
Ecrire une fonction python qui prend en param√®re un caract√®re <code>C</code> et renvoie une cha√Æne de caract√®res correpondant au d√©codage en iso-8859-1 de l'encodage en UTF-8 de <code>C</code>.

## Exercice 5

**Dans cet exercice, on dira que l'expression "les caract√®res Unicode" est √©quivalente √† l'expression : "tous les caract√®res Unicode dont le point de code est compris entre U+0000 et U+2FFFF".**

Sur la page donnant [tous les plans de code Unicode](https://www.unicode.org/charts/), on constate qu'un certain nombre de plans de code ont des "trous". Par exemple le point de code U+085B est affect√© √† un caract√®re abstrait, mais pas le point de code U+085C. Cela l√®ve une exception lorsqu'on demande le nom d'un tel point de code :

In [None]:
unicodedata.name('\u085B')

In [None]:
unicodedata.name('\u085C')

On peut facilement cr√©er une fonction qui √©vite de lever une exception lorsque la caract√®re n'existe pas et renvoie une cha√Æne de caract√®res vide √† la place :

In [None]:
def mon_unicodedata_name(car):
    try :
        return unicodedata.name(car)
    except:
        return ''

In [None]:
mon_unicodedata_name('\u085B')

In [None]:
mon_unicodedata_name('\u085C')

**CONSIGNES :**
- trouver un crit√®re permettant de d√©terminer si un nom de caract√®re abstrait Unicode est "rigolo" (par exemple le crit√®re pourrait √™tre : "ce nom comporte plus de deux Z" auquel cas le caract√®re abstrait nomm√© 'ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA FINAL FORM' est rigolo)


- √©crire une fonction python permettant de renvoyer un bool√©en indiquant si un caract√®re abstrait donn√© en param√®tre est "rigolo" avec ce crit√®re.


- √©crire quatre fonctions python :


    - l'une renvoyant le nombre de caract√®res rigolos parmi tous les caract√®res Unicode.
    
    - l'autre renvoyant une cha√Æne de caract√®res constitu√©e de tous les caract√®res rigolos parmi les caract√®res Unicode.
    
    - l'avant derni√®re renvoyant une liste de tous les noms des caract√®res rigolos parmi les caract√®res Unicode.
    
    - la derni√®re renvoyant une liste de tous les points de code √©crits en hexad√©cimal des caract√®res rigolos parmi les caract√®res Unicode.

## Exercice 6

Effectuer √† la main des encodages UTF-8 ou ascii ou iso-8859-1 en v√©rifiant vos r√©sultats gr√¢ce √† python.
