# Avant de commencer : représentation hexadécimale ou binaire d'entiers

### Entiers donnés en hexa


Rappelons que l'on peut facilement indiquer à python que l'on souhaite définir un entier de type <code>int</code> représenté en hexadécimal en le préfixant par <code>0x</code> :

In [None]:
0xFF

In [None]:
0x01+0xA1

### Entiers donnés en binaire


Rappelons que l'on peut facilement indiquer à python que l'on souhaite définir un entier de type <code>int</code> représenté en binaire en le préfixant par <code>0b</code> :

In [None]:
0b1101

In [None]:
0b10000000000

### Représenter en hexa ou en binaire un nombre entier donné en décimal
Rappelons que l'on peut utiliser les fonctions <code>hex()</code> ou <code>bin()</code> **qui renvoient des chaînes de caractères**.

In [None]:
bin(13)

In [None]:
hex(255)

# Spécifier un caractère à partir de son point de code Unicode

Nous prenons comme exemples les caractères 'A' et 'œ' et '𓅇' dont les points de code Unicode sont respectivement U+0041 (65 en décimal), U+0153 (339 en décimal) et 'U+013147' (78151 en décimal).

### grâce à la fonction <code>chr()</code>

In [None]:
chr(65)

In [None]:
chr(0x0041)

In [None]:
chr(0x0153)

In [None]:
chr(339)

In [None]:
chr(0x13147)

In [None]:
chr(78151)

### grâce à des séquences d'échappement

Selon que le caractère a un point de code Unicode qui se code en hexa sur 2 chiffres, 4 chiffres ou 8 chiffres, on utilisera directement dans une chaîne de caractères les préfixes <code>\x</code> ou <code>\u</code> ou <code>\U</code>. On indiquera **toujours** 2 chiffres, 4 chiffres ou 8 chiffres, quitte à compléter avec des zéros.

In [None]:
'Début de la chaîne : \x41 \u0153 \U00013147. Noter les zéros en plus pour arriver à 2, 4 ou 8 chiffres.'

# Récupérer le point de code Unicode à partir d'un caractère 

### grâce à la fonction <code>ord()</code>

In [None]:
ord('A')

In [None]:
ord('œ')

In [None]:
ord('𓅇')

In [None]:
def retourner_point_de_code(car):
    SD = ord(car)
    SX = '{:x}'.format(ord(car))
    SB = '{:b}'.format(ord(car))
    return SD, SX, SB

PC1 = retourner_point_de_code('Æ')
PC2 = retourner_point_de_code('u')
PC2 = retourner_point_de_code('u')
PC1, PC2

# Module <code>unicodedata</code>

Le module <code>unicodedata</code> permet de récupérer des informations unicode sur des caractères.

In [None]:
import unicodedata

### fonction **<code>unicode.name()</code>**
Retourne l'intitulé du caractère abstrait.

In [None]:
seq = "L'épais colimaçon !"
for car in seq:
    print(unicodedata.name(car))


In [None]:
seq = '\x41 \x42 \u0647 \u0911 \u31F9 \u22C2 \U00013147'
for car in seq:
    print(unicodedata.name(car))

In [None]:
'\xc6'

# <code>encode()</code> et <code>decode()</code> : caractère <--> caractère encodé

**Attention :** si besoin retourner voir le cours, mais il est crucial de ne pas confondre *point de code Unicode* et *caractère encodé*.

### fonction <code>encode()</code>

Elle permet d'encoder une chaîne de caractères dans l'encodage spécifié. On pourra consulter sur cette [documentation](https://docs.python.org/3.7/library/codecs.html#standard-encodings) la liste de tous les encodages disponibles en python.

Cette fonction retourne un objet de type <code>bytes</code>que l'on peut s'imaginer un peu comme un tableau d'octets. Par exemple, dans le cours nous avions vu que la chaîne de caractères :  


'❼ Æ L'  


est encodée sur six octets en UTF-8, plus précisément cela donne :


<code>11100010 10011101 10111100 11000011 10000110 01001100</code> en binaire soit   


<code>0xE2 0x9D 0xBC 0xC3 0x86 0x4C</code> en hexadécimal.   



Python peut le faire à notre place :

In [None]:
z = '❼ÆL'
z_bytes = z.encode('utf-8')

In [None]:
z_bytes

In [None]:
z_bytes[0]

In [None]:
z_bytes[4]

In [None]:
z_bytes[5]

On obtient bien les octets souhaités. Sauf le dernier qui surprend un peu : en fait **lorsqu'un byte  ou octet correspond à un caractère ascii valide, python l'affiche sous forme du caractère ascii correspondant. D'où le L ...** On remarque aussi qu'un objet de type <code>bytes</code> est écrit comme une chaîne de caractères avec des simple quotes, préfixée par le caractère b.

On peut aussi encoder en ascii ou en iso-8859-1 :

In [None]:
z = 'chaton'
z_bytes = z.encode('ascii')

In [None]:
z_bytes

In [None]:
k = 'çA Où Là Kè@$'
k_bytes = k.encode('iso-8859-1')

In [None]:
k_bytes

### fonction <code>decode()</code>

Permet de décoder un objet de type <code>bytes</code> en chaîne de caractères

In [None]:
T = b'\xc3\x91\x59\xe2\x9c\xb0'.decode('utf-8')

In [None]:
print(T)

# Exercices

## Exercice 1

En utilisant le fichier <code>caractères_étrangers.txt</code> situé dans le dossier de ce notebook : 
- choisir trois caractères prélevés dans trois lignes différentes
- pour chacun d'eux, en utilisant python :
    - retrouver le nom Unicode de ce caractère
    - retrouver son point de code Unicode
    - retrouver sa représentation encodée en UTF-8
    - retrouver, en utilisant la [documentation Unicode](https://www.unicode.org/charts/), de quel alphabet il est issu.

## Exercice 2

Si on encode un caractère en UTF-8 puis qu'on le décode en iso-8859-1, on risque fort de ne pas retrouver le caractère de départ.  


En utilisant python, effectuer cette manipulation sur les caractères suivants et garder une trace des caractères obtenus finalement
- a
- é
- O
- ù
- &
- è
- ❼
- ✰


## Exercice 3

Si on encode un caractère en iso-8859-1 puis qu'on le décode en UTF-8, on risque fort d'avoir des problèmes. 


Vérifier avec python que c'est bien le cas puis expliquer précisément pourquoi on a un problème.
- a
- é
- O
- ù
- &
- è
- ❼
- ✰


## Exercice 4  
Ecrire une fonction python qui prend en paramère un caractère <code>C</code> et renvoie une chaîne de caractères correpondant au décodage en iso-8859-1 de l'encodage en UTF-8 de <code>C</code>.

## Exercice 5

**Dans cet exercice, on dira que l'expression "les caractères Unicode" est équivalente à l'expression : "tous les caractères Unicode dont le point de code est compris entre U+0000 et U+2FFFF".**

Sur la page donnant [tous les plans de code Unicode](https://www.unicode.org/charts/), on constate qu'un certain nombre de plans de code ont des "trous". Par exemple le point de code U+085B est affecté à un caractère abstrait, mais pas le point de code U+085C. Cela lève une exception lorsqu'on demande le nom d'un tel point de code :

In [None]:
unicodedata.name('\u085B')

In [None]:
unicodedata.name('\u085C')

On peut facilement créer une fonction qui évite de lever une exception lorsque la caractère n'existe pas et renvoie une chaîne de caractères vide à la place :

In [None]:
def mon_unicodedata_name(car):
    try :
        return unicodedata.name(car)
    except:
        return ''

In [None]:
mon_unicodedata_name('\u085B')

In [None]:
mon_unicodedata_name('\u085C')

**CONSIGNES :**
- trouver un critère permettant de déterminer si un nom de caractère abstrait Unicode est "rigolo" (par exemple le critère pourrait être : "ce nom comporte plus de deux Z" auquel cas le caractère abstrait nommé 'ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA FINAL FORM' est rigolo)


- écrire une fonction python permettant de renvoyer un booléen indiquant si un caractère abstrait donné en paramètre est "rigolo" avec ce critère.


- écrire quatre fonctions python :


    - l'une renvoyant le nombre de caractères rigolos parmi tous les caractères Unicode.
    
    - l'autre renvoyant une chaîne de caractères constituée de tous les caractères rigolos parmi les caractères Unicode.
    
    - l'avant dernière renvoyant une liste de tous les noms des caractères rigolos parmi les caractères Unicode.
    
    - la dernière renvoyant une liste de tous les points de code écrits en hexadécimal des caractères rigolos parmi les caractères Unicode.

## Exercice 6

Effectuer à la main des encodages UTF-8 ou ascii ou iso-8859-1 en vérifiant vos résultats grâce à python.
