# Représentation des binaires avec Python

Python3 stocke les strings sous forme de textes.
Mais il peut le faire aussi au format bytes. Ce format permet de stocker des données des fichiers, des vidéos, des images ...)

In [4]:
texte = "coucou"
textebytes = b"coucou"
print(texte)
print(textebytes)
print(list(textebytes))
listebinaires = [99, 111, 117, 99, 111, 117]
print(bytes(listebinaires))
b'secoué'
             ^


coucou
b'coucou'
[99, 111, 117, 99, 111, 117]
b'coucou'


Le format binaire est le format de stockage commun du texte (Avec un octet on code 256 caractères). Mais lire une suite d'Octets peut se faire de différentes façons: on peut regrouper les octets, travailler en octal ou en hexadecimal et donc il faut savoir dans quel encodage on travaille pour assurer la bonne traduction. Le format bytes contient uniquement des caractères ASCII. 
On peut voir ici que le résultat d'un get http est retourné au format bytes

In [7]:
from urllib.request import urlopen
data = urlopen('https://pseudorandom.name').read()
data

b'Joseph Mcdonald\n'

Mais ASCII ne permet de coder que 256 caractères ce qui pose problème puisqu'on a une multitude d'alphabets et de caractères.

Il faut donc aller au delà des 8 bits pour coder.

Unicode permet de résoudre ce problème: c'est une table de correspondance de caractères textuels (chiffres, lettres, ponctuation) avec un numéro (appelé "code point" et écrit en hexa). Par contre elle ne vous dit pas comment passer du texte au binaire et réciproquement.

Pour cela il vous faut connaître l'encodage utilisé. 
L'encodage le plus courant est UTF-8 mais il en existe bien d'autres (iso-latin-1, cp1252...).

Si on utilise ASCII le ù n'est pas décodé car il ne fait pas partie des 128 premiers caractères de la table ASCII. 


In [20]:
import locale
# affichage de l'encoding par défaut sous Linux
print(locale.getpreferredencoding())
s="più"
#
ord('c')
chr(99)
b = s.encode('UTF-8')
print(b)
s=b.decode('UTF-8')
print(s)
s=b.decode('ASCII')
print(s)


UTF-8
b'pi\xc3\xb9'
più


UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

Il vaut mieux travailler les données sans l'encodage.

In [18]:
decoddata=data.decode('UTF-8')
type(decoddata)

str

Pour obtenir le "code point" en hexa d'un caractère  

In [19]:
print(format(ord('X'), '#08x'))
print(format(ord('💯'), '#08x'))

0x000058
0x01f4af
