<div class="licence">
<span>Licence CC BY-NC-ND</span>
<span>Thierry Parmentelat &amp; Arnaud Legout</span>
</div>

In [None]:
from plan import plan; plan("types", "bytes")

# données brutes : le type `bytes`

## le type `bytes`

### non mutable

* le type `bytes` correspond, comme son nom l'indique,  
  à une séquence d'**octets**
* le type `bytes` est donc un autre exemple de **séquence** (comme `str`) 
* c'est également un type **non mutable**

In [None]:
b = bytes([65, 66, 67])
b

In [None]:
try: 
    b[1] = 68
except Exception as exc:
    print(f"OOPS - {type(exc)}\n{exc}")

### littéral

pour construire un `bytes` on peut soit

* utiliser le constructeur `bytes()` - comme slide précédent
* lire un fichier ouvert en mode binaire - vu plus tard
* mettre un `b` devant une chaîne de caractères

In [None]:
# caractère -> code ASCII
b = b'ABC'
b

In [None]:
# sinon en hexa
b'\x45\xff'

### affichage comme des caractères

* comme on le voit dans `b'ABC'` , les octets d'un `bytes`  
  sont parfois **représentés par des caractères ASCII**

* c'est un usage répandu
* mais ça peut être **source de confusion**

In [None]:
# on peut écrire ceci
b1 = b'ete'
b1

In [None]:
b2 = bytes(
    [ord('e'), ord('t'), ord('e')]
)
b1 == b2

* par exemple ceci ne **marcherait pas**
```
>>> b'été'
         ^
SyntaxError: bytes can only contain ASCII literal characters.
```

* en interne, le type `bytes` ne stocke que des entiers
* la représentation sous forme de caractères est uniquement  
  pour **faciliter la lecture** de l’ASCII

In [None]:
s = b'a\xff'
s[0], s[1]

### un `bytes` est une séquence

* on manipule des objets `bytes` presque comme des objets `str`
* les bytes sont des séquences (donc indexation, slicing, ...)
* essentiellement les mêmes méthodes que pour les `str`

méthodes dans `str`, mais pas dans `bytes`

méthodes dans `bytes`, mais pas dans `str`

In [None]:
set(dir(str)) - set(dir(bytes))

In [None]:
set(dir(bytes)) - set(dir(str))

## texte, binaire et encodage

* choisir entre `str` et `bytes`
* quand et comment convertir 

### le problème

* dès que vous échangez avec l'extérieur, i.e.
  * Internet (Web, mail, etc.)
  * stockage (disque dur, clef USB)
  * terminal ou GUI, etc..
* vous devez traiter des flux **binaires**
  * et donc vous êtes confrontés à l'encodage des chaines
  * et notamment en présence d'accents
  * ou autres caractères non-ASCII

### contenus binaires et textuels

* toutes les données ne sont pas textuelles
  * exemple : fichiers exécutables comme `cmd.exe`
  * stockage de données propriétaires
* dès qu'on utilise des données textuelles,
  * on décode une suite de bits
  * il faut leur **donner un sens**
  * c'est l'encodage

### codage et décodage en python

![](pictures/str-bytes.png)

### de multiples encodages

* au fil du temps on a inventé plein d'encodages
* le plus ancien est l'ASCII (années 60!)
* puis pour étendre le jeu de caractères
  * iso-latin-*
  * cp-1252 (Windows)
* et plus récemment, Unicode et notamment UTF-8

aujourd'hui en 2020
* **privilégier UTF-8** qui devrait être l'encodage par défaut pour tous vos appareils
* mais le choix de l'encodage revient toujours en fin de compte au programmeur  
  même lorsqu'il fait le choix de s'en remettre au paramétrage de l'OS

## Unicode

* ***une*** liste des caractères 
  * avec **chacun un *codepoint*** - un nombre entier unique
  * de l'ordre de 137.000 + en Juin 2018 (*and counting*)
  * limite théorique 1,114,112 caractères

* ***trois*** encodages:
    * **UTF-8**: taille variable 1 à 4 octets, **compatible ASCII**
    * UTF-32: taille fixe, 4 octets par caractère
    * UTF-16: taile variable, 2 ou 4 octets

![](pictures/unicode-table.png)

![](pictures/unicode-decode-example.png)

### UTF-8

* le nombre d'octets utilisé pour encoder un caractère dépend
  * du caractère et de l'encodage
  * texte ASCII : identique en UTF-8    
  * en particulier, ne prennent qu'un octet

![](pictures/unicode-utf8-areas.png)

### Unicode et Python: `chr` et `ord`

![](pictures/unicode-e-accent.png)

In [None]:
# le codepoint du é accent aigu
codepoint = 0xe9
codepoint

In [None]:
chr(codepoint)

In [None]:
ord('é')

### `encode` et `decode`

In [None]:
text = 'été\n'
type(text)

In [None]:
# on compte les 
# caractères 

len(text)

In [None]:
# on sait formatter ;)
octets = text.encode(encoding="utf-8")
for b in octets:
    print(f"{b:02x}", end=" ")

In [None]:
# ici par contre on
# compte les octets

len(octets)

####  `encode` et `decode`

In [None]:
# attention, la présentation des bytes
# à base de caractères n'est pas très lisible
octets

In [None]:
# ici on a bien 6 octets
len(octets)

In [None]:
octets.decode(encoding="utf-8")

## Martine Ã©crit en UTF-8

![](../pictures/martine-ecrit-en-utf8.png)

### pourquoi l’encodage c’est souvent un souci ?

* chaque fois qu'une application écrit du texte dans un fichier
  * elle utilise un encodage
* cette information (quel encodage?) est **parfois** disponible
  * dans ou avec le fichier
  * ex. `# -*- coding: utf-8 -*-`
  * HTTP headers
* mais le plus souvent on ne peut pas sauver cette information
  * pas prévu dans le format
  * il faudrait des **métadata**

* du coup on utilise le  
  plus souvent des heuristiques
* comme d'utiliser une  
  configuration globale de l'ordi
* sans parler des polices de caractères..

In [None]:
# Jean écrit un mail
envoyé = "j'ai été reçu à l'école"

In [None]:
# son OS l'encode pour le faire passer sur le réseau
binaire = envoyé.encode(encoding="utf-8")

In [None]:
# Pierre reçoit le binaire
# mais se trompe d'encodage
reçu = binaire.decode(encoding="cp1252")

In [None]:
# Pierre voit ceci dans son mailer
reçu

### mais le plus souvent ça marche !

* lorsqu’on travaille toujours sur la même machine, 
  * si toutes les applications utilisent l'encodage de l'OS
  * tout le monde parle le même encodage
* le problème se corse
  * dès qu'il s'agit de données externes

### comment en est on arrivé là ?

* le standard définit les 128 premières valeurs
  * c’est l’ASCII classique
* du coup pendant longtemps le modèle mental a été
  * ***un char = un octet***
* cf. le type `char` en C

* pendant les années 1990 on a introduit un patch
  * encodages comme `iso-latin1`, `cp1252`
  * préserve l'invariant ***un char = un octet***
  * au prix .. d'une multitude d'encodages

### comment faire en pratique ?

* le défaut en Python est d'utiliser UTF-8
  * pour les sources
  * pour ouvrir les fichiers
* on peut préciser l'encodage des sources avec
  * `# coding: ascii` dans les sources
  * pas utile donc si en UTF-8 - bien sûr recommandé
* on peut (devrait) préciser l'encodage avec
  * `str.encode()`, `bytes.decode()`, et `open()`
  * le défaut dans ce cas va dépendre de l'OS !

#### configurer son éditeur de texte pour supporter Unicode/UTF-8

* notamment lorsque vous écrivez du code
* il est important que votre éditeur
* écrive bien vos fichiers source en **UTF-8**
* de plus en plus c'est le cas par défaut
* sinon il y a sans doute un réglage dans l'éditeur pour ça

#### configurer son éditeur de texte pour Unicode/UTF-8

* si votre éditeur sauve en autre chose qu’utf-8, vous devez obligatoirement ajouter la ligne suivante au début de votre fichier
```
    # -*- coding: utf8 -*-
```

  En remplaçant utf8 par l’encodage utilisé par votre éditeur

#### encodages par défaut

In [None]:
# on connait l’encodage du terminal avec
import sys
sys.stdin.encoding

In [None]:
# et dans l'autre sens
# 
sys.stdout.encoding

In [None]:
# on connait l’encodage du système de fichier avec
sys.getfilesystemencoding()

In [None]:
# et le réglage système par défaut
sys.getdefaultencoding()

en principe, au 21-ème siècle vous devez avoir utf-8 partout !

#### comment changer d'encodage ?

* on passe toujours par le type `bytes`

In [None]:
# j'écris un mail
s = 'un été, à noël'
# il se fait encoder
b8 = s.encode()
b8

In [None]:
# on envoie les bytes par mail
# si à l'arrivée on utilise le mauvais
s1 = b8.decode('latin1')
s1

## outils annexes utiles

### décodage dégradé

* pour ***décoder*** avec un encodage qui ne supporte pas tous les caractères encodés
* `decode()` accepte un argument `error`
  * `"strict"` (par défaut)
  * `"ignore"` (jette le caractère non supporté)
  * `"replace"` (remplace le caractère non supporté)

In [None]:
octets = 'un été, à noël'.encode(encoding='utf-8')
octets.decode('ascii', errors='ignore')

In [None]:
octets.decode('ascii', errors='replace')

### encodage dégradé

* comment ***encoder*** avec un encodage qui ne supporte pas tous les caractères Unicode
* `encode()` accepte un argument `error`, identique i.e.:
  * `"strict"` (par défaut)
  * `"ignore"` (jette le caractère non supporté)
  * `"replace"` (remplace le caractère non supporté)

In [None]:
s = 'un été, à noël'
s.encode('ascii', errors='ignore')

In [None]:
s.encode('ascii', errors='replace')

### Unicode vers ASCII

* je veux convertir une chaîne Unicode en ASCII en convertissant en caractères proches
  * dans la librairie standard `unicodedata.normalize`

  * en librairie externe unidecode
  * `pip install unidecode`

### *deviner* l'encodage ?

* formellement : non
* en pratique : avec des heuristiques

  * par exemple avec la librairie externe chardet
  * https://pypi.python.org/pypi/chardet

In [None]:
!pip install chardet

In [None]:
!chardetect ../data/une-charogne.txt

### à savoir : le BOM

* le [`BOM` (byte order mark)](https://en.wikipedia.org/wiki/Byte_order_mark)  
  est un mécanisme permettant de disambigüer  
  entre les 3 encodages utf-8, utf-16 et utf-32

* du coup si vous savez qu'un document est en Unicode  
  mais sans savoir quel encodage au juste  
  le BOM permet de le trouver

le BOM consiste à ajouter un header pour utf-16 et utf-32  
qui crée une inflation artificielle
  


In [None]:
# en UTF-32:  1 char = 4 bytes
# donc on devrait voir 4
len("a".encode('utf32'))

In [None]:
# les 4 premiers octets correspondent 
# à la constante 'UTF32-LE'
b = "a".encode('utf32')
b[:4]

In [None]:
# évidemment ce n'est ajouté qu'une seule fois
s1000 = 1000*'x'
len(s1000.encode('utf32'))

## petit retour sur le type `str`  

### les chaines littérales

lorsqu'on veut écrire directement dans le programme  
une chaine avec des caractères exotiques

In [None]:
# entré directement au clavier
accent = 'é'
accent

In [None]:
# copié collé
warn = '⚠'
warn

In [None]:
# défini à partir de son codepoint
# si petit (un octet), format hexadécimal
'\xe9'

In [None]:
# si plus grand, utiliser \u 
# pour les codepoints sur 2 octets
"\u26A0"

Enfin `\Uxxxxxxxx` pour 4 octets, si codepoint encore plus grand (pas fréquemment utile)

### un exemple

In [None]:
s = '\u0534\u06AB\u05E7\u098b\u0bf8\u0f57\u2fb6'
print(s)

avec ces trois notations '\x` `\u` et `\u` il faut bien sûr utiliser **exactement**, respectivement, 2, 4 ou 8 digits hexadécimaux.

In [None]:
# le retour chariot a pour code ASCII 10
print('\x0a')

In [None]:
# je ne peux pas faire l'économie du 0 
try:
    print('\xa') # python n'est pas content
except:
    import traceback; traceback.print_exc()

## le type `bytearray` (avancé)

* c’est un objet similaire au type `bytes`, mais qui est **mutable**
* on l’utilise lorsque l’on a besoin de modifier un objets `bytes`

In [None]:
source = b'spam'
buff = bytearray(source)
buff

In [None]:
# remplacer 'a' bar 'e'
buff[2] = ord('e')
buff

In [None]:
for char in buff:
    print(char, end=" ")

### méthodes sur `bytearray`

In [None]:
# méthode dans bytes 
# mais pas dans bytearray
set(dir(bytes)) - set(dir(bytearray))

In [None]:
# méthode dans bytearray 
# mais pas dans bytes
set(dir(bytearray)) - set(dir(bytes))