<img style='margin-right:0' src="http://dinfo.ca/logoDptInfo.jpg" width=300>

# R√©f√©rence Fichiers Binaires (Python)
---

Pour la manipulation de bas niveau, nous utiliserons le module `struct` pour encoder (`.pack()`) et d√©coder(`.unpack()`) nos s√©quences binaires.

**Syntaxe**:
```python
struct.pack(fmt, v1, v2, ...)
struct.unpack(fmt, buffer)
struct.calcsize(fmt)¬∂
```

#### Struct (cha√Æne de formatage)

| Format | Repr√©sentation   | Taille              |
|--------|------------------|---------------------|
| `c`    | caract√®re        | 1 octet                    
| `b`    | entier sign√©     | 1 octet
| `B`    | entier non-sign√© |1 octet
| `?`    | bool√©en          | 1 octet
| `h`    | entier sign√©     | 2 octets
| `H`    | entier non-sign√© | 2 octets
| `i`    | entier sign√©     | 4 octets
| `I`    | entier non-sign√© | 4 octets
| `l`    | entier sign√©     | 4 octets
| `L`    | entier non-sign√© | 4 octets
| `q`    | entier sign√©     | 8 octets
| `Q`    | entier non-sign√© | 8 octets
| `f`    | point-flottant<br>simple-pr√©cision | 4 octets
| `d`    | point-flottant<br>double-pr√©cision | 8 octets
| `s`    | cha√Æne de caract√®res<br> | (pr√©ciser la taille)

| Format | Ordre des octets | Alignement        |
|--------|------------------|---------------------|
| `@`    | natif            | natif
| `=`    | natif            | aucun
| `<`    | little-endian    | aucun
| `>`    | big-endian       | aucun


#### Exemple 1 

```python
  struct.pack('<hhh', -2,1,258)
```

In [None]:
import struct
print(struct.pack('<hhh', -2,1,258))
print('Taille:', struct.calcsize('<hhh'))

#### Exemple 2 

```python
  struct.pack('>d', 4.5)
```

In [None]:
import struct
octets = struct.pack('>d', 4.5)
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('\nTaille:', struct.calcsize('>d'))

Preuve: http://www.binaryconvert.com/result_double.html?decimal=052046053

## Encoder des cha√Ænes de caract√®res

Avec le format 's', par exemple '5s', on repr√©sente les octets de la cha√Æne sur 5 octets.  

Consid√©rons d'abord des caract√®res ASCII 7 bits (1 caract√®re = 1 octet).

Si on encode `ABCDE`, nous aurons les cinq octets stock√©s.

In [None]:
import struct
octets = struct.pack('5s', 'ABCDE'.encode('ascii'))
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

Qu'arrive-t-il si on a seulement 3 lettres pour un espace de 5 caract√®res?
Les caract√®res inutilis√©s sont annot√©s en z√©ro binaire.

In [None]:
import struct
octets = struct.pack('5s', 'ABC'.encode('ascii'))
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

S'il y en a plus? Tronqu√©s...

In [None]:
import struct
octets = struct.pack('5s', 'ABCDEFGH'.encode('ascii'))
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

### Encodage

Qu'arrive-t-il si on tente d'encoder une lettre accentu√©e?

In [None]:
'√©'.encode('ascii')

Normal d'avoir une erreur car ce caract√®re Unicode est `00C9`.  

Pour l'encodage ISO-8859-1 (latin-1), on pourra le mettre sur un octet.

Pour l'encodage UTF-8, il sera sur deux octets.

In [None]:
print('ISO-8859-1:', len('√©'.encode('iso-8859-1')) )
for unOctet in '√©'.encode('iso-8859-1'):
    print("%x" % unOctet,end=' ')
print('')
print('UTF-8     :', len('√©'.encode('UTF-8')) )
for unOctet in '√©'.encode('UTF-8'):
    print("%x" % unOctet,end=' ')
print('')

R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%C3%A9&mode=char

Qu'arrive-t-il avec un caract√®re cyrillique?

In [None]:
print('UTF-8:', len('–î–æ–±—Ä–æ–µ —É—Ç—Ä–æ'.encode('utf-8')) )
for unOctet in '–î–æ–±—Ä–æ–µ —É—Ç—Ä–æ'.encode('utf-8'):
    print("%x" % unOctet,end=' ')
print('')

R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%D0%94&mode=char

In [None]:
print('UTF-8:', len('üòé'.encode('utf-8')) )
for unOctet in 'üòé'.encode('utf-8'):
    print("%x" % unOctet,end=' ')
print('')
print('Unicode: %06x' % ord(u'üòé'))

R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%F0%9F%98%8E&mode=char