<img style='margin-right:0' src="http://dinfo.ca/logoDptInfo.jpg" width=300>

# R√©f√©rence Fichiers Binaires (Python)
---

In [3]:
print('%x' % ord('9'))

39


In [4]:
!cat untitled.txt

1234
1111
2222
3333

In [5]:
!xxd untitled.txt

00000000: 3132 3334 0a31 3131 310a 3232 3232 0a33  1234.1111.2222.3
00000010: 3333 33                                  333


Pour la manipulation de bas niveau, nous utiliserons le module `struct` pour encoder (`.pack()`) et d√©coder(`.unpack()`) nos s√©quences binaires.

**Syntaxe**:
```python
struct.pack(fmt, v1, v2, ...)
struct.unpack(fmt, buffer)
struct.calcsize(fmt)¬∂
```

#### Struct (cha√Æne de formatage)

| Format | Repr√©sentation   | Taille              |
|--------|------------------|---------------------|
| `c`    | caract√®re        | 1 octet                    
| `b`    | entier sign√©     | 1 octet
| `B`    | entier non-sign√© |1 octet
| `?`    | bool√©en          | 1 octet
| `h`    | entier sign√©     | 2 octets
| `H`    | entier non-sign√© | 2 octets
| `i`    | entier sign√©     | 4 octets
| `I`    | entier non-sign√© | 4 octets
| `l`    | entier sign√©     | 4 octets
| `L`    | entier non-sign√© | 4 octets
| `q`    | entier sign√©     | 8 octets
| `Q`    | entier non-sign√© | 8 octets
| `f`    | point-flottant<br>simple-pr√©cision | 4 octets
| `d`    | point-flottant<br>double-pr√©cision | 8 octets
| `s`    | cha√Æne de caract√®res<br> | (pr√©ciser la taille)

| Format | Ordre des octets | Alignement        |
|--------|------------------|---------------------|
| `@`    | natif            | natif
| `=`    | natif            | aucun
| `<`    | little-endian    | aucun
| `>`    | big-endian       | aucun


#### Exemple 1 

```python
  struct.pack('<hhh', -2,1,258)
```

In [8]:
import struct
print(struct.pack('<hhh', -2,1,258))
print('Taille:', struct.calcsize('<hhh'))

b'\xfe\xff\x01\x00\x02\x01'
Taille: 6


#### Exemple 2 

```python
  struct.pack('>d', 4.5)
```

In [13]:
import struct
octets = struct.pack('>d', 4.5)
for unOctet in octets:
    print("%02x" % unOctet,end=' ')
print('\nTaille:', struct.calcsize('>d'))

40 12 00 00 00 00 00 00 
Taille: 8


Preuve: http://www.binaryconvert.com/result_double.html?decimal=052046053

In [14]:
import struct #P-E √† l'examen
print( struct.calcsize('<hhihbbbhi') )

19


## Encoder des cha√Ænes de caract√®res

Avec le format 's', par exemple '5s', on repr√©sente les octets de la cha√Æne sur 5 octets.  

Consid√©rons d'abord des caract√®res ASCII 7 bits (1 caract√®re = 1 octet).

Si on encode `ABCDE`, nous aurons les cinq octets stock√©s.

In [7]:
import struct
octets = struct.pack('5s', 'ABCDE'.encode('ascii'))
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

41 42 43 44 45 
 A  B  C  D  E 


Qu'arrive-t-il si on a seulement 3 lettres pour un espace de 5 caract√®res?
Les caract√®res inutilis√©s sont annot√©s en z√©ro binaire.

In [18]:
import struct
octets = struct.pack('5s', 'ABC'.encode('ascii'))
for unOctet in octets:
    print("%02x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

41 42 43 00 00 
 A  B  C       


S'il y en a plus? Tronqu√©s...

In [19]:
import struct
octets = struct.pack('5s', 'ABCDEFGH'.encode('ascii'))
for unOctet in octets:
    print("%x" % unOctet,end=' ')
print('')
for unOctet in octets:
    print(" %c" % unOctet,end=' ')
print('')

41 42 43 44 45 
 A  B  C  D  E 


### Encodage

Qu'arrive-t-il si on tente d'encoder une lettre accentu√©e?

In [11]:
'√©'.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 0: ordinal not in range(128)

Normal d'avoir une erreur car ce caract√®re Unicode est `00C9`.  

Pour l'encodage ISO-8859-1 (latin-1), on pourra le mettre sur un octet.

Pour l'encodage UTF-8, il sera sur deux octets.

In [13]:
print('ISO-8859-1:', len('√©'.encode('iso-8859-1')) )
for unOctet in '√©'.encode('iso-8859-1'):
    print("%x" % unOctet,end=' ')
print('')
print('UTF-8     :', len('√©'.encode('UTF-8')) )
for unOctet in '√©'.encode('UTF-8'):
    print("%x" % unOctet,end=' ')
print('')

ISO-8859-1: 1
e9 
UTF-8     : 2
c3 a9 


R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%C3%A9&mode=char

Qu'arrive-t-il avec un caract√®re cyrillique?

In [15]:
print('UTF-8:', len('–î–æ–±—Ä–æ–µ —É—Ç—Ä–æ'.encode('utf-8')) )
for unOctet in '–î–æ–±—Ä–æ–µ —É—Ç—Ä–æ'.encode('utf-8'):
    print("%x" % unOctet,end=' ')
print('')

UTF-8: 21
d0 94 d0 be d0 b1 d1 80 d0 be d0 b5 20 d1 83 d1 82 d1 80 d0 be 


R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%D0%94&mode=char

In [27]:
print('UTF-8:', len('üòé'.encode('utf-8')) )
for unOctet in 'üòé'.encode('utf-8'):
    print("%x" % unOctet,end=' ')
print('')
print('Unicode: %06x' % ord(u'üòé'))

UTF-8: 4
f0 9f 98 8e 
Unicode: 01f60e


R√©f√©rence: http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=%F0%9F%98%8E&mode=char