#### 1.1 Encodage des chaînes de caractères

In [1]:
# exemple
s = 'Un exemple de chaîne de caractères'
type(s)

str

In [2]:
# encodage en UTF-8
s.encode()

b'Un exemple de cha\xc3\xaene de caract\xc3\xa8res'

In [3]:
# encodage en UTF-8
type(s.encode())

bytes

In [4]:
# encodage en latin-1 ou ISO-8859-1
s.encode('latin-1')

b'Un exemple de cha\xeene de caract\xe8res'

In [5]:
# encodage en UTF-8
(s + ' €').encode()

b'Un exemple de cha\xc3\xaene de caract\xc3\xa8res \xe2\x82\xac'

In [6]:
# erreur d'encodage en latin-1 ou ISO-8859-1
(s + ' €').encode('latin-1')

UnicodeEncodeError: 'latin-1' codec can't encode character '\u20ac' in position 35: ordinal not in range(256)

In [7]:
# encodage en ISO-8859-15
(s + ' €').encode('ISO-8859-15')

b'Un exemple de cha\xeene de caract\xe8res \xa4'

In [8]:
# exemple d'erreur de décodage
(s + ' €').encode('ISO-8859-15').decode("latin-1")

'Un exemple de chaîne de caractères ¤'

**Conclusion** : une chaine de caractères = une séquence d'octets (binaire) + encodage (qui permet d'interpréter le binaire).

#### 1.2 Lecture des fichiers binaires

In [9]:
# octets (00000000 => 11111111)
with open("names/NationalReadMe.pdf", "rb") as f:
    content = f.read()
    octets = [f"{c:08b}" for c in content[:8]]
    print(*octets)

00100101 01010000 01000100 01000110 00101101 00110001 00101110 00110110


In [10]:
# hexa (00 => FF)
with open("names/NationalReadMe.pdf", "rb") as f:
    content = f.read()
    octets = [f"{c:x}" for c in content[:8]]
    print(*octets)

25 50 44 46 2d 31 2e 36


In [11]:
# entiers en base 10 (0 => 255)
with open("names/NationalReadMe.pdf", "rb") as f:
    content = f.read()
    octets = [f"{c:d}" for c in content[:8]]
    print(*octets)

37 80 68 70 45 49 46 54


In [12]:
# caractères ASCII
with open("names/NationalReadMe.pdf", "rb") as f:
    content = f.read()
    octets = [chr(c) for c in content[:8]]
    print(*octets)

% P D F - 1 . 6


In [13]:
# affiché en octal (0 => )
!od -bc names/NationalReadMe.pdf

0000000 045 120 104 106 055 061 056 066 015 045 342 343 317 323 015 012
          %   P   D   F   -   1   .   6  \r   %   â   ã   Ï   Ó  \r  \n
0000020 061 071 040 060 040 157 142 152 015 074 074 057 114 151 156 145
          1   9       0       o   b   j  \r   <   <   /   L   i   n   e
0000040 141 162 151 172 145 144 040 061 057 114 040 070 071 060 070 062
          a   r   i   z   e   d       1   /   L       8   9   0   8   2
0000060 057 117 040 062 061 057 105 040 070 064 065 070 064 057 116 040
          /   O       2   1   /   E       8   4   5   8   4   /   N    
0000100 061 057 124 040 070 070 067 067 066 057 110 040 133 040 064 071
          1   /   T       8   8   7   7   6   /   H       [       4   9
0000120 070 040 061 067 067 135 076 076 015 145 156 144 157 142 152 015
          8       1   7   7   ]   >   >  \r   e   n   d   o   b   j  \r
0000140 040 040 040 040 040 040 040 040 040 040 040 040 040 040 040 040
                                                                

0007200 226 306 050 155 321 202 222 212 371 351 155 235 121 372 242 245
          –   Æ   (   m   Ñ   ‚   ’   Š   ù   é   m 235   Q   ú   ¢   ¥
0007220 307 263 360 260 037 014 322 213 030 267 025 352 165 023 143 110
          Ç   ³   ð   ° 037  \f   Ò   ‹ 030   · 025   ê   u 023   c   H
0007240 275 246 151 154 127 115 154 217 064 322 152 312 327 115 125 176
          ½   ¦   i   l   W   M   l 217   4   Ò   j   Ê   ×   M   U   ~
0007260 353 325 324 057 115 031 176 223 267 340 115 246 026 137 067 341
          ë   Õ   Ô   /   M 031   ~   “   ·   à   M   ¦ 026   _   7   á
0007300 322 336 312 152 252 370 230 222 344 230 025 150 143 227 310 345
          Ò   Þ   Ê   j   ª   ø 230   ’   ä 230 025   h   c   —   È   å
0007320 204 203 334 114 110 311 054 274 340 134 222 244 126 310 356 030
          „   ƒ   Ü   L   H   É   ,   ¼   à   \   ’   ¤   V   È   î 030
0007340 057 253 215 121 162 133 155 272 214 331 006 147 142 171 275 255
          /   « 215   Q   r   [   m   º   Œ   Ù 006   g   b   y 

          ¡   @ 215 003   Í   à   >   `   Â  \f   Ó   :   }   L   Ü 017
0047040 155 231 216 247 323 241 165 011 023 303 164 332 030 367 336 225
          m 231   Ž   §   Ó   ¡   u  \t 023   Ã   t   Ú 030   ÷   Þ   •
0047060 141 332 017 273 147 265 272 367 152 164 317 371 375 317 377 012
          a   Ú 017   »   g   µ   º   ÷   j   t   Ï   ù   ý   Ï   ÿ  \n
0047100 241 260 024 151 015 157 021 210 237 207 357 105 360 161 333 204
          ¡   ° 024   i  \r   o 021 210   Ÿ   ‡   ï   E   ð   q   Û   „
0047120 015 317 220 120 143 201 040 360 241 046 126 020 022 241 026 050
         \r   Ï 220   P   c 201       ð   ¡   &   V 020 022   ¡ 026   (
0047140 270 315 016 304 175 204 145 030 000 327 264 354 150 246 040 267
          ¸   Í 016   Ä   }   „   e 030  \0   ×   ´   ì   h   ¦       ·
0047160 241 072 017 266 362 213 074 316 357 115 247 325 164 071 135 115
          ¡   : 017   ¶   ò   ‹   <   Î   ï   M   §   Õ   t   9   ]   M
0047200 237 114 033 322 244 235 340 011 234 050 305 343 345 004 

          t 026  \r 006   ¦   ‘   X   -   ¤   e   "   «   z 026   ž   x
0120060 212 166 253 236 063 117 074 153 315 263 074 320 367 252 166 377
          Š   v   «   ž   3   O   <   k   Í   ³   <   Ð   ÷   ª   v   ÿ
0120100 056 222 215 341 265 327 101 027 273 222 243 115 062 056 376 037
          .   ’ 215   á   µ   ×   A 027   »   ’   £   M   2   .   þ 037
0120120 356 221 202 277 263 217 357 354 351 117 261 111 051 273 032 333
          î   ‘   ‚   ¿   ³ 217   ï   ì   é   O   ±   I   )   » 032   Û
0120140 316 135 353 264 202 177 313 232 157 125 222 135 255 051 062 100
          Î   ]   ë   ´   ‚ 177   Ë   š   o   U   ’   ]   ­   )   2   @
0120160 254 112 104 200 324 274 300 304 175 153 225 125 045 145 225 251
          ¬   J   D 200   Ô   ¼   À   Ä   }   k   •   U   %   e   •   ©
0120200 020 274 172 215 311 303 212 301 010 124 324 054 230 155 227 351
        020   ¼   z 215   É   Ã   Š   Á  \b   T   Ô   , 230   m   —   é
0120220 154 107 241 114 233 071 356 377 154 244 254 174 256 266 

0165120 010 036 342 076 225 356 031 312 340 075 113 243 273 144 250 203
         \b 036   â   >   •   î 031   Ê   à   =   K   £   »   d   ¨   ƒ
0165140 230 362 062 014 170 102 353 244 020 375 334 232 037 062 174 045
        230   ò   2  \f   x   B   ë   ¤ 020   ý   Ü   š 037   2   |   %
0165160 313 327 122 134 310 252 340 057 203 262 264 334 357 363 027 335
          Ë   ×   R   \   È   ª   à   /   ƒ   ²   ´   Ü   ï   ó 027   Ý
0165200 365 171 205 347 256 327 012 136 024 051 134 071 053 244 141 025
          õ   y   …   ç   ®   ×  \n   ^ 024   )   \   9   +   ¤   a 025
0165220 227 247 312 375 102 361 125 223 300 145 320 072 357 057 237 345
          —   §   Ê   ý   B   ñ   U   “   À   e   Ð   :   ï   /   Ÿ   å
0165240 367 227 127 134 220 136 012 212 116 253 062 024 042 255 332 347
          ÷   —   W   \ 220   ^  \n   Š   N   «   2 024   "   ­   Ú   ç
0165260 055 361 127 126 227 007 026 370 153 375 047 374 157 372 125 377
          -   ñ   W   V   —  \a 026   ø   k   ý   '   ü   o   ú 

          –   s 200   F   Ú   ï   ¹  \v   …   Ï   Ä   —   X   3   h   þ
0225540 043 050 367 067 357 017 307 150 363 231 174 016 175 277 024 316
          #   (   ÷   7   ï 017   Ç   h   ó 231   | 016   }   ¿ 024   Î
0225560 264 056 320 002 304 303 053 236 306 305 073 360 123 072 143 137
          ´   .   Ð 002   Ä   Ã   +   ž   Æ   Å   ;   ð   S   :   c   _
0225600 243 227 355 267 350 220 335 225 266 343 236 147 304 165 355 303
          £   —   í   ·   è 220   Ý   •   ¶   ã   ž   g   Ä   u   í   Ã
0225620 374 050 260 106 275 313 133 201 143 230 067 246 316 121 177 225
          ü   (   °   F   ½   Ë   [ 201   c 230   7   ¦   Î   Q 177   •
0225640 304 047 254 113 170 023 045 272 347 315 133 361 040 255 211 224
          Ä   '   ¬   K   x 023   %   º   ç   Í   [   ñ       ­   ‰   ”
0225660 041 377 067 240 351 211 233 270 040 166 226 013 240 035 122 143
          !   ÿ   7       é   ‰   ›   ¸       v   –  \v     035   R   c
0225700 320 067 321 273 341 357 014 152 230 200 265 342 055 264 

0300200 066 060 040 071 066 071 040 066 063 064 040 066 065 061 040 061
          6   0       9   6   9       6   3   4       6   5   1       1
0300220 060 065 066 040 066 070 071 040 065 060 060 040 064 071 071 040
          0   5   6       6   8   9       5   0   0       4   9   9    
0300240 064 064 067 040 063 066 071 040 064 071 066 040 064 064 064 040
          4   4   7       3   6   9       4   9   6       4   4   4    
0300260 071 065 062 040 063 071 060 135 066 061 060 040 066 061 061 040
          9   5   2       3   9   0   ]   6   1   0       6   1   1    
0300300 065 065 066 040 066 061 062 133 065 060 067 040 065 061 063 040
          5   5   6       6   1   2   [   5   0   7       5   1   3    
0300320 066 070 065 040 065 065 065 040 065 060 060 040 065 065 066 040
          6   8   5       5   5   5       5   0   0       5   5   6    
0300340 065 060 060 040 064 064 064 040 067 067 070 040 064 064 064 040
          5   0   0       4   4   4       7   7   8       4   4 

0347520 203 123 074 155 303 217 143 175 057 153 262 036 200 176 374 102
          ƒ   S   <   m   Ã 217   c   }   /   k   ² 036 200   ~   ü   B
0347540 356 006 141 020 224 166 211 047 230 254 064 357 235 371 377 046
          î 006   a 020   ”   v   ‰   ' 230   ¬   4   ï 235   ù   ÿ   &
0347560 176 112 074 325 045 361 156 264 146 037 036 356 234 106 116 074
          ~   J   <   Õ   %   ñ   n   ´   f 037 036   î   œ   F   N   <
0347600 011 375 122 055 071 114 316 000 232 207 066 023 105 047 200 042
         \t   ý   R   -   9   L   Î  \0   š   ‡   6 023   E   ' 200   "
0347620 311 275 046 357 065 244 170 364 162 020 361 125 016 356 365 366
          É   ½   &   ï   5   ¤   x   ô   r 020   ñ   U 016   î   õ   ö
0347640 000 357 307 376 204 346 200 046 364 366 321 103 372 010 157 267
         \0   ï   Ç   þ   „   æ 200   &   ô   ö   Ñ   C   ú  \b   o   ·
0347660 257 360 105 324 371 065 352 114 225 073 225 275 224 113 075 233
          ¯   ð   E   Ô   ù   5   ê   L   •   ;   •   ½   ”   K 

**Conclusion** : un fichier texte ou binaire est bien représenté en machine par une séquence d'octets (8 bits). Toutefois, les outils disponibles affichent généralement ces octets dans une base différente de la base 2 : octal, décimal, hexadécimal.