<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 9 : Repr√©sentation des textes</h1>

La repr√©sentation des caract√®res dans un ordinateur est l'√©l√©ment cl√© pour stocker ou √©changer des textes.  
En th√©orie, c'est assez simple : il suffit d'associer un num√©ro unique √† chaque caract√®re.  
En pratique, le choix de l'encodage doit respecter certaines contraintes.  
* Il faut que tous les ordinateurs utilisent le m√™me encodage.
* Il doit permettre de repr√©senter le plus de caract√®res possibles, en particulier des caract√®res dit "non imprimables" qui correspondent soit √† des actions comme "passer √† la ligne" ou "√©mettre un bip", mais √©galement √† des commandes de protocoles de communication comme "accuser r√©ception", "d√©but de texte", ...
* Il doit √™tre le plus compact possible pour √©conomiser la m√©moire ou le volume des √©cchanges r√©seaux.

## Codage ASCII
Dans les ann√©es 50, il existait un nombre important d'encodages de caract√®res dans les ordinateurs, les imprimantes ou les lecteurs de carte. Tous ces encodages √©taient incompatibles les uns avec les autres, ce qui rendait les √©changes particuli√®rement difficiles car il fallait utiliser des programmes pour convertir les caract√®res d'un encodage dans un autre.  

Pour tenter de mettre un peu d'ordre dans tous √ßa, l'[ANSI](https://www.ansi.org/) (American National Standards Institute) propose au d√©but des ann√©es 60 une norme de codage des caract√®res appel√©e ASCII (American Standard Code for Information Interchange).  
Cette norme d√©finit un jeu de 128 caract√®res, chaque caract√®re √©tant repr√©sent√© par un octet.

La correspondance entre les caract√®res et les octets qui les repr√©sentent est r√©sum√©e dans une table, appel√© table ASCII.

|   |  0  |  1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9 |  A  |  B  |  C |  D |  E |  F  |
|:-:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:--:|:---:|:---:|:--:|:--:|:--:|:---:|
| 0 | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL |  BS | HT |  LF |  VT | FF | CR | SO |  SI |
| 1 | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS |  US |
| 2 |  SP |  !  |  "  |  #  |  $  |  %  |  &  |  '  |  (  |  ) |  *  |  +  |  , |  - |  . |  /  |
| 3 |  0  |  1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9 |  :  |  ;  |  < |  = |  > |  ?  |
| 4 |  @  |  A  |  B  |  C  |  D  |  E  |  F  |  G  |  H  |  I |  J  |  K  |  L |  M |  N |  O  |
| 5 |  P  |  Q  |  R  |  S  |  T  |  U  |  V  |  W  |  X  |  Y |  Z  |  [  |  \ |  ] |  ^ |  _  |
| 6 |  `  |  a  |  b  |  c  |  d  |  e  |  f  |  g  |  h  |  i |  j  |  k  |  l |  m |  n |  o  |
| 7 |  p  |  q  |  r  |  s  |  t  |  u  |  v  |  w  |  x  |  y |  z  |  {  | \| |  } |  ~ | DEL |



Chaque case de cette table contient un caract√®re. Pour trouver l'octet (repr√©sent√© par un nombre hexad√©cimal √† deux chiffres) associ√© √† un caract√®re, il suffit de concat√©ner le chiffre de sa ligne avec celui de sa colonne. Par exemple, le caract√®re `A` correspond au nombre hexad√©cimel `41` et le caract√®re `+` au nombre hexad√©cimal `2B`.

La table ASCII contient plusieurs cat√©gories de caract√®res.
* les lettres de l'alphabet latin en majuscule (entre `41`et `5A`) et en minuscule (entre `61` et `7A`)
* les chiffres de 0 √† 9 (entre `30` et `39`)
* des signes de ponctuations (comme la virgule `,` qui vaut `2C`), des parenth√®ses ou des crochets (comme le symbole `(` qui vaut `28` ou le crochet ouvrant `[` qui vaut `5B`)
* des op√©rateurs arithm√©tiques (comme le signe `+` qui vaut `2B`)

La table contient √©galement des caract√®res sp√©ciaux ( entre `00` et `20`). On trouve, par exemple, des caract√®res **blancs** (espace, tabulation, ...), des retours chariot, des suppressions, ...

| caract√®re | num√©ro | signification          |
|:---------:|:------:|------------------------|
|     HT    |   09   | Tabulation horizontale |
|     LF    |   0A   | Nouvelle ligne         |
|     VT    |   0B   | Tabulation verticale   |
|     FF    |   0C   | Nouvelle page          |
|     CR    |   0D   | Retour chariot         |
|     SP    |   20   | Espace                 |
|     BS    |   08   | Suppression            |
|    DEL    |   7F   | Effacement             |

Il y a √©galement des caract√®res de contr√¥le, "non imprimables", qui peuvent avoir une signification particuli√®re pour des [protocoles](https://interstices.info/glossaire/protocole/) de communication, le contr√¥le des p√©riph√©riques, ...

| caract√®re | num√©ro | signification              |
|:---------:|:------:|----------------------------|
|    SOH    |   01   | D√©but d'ent√™te             |
|    STX    |   02   | D√©but de texte             |
|    ETX    |   03   | Fin de texte               |
|    EOT    |   04   | Fin de transmission        |
|    ENQ    |   05   | Demande                    |
|    ACK    |   06   | Accus√© de r√©ception        |
|    BEL    |   07   | Son sur le haut parleur    |
|    ...    |        |                            |
|    DC1    |   11   | Contr√¥le de p√©riph√©rique 1 |
|    ...    |        |                            |

Un texte cod√© en ASCII est simplement une suite d'octets correspondant √† cette s√©quence de caract√®res.  
Par exemple, la phrase (ou suite de caract√®res) suivante :

                                      Ceci est un texte!

correspond √† la s√©quence d'octets :

|  C |  e |  c |  i |    |  e |  s |  t |    |  u |  n |    |  t |  e |  x |  t |  e |  ! |
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
| 43 | 65 | 63 | 69 | 20 | 65 | 73 | 74 | 20 | 75 | 6E | 20 | 74 | 65 | 78 | 74 | 65 | 21 |

#### Retour √† la ligne
Les caract√®res `LF` (nouvelle ligne - *Line Feed* en anglais) et `CR` (retour chariot - *Carriage Return* en anglais) ont des effets tr√®s similaires, mais leur interpr√©tation est n√©anmoins diff√©rente selon les syst√®mes.  
Sous Windows, pour sauter une ligne et revenir au d√©but de la nouvelle ligne (on dit aussi *passer √† la ligne*), il faut utiliser les deux caract√®res `CR` et `LF`.  
Sous Linux et macOS, le caract√®re `LF` suffit.  
Sur certains (vieux) syst√®mes, on utilise seulement `CR`.  
Il est donc pr√©f√©rable de faire des tests pour √™tre certain de l'effet de ces caract√®res sp√©ciaux.

### Bit de parit√©
On remarque que m√™me si 7 bits sont suffisants pour repr√©senter 128 caract√®res (de `000 0000` √† `111 1111`), en pratique chaque caract√®re occupe un octet (8 bits) en m√©moire.  
Le bit de poids fort est utilis√© pour une **somme de contr√¥le** afin de d√©tecter d'eventuelles [erreurs de transmission](https://interstices.info/communiquer-sans-erreurs-les-codes-correcteurs/).    

Pour cela, l'id√©e consiste simplement √† fixer la valeur de ce bit de mani√®re √† ce que le nombre de bits √† 1 dans l'octet soit toujours pair.  
On appelle ce bit, le **bit de parit√©**.

## Normes ISO 8859
Les caract√®res imprimables de la table ASCII se sont vite av√©r√©s insuffisants pour transmettre des textes dans des langues autres que l'anglais. En effet, rien qu'en consid√©rant les langues reposant sur un alphabet latin, il manque dans la table ASCII de nombreux caract√®res comme les lettres accentu√©es, les symboles de monnaies, ...

Pour rem√©dier √† ce probl√®me, l'[ISO](https://www.iso.org/fr) (Organisation Internationale de Normalisation) a propos√© la norme **ISO 8859**, une extension de l'ASCII qui utilise les huit bits de chaque octet pour repr√©senter les caract√®res.  
Au total, ce sont donc 256 caract√®res qui peuvent √™tre encod√©s. Cependant, malgr√© un nombre de caract√®res doubl√©, cela reste insuffisant pour repr√©senter tous les caract√®res utilis√©s, rien que dans les langues latines

Pour repr√©senter le plus de caract√®res possibles, la norme ISO 8859 d√©finit plusieurs tables de correspondances not√©es ISO-8859-$n$, o√π $n$ est le num√©ro de la table.  
Bien qu'ind√©pendantes les unes des autres, ces tables ont √©t√© con√ßues pour qu'elles soient compatibles entre elles.  
Les premiers 128 caract√®res sont ceux de la norme ASCII.  
Les 128 suivants sont ceux sp√©cifiques √† la table $n$. De plus, les caract√®res identiques ont le m√™me code.

La norme 8859 compte seize tables en tout et dix tables rien que pour les langues latines.

| code ISO           | Zone                        |
|--------------------|-----------------------------|
| 8859-1 (latin-1)   | Europe occidentale          |
| 8859-2 (latin-2)   | Europe centrale ou de l'est |
| 8859-3 (latin-3)   | Europe du sud               |
| 8859-4 (latin-4)   | Europe du nord              |
| 8859-5             | Cyrilique                   |
| 8859-6             | Arabe                       |
| 8859-7             | Grec                        |
| 8859-8             | Hebreu                      |
| 8859-9 (latin-5)   | Turc, Kurde                 |
| 8859-10 (latin-6)  | Nordique                    |
| 8859-11            | Tha√Ø                        |
| 8859-12            | Devanagari (abandonn√©)      |
| 8859-13 (latin-7)  | Balte                       |
| 8859-14 (latin-8)  | Celtique                    |
| 8859-15 (latin-9)  | Revision du latin-1         |
| 8859-16 (latin-10) | Europe du sud-est           |

#### [Comparaison des diverses parties d‚ÄôISO 8859](Fichiers/iso8859.csv)

## Codage Unicode
### Norme ISO-10646
Bien que les pages ISO-8859-$n$ permettent l'encodage d'un tr√®s grand nombre de caract√®res, elles ne conviennent par, par exemple, quand on souhaite √©crire un texte avec un m√©lange de caract√®res dans diff√©rentes pages.  
Pour remplacer l'utilisation des pages de code, l'ISO a d√©fini un jeu universel de caract√®res (appel√©s UCS pour Universal Character Set) sous la norme **ISO-10646**. Cette norme associe, √† chaque caract√®re (lettre, nombre, id√©ogramme, ...), un nom unique (en anglais et en fran√ßais) ainsi qu'un num√©ro (un entier positif en base 10 appel√© **point de code**).  
Il y a aujourd'hui plus de 110 000 caract√®res recens√©s dans cette norme, qui est con√ßue pour contenir les caract√®res de n'importe quelle langue.  
La capacit√© maximale de la norme a √©t√© fix√©e √† 4 294 967 295 caract√®res, c'est-√†-dire le plus grand entier non sign√© repr√©sentable avec un mot de 32 bits.  
Par soucis de compatibilit√©, les 256 premiers points de code sont ceux de la norme ISO-8859-1 (latin-1).  

On utilise la notation `U+x..x` pour d√©signer les points de code du jeu universel de caract√®res, o√π chaque `x` est un chiffre hexad√©cimal. En pratique, la s√©quence de `x` est au minimum de 4 chiffres et on ajoute des chiffres lorsque cela est n√©cessaire.  
Par exemple, `U+006F` d√©signe le point de code de la lettre `o` (point de code 111 dans le jeu universel de caract√®res).

Avec un tel nombre de points de code, un encodage na√Øf de la norme ISO-10646 utiliserait quatre octets pour repr√©senter chaque caract√®re. Cependant, dans la grande majorit√© des cas, pour les √©changes bas√©s sur l'ancienne page latin-1, cela repr√©senterait un √©norme g√¢chis puisque trois octets seraient, √† chaque fois, inutilis√©s (et contiendrait uniquement des `0`). De plus, les points de code pour les caract√®res les plus utilis√©s dans le monde sont rassembl√©s entre 0 et 65 535, donc sur deux octets.

### Norme Unicode
Cette norme, d√©velopp√©e par le [consortium Unicode](https://home.unicode.org/) (organisation priv√©e √† but non lucratif), d√©finit plusieurs techniques d'encodage pour repr√©senter les points de code de mani√®re plus ou moins √©conomique, selon la technique choisie.  
Ces encodages, appel√©s **format de transformation universelle** ou **Universal Transformation Format** (UTF) en anglais, portent les noms UTF-$n$, o√π $n$ indique le nombre minimal de bits pour repr√©senter un point de code.

### UTF-8
C'est le format le plus utilis√© sous Linux, dans les protocoles r√©seaux, les sites Web, Python, ...  
Comme son nom l'indique, il faut seulement 8 bits pour coder les premiers caract√®res. L'UTF-8 est enti√®rement compatible avec le standard ASCII, c'est-√†-dire que les 127 premiers caract√®res sont repr√©sent√©s sur 1 octet, exactement comme en ASCII.  
Ainsi, les programmes qui fonctionnaient sur des textes encod√©s en ASCII devraient continuer √† fonctionner si ces m√™mes textes sont encod√©s en UTF-8.

Le principe du codage UTF-8 est :
* Si le bit de poids fort d'un octet est √† 0, alors il s'agit d'un caract√®re ASCII cod√© sur les 7 bits restants.
* Sinon, les premiers bits de poids fort de l'octet indique le nombre d'octets utilis√©s pour encoder la caract√®re √† l'aide d'une s√©quence de bits √† 1 et se terminant par un bit √† 0  
Par exemple, si le premier octet commence par `110xxxxx`, cela signifie que le caract√®re est cod√© par deux octets.
* Dans le cas d'un encodage sur $k$ octets, les $k-1$ octets qui suivente l'octet de poids forts doivent tous √™tre de la forme `10xxxxxx`, c'est-√†-dire commencer par deux bits de poids fort valant 10.

| Plage              | Suite d'octets (en binaire)         | bits codant |
|--------------------|-------------------------------------|-------------|
| [U+0000 √† U+007F](https://www.unicode.org/charts/PDF/U0000.pdf)    | 0xxxxxxx                            | 7 bits      |
| U+0080 √† U+07FF    | 110xxxxx 10xxxxxx                   | 11 bits     |
| U+0800 √† U+FFFF    | 1110xxxx 10xxxxxx 10xxxxxx          | 16 bits     |
| U+10000 √† U+10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | 21 bits     |

Pour obtenir plus de bits pour encoder les caract√®res, il suffit de poursuivre ce principe.  
Cependant, la version actuelle d'UTF-8 ne permet qu'un encodage sur quatre octets au maximum.

| caract√®re | point de code                                | point de code (binaire) | UTF-8 (binaire)            | UTF-8 (hexad√©cimal) |
|-----------|----------------------------------------------|-------------------------|----------------------------|---------------------|
| K         | [U+004B](https://unicode-table.com/fr/004B/) | 01001011                | 01001011                   | 4B                  |
| √Ö         | [U+00C5](https://unicode-table.com/fr/00C5/) | 11000101                | 11000011 10000101          | C3 85               |
| ‡™ú         | [U+0A9C](https://unicode-table.com/fr/0A9C/) | 00001010 10011100       | 11100000 10101010 10011100 | E0 AA 9C            |

### UTF-16
Ce format utilise 16 bits au minimum pour repr√©senter un caract√®re et seuls les points de code entre `U+0000`et `U+10FFFF` peuvent √™tre repr√©sent√©s.  
Le format UTF-16 permet de repr√©senter, sur deux octets, les premiers 65 536 points de code, c'est-√†-dire ceux dans l'intervalle `[U+0000;U+FFFF]`.  
Les points de code suivants sont repr√©sent√©s sur quatre octets.

#### Encodage
L'algorithme d'encodage du format UTF-16 est le suivant. Soit $p$ un point de code dans l'intervalle `[U+0000;U+10FFFF]`.
* Si $p$ est compris dans l'intervalle `[U+0000;U+D7FF]‚à™[U+E000;U+FFFD]`, alors on le repr√©sente tel qu'il est (soit un mot de 16 bits).
* Sinon, on soustrait `10000` (en hexad√©cimal) √† $p$, ce qui donne un nombre $p'$ inf√©rieur ou √©gal √† `FFFFF` (puisque $p$ ‚â§ `10FFFF`), c'est-√†-dire un nombre sur 20 bits au maximum.  
Si on note $x_i$ (avec $i \in [0;9]$) les 10 bits de poids forts de $p'$ (avec $x_0$ le bit de poids fort) et $y_i$ (avec $i \in [0;9]$) les 10 bits de poids faibles, alors $p'$ est encod√© par les deux mots de 16 bits $p'_h$ et $p'_l$ suivants :  
    * $p'_h = 110110x_0x_1x_2x_3x_4x_5x_6x_7x_8x_9$
    * $p'_l = 110111y_0y_1y_2y_3y_4y_5y_6y_7y_8y_9$   
On obtient alors les intervalles suivants pour $p'_h$ et $p'_l$ :  
    * $p'_h \in$ `[11011000 00000000; 11011011 11111111]` (en binaire) ou $p'_h \in$ `[D800; DBFF]` (en hexad√©cimal)
    * $p'_l \in$ `[11011100 00000000; 11011111 11111111]` (en binaire) ou $p'_h \in$ `[DC00; DFFF]` (en hexad√©cimal)
    
Signalons que les points de code dans l'intervalle `[U+D800;U+DFFD]`, ne sont pas repr√©sentables en UTF-16 : le jeu universel de caract√®res a √©t√© con√ßu pour ne contenir aucun encodage dans cet intervalle.
    
#### D√©codage
Le d√©codage d'un point de code UTF-16 consiste √† d√©terminer si le premier mot de 16 bits est dans l'intervalle `[D800; DFFF]`.  
Si ce n'est pas le cas, alors ce mot repr√©sente directement un point de code sur deux octets.  
Si le mot est dans cet intervalle, on r√©cup√®re les deux octets suivants et on extrait les 20 bits.  
On ermine de reconstruire le point de code en ajoutant `10000` au mot obtenu.

Par exemple, le codage en UTF-16 du point de code [`U+1F603`](https://unicode-table.com/fr/1F603/) :
* Puisque le point de code n'est pas dans l'intervalle des points de code repr√©sentables sur 16 bits, on applique la soustraction de `10000`, ce qui donne `1F603 - 10000 = F603`
* En binaire sur 16 bits, le nombre `F603` s'√©crit `11110110 00000011`,   
soit sur 20 bits et d√©coup√©s en deux blocs de 10 bits `0000111101 1000000011`,   
ce qui donne, au final `03D` et `203`
* On ajoute alors `D800` au premier et `DC00` au second :

    `D800 + 03D = D83D`
    
    `DC00 + 203 = DE03`
    
Ce qui donne une repr√©sentation UTF-16 sur quatre octets : `D8 3D DE 03`.

### UTF-32
Ce format n'a rien d'√©conomique puisqu'il repr√©sente tous les caract√®res sur 32 bits.  
N√©anmoins, il simplifie grandement les algorithmes de manipulation de cha√Ænes de caract√®res (comme l'acc√®s au $n$-i√®me √©l√©ment ou l'extraction d'une sous cha√Æne) puisque chaque caract√®re occupe le m√™me espace en m√©moire.

### UTF et boutisme
Contrairement √† UTF-8 qui est insensible √† l'ordre des octets en m√©moire, les formats UTF-16 et UTF-32, qui n√©cessitent de lire directement des mots m√©moire sur plusieurs octets, se heurtent au probl√®me du boutisme.  
Pour indiquer quel ordre doit √™tre utiliser pour lire les octets, on utilise, en d√©but de texte, le point de code `U+FEFF` appel√© BOM (pour Byte Order Mark).  
Lorsque les octets de ce code sont lus dans le bon ordre (√† savoir `FE` suivi de `FF`), il s'agit d'un ordre gros boutien. Dans le cas contraire, c'est un ordre petit boutien.

## Python
### Manipulations
La fonction [`ord`](https://docs.python.org/fr/3/library/functions.html?#ord) de Python renvoie le code Unicode correspondant √† un caract√®re. L'entier renvoy√© est en base 10.

In [None]:
ord('a')

In [None]:
hex(ord('a'))

Inversement, la fonction [`chr`](https://docs.python.org/fr/3/library/functions.html?#chr) renvoie le caract√®re correspondant √† un entier

In [None]:
chr(0x26)

Les caract√®res peuvent √©galement √™tre saisis directement par leur code Unicode en utilisant la notation `\xhh` ou `hh` est le code hexad√©cimal du caract√®re.

In [None]:
print("\x43e\x63i es\x74...")

Cette technique de saisie des caract√®res √† l'aide du caract√®re `\` est appel√©e **caract√®re √©chapp√©** ( le caract√®re `\` est √©galement appel√© **caract√®re d'√©chappement**).  
D'autres raccourcis de caract√®res √©chapp√©s sont √©galement disponibles pour saisir les caract√®res sp√©ciaux.

|      |                                 |
|------|---------------------------------|
| `\a` | BEL (son sur le haut parleur)   |
| `\b` | BS (suppression)                |
| `\f` | FF (nouvelle page)              |
| `\n` | LF (nouvelle ligne)             |
| `\r` | CR (retour chariot)             |
| `\t` | HT (tabulation horizontale)     |
| `\v` | VT (tabulation verticale)       |
| `\\` | pour afficher le caract√®re `\`) |

In [None]:
print('\a')

In [None]:
print("bona\bjour\n √† \ttous!")

### Les cha√Ænes de caract√®res
Les [cha√Ænes de caract√®res](https://docs.python.org/fr/3/howto/unicode.html#the-string-type) en Python sont des s√©quences de caract√®res au format UTF-8.  
Ces caract√®res peuvent √™tre saisi directement avec leur point de code.

In [None]:
'\u00DF'                          # on utilise une valeur hexad√©cimale sur 16 bits

In [None]:
'\N{Latin Small Letter Sharp S}'  # on utilise la description Unicode

In [None]:
'\U000000DF'                      # on utilise une valeur hexad√©cimale sur 32 bits

In [None]:
s = "\u00E7\U00000061\u0020\u0065\u0074\N{Space}\u006C\u00E0"
print(s)

On retrouve √©galement les [emojis](https://unicode-table.com/fr/emoji/)...

In [None]:
for caractere in ['\U0001F3AE', '\u2663', '\u270C', '\U0001F600', '\U0001F4BB']:
    print(caractere)

Python permet de saisir directement des caract√®res unicode dans les cha√Ænes de caract√®res Unicode.

In [None]:
s = "√ü√∏n‚Öâ…µur"

On peut √©galement utiliser les caract√®res Unicode pour les identificateurs.

In [None]:
œÄ = 3.14

#### Encodage
Il est √©galement possible de conna√Ætre le r√©sultat de l'encodage d'une cha√Æne de caract√®res √† l'aide de la m√©thode [`encode`](https://docs.python.org/fr/3/library/stdtypes.html#str.encode).

In [None]:
c = '\u0A9C'
c.encode()

In [None]:
c = '√©'
c.encode()

In [None]:
c = '√©'
c.encode('latin-1')

In [None]:
c = 'œÄ'
c.encode('UTF-16')

In [None]:
c = 'üòÉ'
c.encode('UTF-16')

In [None]:
c = 'üòÉ'
c.encode()

In [None]:
c = 'üòÉ'
c.encode('UTF-32')

La m√©thode `encode` renvoie une cha√Æne d'octets `b'...'` correspondant √† l'encodage (par d√©faut en UTF-8).  
De mani√®re g√©n√©rale, seuls les caract√®res non ASCII sont donn√©s en hexad√©cimal.

In [None]:
cha√Æne = "Num√©rique"
cha√Æne.encode()

Il convient de bien distingu√© les longueurs de cha√Ænes de caract√®res et des cha√Ænes d'octets.  
La longueur d'une cha√Æne de caract√®res est le nombre de caract√®res qu'elle contient (peu importe la place prise en m√©moire par ces caract√®res).

In [None]:
s = "√ü√∏n‚Öâ…µur"
len(s)

De la m√™me mani√®re, la longueur d'une cha√Æne d'octets est le **nombre d'octets** qu'elle contient.

In [None]:
l = s.encode()
len(l)

Il est √©galement possible de convertir une cha√Æne d'octets en une cha√Æne de caract√®res en utilisant la m√©thode [`decode`](https://docs.python.org/fr/3/library/stdtypes.html#bytes.decode) appliqu√©e sur une cha√Æne d'octets.

In [None]:
x = b'\xC3\x85'
x.decode()

### Encodage et d√©codage
Nous observons donc qu'il est fondamental qu'un texte soit d√©cod√© en respectant l'encodage utilis√© (d'o√π la necessit√© d'√©tablir des standards).  
Il n'est pas rare d'observer des probl√®mes √† ce niveau l√† avec des caract√®res √©tranges apparaissant dans les pages Web ou les courriels.  
Les informations sont g√©n√©ralement transmises sous forme de s√©quence d'octets et si ces octets sont d√©cod√©s de fa√ßon erron√©e, on ne retrouve pas le texte original.

Par exemple, interessons nous √† la citation de [Bjarne Stroustrup](https://interstices.info/bjarne-stroustrup-le-pere-de-c-un-langage-qui-a-de-la-classe/) :

*J‚Äôai toujours r√™v√© que mon ordinateur soit aussi simple √† utiliser que mon t√©l√©phone.  
Ce r√™ve est devenu r√©alit√© : je ne comprends plus comment utiliser mon t√©l√©phone.*

La [citation originale](https://hexed.it/#base64:Stroustrup.txt;RGVyIGVyIGVuIGdhbW1lbCBoaXN0b3JpZSBvbSBlbiBwZXJzb24sIHNvbSDDuG5za2VkZSBoYW5zIGNvbXB1dGVyIHZhciBsaWdlIHPDpSBsZXQgYXQgYnJ1Z2Ugc29tIGhhbnMgdGVsZWZvbi4gRGV0dGUgw7huc2tlIGVyIGfDpWV0IGkgb3BmeWxkZWxzZSwgZGEgamVnIGlra2UgbMOmbmdlcmUgdmVkLCBodm9yZGFuIG1hbiBicnVnZXIgbWluIHRlbGVmb24uCkJqYXJuZSBTdHJvdXN0cnVwCgo=) est :

*Der er en gammel historie om en person, som √∏nskede hans computer var lige s√• let at bruge som hans telefon. 
Dette √∏nske er g√•et i opfyldelse, da jeg ikke l√¶ngere ved, hvordan man bruger min telefon.*

In [None]:
citation = """Der er en gammel historie om en person, som √∏nskede hans computer var lige s√• let at bruge som hans telefon. 
Dette √∏nske er g√•et i opfyldelse, da jeg ikke l√¶ngere ved, hvordan man bruger min telefon."""
information = citation.encode()

Si le d√©codage ne correspond pas √† l'encodage, nous pouvons nous retrouver avec une citation qui ne serait diff√©rente de l'originale :

In [None]:
resultat1 = information.decode("latin1")
print(resultat1)

In [None]:
resultat2 = information.decode("iso8859_11")
print(resultat2)

In [None]:
resultat3 = information.decode("latin8")
print(resultat3)

## Exercices

### Exercice 1
Donner le codage ASCII des deux cha√Ænes de caract√®res Python suivantes :

```python
"bonjour tout le monde!"
```
    
```python
"""programmer 
en Python"""
```

### Exercice 2
Ecrire une proc√©dure `printASCII(s)` qui affiche √† l'√©cran les codes ASCII au format hexad√©cimal d'une cha√Æne de caract√®res `s`.

### Exercice 3
Ecrire une proc√©dure `printUnicode(a, b)` qui affiche √† l'√©cran tous les caract√®res dont le point de code est compris entre les entiers `a` (inclus) et `b` (exclus).  
Les caract√®res seront afficher sur plusieurs lignes, si n√©cessaire.  
Chaque ligne contiendra, au plus, 10 caract√®res. Les caract√®res seront s√©par√©s par des tabulations. 

### Exercice 4
L'algorithme [`rot13`](https://www.dcode.fr/chiffre-rot-13) est un algorithme de chiffrement qui consiste √† d√©caler de 13 caract√®res chaque lettre d'un texte.  
Par exemple, le mot `python` est transform√© en `clguba`. 

Ecrire, en Python, une fonction `rot13(s)` en supposant que la cha√Æne pass√©e en argument ne contient que des caract√®res entre `a` et `z` (en minuscule) et √©ventuellement des espaces (uniquement le caract√®re ` `).  
Votre fonction ne doit d√©caler que les lettres de l'alphabet (elle ne touche donc pas aux espaces).  
Elle renvoie, en sortie, une cha√Æne de caract√®res.

### Exercice 5
Sachant que le point de code du symbole `√©` est 223, donner la s√©quence de points de code du mot `√©l√©gance`, puis les octets en binaire correspondants √† l'encodage UTF-8 de ce mot.

### Exercice 6
Ecrire une fonction `unicode(s)` qui affiche, pour chaque caract√®re `c` de la cha√Æne `s`, son point de code et son encodage UTF-8 sous forme d'octets en binaire.

### Exercice 7
Pour chacun des caract√®res suivants, donc le point de code est donn√© en d√©cimal, donner l'encodage UTF-8 du caract√®re, en donnant les octets en d√©cimal et en hexad√©cimal.
1. caract√®re `A` (point de code 65)
2. caract√®re `√®` (point de code 232)
3. caract√®re `‚ãÜ` (point de code 8902)  

Donner une s√©quence d'instructions Python permettant de tester les r√©sultats.

### Exercice 8
Pour chacune des s√©quences d'octets suivantes, repr√©sent√©es en base 10, dire si elle repr√©sente une s√©quence UTF-8 valide et, si oui, combien de caract√®res sont repr√©sent√©s.
1. `126  64  100`
2. `198  129  129`
3. `227  180  140`

### Exercice 9
Ecrire une fonction Python `longueur(b)` qui parcourt la cha√Æne d'octets `b`, suppos√© repr√©senter une cha√Æne encod√©e en UTF-8 et qui compte le nombre de caract√®res (il est interdit de convertir `b` en cha√Æne puis de calculer la longueur de cette cha√Æne)

## Sources :
* Balabonski Thibaut, et al. 2019. *Sp√©cialit√© Num√©rique et sciences informatiques : 30 le√ßons avec exercices corrig√©s - Premi√®re - Nouveaux programmes*. Paris. Ellipse
* Documentation Python : [Op√©rations usuelles sur des cha√Ænes](https://docs.python.org/fr/3/library/string.html)
* Documentation Python : [Guide Unicode](https://docs.python.org/fr/3/howto/unicode.html)
* Unicode : [Standard](https://www.unicode.org/versions/latest/)
* Unicode : [Character Code Charts](https://unicode.org/charts/)
* [Table de caract√®res Unicode](https://unicode-table.com/fr)
* D√©claration Universelle des Droits de l'Homme : [Traductions](https://unicode.org/udhr/translations.html)
* Interstices : [Tout a un reflet num√©rique](https://interstices.info/tout-a-un-reflet-numerique/)
* [Type your language Online](https://www.branah.com/)
* Wolfram : [Character Encodings](https://www.wolframalpha.com/input/?i=Character+Encodings)
* Convertisseur [en ligne](https://onlinedevtools.in/unicode-converter)
* Editeur hexad√©cimal [en ligne](https://hexed.it/)