Cette activité de groupe doit être comprise et réalisée en **autonomie**. Chacun de vous doit être capable de faire et d'expliquer les exercices d'applications

## 1. Encodage de textes

Comment la lettre 'Z' est-elle stockée dans la mémoire de l'ordinateur ? Comment la différencier de la lettre 'A' ?

Pour répondre à ces questions, il a fallu créer une **table de conversion** entre un caractère et sa représentation en binaire.


Première table utilisée (début 1960) : **ASCII**

![](img-ascii.png)


Quelle est la représentation en **décimal** du caractère Z ? en **binaire** ? 

Quelle sont celles de la caractère z ?
Comment représenter le caractère `é` ?

`Z` est représenté par le nombre décimal $(90)_{10}$. Ce qui donne en binaire $(1011010)_2$ car $90 = 64 + 16 + 8 + 2 = 2^6 + 2^4 + 2^3 + 2^1$

`z` est représenté par le nombre décimal $(122)_{10}$. Ce qui donne en binaire $(1\textbf{1}11010)_2$ car $122 = 64 + \textbf{32} + 16 + 8 + 2 = 2^6 + 2^5 + 2^4 + 2^3 + 2^1$

Impossible avec la table ASCII. C'est pour cela qu'à la fin des années 1960 ont été introduites d'autres tables (par exemple ISO-8859).

## Conversions texte $\leftrightarrow$ binaire

La norme Unicode (début 1990) permet une correspondance entre chaque caractère de l'*humanité* utilisé dans le monde (passé et présent) et un nombre entier appelé **point de code**.

Le point de code d'une taille maximale de 32 bits peut être représenté par des nombres binaires de tailles différentes :

* 1 à 4 paquets de taille 8 bits : UTF-8
* 1 à 2 paquets de taille 16 bits : UTF-16
* 1 paquet de taille 32 bits : UTF-32.



Dans la suite de ce document, nous allons étudier *uniquement* l'encodage en UTF-8 des caractères suivants :

\begin{tabular}{|r|>{\raggedleft\arraybackslash}p{5cm}|>{\raggedleft\arraybackslash}p{3.5cm}|r|}\hline
caractère & origine & point de code décimal & point de code binaire \\\hline
A & \includegraphics[height=1em, valign=c]{./img-unicode-emoji} & 65 & 0100 0001 \\\hline
Ω & lettre grecque  & 937 & 0011 1010 1001 \\\hline
\includegraphics[height=1em, valign=c]{./img-unicode-kanji} & idéogramme chinois & 25 991 & 0110 0101 1000 0111 \\\hline
\includegraphics[height=1em, valign=c]{./img-unicode-ougaritique} & \small ougaritique (Syrie) des années -1400 à -1100 & 66 436 & 0001 0000 0011 1000 0100 \\ \hline
\end{tabular}

#### Méthode UTF-8

4 cas en fonction de la longueur du point de code :

**Cas 1** : point de code de longueur **7 bits ou moins** :

* encodage sur 7 bits identique au point de code
* complété par des 0 à gauche pour atteindre une taille de 8 bits (*padding*) 

\begin{center}
    \begin{tabular}{|c|c|}\hline
    \textbf{point de code en binaire} & \textbf{valeur en UTF-8}\\\hline
    \texttt{0xxx xxxx} & \texttt{0xxx xxxx} \\\hline
    \end{tabular}
\end{center}

**Cas 2** : point de code de longueur **8 bits à 11 bits** :

* encodage sur 2 × 8 bits
* utilisation des préfixes : `110` puis `10`

\begin{center}
    \begin{tabular}{|c|c|}\hline
    \textbf{point de code en binaire} & \textbf{valeur en UTF-8}\\\hline
    \texttt{0yyy yyxx xxxx} & \texttt{110y yyyy 10xx xxxx}\\\hline
    \end{tabular}
\end{center}

**Cas 3** : point de code de longueur **12 bits à 16 bits** :

* encodage sur 3 × 8 bits
* utilisation des préfixes : `1110` puis `10` et `10`

\begin{center}
    \begin{tabular}{|c|c|}\hline
    \textbf{point de code en binaire} & \textbf{valeur en UTF-8}\\\hline
    \texttt{zzzz yyyy yyxx xxxx} & \texttt{1110 zzzz 10yy yyyy 10xx xxxx}\\\hline
    \end{tabular}
\end{center}

**Cas 4** : point de code de longueur **supérieur à 16 bits** :

* encodage sur 4 × 8 bits
* utilisation des préfixes : `11110` puis `10`,  `10` et `10`

\begin{center}
    \begin{tabular}{|c|c|}\hline
    \textbf{point de code en binaire} & \textbf{valeur en UTF-8}\\\hline
    \small \texttt{000u uuuu zzzz yyyy yyxx xxxx} & \footnotesize \texttt{1111 0uuu 10uu zzzz 10yy yyyy 10xx xxxx}\\\hline
    \end{tabular}
\end{center}

## 2. Exemples

\begin{tabular}{|c|r|r|p{3cm}|}\hline
    & \textbf{point de code en binaire} 
    & \textbf{valeur en UTF-8}
    & \textbf{remarque}
    \\ \hline
    A
    & \texttt{0100 0001}
    & \texttt{0100 0001}
    & \small (cas 1) 1×8 bits
    \\ \hline
    Ω & \texttt{0011 1010 1001} & \texttt{1100 1110 1010 1001} 
    & \small (cas 2) 2×8 bits 
    \\ \hline
    \includegraphics[height=1em, valign=c]{./img-unicode-kanji}
    & \small \texttt{0110 0101 1000 0111}
    & \small \texttt{1110 0110 1001 0110 1000 0111}
    & \small (cas 3) 3×8 bits
    \\ \hline
    \includegraphics[height=1em, valign=c]{./img-unicode-ougaritique}
    & \footnotesize \texttt{0001 0000 0011 1000 0100}
    & \footnotesize \texttt{1111 0000 1001 0000 1000 1110 1000 0100}
    & \small (cas 4) 4×8 bits 
    \\\hline
\end{tabular}

#### Remarques

UTF-8 est optimisé pour les caractères occidentaux (utilisation de 1 octet) **mais** pas pour les caractères asiatiques (utilisation de 3 octets).

## 3. Exercice d'application

Compléter le tableau ci-dessous :

\begin{tabular}{|c|r|r|}\hline
    caractère
    & \textbf{point de code} 
    & \textbf{UTF-8}
    \\ \hline
    \includegraphics[height=1em, valign=c]{./img-unicode-myanmar}
    & \texttt{0000 0001 0000 0010 0100}
    & \texttt{}
    \\ \hline
    N  
    & \texttt{0000 0000 0000 0100 1110}
    & \texttt{}
    \\ \hline
    ş 
    & \texttt{}
    & \small \texttt{1100 0101 1001 1111}
    \\ \hline
    \includegraphics[height=1em, valign=c]{./img-unicode-tetragram}
    & \texttt{0001 1101 0011 0011 1101}
    & \texttt{}
    \\\hline
\end{tabular}
