# Codage des nombres réels

Il repose sur l'**écriture scientifique** des nombres réels:
$${\Large \pm\ \text{Mantisse}\times\text{Base}^{\text{Exposant}} }$$

$$\text{où Mantisse}\in[1;\text{Base}[\\ \text{ et Exposant est un entier «signé»}$$


Exemples en base 10:
- $-0,\!000000138$ s'écrit $-1,\!38\times 10^{-7}$,
- $299\,790\,000$ s'écrit $+2,9979\times 10^{8}$.
- $-5,\!29$ s'écrit $-5,\!29\cdot 10^{0}$.

**Note**: en toute rigueur, 0 ne peut pas être représenté dans cette écriture.

## Codage des nombres purement fractionnaires (strictement inférieurs à 1)

Les puissances négatives de deux sont **un-demi**, **un-quart**, **un-huitième**, **un-seizième**, **un-trente-deuxième**, etc.

| **puissances négatives de deux** | $2^{-1}$ | $2^{-2}$ | $2^{-3}$ |  $2^{-4}$ |   $2^{-5}$   |
|------------------------|:-----:|:-----:|:-----:|:------:|:---------:|
| **décimal**            |  $0,\!5$  |  $0,\!25$  |  $0,\!125$  |   $0,\!0625$  |    $0,\!03125$   | 
| **binaire**            |  $0,\!1$  |  $0,\!01$ | $0,\!001$ | $0,\!0001$ | $0,\!00001$ |

**Méthode**: Pour trouver l'écriture binaire d'un nombre de l'intervalle $[0;1[$ (purement fractionnaire), on procède de manière analogue à la «méthode des différences»

**Exemple**: Soit à coder le nombre (en base 10) $0,696$ sur **4 bits** - on ne s'intéresse qu'aux bits situés après la virgule. 

$$\begin{array}{r|c|l}
\text{puissances de 2} & \text{différences}&\text{bits}\cr
\hline & 0,\!696 & \cr
0,\!5 & 0,\!196& 1\cr
0,\!25 & & 0\cr
0,\!125 & 0,\!071 & 1\cr
0,\!0625 & 0,\!0085& 1\cr
\hline
\end{array}
\\\text{donc: }0,\!696 \text{ correspond environ à }0,\!1011\text{ en base 2}$$

**Notes**: 

- En observant les puissances négatives de deux, observer que sur 5 bits, le dernier chiffre du motif binaire serait 0 et qu'il s'agirait toujours d'une **approximation**.

  En fait, même avec un très grand nombre de bits, la dernière différence ne serait probablement pas nulle pour cet exemple même si elle tendrait bien sûr à diminuer.

- Il n'est pas difficile de comprendre qu'avec 4 bits l'approximation effectuée ne peut excédé un-seizieme ($2^{-4}$), avec 10 bits elle serait au pire de $1/2^{10}<$ un-millième, avec 20 bits au pire d'un-millionième, etc. 

**Inversement**, Quelle est la valeur en base 10 de $0,\!0110$ (en base 2)?

Le premier chiffre après la virgule correspond à un-demi, le second à un-quart, etc.

donc on a un-quart + un-huitième soit $0,25+0,125={\bf 0,\!375}$

## Norme IEEE 754

L'exemple précédent doit vous faire sentir la difficulté du codage des réels; il a donc été décidé de normaliser cette représentation; il y a (entre autre)
- la **simple précision** avec 32 bits,
- la **double précision** avec 64 bits.

Dans tous les cas, le codage utilise l'écriture scientifique où la «Base» est 2.

$${\Large \pm\ \text{Mantisse}\times\text{2}^{\text{Exposant}} }$$

$$\text{où Mantisse}\in[1;2[\\ \text{ et Exposant est un entier «signé»}$$

En **simple précision**, Le motif binaire correspondant est organisé comme suit:

$$\begin{array}{ccc}
1\text{ bit}& 8 \text{ bits}& 23 \text{ bits}\cr
\hline
\text{signe}& \text{exposant} & \text{mantisse}\cr
\hline
\end{array}$$

**Signe**: 0 signifie + et 1 signifie -

**Mantisse**: Comme elle est toujours de la forme: $$1,\!b_1b_2b_3\dots\\ \text{les } b_i \text{représentent un bit}$$les 23 bits de la mantisse correspondent aux bits situés après la virgule; le bit obligatoirement à 1 est omis - on parle de bit caché.

*Exemple*: Si la mantisse en mémoire est $0110\dots 0$, elle correspond à $$\underbrace{1}_{\text{bit caché}}+1/4+1/8=1,\!375$$

**Exposant**: il peut-être positif ou négatif et on utilise le codage par «valeur biaisée (ou décalée)» pour le représenté.

*Exemple*: si l'exposant est $0111\,1010$, qui correspond à soixante-quatre + trente-deux + seize + huit + deux soit à $122$,

on lui soustrait le **biais** soit $127$ (pour un octet) ce qui donne $-5$

*Exemple récapitulatif*: Le mot de 32 bits qui suit interprété comme un flottant en simple précision,

$$\large\overbrace{\color{red}{1}}^{\text{signe}}\ \overbrace{\color{green}{0111\,1010}}^{\text{exposant}}\ \overbrace{\color{blue}{0110\,0000\,0000\,0000\,0000\,000}}^{\text{mantisse}}$$

correspond au nombre: 

$$\Large\overbrace{\color{red}{-}}^{\text{signe}}\overbrace{\color{blue}{1,\!375}}^{\text{mantisse}} \times 2^{\overbrace{\color{green}{-5}}^{\text{exposant}}}\\ =-4,\!296875\times 10^{-2}$$

**Notes**: 
- en **simple précision**, on peut représenter approximativement les nombres décimaux positifs de l'intervalle $[10^{-38}; 10^{38}]$ ainsi que les nombres négatifs correspondants. Voici comment on le voit:

$$2^{128}=2^8\times (2^{10})^{12}\approx 100 \times(10^3)^{12}=10^2\times 10^{36}=10^{38}$$

- en **double précision** (64 bits), la méthode est la même et:
    - l'**exposant** est codé sur **11 bits** (avec un décalage ou biais de 1023),
    - et la **mantisse** sur **52 bits**.

## Valeurs spéciales

La norme précise que les valeurs $0000\,0000$ et $1111\,1111$ de l'exposant sont **réservées**:
 - le nombre $0$ est représenté conventionnellement avec un bit de signe arbitraires et tous les autres à $0$: on distingue donc $+0$ et $-0$,
 - les **infinis** sont représentés par l'exposant $1111\,1111$ et une mantisse nulle: ils servent à indiquer le dépassement de capacité,
 - une valeur spéciale `NaN` (pour *Not a Number*) est représentée par un signe à 0, l'exposant $1111\,1111$ et une mantisse non nulle: elle sert à représenter le résultat d'opérations invalides comme $0/0$, $\sqrt{-1}$, $0\times +\infty$ etc.
 - enfin, lorsque l'exposant est nulle et la mantisse non, on convient que le nombre représenté est:
 $${\large \pm~ {\bf 0},\!m \times 2^{-126}}\qquad \text{nombre dénormalisé sur 32 bits}$$ où $m$ est la représentation décimale de la mantisse non nulle.

|  Signe | Exposant | mantisse |          valeur spéciale         |
|:------:|:--------:|:--------:|:--------------------------------:|
|    0   |   0...0  |     0    |                $+0$               |
|    1   |   0...0  |     0    |                $-0$               |
| 0 ou 1 |   0...0  | $\neq 0$ | $\pm {\bf 0},\!m\times 2^{-127}$ |
|    0   |   1...1  |     0    |             $+\infty$            |
|    1   |   1...1  |     0    |             $-\infty$            |
|    0   |   1...1  | $\neq 0$ |               `NaN`              |

## Avec Python

Les nombres flottants suivent la norme IEEE 754 en **double précision** (64 bits).

On peut utiliser la notation décimale ou scientifique pour les définir:

In [None]:
x = 1.6
y = 1.2e-4 # 1,2x10^{-4}
print(f"x={x}, y={y}")

la fonction `float` convertie un entier en un flottant tandis que `int` fait le contraire:

In [None]:
x = float(-4)
y = int(5.9) # simple troncature
print(f"x={x}, y={y}")

L'opérateur `/` de division produit toujours un flottant quelque soit le type de ses arguments.

Note: `isinstance(valeur, type)` renvoie `True` ou `False` selon que `valeur` est du type `type` ou non.

In [None]:
x = 4 / 2
print(f"x est un entier? {isinstance(x, int)}, x est un flottant? {isinstance(x, float)}")

Certaines expression peuvent générer des valeurs spéciales:

In [None]:
x = 1e200
y = x * x
z = y * 0
print(f"x={x}, y={y}, z={z}")

In [None]:
x = 10 ** 400
# conversion implicite en flottant pour effectuer l'addition ...
x + 0.5 # erreur...

Un simple calcul peut donner un résultat inattendu ...

In [None]:
1.2 * 3

On prendra donc garde à éviter tout test d'égalité `==` avec les flottants.

À la place, on peut vérifier que la valeur absolue `abs` de leur différence est petite (très petite); par exemple:

In [None]:
x = 0.1+0.2
y = 0.3
print(f"x et y sont identiques? {x==y}")
print(f"x et y sont très proches? {abs(x-y) < 1e-10}")

### Complément

À faire ...