# Estimation des besoins en mémoire-vive

## Stockage en mémoire selon les types de base
En ayant une idée de la taille des données à traiter,
il devient possible d'estimer l'espace que les données prendront en mémoire-vive.

### Pour des textes
Dans un fichier texte, **chaque caractère prend de un (1) à deux (2)
octets**, en moyenne. Cependant, pour certaines langues, l'encodage
[UTF-8](https://fr.wikipedia.org/wiki/UTF-8#Description)
peut se rendre jusqu'à quatre (4) octets par caractère.
Pour les langues latines et germaniques, on peut considérer **deux
(2) octets** par caractère. Par exemple, dans une session Python :

```Bash
python
```

```Python
>>> import sys
>>> euro = ""
>>> sys.getsizeof(euro)
49
>>> euro = "Euro"
>>> sys.getsizeof(euro)
53
>>> euro = "€"
>>> sys.getsizeof(euro)
76
>>> euro *= 2  # Donc "€€"
>>> sys.getsizeof(euro)
78
>>> quit()  # ou Ctrl+D pour sortir
```

### Pour des nombres entiers
Les nombres entiers prennent typiquement 2 octets (16 bits), 4 octets (32 bits) ou 8 octets (64 bits) chacun. Tout dépend de la [plage de valeurs souhaitée](https://en.wikipedia.org/wiki/C_data_types#Main_types) :
  * **2 octets** : ~65 milles valeurs de $0$ à $65535$, ou de $-32767$ à $32767$
  * **4 octets** : ~4 milliards de valeurs de 0 à $(2^{32}-1)$ ou de $-(2^{31}-1)$ à $(2^{31}-1)$
  * **8 octets** : ~18 trillions de valeurs de 0 à $(2^{64}-1)$ ou de $-(2^{63}-1)$ à $(2^{63}-1)$

```Bash
module load python/3.11 scipy-stack
python
```

```Python
>>> import sys
>>> import numpy as np
>>> cube = np.zeros((100,100,100), dtype=np.int64)
>>> sys.getsizeof(cube)
8000136
>>> cube = np.zeros((100,100,100), dtype=np.int32)
>>> sys.getsizeof(cube)
4000136
>>> np.iinfo(np.int16)
iinfo(min=-32768, max=32767, dtype=int16)
```

### Pour des nombres à virgule flottante
Les nombres à virgule flottante prennent typiquement **4 octets
(32 bits) ou 8 octets (64 bits) chacun**, mais on voit de plus en plus
[différents types de données à 2 octets (16 bits)](https://en.wikipedia.org/wiki/Bfloat16_floating-point_format)
dans des applications d'apprentissage-machine. Il se peut néanmoins
que les données soient initialement en simple ou double précision:

* **[simple précision](https://en.wikipedia.org/wiki/Single-precision_floating-point_format)**
  : 4 octets, une résolution de 23 bits (~7 décimales), une échelle de
  8 bits (${10}^{-38}$ à ${10}^{38}$)
* **[double précision](https://en.wikipedia.org/wiki/Double-precision_floating-point_format)**
  : 8 octets, une résolution de 52 bits (~16 décimales), une échelle
  de 11 bits (${10}^{-308}$ à ${10}^{308}$)

```Python
>>> cube = np.ndarray((100,100,100), dtype=np.float32)
>>> cube[0,0,0] = np.pi
>>> print(cube[0,0,0])
3.1415927
>>> print(cube[0,0,0], np.pi)
3.1415927 3.141592653589793
```

* Certains langages utilisent systématiquement **8 octets** (64 bits) par nombre.
* [Certains compilateurs et certaines bibliothèques](https://en.wikipedia.org/wiki/Quadruple-precision_floating-point_format) peuvent calculer des valeurs représentées avec 128 bits [ou plus](https://gmplib.org/).
* Pour les nombres complexes, on multiplie l'espace mémoire par deux (2).

Exemple de calcul de l'espace-mémoire :
```Python
>>> nb_matrices = 3        # Trois matrices C = prod_mat(A, B)
>>> taille = 25000         # Matrices carrées
>>> octets_par_nombre = 8  # Double précision
>>> memoire = nb_matrices * taille*taille * octets_par_nombre
>>> memoire / 1000**3
>>>
>>> quit()  # ou Ctrl+D pour sortir
```