# ISN : Le Son

## Sommaire
1. Définition physique du son
2. Le son numérique : format non compressé WAV.

## 1. Définition physique du son
Le son est une vibration liée à la propagation d'une onde dans un milieu fluide (gaz, liquide...). Il s'agit d'une onde **mécanique** à **3 dimensions** (qui se propage dans un espace tridimentionnel), **longitudinale** (dont le sens de propagation est perpendiculaire au sens de la déformation causée par l'onde). L'onde sonore est en fait une variation brève de la pression dans un milieu fluide.

En fonction des différentes propriétés des milieux dans lequel le son se diffuse, la transmission du son est plus ou moins altérée. Par exemple, la vitesse du son sera altérée en fonction du milieu, suivant la relation :
$$c = \frac{1}{\rho\chi_s}$$
Avec $\rho$, masse volumique du milieu en g∙L<sup>-1</sup>, et $\chi_s$, coefficient de compressibilité isentropique.
D'autres valeurs physiques peuvent cependant varier.

### Intensité sonore, niveau sonore.
Le son est une onde mécanique, qui transmet donc une certaie énergie. Il convient donc de caractériser cette énergie.
Une onde sonore est une onde à trois dimensions, qui est cependant captée sur un récépteur utilisant une membrane plane : on peut donc caractériser une grandeur énergétique à partir du son en fonction d'une surface.
C'est ainsi que l'on peut définir **l'intensité sonore** d'un son, notée $I$, exprimée en W∙m<sup>-2</sup>, comme étant la puissance reçue d'un son par une surface de 1 m<sup>2</sup>, donnée par la relation :
$$I = \frac{P}{S}$$ avec $P$ puissance énergétique fourni par le son, exprimée en W, et $S$ aire de la surface récéptrice, en m<sup>2</sup>.

Le niveau sonore, quand à lui, est une mesure exprimée en dB (décibels), unité sans grandeur. Le niveau sonore suit une échelle basée sur le fonctionnement de l'oreille humaine, permettant par exemple de détérminer facilement à partir de quand un son devient dangereux pour l'oreille humaine. Noté $L$, il est calculé selon la formule :
$$L = 10 \times \log_{10}\left(\frac{I}{I_0}\right)$$ avec $I$ intensité sonore du son W∙m<sup>-2</sup> et $I_0=1.0\times10^{-12} W \cdot m^{-2}$, plus petite intensité sonore audible par l'oreille.

*À développer*

## Le son numérique : format non compressé WAV.

### Comment code-t-on un son ?

Les sons sont caractérisés par des grandeurs physiques, qui sont des valeurs comprises dans des intervalles non discrets (infinité de valeurs dans cet intervalle). Or un ordinateur fonctionne avec des valeurs numériques, qui sont elles comprises dans des intervalles discrets (intervalle avec un nombre de valeurs discret). Il faut donc convertir les sons enregistrés, qui sont analogiques, en sons numériques : on doit donc avoir recours à la Conversion Analogique-Numérique, abrégé **CAN** (en anglais **ANC**).

Ce moyen de conversion est basé sur les travaux de l'ingénieur et mathématicien Claude Elwood Shannon (1916-2001). Ce mathématicien a tout simplement défini, dans son article *A Mathematical Theory of Communication* (&laquo;Une théorie mathématique de la communication.&raquo;). Il y introduit notamment la notion de *bit* (*Binary Digit*, &laquo;chiffre binaire&raquo;), brique de base du codage de l'information, une valeur numérique pouvant prendre deux états : 0 ou 1. Ainsi, on prendra 1 bit pour une information prenant deux états, 2 bits pour un information pouvant prendre 4 états...

Le codage se fait sur un certain nombre de bits, en général des puissances de 2 : 8 bits, 16 bits, 32 bits...

Ainsi, un signal analogique codé sur $n$ bits pourra avoir $2^n$ valeurs différentes.

En général, les signaux sont stockés sur $n$ bits dit &laquo;non signés&raquo; : dans ce cas les valeurs des signaux sont toujours positives et sont comprises dans l'intervalle d'entiers $[0; 2^n[$.

Dans le cas d'un son, le signal codé correspond à une impulsion éléctrique envoyé par le micro à l'enregistrement, ou à une impulsion éléctrique envoyé au matériel audio (enceinte par exemple). Cette impulsion pourra donc prendre, pour un son codé sur $n$ bits, $2^n$ niveaux différents. Ainsi, un son 8 bits proposera des impulsions de $2^8 = 256$ niveaux.

Cependant, un son numérique ne peut se réduire qu'à un niveau éléctrique : il s'agit d'une suite d'impulsions éléctriques, évoluant à travers le temps. Il faut donc établir la fréquence d'envoi des impulsions éléctriques : on parle d'**échantillonage** du son, exprimé en Hz. Un son ayant un échantillonage $e$ Hz fournira $e$ impulsions éléctriques par seconde. Un échantillonage courant est l'échantillonage de 44100 Hz : il y aura donc 44100 impulsions éléctriques par secondes qui seront fournies par le son.

### Son non-compressé et compressé : quelle différence ?

La technique de stockage que l'on vient de voir précédemment correspond à celle du son non-compressé : le son enregistré est lu par l'ordinateur et est restitué tel quel.

Cependant, le stockage d'autant de données peut prendre beaucoup de place, surtout si le son est codé sur un grand nombre de bits.

C'est pour quoi on a mis au point ce qu'on appelle le son compressé. Nous ne rentrerons pas dans les détails de cette technique, mais elle consiste à coder le son de façon à ce qu'il soit moins lourd, ehn &laquo;abrégeant&raquo; certaines parties du son. À la lecture, un logiciel adapté &laquo;décompressera&raquo; le son afin de le rendre lisible par l'ordinateur. L'inconvénient de cette technique est que la qualité du son peut être altérée, si la compression est dite &laquo;irréversible&raquo;, car il y aura des pertes de données, sinon on dira que la compression est &laquo;réversible&raquo;.

Cette technique demande aussi plus de calcul à l'ordinateur pour lire le son, à cause de la décompression. Cela cette charge de calcul supplémentaire peut être embêtante dans certain cas, comme le jeu vidéo, qui demande déjà des calculs complexes à l'ordinateur (lumière, modèles 3D, physique, affichage graphique...).



### Le format WAV et la norme RIFF
#### Qu'est-ce que la norme RIFF ?
Avant de comprendre le fonctionnement d'un son de format WAV, il faut connaître le fonctionnement de la norme utilisée par ce dernier, la norme RIFF.
La norme RIFF (*Resource Interchange File Format*, &laquo;Format de fichier d'échange de ressources&raquo;), définie par Microsoft et IBM en 1991, est une norme définissant ce qu'on appelle un format de fichier &laquo;conteneur&raquo; : il s'agit d'un format de fichier qui est capable de contenir plusieurs types de données différentes. On peut par exemple stocker dans un même fichier avec un format conteneur de l'image, de l'audio, des sous-titres, des métadonnées...

Le RIFF est un format conteneur utilisant un système système de blocs de données, appelés *chunks*. Les chunks sont eux même divisés en plusieurs parties :
* Partie `ckid` : il s'agit d'un identifiant 4 caractères (*FourCC*) permettant de repérer le format de données du *chunk*. Il occupe 4 octets (32 bits).
* Partie `cksz` : nombre entier stocké sur 32 bits non-signé (positif ou nul, compris sur $[0; 2^{32}[$), indique la taille en bits de la partie `data` dont nous allons parler après.
* Partie `data` : données contenues par le chunk. Taille indiqué par la partie `cksz`. On peut trouver à la fin de cette partie un bit nul, permettant de stocker des données de taille diverses sans pérturber la structure du fichier.

<center>
<figure>
    <img alt="Organisation d'un chunk de la norme RIFF" src="img/RIFF_Chunk.svg" />
    <figcaption>
        Organisation d'un chunk de la norme RIFF.<br/>
        Par Adrien Gesta-Fline — Travail personnel, CC BY-SA 4.0, <a href="https://commons.wikimedia.org/w/index.php?curid=60836496">https://commons.wikimedia.org/w/index.php?curid=60836496</a>
    </figcaption>
</figure>
</center>

Un fichier suivant la norme RIFF possèdera tout d'abord un *chunk* principal (le *chunk* RIFF), comportant dans la partie `ckid` la valeur `RIFF` , dans la partie `cksz` la taille de chunk principal, qui aura, pour un fichier de $t$ bits, la valeur $t - 64$.
Enfin dans la partie `data`, on trouvera d'abord l'identifiant *FourCC* du format de fichier utilisé (`WAVE` pour un fichier WAV par exemple), puis les données utiles du fichier, divisées en *chunks*. Il est a noter que seul le *chunk* RIFF peut contenir d'autres *chunks*.

<center>
<figure>
    <img alt="Organisation d'un fichier RIFF." src="img/RIFF_File_Structure.svg" />
    <figcaption>
       Organisation d'un fichier RIFF.<br/>
       Par Adrien Gesta-Fline — Travail personnel, CC BY-SA 4.0, <a href="https://commons.wikimedia.org/w/index.php?curid=60835577">https://commons.wikimedia.org/w/index.php?curid=60835577</a>
    </figcaption>
</figure>
</center>

La norme RIFF utilise pour les données un codage *little-endian* (traduit parfois par &laquo;petit-boutiste&raquo;), c'est à dire que les données sont codés de façon à ce que les bits de poids faible soient placés en premier : en outre, le chiffre 256 en binaire sera enregistré en *little-endian* `00000001`, alors qu'on le note usuellement `10000000`.

#### Qu'est-ce qu'un fichier WAV ?
Un fichier WAV ou WAVE (*Waveform Audio File Format*) est un format de fichier conteneur destiné à contenir de l'audio, créé par Microsoft et IBM en 1991. Il suit, dans son architecture, la norme RIFF. Il est souvent considéré, à tort, comme un format de fichier audio non compressé, sans perte : en réalité, du fait de sa nature de format de fichier conteneur, il peut aussi bien contenir des sons non-compressés (PCM par exemple) que des formats compressés, sans pertes (FLAC par exemple) ou avec pertes (MP3 par exemple).
Le format WAV est malgré tout fortement utilisé, car comme il s'agit d'un format conteneur, il est possible de créer des sons avec des fonctionnalités propres à des logiciels d'édition sans problèmes de compatibilité avec d'autres logiciels.