# Etude de la détection automatique de caractéristiques sur un signal audio
![ISEN Lille](src/imgs/isen.jpg)

| Référents ||| Projet M1 réalisé par ||
|-|-|-|-|-|
| A. Frappé | A. Gonzalez | B. Larras | J. Le Bellego | S. Lecoq |

# > Mise en place

Ce rapport est un notebook [Jupyter](http://jupyter.org/) qui nécessite l'accès à un interpréteur **python**.

Les cellules contenant du **code** peuvent être exécutées en appuyant sur simultanément sur les touches *Maj + Entrée*.

#### Initialisation et dépendances 

In [1]:
%matplotlib inline 
%reload_ext autoreload
%autoreload 2 
%matplotlib notebook
from bin import *

In [2]:
%%html
<script>IPython.OutputArea.prototype._should_scroll = lines => { return false }</script>
<style>.output_wrapper button.btn.btn-default, .output_wrapper .ui-dialog-titlebar { display: none; } .ui-resizable { pointer-events:none; } .widget-hprogress { width: auto; }</style>

# > A propos

Le but de ce projet est d'extraire les caractéristiques d'un signal audio en utilisant le moins de ressources possible dans le but de réaliser des circuits très économes. Cela revient à limiter la résolution du convertisseur analogique numérique, réduire le nombre de filtres de la banque de filtres ainsi que leurs coefficients de qualité et ordre, déterminer la résolution temporelle et d'amplitude optimums pour la quantification d'énergie tout en mettant en exergue les *Audio features* d'un signal audio.

L'objectif n'est donc pas de réaliser un traitement audio avancé, mais de détecter la présence de ceux-ci afin de pouvoir réveiller un système plus energivore qui se chargera de traiter le signal plus précisément.  

Ci-dessous se trouve la chaîne complète du système simulé dans ce projet.

![Chaîne de l'extraction d'audio features](src/imgs/chain.png)

# > Récupération du signal d'entrée

La bibliothèque de gestion des fichiers audios utilisée est **scipy.io.wavfile**. Il est conseillé d'utiliser un fichier **.wav** (audio mono 16 bits).

Un fichier audio, outre ses méta-données, contient la fréquence d'échantillonage (que nous noterons **fs**) ainsi qu'une liste de différentes amplitudes qui représentent le signal (que nous noterons **y**).

A partir de là, nous noterons **N** le nombre d'échantillons du signal et **t** les points temporels qui les caractérise.

In [3]:
# Lecture du fichier audio
fs, y = sw.read("src/demo.wav")
# Nombre d'échantillons et échelle temporelle
N = len(y)
t = np.linspace(0, N/fs, N)

# Lecteur audio
player(y, fs)

Dans la suite de ce rapport, nous supposerons que le signal d'entrée *(i.e. le fichier de démonstration actuellement utilisé)* est encore un signal analogique, jusqu'à l'étape de numérisation.

### Spectre d'amplitude

La fonction [**plot_specamp**](https://lowlighter.github.io/sound/docs/_bin/plot_specamp.html) permet de visualiser le spectre d'amplitude du signal audio, c'est-à-dire les différentes impulsions du signal (en ordonnée) en fonction du temps (en abscisse).

Notez que l'amplitude est normalisée par rapport à l'amplitude maximale du signal.

In [4]:
plot_specamp(y/max(abs(y)), t)

<IPython.core.display.Javascript object>

#### Spectre en dB Full Scale

Il est important de garder à l'esprit que le format **.wav** utilise une échelle nommée le **dB FS** pour quantifier le niveau sonore. Pour calculer cette valeur, il suffit d'utiliser la relation suivante :

$$y_{(dB FS)} = 20 \cdot log_{10}(\frac{|y|}{2^{n-1}})$$

Il s'agit d'une échelle relative et n'est pas forcément représentative du niveau sonore avant numérisation. 
Le niveau en dB FS est toujours négatif.

La fonction [**plot_dbfs**](https://lowlighter.github.io/sound/docs/_bin/plot_dbfs.html) permet de visualiser le spectre dB Full Scale.

In [5]:
plot_dbfs(y, t)

<IPython.core.display.Javascript object>

#### Spectrogramme

La fonction [**plot_specgram**](https://lowlighter.github.io/sound/docs/_bin/plot_specgram.html) permet de visualiser le spectrogramme du signal audio, qui représente la densité spectrale de puissance (en nuances de couleurs) par fréquence (en ordonnée) selon le temps (en abscisse).

In [6]:
plot_specgram(y, t, fs)

<IPython.core.display.Javascript object>

# > Le compresseur audio

Les compresseur audio *(ou Dynamic Range Compressor)* permet d'amplifier les valeurs en dessous d'un seuil bas, et d'atténuer les valeurs au dessus d'un seuil haut. Cela peut notamment permettre de limiter l'effet des fortes variations d'amplitudes et éviter de fausser l'échelle utilisée, celle-ci utilisant l'amplitude maximum comme valeur de référence.

La formule utilisée est la suivante :

$$ y_{drc} = seuil + sign(y) \cdot ratio \cdot (|y| - seuil)$$

Lorsque :

<div style="text-align:center">
$y < seuil_{bas}$ ou $y > seuil_{haut}$
</div>

La fonction [**drcz**](https://lowlighter.github.io/sound/docs/_bin/drcz.html) permet d'afficher la réponse en gain d'un compresseur audio.

In [7]:
drcz(tl=0.3, th=0.7, ratio=1/16)

<IPython.core.display.Javascript object>

Généralement, seul le seuil haut sera utilisé, étant donné que le seuil bas a tendance à amplifier les bruits parasites.

La fonction [**drc**](https://lowlighter.github.io/sound/docs/_bin/drc.html) permet d'appliquer un compresseur audio à un signal d'entrée.

In [8]:
cy = drc(y, tl=10, th=1500, ratio=1/8)
plot_specamp(cy/max(abs(cy)), t)

<IPython.core.display.Javascript object>

Comme vous pouvez le constatez, le compresseur audio a permis d'égaliser les différentes amplitudes du fichier audio.

# > Le Convertisseur Analogique Numérique

Comme énoncé précédemment, nous avons supposé que le signal d'entrée était toujours analogique dans les parties précédentes. Afin de pouvoir passer dans la partie traitement du signal numérique, il est nécessaire de convertir le signal.

La fonction [**adc**](https://lowlighter.github.io/sound/docs/_bin/adc.html) permet de numériser le signal d'entrée.

In [9]:
yn = adc(cy, 12)
plot_specamp(yn/max(abs(yn)), t)

<IPython.core.display.Javascript object>

A partir d'ici, nous noterons **yn** le signal audio numérisé.

# > La Banque de filtres

Pour détecter les caractéristiques du signal audio *(ou Audio features)*, nous allons faire passer notre signal à travers une banque de filtres.

La fonction [**gen_filters**](https://lowlighter.github.io/sound/docs/_bin/gen_filters.html) effectue plusieurs appels à la fonction [**bandpass**](https://lowlighter.github.io/sound/docs/_bin/bandpass.html) afin de générer la banque de filtres.

La fonction [**plot_freqz**](https://lowlighter.github.io/sound/docs/_bin/plot_freqz.html) permet d'affiche les réponses fréquentielle de chaque filtre sur un graphe logarithmique limité à la plage des sons audibles par l'oreille humaine *(environ 20Hz à 20kHz)*.

Voici les différents paramètres avec lesquels on peut interagir :
* Le nombre de filtres noté **nb_filters**
* L'ordre des filtres noté **n**
* Le facteur qualité noté **Q**
* Les fréquences centrales de chaque filtre (caractérisé par **fcs** ou par **fmin** et **fmax**)

Dans le cas où seul **fmin** et **fmax** sont connus, on se permettra de générer automatiquement les filtres selon une échelle logarithmique ou de Mel.

*Il est important de garder à l'esprit que la génération recquiert la valeur de **fs**, ce qui implique que si vous mélanger des fichiers audios n'ayant pas la même fréquence d'échantillonage, il se peut qu'une erreur soit retournée si la fréquence de Nyquist n'est plus respectée.*

Le facteur de qualité Q détermine la largeur de la bande passante autour de la fréquence centrale. 
Les fréquences de coupures basses et hautes sont calculcées à partir de la formule suivante :

$$f_{coupure} = f_{centrale} \cdot (\sqrt{1+\frac{1}{4Q^2}} \pm \frac{1}{2Q}) $$

##### Banque de filtre avec une échelle de Mel

In [10]:
filters, filters_fq = gen_filters(q=1.5, n=3, fs=48000, nb_filters=8, fmin=75, fmax=5000, debug=True, scale="mel")
plot_freqz(filters, fs=48000)

Fc :   74Hz (  53Hz -  103Hz)
Fc :  267Hz ( 192Hz -  370Hz)
Fc :  507Hz ( 365Hz -  703Hz)
Fc :  807Hz ( 581Hz - 1119Hz)
Fc : 1181Hz ( 851Hz - 1639Hz)
Fc : 1648Hz (1188Hz - 2287Hz)
Fc : 2232Hz (1608Hz - 3096Hz)
Fc : 2960Hz (2133Hz - 4107Hz)
Fc : 3869Hz (2788Hz - 5368Hz)


<IPython.core.display.Javascript object>

##### Banque de filtre avec une échelle logarithmique

In [11]:
filters, filters_fq = gen_filters(q=1.5, n=3, fs=48000, nb_filters=8, fmin=75, fmax=5000, debug=True, scale="log")
plot_freqz(filters, fs=48000)

Fc :   75Hz (  54Hz -  104Hz)
Fc :  136Hz (  98Hz -  189Hz)
Fc :  248Hz ( 179Hz -  345Hz)
Fc :  453Hz ( 326Hz -  629Hz)
Fc :  826Hz ( 595Hz - 1146Hz)
Fc : 1506Hz (1085Hz - 2089Hz)
Fc : 2744Hz (1977Hz - 3807Hz)
Fc : 4999Hz (3603Hz - 6937Hz)


<IPython.core.display.Javascript object>

Il est nécessaire de trouver l'équilibre entre le facteur de qualité **Q** et le nombre de filtres **nb_filters** afin de pouvoir couvrir l'intégralité de la plage de fréquence voulue pour éviter de manquer certaines caractéristiques audios par la suite.

### Application de la banque de filtres

La fonction [**gen_filtered**](https://lowlighter.github.io/sound/docs/_bin/gen_filtered.html) permet de récupérer les signaux en sortie de la banque de filtres, et la fonction [**plot_filtered**](https://lowlighter.github.io/sound/docs/_bin/plot_filtered.html) affiche le spectre d'amplitude du signal filtré *(en bleu marine)* par rapport au signal d'origine *(en bleu aquatique)*.

In [12]:
filtered = gen_filtered(yn, fs, filters)
plot_filtered(yn, t, filtered, filters_fq)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# > Les Quantifieurs d'énergie

Afin de repérer et identifier des *Audio Features*, nous allons mettre en place un système qui permet d'afficher les zones contenant le plus d'énergie.

Nous utiliserons la formule suivante pour calculer l'énergie d'un signal sur un certain segment temporel.
$$E = \sum_{t=t_0}^{t_0+dt}|y(t)^2| $$

La fonction [**energy**](https://lowlighter.github.io/sound/docs/_bin/energy.html) permet de quantifier sur un certain nombre de bits l'energie contenue dans un interval de temps, et la fonction [**energies**](https://lowlighter.github.io/sound/docs/_bin/energies.html) applique le calcul d'énergie sur tout le signal *(Notez qu'il est nécessaire de s'assurer que le pas **dt** peut être satisfait pas **fs**)*. 

La fonction [**plot_energies**](https://lowlighter.github.io/sound/docs/_bin/plot_energies.html) permet d'afficher le résultat.

Ci-dessous s'affiche les zones d'énergies du second filtre avec une résolution temporelle de 10 ms et une résolution d'amplitude de 4 bits. Visuellement, on peut constater que ce filtre est plus sensible à la voyelle *"E"*.

In [13]:
plot_energies(filtered[1], fs, 0.01, bits=4)

<IPython.core.display.Javascript object>

La fonction [**gen_data**](hhttps://lowlighter.github.io/sound/docs/_bin/gen_data.html) permet d'effectuer tous différents calculs d'énergie, et la fonction [**plot_data**](https://lowlighter.github.io/sound/docs/_bin/plot_data.html) permet d'afficher le résultat.

In [14]:
rsegs, rfreqs, rseqs = gen_data(filtered, fs, 0.05, 4, filters_fq)
plot_data(yn, t, rsegs, rfreqs, rseqs, dbfs=False)

<IPython.core.display.Javascript object>

#### Accès aux données

La fonction [**state_at**](https://lowlighter.github.io/sound/docs/_bin/state_at.html) permet de lire facilement la valeur de l'énergie quantifiée pour un filtre et un temps donnés.

In [15]:
print(state_at(math.floor(len(filtered)/2), 0.18, rsegs, rseqs, debug=True))

Valeur numérique du filtre n°4 pour t=0.2s
15.0


Selon la vitesse de prononciation des personnes, il se peut que les bandes d'énergies caractéristiques soient plus ou moins espacés, ce qui peut fausser l'analyse. 

La fonction [**cut**](https://lowlighter.github.io/sound/docs/_bin/cut.html) permet d'isoler les différentes bandes d'énergies en supprimant les bandes noires.

In [16]:
cut(rseqs, debug=True);

5 parties différentes :
    0 : Largeur 7
    1 : Largeur 8
    2 : Largeur 9
    3 : Largeur 9
    4 : Largeur 7


<br>
<div style="display:flex;">
<div>
    <img src="src/imgs/chain_vert.png" />
</div>
<div style="height:100%;">
    <div style="height:120px; width:800px; padding:12px;">
    
    </div>
    <div style="height:160px; width:800px; padding:12px;">
    <table style="width:95%">
    <tr>
        <td style="font-weight:bold;text-align:center; width:80px;">tl</td>
        <td style="text-align:left;">Le niveau du seuil bas (Threshold) </td>  
    </tr>
    <tr>
        <td style="font-weight:bold;text-align:center; width:80px;">th</td>
        <td style="text-align:left;">Le niveau du seuil haut (Threshold)</td>
    </tr>
     <tr>
        <td style="font-weight:bold;text-align:center; width:80px;">ratio</td>
        <td style="text-align:left;">Le rapport de compression </td>  
    </tr>
    </table>
    </div><br>
    
    <div style="height:180px; width:800px; padding:12px;">
    <table style="width:95%">
        <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">adc_res</td>
            <td style="text-align:left;">Le nombre de bit sur lequel le signal est quantifié en amplitude</td>
       </tr>
       <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">fs</td>
            <td style="text-align:left;">La fréquence d'échantillonage (doit être utilisée en début de chaîne car la simulation est numérique)</td>
       </tr>    
    </table>
   
    </div><br>
    
    <div style="height:180px; width:800px; padding:12px;">
    <table style="width:95%">
        <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">nb_filters</td>
            <td style="text-align:left;">Le nombre de filtres</td>
        </tr>
         <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">n</td>
            <td style="text-align:left;">L'ordre des filtres  </td>
        </tr>
         <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">Q</td>
            <td style="text-align:left;">Le facteur qualité</td>
        </tr>
         <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">fcs</td>
            <td style="text-align:left;">Les fréquences centrales des filtres</td>
        </tr>
        <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">fmin<br>fmax</td>
            <td style="text-align:left;">L'utilisation de ce paramètre créer automatiquement une banque de filtre répartie de façon logarithmique entre la fréquence minimale et la fréquence maximale choisie.</td>
        </tr>
    </table>
    </div><br>
    
    <div style="height:210px; width:800px; padding:12px;">
    <table style="width:95%">
        <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">time_res</td>
            <td style="text-align:left;">Le pas temporel en seconde</td>
        </tr>
         <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">amp_res</td>
            <td style="text-align:left;">Le nombre de bit sur lequel est codé l'amplitude (nombre de couleurs)  </td>  
        </tr>
    </table>
    </div><br>
    
    <div style="height:200px; width:800px; padding:12px;">
     <table style="width:95%">
        <tr>
            <td style="font-weight:bold;text-align:center; width:80px;">neurons</td>
            <td style="text-align:left;">Le nombre de neurones utilisés pour le machine learning</td>
        </tr>
    </table>
    
</div>
</div>

# > Etude des Audio Features

La fonction [**compute**](https://lowlighter.github.io/sound/docs/_bin/compute.html) permet de passer par toutes les étapes précédemment évoquées, c'est-à-dire la récupération du signal audio, l'application du compresseur audio et de la banque de filtres ainsi que la quantification d'énergie.

| | |
| :--- | :--- |
| **Récupération du signal** | La source du fichier peut-être soit un chemin de fichier (**file**) ou un fichier déjà ouvert (**file** et **fs**). |
| **Compresseur audio** | Pour activer le compresseur audio, il suffit de spécifier le ration de celui-ci (**drc_r**) ainsi qu'un (ou les deux) seuil(s) d'activation (**drc_tl** et **drc_th**). |
| **Conversion analogique numérique** | Il est possible de changer le nombre de bits utilisé pour numériser le signal d'entrée (**adc_res**), dans la limite de 16 bits. |
| **Banque de filtres** | Les filtres peuvent être générés automatiquements (avec **fmin**, **fmax**, **nb_filters**, **q** et **n**) ou avec des fréquences centrales spécifiques (avec **fcs=[fc1, fc2..., fcn]**, **q** et **n**) ou bien il est également possible d'utiliser des filtres déjà générés (avec **filters** et **filters_fq**, qui sont les sorties de la fonction **gen_filters**). |
| **Paramètres du spectrogramme** | La résolution temporelle (**time_res**) et le nombre de bits pour caractériser une amplitude d'énergie (**amp_res**) permettent de configurer l'aspect général du spectrogramme. Il est possible de masquer l'affichage du spectre d'amplitude en activant l'option (**spec_only**) et de modifier les limites en abscisse (**spec_xlim**). |
| **Paramètres d'affichage** | Par défaut de nouvelles figures seront générées à chaque appel, cependant il est possible d'en réutiliser des anciennes (**ax**) ou de désactiver l'affichage (**plotd**, activé par défaut). Le spectre dB FS peut être ajoutée en activant l'option associée (**dbfs**) et il est possible de tracer différents formants de sons connus pour faciliter l'étude (**formants=[tolerance, "a", "e", ...]**). |

In [17]:
rsegs, rfreqs, rseqs = compute(
    file="src/words/voice_F1_absolutely_2.wav", 
    fmin=200, 
    fmax=12000, 
    nb_filters=16, 
    q=3, 
    n=3, 
    time_res=0.02, 
    amp_res=2,
    formants=[150, "a"]
);

<IPython.core.display.Javascript object>

### Comparaison

La fonction [**compare**](https://lowlighter.github.io/sound/docs/_bin/compare.html) permet de pouvoir comparer plusieurs fichiers différents avec la même configuration du système. Les paramètres d'entrées sont sensiblement les mêmes que la fonction **compute** à la différence du paramètre de fichiers (**files=["sound1", "sound2", ...]**).

Le code ci-dessous permet de visualiser les spectrogrammes du mot **together** et **gentleman** prononcé par deux personnes différentes.

In [18]:
compared = compare(
    folder="src/words/",
    files=["voice_F1_together_2", "voice_F2_together_2", "voice_F1_gentleman_2", "voice_F2_gentleman_2"],
    fmin=300, 
    fmax=12000, 
    nb_filters=16, 
    q=6, 
    n=3, 
    time_res=0.015, 
    amp_res=2
);

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

#### Coefficient de corrélation

Une des premières approches pour comparer deux signaux différents est d'utiliser une matrice de corrélation.

La fonction [**similarities**](https://lowlighter.github.io/sound/docs/_bin/similarities.html) permet d'effectuer plusieurs appels successif à la fonction [**similar**](https://lowlighter.github.io/sound/docs/_bin/similar.html) qui se charge de calculer un **score** de corrélation entre deux fichiers. 

Si deux fichiers sont identiques, le score est de 1. S'ils sont complètement différents, le score tend vers 0.

In [19]:
similarities(compared, ["together (F1)", "together (F2)", "gentleman (F1)", "gentleman(F2)"])

together (F1) # together (F2) : 0.6834053208573658
together (F1) # gentleman (F1) : 0.4658239177937462
together (F1) # gentleman(F2) : 0.4274020050282894
---
together (F2) # gentleman (F1) : 0.37337527404022974
together (F2) # gentleman(F2) : 0.4435840962472775
---
gentleman (F1) # gentleman(F2) : 0.5846701491480428


Toutefois, on observe que cette méthode a ses limites, puisque deux mots identiques peuvent avoir été prononcés d'une méthode différente, ce qui se répercutera sur les niveaux d'énergies et leur emplacement, ce qui empêche d'avoir un coefficient de corrélation précis.

#### Réseau de neurones artificiels

Une approche plus avancée consiste à utiliser un réseau de neurones artificiels. L'avantage de ce dernier est que l'on peut choisir ce que l'on veut en sortie *(voix ou bruit, homme ou femme, chien ou chat, etc.)*.

Après avoir récupéré le spectrogramme personnalisé, les entrées doivent être normaliser puisque le Perceptron Multi-couche ([**Multi-layer Perceptron classifier**](http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)) que nous allons utiliser ne possède qu'une seule couche d'entrée.

La fonction [**to1D**](https://lowlighter.github.io/sound/docs/_bin/to1D.html) permet de réaliser cette opération.

![Réseau de neurones artificiels](src/imgs/neurons.png)

Ensuite, il faut constituer un ensemble de données qui va *éduquer* le classificateur (e.g. des fichiers audios contenant le mot "*chien*" et "*loup*") qui lui servira de référence par la suite. Une fois le classificateur constitué, il suffit de le tester avec un nouvel ensemble de données afin d'estimer la qualité et précision du réseau de neurones artificiels.

La fonction [**learning**](https://lowlighter.github.io/sound/docs/_bin/learning.html) permet de réaliser ces différentes étapes et d'afficher un rapport détaillé du classificateur et sa matrice de confusion.

*Voir le [formattage](https://pyformat.info/) des chaînes de caractères en Python.*

In [20]:
predict = learning(
    learn=["chien{i:02}", "chat{i:02}", "loup{i:02}"], learn_i=[100, 100, 100], 
    test=["chien{i:02}", "chat{i:02}", "loup{i:02}"], test_i=[50, 50, 50], 
    options={"fmin":75, "fmax":5000, "nb_filters":8, "q":1.5, "n":3, "time_res":0.05, "amp_res":4},
    neurons=(30)
)

Préparation des fichiers à traiter...
   300 fichiers d'apprentissage récupérés
   150 fichiers de test récupérés
     3 valeurs (chien, chat, loup)

Acquisition des données...   300 fichiers d'apprentissage traités
   150 fichiers de test traités

Apprentissage...
   300 fichiers utilisés
   150 prédictions

Rapport détaillé du classificateur :
             precision    recall  f1-score   support

       chat       1.00      1.00      1.00        50
      chien       1.00      1.00      1.00        50
       loup       1.00      1.00      1.00        50

avg / total       1.00      1.00      1.00       150



<IPython.core.display.Javascript object>

Les matrices de confusions ci-dessus permet de comprendre où le réseau de neurones artificels a commis des erreurs. La matrice de gauche n'est pas normalisée et affiche le nombre de prédictions correctes par support de test. La matrice de droite contient les mêmes informations à la seule différence que les valeurs sont comprises entre 0 et 1.

La fonction **learning** retourne en sortie une fonction anonyme qui permet de tester de nouveaux fichiers de test à partir de la même configuration *(n.b. le dossier contenant les échantillons de tests doit rester le même également)*.

In [21]:
predict(["chien01", "chien02", "chien03", "loup01", "loup02", "loup03"])

['chien' 'chien' 'chien' 'loup' 'loup' 'loup']


array(['chien', 'chien', 'chien', 'loup', 'loup', 'loup'],
      dtype='<U5')

# > Paramètres optimum et courbes

A partir des différents outils vus jusqu'à présent, il est maintenant temps de déterminer quels sont donc les paramètres optimaux de notre système.

#### Etablissement des caractéristiques audios

La première étape consiste à étudier les différents paramètres d'entrée (qui sont normalement connus). De ceci il est possible de réaliser ce qu'on appelle un *spectrogramme typique*.

La fonction [**plot_avggram**](https://lowlighter.github.io/sound/docs/_bin/plot_avggram.html) génère ce spectrogramme typique à partir d'une liste de fichiers contenant un même mot.

##### Spectrogramme moyen du mot "chien"

In [22]:
plot_avggram(file="chien{i:02}", file_i=50, folder="src/learning/", fmin=75, fmax=5000, nb_filters=8, q=3, n=3, time_res=0.05, amp_res=4);

<IPython.core.display.Javascript object>

##### Spectrogramme moyen du mot "loup"

In [23]:
plot_avggram(file="loup{i:02}", file_i=50, folder="src/learning/", fmin=75, fmax=5000, nb_filters=8, q=3, n=3, time_res=0.05, amp_res=4);

<IPython.core.display.Javascript object>

#### Variations des différents paramètres

La fonction [**benchmark**](https://lowlighter.github.io/sound/docs/_bin/benchmark.html) permet de réaliser un banc de test avec un paramètre variable, et de tracer l'évolution de la précision du réseau de neurones artificiels.

In [24]:
benchmark("adc_res", [3, 12, 1], 
    learn=["chien{i:02}", "chat{i:02}", "loup{i:02}"], learn_i=[10, 10, 10], 
    test=["chien{i:02}", "chat{i:02}", "loup{i:02}"], test_i=[50, 50, 50], 
    options={"fmin":75, "fmax":5000, "nb_filters":8, "q":3, "n":3, "time_res":0.05, "amp_res":2},
    neurons=(30));

A Jupyter Widget

<IPython.core.display.Javascript object>

# > Vérification des résultats 

Pour vérifier que le spectrogramme est cohérent, il suffit de générer un fichier audio contenant un sinus et s'assurer que le spectrogramme en sortie est cohérent.

La fonction [** gen_sine**](https://lowlighter.github.io/sound/docs/_bin/gen_sine.html) permet de réaliser cette opération.

In [25]:
fsin, fsin_fq = gen_filters(q=10, n=3, fs=48000, nb_filters=6, fmin=300, fmax=16000, scale="log")
gen_sine(f=1181, duration=1, fs=48000, src_out="src/sine.wav")
compute(file="src/sine.wav", filters=fsin, filters_fq=fsin_fq, time_res=0.1, amp_res=1, spec_only=" ");

<IPython.core.display.Javascript object>

### Comparaison avec le spectrogramme natif

La fonction [**plot_nspecgram**](https://lowlighter.github.io/sound/docs/_bin/plot_nspecgram.html) permet d'afficher l'implémentation classique supporté par python, que l'on peut donc comparer avec notre implémentation.

In [26]:
compute(file="src/demo.wav", fmin=300, fmax=5000, nb_filters=16, time_res=0.05, n=3, q=1, amp_res=4, spec_only=" ");
plot_nspecgram(file="src/demo.wav", filters_fq=filters_fq);

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# > Traitement à la volée

Si **[pyaudio](https://people.csail.mit.edu/hubert/pyaudio/)** est installé sur votre machine, il est possible d'enregistrer des sons depuis votre microphone et de les traiter au fur et à mesure (avec un léger décalage).

Vous devez modifier le chemin ci-dessous pour qu'il corresponde au répertoire où se trouve **pyaudio**.

In [27]:
# Chemin vers les bibliothèques Python
sys.path.append("C:\Program Files\Python36\Lib\site-packages")

La fonction [**live_record**](https://lowlighter.github.io/sound/docs/_bin/live_record.html) permet de commencer à enregistrer le son provenant du microphone de votre ordinateur et de traiter les données à la volée.

Pour arrêter l'enregistrement, il faut **interrompre** le kernel.
![Interruption](src/imgs/stop.png)

In [28]:
filters, filters_fq = gen_filters(fmin=75, fmax=5000, nb_filters=8, q=1.5, n=3, fs=48000)
lpredict = learning(folder_learn="src/learning/", folder_test="src/learning/", learn=["ok_isen-{i:02}", "bruit-{i}", "silence{i:02}", "voix-{i}"], learn_v=["Ok ISEN !", "Bruit", "Bruit", "Bruit"], learn_i=[193, 278, 50, 169], neurons=(30,20,10,10), options={"filters":filters, "filters_fq":filters_fq, "time_res":0.05, "amp_res":4})

Préparation des fichiers à traiter...
   690 fichiers d'apprentissage récupérés
     0 fichiers de test récupérés
     2 valeurs (Ok ISEN !, Bruit)

Acquisition des données...   690 fichiers d'apprentissage traités
     0 fichiers de test traités

Apprentissage...
   690 fichiers utilisés


In [None]:
live_record(time_res=0.05, amp_res=4, filters_fq=filters_fq, filters=filters, fs=48000, last=1, predict=lpredict)

A Jupyter Widget

<IPython.core.display.Javascript object>