<img src="./assets/uca.png" alt="Tech Logo" align="center" height="800" width="800"/>

<h1 align="left" style="color:#000051;font-size: 30px">TP : Classifiez des √©motions vocales avec du deep learning</h1>

Pour ce TP, vous impl√©menterez un classifieur √† base de r√©seau de neurones sur des donn√©es combinant les jeux de donn√©es RAVDESS et TESS avec la librairie keras. 
Repartez de ce notebook Jupyter qui passe en revue chaque partie du TP pour pr√©senter des preuves et une analyse de vos r√©sultats

<h1 align="left" style="color:#000051;font-size: 25px">Partie 1 : Pr√©-traitement des donn√©es</h1>

Dans cette partie nous nous attacherons principalement √† pr√©-traiter les donn√©es audio du jeu de donn√©es, c'est-√†-dire pr√©parer les donn√©es en vue de les utiliser comme entr√©es du mod√®le de deep learning que nous construirons par la suite

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>üíæ <strong>A propos des jeux de donn√©es </strong></span></h2>

Pour ce TP, nous utiliserons 2 jeux de donn√©es

- **RAVDESS : Ryerson Audio-Visual Database of Emotional Speech and Song**
https://zenodo.org/record/1188976#.X4sE0tDXKUl
  - RAVDESS a √©t√© enregistr√©e avec 24 acteurs professionnels (12 femmes, 12 hommes), pronon√ßant deux phrases lexicalement identiques avec un accent nord-am√©ricain neutre. Chaque phrase est prononc√©e avec deux niveaux d'intensit√© √©motionnelle (normal, fort).
  - **1440 fichiers** = 24 acteurs x 60 fichiers audio par acteur
  - **8 √©motions** (neutre, calme, joie, tristesse, col√®re, peur, d√©gout, surprise).



- **TESS : Toronto Emotional Speech Set**
https://tspace.library.utoronto.ca/handle/1807/24487
  - Ces donn√©es ont √©t√© enregistr√©es par le Northwestern University Auditory. Un ensemble de 200 mots cibles ont √©t√© prononc√©s dans la phrase "Dites le mot _____" par deux actrices (√¢g√©es de 26 et 64 ans) et des enregistrements ont √©t√© r√©alis√©s lorsque ces phrases ont √©t√© prononc√©es avec chacune des sept √©motions d√©crites ci-dessous.
Les deux actrices ont √©t√© recrut√©es dans la r√©gion de Toronto. Les deux actrices parlent l'anglais comme premi√®re langue, ont fait des √©tudes universitaires et ont une formation musicale.
  - **2800 fichiers** = 2 acteurs x 200 phrases x 7 √©motions
  - **7 √©motions** (neutre, joie, tristesse, col√®re, peur, d√©go√ªt, surprise)('calme' ne fait pas partie de cette BD) 

Pour ce TP, pour des consid√©rations de volume de donn√©es, nous n'avons retenu que 4 des √©motions:
- **neutre**
- **joie**
- **tristesse**
- **col√®re**

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>üì• <strong>1. Import des librairies </strong></span></h2>

Si vous avez besoin d'installer des libraires Python pour ce TP, d√©commentez et ex√©cutez la cellule ci-dessous

In [None]:
#!pip3 install numpy
#!pip3 install pydub
#!pip3 install librosa
#!pip3 install noisereduce
#!pip3 install matplotlib
#!pip3 install IPython
#pip3 install scipy

In [None]:
import os
import numpy as np
import random

from pydub import AudioSegment, effects
import librosa
import soundfile as sf
from scipy.io import wavfile
import noisereduce as nr

import matplotlib.pyplot as plt
from librosa import display   
import IPython.display as ipd 

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>üîé <strong>2. Exploration du jeu de donn√©es </strong></span></h2>

Avant de commencer √† pr√©traiter les donn√©es, faisons-nous une id√©e de ce √† quoi ressemble les donn√©es

In [None]:
# Dataset folders
TESS_DATASET_FOLDER = "./dataset/tess"
RAVDESS_DATASET_FOLDER = "./dataset/ravdess"

# Example files
TESS_FILE_EXAMPLE = "./dataset/tess/YAF_goose_sad.wav"
RAVDESS_FILE_EXAMPLE = "./dataset/ravdess/03-01-01-01-01-01-02.wav"

Nous pouvons utiliser ici IPython pour √©couter le contenu audio des fichiers

In [None]:
# Ecoute de deux fichiers examples
rawsound_tess = AudioSegment.from_file(TESS_FILE_EXAMPLE)
rawsound_ravdess = AudioSegment.from_file(RAVDESS_FILE_EXAMPLE)

ipd.display(rawsound_tess)
ipd.display(rawsound_ravdess)

In [None]:
def display_waveform(folder):
    
    '''
    Fonction pour afficher les formes d'ondes (waveform) de 5 fichiers audio al√©atoirement choisis dans un r√©pertoire

            Parameters:
                    folder (str): Chaine de caract√®re repr√©sentant le chemin d'acc√®s au r√©pertoire contenant les fichiers 

            Returns:
                    Rien : affiche les formes d'ondes
                    

    '''
    # Affichage des 5 fichiers audio al√©atoirement choisis dans le jeu de donn√©es TESS

    # R√©cup√©ration de la liste des fichiers
    tess_files_list = os.listdir(folder)
    tess_files_list = [os.path.join(folder, file) for file in tess_files_list]

    # Affichage
    plt.figure(figsize=(18, 3))
    for i in range(5):
        random_file = random.choice(tess_files_list)
        rawsound = AudioSegment.from_file(random_file)
        x, sr = librosa.load(random_file, sr = None)

        plt.subplot(1, 5, i+1)
        #plt.figure(figsize=(12,1))
        librosa.display.waveplot(x, sr)
        plt.title(os.path.basename(random_file))

    plt.show()

In [None]:
display_waveform(folder=TESS_DATASET_FOLDER)
display_waveform(folder=RAVDESS_DATASET_FOLDER)

La forme d'onde repr√©sente la valeur de chaque √©chantillon audio en fonction du temps. Il s'agit juste d'une courbe repr√©sentant chaque √©chantillon en fonction du temps

<img src="./assets/waveform.webp" alt="Tech Logo" align="center" height="1280" width="960"/>

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>
üóÉÔ∏è <strong>3. Pr√©-traitement du jeu de donn√©es</strong></span></h2>

Le sch√©ma ci-dessous pr√©sente la chaine compl√®te de pr√©-traitement √† r√©aliser pour pr√©-traiter et extraire des caract√©ristiques de notre jeu de donn√©es.

Nous nous interessons ici dans un premier temps √† la partie pr√©-traitement

<img src="./assets/preprocess.jpg" alt="Tech Logo" align="center" height="1280" width="960"/>

Le pr√©-traitement des audios n√©cessite 3 types de traitements:
1. **Extraction de la classe d'appartenance**

     * RAVDESS : Dans le jeu de donn√©es RAVDESS, le nom du fichier contient un nombre qui repr√©sente l'√©motion exprim√©e dans le fichier audio. Un fichier RAVDESS consiste en un identifiant num√©rique en 7 parties (par exemple, 03-01-06-01-02-01-12.wav). Les deux premi√®res parties √©tant fixes, le fichier peut √™tre repr√©sent√© comme suit : 03-01-X-X-X-X-X.wav. Les √©motions sont indiqu√©es dans la 3√®me partie (Le 1er 'X') 
     * TESS : le nom de fichier contient une repr√©sentation directe d'une √©motion. Les noms de fichier TESS sont compos√©s de 3 parties, l'√©motion √©tant indiqu√©e dans la 3√®me partie. Par exemple, dans le fichier "YAF_youth_happy.wav",  "happy".


2. **Fr√©quence d'√©chantillonnage** : nombre d'√©chantillons audio par seconde. La base de donn√©es RAVDESS a √©t√© enregistr√©e en 48 kHz et la base de donn√©es TESS a √©t√© enregistr√©e en 22,5 kHz.


3. **La s√©quence de pr√©-traitement** d'un fichier audio contient les traitements suivants :


* Objet 'AudioSegment' : L'audio est charg√© dans un objet 'AudioSegment' par la biblioth√®que pydub
* Normalisation : Chaque objet 'AudioSegment' est normalis√© √† + 5,0 dBFS.

* Conversion en tableau Numpy : La transformation de l'objet AudioSegment en un tableau d'√©chantillons est cruciale pour le reste du pr√©traitement.
* Suppression des silences : Les zones de silences, souvent au d√©but et √† la fin de l'extrait sonore, sont supprim√©es pour se d√©barrasser des donn√©es inutiles.
* Padding : Afin d'avoir des audios de la m√™me taille, il est n√©cessaire de faire du padding sur chaque fichier audio afin qu'ils aient la m√™me longueur. Ceci est crucial pour utiliser les donn√©es dans un mod√®le de deep learning
* R√©duction de bruit : la r√©duction du bruit permet de supprimer d'√©ventuelles bruits, c'est-√†-dire des donn√©es qui ne sont pas de la parole.

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>üóÉÔ∏è <strong>3.1 Pr√©-traitement unitaire </strong></span></h3>

Dans cette partie, nous d√©veloppons pas √† pas chacun des pr√©-traitements necessaires. Chaque pr√©-traitement sera cod√© dans une fonction et test√© sur un fichier exemple.
Afin de s'assurer que les traitements sont bien r√©alis√©s, il faudra visualiser et √©couter le fichier r√©sultant du pr√©-traitement

In [None]:
# Chemin d'acc√®s au fichier exemple
RAVDESS_FILE_EXAMPLE = "./dataset/ravdess/03-01-01-01-01-01-02.wav"

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.0 Visualisation et √©coute du fichier exemple</strong></span></h4>

La fonction ci-dessous permet d'afficher la forme d'onde et la barre d'√©coute d'un fichier audio

In [None]:
def visualize_waveform(audio_array, sampling_rate, display_audio=True):
    
    '''
    Fonction pour afficher la forme d'onde (waveform) d'un flux audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres de flottants repr√©sentant les √©chantillons audio du fichier audio
                    sampling_rate (int): Valeur enti√®re repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio
                    display_audio(bool) : bool√©en indiquant si la barre d'√©coute du fichier audio devait √™tre affich√©e ou non


            Returns:
                    Rien : affiche la forme d'ondes et/ou la barre d'√©coute
                    

    '''

    plt.figure(figsize=(12,1))
    librosa.display.waveplot(audio_array, sampling_rate)
    plt.title("Audio waveform")
    
    if display_audio:
        max_value = audio_array.max()
        # Les fichiers wav avec des √©chantillons en format float32 doivent √™tre entre +1 et -1
        # Si ce n'est pas le cas, il faut normaliser !
        if max_value > 1:
            audio_array = audio_array/max_value
        
        # Enregistrement d'un fichier temporaire    
        wavfile.write(filename="./tmp.wav", rate=sampling_rate, data=audio_array)
        
        # Affichage de l'audio pour playback        
        rawsound = AudioSegment.from_wav("./tmp.wav")
        ipd.display(rawsound)


Appliquons cette fonction pour visualiser la forme d'onde et ecouter le contenu du fichier exemple **RAVDESS_FILE_EXAMPLE**

In [None]:
audio_array, sampling_rate = librosa.load(RAVDESS_FILE_EXAMPLE, sr = None)
visualize_waveform(audio_array=audio_array, sampling_rate=sampling_rate, display_audio=True)

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.1 Instanciation de l'objet AudioSegment</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'instancier un objet AudioSegment √† partir du fichier exemple <strong>RAVDESS_FILE_EXAMPLE</strong> </span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  Working with wav files in Python using Pydub : </span><a href="https://www.geeksforgeeks.org/working-with-wav-files-in-python-using-pydub/">https://www.geeksforgeeks.org/working-with-wav-files-in-python-using-pydub/</a></p> 

In [None]:
from pydub import AudioSegment

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.2 Normalisation de volume et conversion en tableau numpy array</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>normalize_audio</strong> permettant d'ajouter 5 dBFS √† un contenu sonore, puis appelez cette fonction sur le fichier exemple <strong>RAVDESS_FILE_EXAMPLE</strong> </span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  Introduction to
PyDub : </span> <a href="https://s3.amazonaws.com/assets.datacamp.com/production/course_17718/slides/chapter3.pdf">https://s3.amazonaws.com/assets.datacamp.com/production/course_17718/slides/chapter3.pdf</a></p> 

In [None]:
from pydub import effects

def normalize_audio(audio_segment):
    
    '''
    Fonction pour rajouter 5 dBFS au volume du fichier audio

            Parameters:
                    audio_segment (Objet AudioSegment de pydub): Objet AudioSegment repr√©sentant le fichier audio √† normaliser

            Returns:
                    normalized_array (Numpy array) : Matrice de nombres repr√©sentant les √©chantillons du fichier audio apr√®s application du traitement
                    

    '''
        

    return normalized_array

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'√©couter  et de visualiser la forme d'onde du flux audio r√©sultant </span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì En observant la forme d'onde obtenue et en la comparant √† celle du fichier d'origine, quel effet a eu ce pr√©-traitement sur le flux audio du fichier  ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.3 Suppression des silences</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>remove_silence_from_audio</strong> permettant de supprimer les silences d'un contenu sonore, puis appelez cette fonction sur la matrice d'√©chantillon obtenue √† l'√©tape pr√©c√©dente </span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  librosa.effects.trim : </span> <a href="https://librosa.org/doc/main/generated/librosa.effects.trim.html">https://librosa.org/doc/main/generated/librosa.effects.trim.html</a></p> 

In [None]:
from librosa import effects

def remove_silence_from_audio(audio_array):
    
    '''
    Fonction permettant de supprimer les silences d'un fichier audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons du fichier audio sur lequel appliquer la suppression de silences

            Returns:
                    silenced_array (Numpy array) : Matrice de nombres repr√©sentant les √©chantillons du fichier audio apr√®s application du traitement
                    

    '''
    
    return silenced_array

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'√©couter  et de visualiser la forme d'onde du flux audio r√©sultant </span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì En observant la forme d'onde obtenue et en la comparant √† celle obtenue √† l'√©tape pr√©c√©dente, quel effet a eu ce pr√©-traitement sur le flux audio ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.4 Egalisation des longueurs </strong></span></h4>

Ici, nous voulons uniformiser les donn√©es en entr√©e du mod√®le afin qu'elles aient toute la m√™me longueur. Nous faisons arbitrairement le choix d'avoir des donn√©es en entr√©e du mod√®le correspondant √† 2 secondes de fichier audio. Mais selon que le fichier audio appartienne au dataset TESS ou RAVDESS, 2 secondes ne correspondent pas au m√™me nombre d'√©chantillons

In [None]:
MAX_SECONDS = 2
SR_TESS = 22500
SR_RAVDESS = 48000

In [None]:
MAX_SAMPLES_RAVDESS = MAX_SECONDS * SR_RAVDESS
MAX_SAMPLES_TESS = MAX_SECONDS * SR_TESS

In [None]:
MAX_SAMPLES = np.max([MAX_SAMPLES_RAVDESS, MAX_SAMPLES_TESS])
MAX_SAMPLES

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>length_equalization_audio</strong> permettant de ramener chaque matrice d'√©chantillons audio √† une longueur de MAX_SAMPLES (si les audios sont plus longues que 96000 √©chantillons, les couper pour les ramener √† 96000, si les audio sont plus courtes que 96000 √©chantillons, rajouter des 0 pour les ramener √† 96000 √©chantillons), puis appelez cette fonction sur la matrice d'√©chantillon obtenue √† l'√©tape pr√©c√©dente </span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  numpy.pad : </span> <a href="https://numpy.org/doc/stable/reference/generated/numpy.pad.html">https://numpy.org/doc/stable/reference/generated/numpy.pad.html</a></p> 

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  numpy.pad() function in Python : </span> <a href="https://www.geeksforgeeks.org/numpy-pad-function-in-python/">https://www.geeksforgeeks.org/numpy-pad-function-in-python/</a></p> 

In [None]:
from numpy import pad

def length_equalization_audio(audio_array, max_length=MAX_SAMPLES):
    
    '''
    Fonction permettant de normaliser la longueur des √©chantillons d'un fichier audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons du fichier audio sur lequel appliquer l'√©galisation des longueurs
                    max_length (int) : Nombre entier repr√©sentant la longueur en termes de nombre d'√©chantillons √† avoir

            Returns:
                    padded_array (Numpy array) : Matrice de nombres repr√©sentant les √©chantillons du fichier audio de longueur max_length
                    

    '''
        

    return padded_array


<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'√©couter  et de visualiser la forme d'onde du flux audio r√©sultant </span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì En observant la forme d'onde obtenue et en la comparant √† celle obtenue √† l'√©tape pr√©c√©dente, quel effet a eu ce pr√©-traitement sur le flux audio ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>üóÉÔ∏è <strong>3.1.5 Suppression du bruit</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>noise_reduction_from_audio</strong> permettant de r√©duire le bruit dans chaque matrice d'√©chantillons audio, puis appelez cette fonction sur la matrice d'√©chantillon obtenue √† l'√©tape pr√©c√©dente </span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  noisereduce : </span> <a href="https://github.com/timsainb/noisereduce#simplest-usage">https://github.com/timsainb/noisereduce#simplest-usage</a></p> 

In [None]:
import noisereduce as nr

def noise_reduction_from_audio(audio_array, sampling_rate):
    '''
    Fonction permettant de supprimer le bruit d'un fichier audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons du fichier audio sur lequel appliquer la r√©duction de bruit
                    sampling_rate (int) : Nombre entier repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio

            Returns:
                    noise_reduced_array (Numpy array) : Matrice de nombres repr√©sentant les √©chantillons du fichier audio apr√®s r√©duction du bruit
                    

    '''
        
    return noise_reduced_array

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'√©couter  et de visualiser la forme d'onde du flux audio r√©sultant </span></p>

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>üóÉÔ∏è <strong>3.2 Pr√©-traitement unifi√© </strong></span></h3>

Nous allons maintenant cr√©er une fonction de pr√©-traitement globale, qui rassemble l'ensemble des pr√©-traitements pr√©cedemment d√©velopp√©s.

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>preprocess_audio</strong> permettant d'appliquer toutes les op√©rations de pr√©-traitement pr√©c√©demment d√©velopp√©es sur un fichier audio, puis appelez cette fonction sur le fichier audio exemple <strong>RAVDESS_FILE_EXAMPLE</strong></span></p>

In [None]:
def preprocess_audio(audio_filename, sampling_rate):
    
    '''
    Fonction permettant d'appliquer toutes les op√©rations de pr√©-traitement sur un fichier audio

            Parameters:
                    audio_filename (str): Chaine de caract√®re correspondant au chemin d'acc√®s au fichier audio
                    sampling_rate (int) : Nombre entier repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio

            Returns:
                    noise_reduced_array (Numpy array) : Matrice de nombres repr√©sentant les √©chantillons du fichier audio apr√®s application de l'ensemble des pr√©-traitement
                    

    '''
    
    
    return noise_reduced_array

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'√©couter  et de visualiser la forme d'onde du flux audio r√©sultant de l'ensemble des pr√©-traitements</span></p>

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>
‚õèÔ∏è <strong>4. Extraction des caract√©ristiques</strong></span></h2>

La sp√©cifit√© des donn√©es audio est qu'elles n√©cessitent souvent des descripteurs de niveau interm√©diaires pour √™tre utilis√©es dans les mod√®les de machine learning. Ces descripteurs s'appellent aussi des caract√©ristiques. Nous allons ici extraire ces caract√©ristiques des fichiers audio que nous avons pr√©-trait√©s

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>‚õèÔ∏è <strong>4.1 Extraction des caract√©ristiques unitaire </strong></span></h3>

Dans cette partie, nous d√©veloppons pas √† pas chacune des extractions de caract√©ristiques. Chaque extraction de caract√©ristique sera cod√©e dans une fonction et test√© sur la matrice numpy "preprocessed_array" obtenu en sortie de la fonction "preprocessed_audio".

Les caract√©ristiques √† extraire via librosa sont les suivantes:

- Energy - Root Mean Square (RMS)
- Zero Crossed Rate (ZCR)
- Mel-Frequency Cepstral Coefficients (MFCCs)


Une des sp√©cificit√©s de l'audio est qu'aucune structuelle modulaire naturelle n'existe au sein d'un flux audio. 

Par exemple, au sein d'un flux vid√©o, il existe une structure modulaire naturelle qui est l'image. Une vid√©o de plusieurs heures peut ainsi √™tre d√©compos√©e en plusieurs images. Ainsi √† l'entr√©e des mod√®les de machine learning, il est possible d'utiliser une image ou un lot d'images.

Mais qu'en est-il de l'audio ? Dans le cas de l'audio, il revient au datascientist de s√©quencer un flux audio en plusieurs s√©quences en utilisant des techniques de **fen√™trage (windowing)**. 

<img src="./assets/windowing.gif" alt="Tech Logo" align="center" height="1280" width="960"/>

C'est √† partir de ces s√©quences fen√™tr√©es que seront extraites les caract√©ristiques √©voqu√©es ci-dessus.

Fen√™trer revient donc √† d√©placer une fen√™tre glissante d'une certaine largeur avec un pas de d√©placement donn√©. La largeur de la fen√™tre s'appelle **window_length** et le pas de d√©placement s'appelle le **hop**.

<img src="./assets/windowing.png" alt="Tech Logo" align="center" height="1280" width="960"/>

https://stackoverflow.com/questions/68214065/is-my-output-of-librosa-mfcc-correct-i-think-i-get-the-wrong-number-of-frames-w

In [None]:
FRAME_LENGTH = 2048
HOP_LENGTH = 512

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì Avec une taille de fen√™tre de <strong>FRAME_LENGTH</strong> et un pas de d√©placement de <strong>HOP_LENGTH</strong>, en combien de fen√™tres seront d√©coup√©es les fichiers ayant 96000 √©chantillons ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>‚õèÔ∏è <strong>4.1.1 Extraction de l'Energy Root Mean Square (RMS)</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>get_energy_rms</strong> permettant d'extraire l'energy RMS d'une matrice d'√©chantillons, puis appelez cette fonction sur la matrice d'√©chantillons audio pr√©-trait√©s <strong>preprocessed_array</strong>. Attention √† l'utilisation de l'argument <strong>"center"</strong></span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  librosa.feature.rms : </span> <a href="https://librosa.org/doc/main/generated/librosa.feature.rms.html">https://librosa.org/doc/main/generated/librosa.feature.rms.html</a></p> 

In [None]:
from librosa.feature import rms

def get_energy_rms(audio_array, frame_length, hop_length):
    
    '''
    Fonction permettant d'extraire d'une matrice d'√©chantillons audio l'energy RMS d'un flux audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons audio du fichier audio
                    frame_length (int): Valeur enti√®re repr√©sentant la taille de fen√™tre pour le fen√™trage
                    hop_length(int) : Valeur enti√®re repr√©sentant la taille du pas de d√©placement pour le fen√™trage


            Returns:
                    feature_rms (Numpy array): Matrice de nombres repr√©sentant l'energy rms
                    

    '''
        
    return feature_rms

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'afficher les dimensions de la matrice de caract√©ristiques r√©sultante</span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì A quoi correspondent ces dimensions ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>‚õèÔ∏è <strong>4.1.2 Extraction du Zero Crossing Rate (ZCR)</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>get_zcr</strong> permettant d'extraire le zero crossing rate d'une matrice d'√©chantillons audio, puis appelez cette fonction sur la matrice d'√©chantillons audio pr√©-trait√©s<strong>preprocessed_array</strong></span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  librosa.feature.zero_crossing_rate : </span> <a href="http://librosa.org/doc/main/generated/librosa.feature.zero_crossing_rate.html">http://librosa.org/doc/main/generated/librosa.feature.zero_crossing_rate.html</a></p> 

In [None]:
from librosa.feature import zero_crossing_rate

def get_zcr(audio_array, frame_length, hop_length):
    
    '''
    Fonction permettant d'extraire d'une matrice d'√©chantillons audio le ZCR d'un flux audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons audio du fichier audio
                    frame_length (int): Valeur enti√®re repr√©sentant la taille de fen√™tre pour le fen√™trage
                    hop_length(int) : Valeur enti√®re repr√©sentant la taille du pas de d√©placement pour le fen√™trage


            Returns:
                    feature_zcr (Numpy array): Matrice de nombres repr√©sentant le ZCR
                    

    '''
        
    return feature_zcr

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'afficher les dimensions de la matrice de caract√©ristiques r√©sultante</span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì A quoi correspondent ces dimensions ?</span></p>

<h4 style="text-align: left; color:#20a08d; font-size: 15px"><span>‚õèÔ∏è <strong>4.1.3 Extraction des coefficients MFCC</strong></span></h4>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>get_mfcc</strong> permettant d'extraire les coefficients MFCC d'une matrice d'√©chantillons audio, puis appelez cette fonction sur la matrice d'√©chantillons audio pr√©-trait√©s<strong>preprocessed_array</strong>. Utilisez 13 coefficients MFCC par fen√™tre</span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  librosa.feature.mfcc : </span> <a href="https://librosa.org/doc/main/generated/librosa.feature.mfcc.html">https://librosa.org/doc/main/generated/librosa.feature.mfcc.html</a></p> 

In [None]:
from librosa.feature import mfcc

def get_mfcc(audio_array, hop_length, sampling_rate):
    
    '''
    Fonction permettant d'extraire d'une matrice d'√©chantillons audio les coefficients MFCC d'un flux audio

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons audio du fichier audio
                    sampling_rate (int) : Nombre entier repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio
                    hop_length (int) : Valeur enti√®re repr√©sentant la taille du pas de d√©placement pour le fen√™trage


            Returns:
                    feature_mfcc (Numpy array): Matrice de nombres repr√©sentant les coefficients MFCC
                    

    '''
        
    return feature_mfcc

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant d'afficher les dimensions de la matrice de caract√©ristiques r√©sultante</span></p>

<p style="text-align: left; font-size: 16px; color:#7a0f43"><span>‚ùì A quoi correspondent ces dimensions ?</span></p>

Utilisez le code ci-dessous pour afficher les coefficients MFCC

In [None]:
librosa.display.specshow(mfccs, sr=SR_RAVDESS, x_axis='time')

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>‚õèÔ∏è <strong>4.2 Extraction des caract√©ristiques unifi√©e </strong></span></h3>

Ici, nous rassemblons l'ensemble des traitements d'extractions de caract√©ristiques en une seule fonction, puis nous concat√©nons l'ensemble des caract√©ristiques RMS, ZCR, MFCC en une seule matrice.

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>extract_features_audio</strong> permettant d'extraire d'une matrice d'√©chantillons audio l'ensemble des caract√©ristiques et des concat√©ner en une seule, puis appelez cette fonction sur la matrice d'√©chantillons audio pr√©-trait√©s <strong>preprocessed_array</strong>.</span></p>

In [None]:
def extract_features_audio(audio_array, sampling_rate, frame_length, hop_length):
    
    '''
    Fonction permettant d'extraire d'une matrice d'√©chantillons audio l'ensemble des caract√©ristiques et des concat√©ner en une seule

            Parameters:
                    audio_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons audio du fichier audio
                    sampling_rate (int) : Nombre entier repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio
                    frame_length (int): Valeur enti√®re repr√©sentant la taille de fen√™tre pour le fen√™trage
                    hop_length (int) : Valeur enti√®re repr√©sentant la taille du pas de d√©placement pour le fen√™trage


            Returns:
                    features_all (Numpy array): Matrice de nombres repr√©sentant l'ensemble des caract√©ristiques concat√©n√©es
                    

    '''
    
    
    return features_all

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>
üóÑÔ∏è <strong>5. Application de la chaine compl√®te de traitement des donn√©es: pr√©-traitement + extraction de caract√©ristiques</strong></span></h2>

Ici, nous rassemblons en une seule fonction l'ensemble des traitements : pr√©-traitement et extraction des caract√©ristiques

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>üóÑÔ∏è <strong>5.1 Traitement unitaire </strong></span></h3>

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>process_data</strong> permettant de r√©aliser sur un fichier audio l'ensemble des trait√©ments de pr√©paration des donn√©es (pr√©-traitement + extraction de caract√©ristiques), puis appelez cette fonction sur le fichier exemple <strong>RAVDESS_FILE_EXAMPLE</strong>.</span></p>

In [None]:
def process_data(audio_filename, hop_length, frame_length, sampling_rate):
    
    '''
    Fonction permettant de r√©aliser sur un fichier audio l'ensemble des trait√©ments de pr√©paration des donn√©es : pr√©-traitement + extraction de caract√©ristiques

            Parameters:
                    audio_filename (str): Chaine de caract√®re correspondant au chemin d'acc√®s au fichier audio
                    sampling_rate (int) : Nombre entier repr√©sentant la fr√©quence d'√©chantillonnage du fichier audio
                    frame_length (int): Valeur enti√®re repr√©sentant la taille de fen√™tre pour le fen√™trage
                    hop_length (int) : Valeur enti√®re repr√©sentant la taille du pas de d√©placement pour le fen√™trage


            Returns:
                    preprocessed_array (Numpy array): Matrice de nombres repr√©sentant les √©chantillons audio apr√®s pr√©-traitement (normalisation, ...)
                    features (Numpy array): Matrice de nombres repr√©sentant l'ensemble des caract√©ristiques concat√©n√©es


    '''
        
    
    return preprocessed_array, features

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>üóÑÔ∏è <strong>5.2 D√©termination de la classe d'appartenance </strong></span></h3>

Le but ici est de d√©velopper une fonction permettante d'extraire la classe d'appartenance c'est-√†-dire l'√©motion exprim√©e dans un fichier audio √† partir des donn√©es indiqu√©es dans le nom de fichier.

Par convention :
- La classe **"neutre"** sera encod√©e par le nombre entier **0**
- La classe **"joie"** sera encod√©e par le nombre entier **1**
- La classe **"tristesse"** sera encod√©e par le nombre entier **2**
- La classe **"colere"** sera encod√©e par le nombre entier **3**

In [None]:
EMOTION_DICT = {0:"neutre", 1:"joie", 2:"tristesse", 3:"colere"}

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>get_ravdess_label</strong> permettant de d√©terminer la classe d'√©motion exprim√©e dans un fichier audio RAVDESS √† partir de son nom, puis appelez cette fonction sur les fichiers exemple <strong>RAVDESS_FILE_EXAMPLE_1</strong>, <strong>RAVDESS_FILE_EXAMPLE_2</strong>, <strong>RAVDESS_FILE_EXAMPLE_3</strong>, <strong>RAVDESS_FILE_EXAMPLE_4</strong>.</span></p>

In [None]:
def get_ravdess_label(audio_filename):
    
    '''
    Fonction permettant de d√©terminer la classe d'√©motion exprim√©e dans un fichier audio RAVDESS √† partir de son nom

            Parameters:
                    audio_filename (str): Chaine de caract√®re correspondant au chemin d'acc√®s au fichier audio

            Returns:
                    - (int): Nombre entier repr√©sentant la classe de l'√©motion

    '''
    

In [None]:
RAVDESS_FILE_EXAMPLE_1 = "./dataset/ravdess/03-01-04-01-02-02-22.wav"
RAVDESS_FILE_EXAMPLE_2 = "./dataset/ravdess/03-01-05-01-02-01-19.wav"
RAVDESS_FILE_EXAMPLE_3 = "./dataset/ravdess/03-01-03-01-02-02-11.wav"
RAVDESS_FILE_EXAMPLE_4 = "./dataset/ravdess/03-01-01-01-01-02-20.wav"


<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code dans la fonction  <strong>get_tess_label</strong> permettant de d√©terminer la classe d'√©motion exprim√©e dans un fichier audio TESS √† partir de son nom, puis appelez cette fonction sur les fichiers exemple <strong>TESS_FILE_EXAMPLE_1</strong>, <strong>TESS_FILE_EXAMPLE_2</strong>, <strong>TESS_FILE_EXAMPLE_3</strong>, <strong>TESS_FILE_EXAMPLE_4</strong>.</span></p>

In [None]:
def get_tess_label(audio_filename):
    
    '''
    Fonction permettant de d√©terminer la classe d'√©motion exprim√©e dans un fichier audio TESS √† partir de son nom

            Parameters:
                    audio_filename (str): Chaine de caract√®re correspondant au chemin d'acc√®s au fichier audio

            Returns:
                    - (int): Nombre entier repr√©sentant la classe de l'√©motion

    '''
    

In [None]:
TESS_FILE_EXAMPLE_1 = "./dataset/tess/OAF_lose_sad.wav"
TESS_FILE_EXAMPLE_2 = "./dataset/tess/YAF_mop_happy.wav"
TESS_FILE_EXAMPLE_3 = "./dataset/tess/OAF_turn_neutral.wav"
TESS_FILE_EXAMPLE_4 = "./dataset/tess/YAF_met_angry.wav"


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span>üóÑÔ∏è <strong>5.3 Traitement de l'ensemble des fichiers audio </strong></span></h3>

Nous disposons d√©sormais de tous les √©l√©ments permettant d'obtenir les donn√©es d'entrainement (caract√©ristiques) et les labels associ√©s

Puisque nous utilisons de l'apprentissage supervis√©, il nous faut cr√©er un tableau de donn√©es (caract√©ristisques) et un tableau de labels

<img src="./assets/processing.jpg" alt="Tech Logo" align="center" height="800" width="600"/>

In [None]:
DATASET_FOLDER = "./dataset"
features_list = list()
labels_list = list()

<p style="text-align: left; font-size: 16px; color:#131fcf"><span>üñ•Ô∏è  Ecrivez le code permettant de parcourir les fichiers audio RAVDESS et TESS, d'en d√©terminer la fr√©quence d'√©chantillonnage, de calculer la matrice de caract√©ristiques du fichier audio, d'extraire la classe d'appartenance du fichier audio, puis ins√©rer la matrice de caract√©ristiques et la classe d'appartenance respectivement dans les listes <strong>features_list</strong> et <strong>labels_list</strong>. Convertissez enfin les listes <strong>features_list</strong> et <strong>labels_list</strong> en matrice numpy array <strong>features_array</strong> et <strong>labels_array</strong></span></p>

<p style="text-align: left; font-size: 16px; color:#ec8f1a"><span>üìö  
Iterate over files in a directory in Python
 : </span> <a href="https://www.techiedelight.com/iterate-over-files-directory-python/">https://www.techiedelight.com/iterate-over-files-directory-python/</a></p> 

In [None]:
from librosa.core import get_samplerate


In [None]:
print(features_array.shape)
print(labels_array.shape)

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>
üìº <strong>6. Sauvegarde des donn√©es d'entrainement et des labels</strong></span></h2>

Nous allons ici sauvegarder sur notre disque les donn√©es d'entrainement et les labels correspondant aux matrices que nous avons g√©n√©r√©es.

Pour ce faire, nous utiliserons la librairie pickle qui permet d'enregistrer des donn√©es en gardant leur structure d'origine.

In [None]:
import pickle

with open('./features.array', 'wb') as features:
    pickle.dump(features_array, features)

In [None]:
import pickle

with open('./labels.array', 'wb') as labels:
    pickle.dump(labels_array, labels)

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span>
üìº <strong>7. Sauvegarde des fonctions de pr√©-traitement en script Python</strong></span></h2>

Copier ci-dessous le contenu des fonctions ci-dessous:
- normalize_audio
- remove_silence_from_audio
- length_equalization_audio
- noise_reduction_from_audio
- preprocess_audio
- get_energy_rms()
- get_zcr()
- get_mfcc()
- extract_features_audio()
- process_data()

In [None]:
%%writefile ../3.RealtimeEvaluation/preprocessing.py
MAX_SAMPLES = 96000

import os
import numpy as np
import random

from pydub import AudioSegment, effects
import librosa
import soundfile as sf
from scipy.io import wavfile
import noisereduce as nr

import matplotlib.pyplot as plt
from librosa import display

