# Prétraitement des données audio

# Importation des packages

In [None]:
import librosa, librosa.display
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import numpy as np
import os
import json
from sklearn.model_selection import train_test_split
import tensorflow.keras as keras

# Connection avec Google Drive

Ajoutez un raccourci de ce dossier à votre Google Drive :

https://drive.google.com/drive/folders/1NGH6ntk3qH8Odo7q8YxDS0iqV-httZUR?usp=sharing

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Découverte de la librairie Librosa

Librosa est une bibliothèque qui facilite la manipulation des données audio

In [None]:
file = "drive/MyDrive/Music_genre_classification/genres_original/pop/pop.00008.wav"

# Importer une musique

Le paramètre `sr` correspond à la fréquence d'échantillonnage, et nous utiliserons 22050 par défaut tout au long de ce TP.

Utilisez la fonction load de la bibliothèque `Librosa` pour importer le fichier `file`.

In [None]:
signal, sr = None

# Visualisation de l'onde

Utilisez la fonction `waveshow` de Librosa pour visualiser le signal de l'onde.

Ensuite, servez-vous des fonctions `xlabel` et `ylabel` pour indiquer où se trouvent le temps et l'amplitude sur le graphique.

In [None]:
None

# La transformée de fourier

Appliquez une transformée de Fourier au signal en utilisant la fonction `fft` de Numpy.

In [None]:
fft = None

Utilisez la valeur absolue de la transformée de Fourier pour obtenir la magnitude de l'onde, en vous servant de la fonction `abs` de Numpy.

In [None]:
magnitude = None

Utilisez la fonction `linspace` de Numpy pour structurer les fréquences de l'onde.

In [None]:
frequency = None

Visualisation de l'onde dans le domaine fréquence-magnitude.

Utilisez la fonction `plot` de Matplotlib pour tracer le graphique de la magnitude en fonction de la fréquence.

Servez-vous de `xlabel` et `ylabel` pour nommer les axes.

In [None]:
None

# Passage au spectrogramme

Utilisez le spectrogramme pour réintégrer la composante temporelle dans la représentation de l'onde.

In [None]:
 # Number of time for each sample
n_fft=2048

# the amount we slide to the right at each time
hop_length = 512

Appliquez la fonction `core.stft` de Librosa sur le signal.

In [None]:
stft = None

Appliquez la valeur absolue du résultat pour obtenir le spectrogramme, en utilisant la fonction `abs` de Numpy.

In [None]:
spectogram = None

Visualisez le spectrogramme à l'aide de la fonction `specshow` de Librosa.

N'oubliez pas d'utiliser `xlabel` et `ylabel` pour nommer les axes.

In [None]:
None

On ne distingue pas grand-chose.

Appliquez un logarithme aux données du spectrogramme pour obtenir le résultat en décibels, en utilisant la fonction `amplitude_to_db` de Librosa.

In [None]:
log_spectogram = None

Visualisez le résultat, qui devrait être plus facile à lire, en utilisant la fonction `specshow`.

N'oubliez pas d'ajouter les axes avec `xlabel` et `ylabel`.

In [None]:
None

# Le mel frequency cepstral coefficients

Nous pouvons représenter les données audio d'une autre manière en utilisant les MFCCs.

Utilisez la fonction `mfcc` de Librosa pour l'appliquer à notre signal.

Fixez le nombre de composantes `n_mfcc` à 13.

In [None]:
MFFCs = None

Visualisez le résultat en utilisant la fonction `specshow` de Librosa.

N'oubliez pas d'ajouter les axes avec `ylabel` et `xlabel`.

In [None]:
None

# Création du jeu de données

Il est maintenant temps de transformer l'ensemble de notre jeu de données en appliquant la transformation MFCC sur nos pistes, afin d'obtenir des données exploitables pour le deep learning.

Identification des variables globales

In [None]:
# sample rate
SAMPLE_RATE = 22050

# Longueur de chaque morceau du jeu de données
DURATION = 30

# durée de chaque segment de chanson
SAMPLES_PER_TRACK = SAMPLE_RATE * DURATION

Votre objectif est de créer une fonction qui prendra un `signal` et le découpera en plusieurs segments pour augmenter artificiellement le nombre d'exemples dans le jeu de données d'entraînement.

`num_segments` divise chaque piste en plusieurs segments musicaux.

`num_samples_per_segment` représente le nombre d'échantillons découpés par segment.

`expected_num_mfcc_vectors_per_segment` correspond au nombre de vecteurs par segment. Il est essentiel d'avoir le même nombre de vecteurs pour chaque segment ; sinon, l'observation ne sera pas sauvegardée.

`data` est le dictionnaire où vous allez stocker vos données. Il contient une clé `mfcc` pour les données MFCC des signaux et une clé `labels` pour le genre de musique associé.

`file_path` désigne le chemin vers le fichier à traiter.

`signal` est le signal à analyser.

`label` représente le genre de musique auquel appartient le signal.

`sample_rate` est la fréquence d'échantillonnage, par défaut fixée à 22050.

`n_fft` correspond à la durée de chaque échantillon, par défaut 2048.

`hop_length` indique le déplacement de la fenêtre entre chaque échantillon, avec pour objectif de créer un recouvrement.

`n_mfcc` est le nombre de composantes que l'on souhaite extraire du signal, par défaut 13.

In [None]:
def process_segments_from_musics(num_segments:int,
                                 num_samples_per_segment:int,
                                 expected_num_mfcc_vectors_per_segment:int,
                                 data:dict,
                                 file_path:str,
                                 signal:np.ndarray,
                                 label:int,
                                 sample_rate:int=22050,
                                 n_fft:int=2048,
                                 hop_length:int=512,
                                 n_mfcc:int=13)->dict:

  # process segments extracting mfcc and storing data
  for s in range(num_segments):
    start_sample = None
    finish_sample = None
    mfcc = None

    mfcc = mfcc.T

    # store mfcc for segment if it has the expected length
    if len(mfcc) == expected_num_mfcc_vectors_per_segment:
      data["mfcc"].append(mfcc.tolist())
      data["labels"].append(label-1)
      print("{}, segment:{}".format(file_path, s))

  return data

`num_segments` permet de diviser chaque piste en plusieurs segments musicaux.

`num_samples_per_segment` indique le nombre d'échantillons à découper par segment.

`expected_num_mfcc_vectors_per_segment` représente le nombre de vecteurs par segment. Il est nécessaire d'avoir le même nombre de vecteurs pour chaque segment ; sinon, l'observation ne sera pas sauvegardée.

`data` est le dictionnaire où vous allez stocker vos données. Il contient une clé `mfcc` pour les données MFCC des signaux et une clé `labels` pour le genre de musique associé.

`file_path` désigne le chemin vers le fichier à traiter.

`dirpath` est le chemin vers le dossier à traiter.

`sample_rate` correspond à la fréquence d'échantillonnage, par défaut fixée à 22050.

`n_fft` indique la durée de chaque échantillon, par défaut 2048.

`hop_length` représente le déplacement de la fenêtre entre chaque échantillon, avec pour objectif de créer un recouvrement.

`n_mfcc` est le nombre de composantes que l'on souhaite extraire du signal, par défaut 13.

In [None]:
def process_musics(num_segments:int,
                   num_samples_per_segment:int,
                   expected_num_mfcc_vectors_per_segment:int,
                   data:dict,
                   filenames:str,
                   dirpath:str,
                   label:int,
                   sample_rate:int=22050,
                   n_fft:int=2048,
                   hop_length:int=512,
                   n_mfcc:int=13)->dict:
  # process files for a specific genre
  for f in filenames:
    # load the audio file
    file_path = os.path.join(dirpath, f)
    signal, _ = None

    data = None

  return data

`num_segments` permet de diviser chaque piste en plusieurs segments musicaux.

`num_samples_per_segment` indique le nombre d'échantillons à découper par segment.

`expected_num_mfcc_vectors_per_segment` représente le nombre de vecteurs par segment. Il est essentiel d'avoir le même nombre de vecteurs pour chaque segment ; sinon, l'observation ne sera pas sauvegardée.

`data` est le dictionnaire où vous allez stocker vos données. Il contient une clé `mfcc` pour les données MFCC des signaux et une clé `labels` pour le genre de musique associé. Une clé `mapping` contiendra un vecteur avec les différents genres écrits, associés au label par leur indice.

`dataset_path` désigne le chemin vers les dossiers de genres musicaux à traiter.

`sample_rate correspond` à la fréquence d'échantillonnage, par défaut fixée à 22050.

`n_fft` indique la durée de chaque échantillon, par défaut 2048.

`hop_length` représente le déplacement de la fenêtre entre chaque échantillon, avec pour objectif de créer un recouvrement.

`n_mfcc` est le nombre de composantes que l'on souhaite extraire du signal, par défaut 13.

In [None]:
def process_musics_gender(num_segments:int,
                          num_samples_per_segment:int,
                          expected_num_mfcc_vectors_per_segment:int,
                          data:dict,
                          dataset_path:str,
                          sample_rate:int=22050,
                          n_fft:int=2048,
                          hop_length:int=512,
                          n_mfcc:int=13)->dict:
  # Loop through all the genres
  for label, (dirpath, dirnames, filenames) in enumerate(os.walk(dataset_path)):
    # ensure that we're not at the root level
    if dirpath is not dataset_path:
      # save the semantic label
      dirpath_components = dirpath.split("/")
      semantic_label = dirpath_components[-1]
      data["mapping"].append(semantic_label)
      print('\nProcessing {}'.format(semantic_label))
      data = None
  return data


`dataset_path` désigne le chemin vers les dossiers contenant les genres musicaux à traiter.

`json_path` est le chemin où sera sauvegardé le fichier JSON contenant toutes les données traitées.

`sample_rate` correspond à la fréquence d'échantillonnage, par défaut fixée à 22050.

`n_fft` indique la durée de chaque échantillon, par défaut 2048.

`hop_length` représente le déplacement de la fenêtre entre chaque échantillon, avec pour objectif de créer un recouvrement.

`n_mfcc` est le nombre de composantes que l'on souhaite extraire du signal, par défaut 13.

`num_segments` permet de diviser chaque piste en plusieurs segments musicaux

In [None]:
def save_mfcc(dataset_path:str,
              json_path:str,
              sample_rate:int=22050,
              n_fft:int=2048,
              hop_length:int=512,
              n_mfcc:int=13,
              num_segments:int=5)->None:
  # dictionary to store data
  data = {
      "mapping": [],
      "labels": [],
      "mfcc": []
  }

  num_samples_per_segment = int(SAMPLES_PER_TRACK / num_segments)
  expected_num_mfcc_vectors_per_segment = np.ceil(num_samples_per_segment / hop_length)

  data = None

  with open(json_path, "w") as fp:
    json.dump(data, fp, indent=4)


Applliquez les fonction sur le jeu de données

In [None]:
None

# Entraînement du modèle

## Création du générateur

Créez une fonction génératrice qui va lire votre fichier JSON et séparer les entrées, qui sont les MFCC extraits, des cibles, qui correspondent aux genres de musique associés.

In [None]:
def load_data(dataset_path:str):
  with open(dataset_path, "r") as fp:
    data = json.load(fp)

    # Convert lists into numpy arrays
    inputs = None
    targets = None

    return inputs, targets

Chargez le jeu de données

In [None]:
inputs, targets = None

## Séparation du jeu de données d'entraînement et de test

Utilisez la fonction `train_test_split` de Scikit-learn pour diviser le jeu de données en deux parties.

Appliquez un coefficient de 30 % pour le jeu de test.

In [None]:
inputs_train, inputs_test, targets_train, targets_test = None

## Initialisation du modèle

Vous allez créer une fonction `build_model` qui prend en entrée la dimension d'entrée du modèle, `inputs_shape`, et qui va construire l'architecture suivante à l'aide de la fonction `Sequential` :

- Une couche de `Flatten` pour transformer vos spectrogrammes en vecteurs.
- Une couche de neurones entièrement connectés, utilisant la fonction `Dense`, avec 512 neurones et la fonction d'activation ReLU.
- Une autre couche de neurones entièrement connectés, avec 256 neurones et la fonction d'activation ReLU.
- Une couche supplémentaire de neurones entièrement connectés, avec 64 neurones et la fonction d'activation ReLU.
- Enfin, une couche de sortie de neurones entièrement connectés, avec 10 neurones et la fonction d'activation softmax.

In [None]:
def build_model(inputs_shape:tuple):
    # build the network architecture
    model = keras.Sequential([

        # input layer
        None

        # 1st hidden layer
        None

        # 2nd hidden layer
        None

        # 3rd hidden layer
        None

        # output layer
        None
    ])
    return model

Utilisez la fonction que vous avez écrite précédemment pour initialiser votre modèle.

In [None]:
model = None

## Choisir l'algorithme d'optimisation

Utilisez l'algorithme d'optimisation `Adam` avec un learning rate de 0.0001

In [None]:
optimizer = None

## Compilation du modèle

Utilisez la méthode `compile`pour compiler le modèle avec pour fonction de coût `sparse_categorical_crossentropy` et comme mètrique `accuracy`.

In [None]:
None

## Visualisation du modèle

Visualisez du modèle grâce à la méthode `summary`

In [None]:
None

## Entraînement du modèle

Entraînez le modèle en utilisant la méthode `fit`. Spécifiez un jeu de données de validation dans validation_data, un nombre d'époques (`epochs`) de 50, et une taille du batch (`batch_size`) de 32.

In [None]:
# train network
history = None

In [None]:
def plot_history(history):
    """Plots accuracy/loss for training/validation set as a function of the epochs

        :param history: Training history of model
        :return:
    """

    fig, axs = plt.subplots(2)

    # create accuracy sublpot
    axs[0].plot(history.history["accuracy"], label="train accuracy")
    axs[0].plot(history.history["val_accuracy"], label="test accuracy")
    axs[0].set_ylabel("Accuracy")
    axs[0].legend(loc="lower right")
    axs[0].set_title("Accuracy eval")

    # create error sublpot
    axs[1].plot(history.history["loss"], label="train error")
    axs[1].plot(history.history["val_loss"], label="test error")
    axs[1].set_ylabel("Error")
    axs[1].set_xlabel("Epoch")
    axs[1].legend(loc="upper right")
    axs[1].set_title("Error eval")

    plt.show()

Utilisez la méthode `evaluate` pour obtenir les performances du modèle sur le jeu de test.

In [None]:
# plot accuracy/error for training and validation
plot_history(history)

# evaluate model on test set
test_loss, test_acc = None
print('\nTest accuracy:', test_acc)