Le code ci-dessous permet de charger les données depuis un fichier csv. Le fichier CSV doit contenir une colonne filename contenant le nom du fichier CSV, une colonne path avec le chemin du dossier où se trouve le fichier et également une colonne par classe.

# Chargement de la base de données

## Importation des librairies

In [1]:
import pandas as pd
import librosa
import numpy as np

On se connecte au drive pour pouvoir utiliser la base de données.

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Path contient l'endroit ou se situe la base de donnée dans le drive

In [3]:
PATH = "drive/MyDrive/Projet Cassiopée/Programmes/Dataset/"

Pour construire notre classificateur, on commence par récupérer la base de données. On regarde ensite la forme des premières données importées.

In [4]:
# Importation du fichier csv contenant les information sur les classes
data = pd.read_csv(PATH + "metadata/metadata.csv", sep = ";")
data.head(5)

Unnamed: 0,filename,path,Coup par coups,Explosion,Gros calibre,Petit calibre,Chenille,Bateau,Camion,Groupe éléctrogène,Moto,Quad,Voiture,Cris,Discussion calme,Enfant,Femme,Homme
0,Compilation - bruitages _ sons de cris d'enfan...,Voix/Cris,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0
1,Compilation - bruitages _ sons de cris d'enfan...,Voix/Cris,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0
2,Compilation - bruitages _ sons de cris d'enfan...,Voix/Cris,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0
3,Compilation - bruitages _ sons de cris d'enfan...,Voix/Cris,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0
4,Compilation - bruitages _ sons de cris d'enfan...,Voix/Cris,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0


### Chargement des données : Projet 1

Le code suivant sert à récupérer les melspectrogrames pour les sons dans le fichier CSV et les sauvegarder dans un fichier pour ne pas avoir à le refaire à chaque entrainement. 

In [None]:
D = []  # Contient les données à classifier, ici les mel-spectrogrammes des fichiers
label = []  # Contient les labels pour chaque données
path_donnee = []  # Contient les chemins des données importer

# Permet de diviser le fichier panda en un fichier panda par classe. Ce n'est pas obligatoire mais vu que notre base de donnée n'est pas équilibré, permet de la rééquilibré ici
data_specialise = [data[ data['path'] == "Arme/Coup par coups" ], data[ data['path'] == "Arme/Explosion" ], data[ data['path'] == "Arme/Gros calibre" ], data[ data['path'] == "Arme/Petit calibre/Donnée" ].append(data[ data['path'] == "Arme/Petit calibre/Augmentation"]),
                   data[ data['path'] == "Chenille/Donnée"].append(data[ data['path'] == "Chenille/Augmentation"]), 
                   data[ data['path'] == "Moteurs/Moto" ], data[ data['path'] == "Moteurs/Quad" ], data[ data['path'] == "Moteurs/Bateau" ], data[ data['path'] == "Moteurs/Voiture" ], data[ data['path'] == "Moteurs/Camion" ], data[ data['path'] == "Moteurs/Groupe éléctrogène" ],
                   data[ data['path'] == "Voix/Discussion calme" ], data[ data['path'] == "Voix/Cris" ], data[ data['path'] == "Voix/Femme" ], data[ data['path'] == "Voix/Homme" ], data[ data['path'] == "Voix/Enfant" ]]

max = 1250  # Nombre maximal de donnée par classe

# Importe les données en parcourant les classes
for donnees in data_specialise:
  # On parcours les lignes du fichier CSV
  for row in donnees[:max].itertuples():
    # On importe les données (y) ainsi que la fréquence d'échantillonage (sr)
    y, sr = librosa.core.load(PATH + 'sound/' + row.path + "/" + row.filename, duration=5, res_type="kaiser_fast")
    # On réalise l'analyse pour obtenir les melspectrogrames
    ps = librosa.feature.melspectrogram(y=y, sr=sr)
    # Certain fichier ne sont pas au format standard, on les pass pour avoir les mêmes tailles de données pour le CNN
    if ps.shape!=(128,216): continue

    # Ajout des résultats dans les variables
    D.append(ps)
    label.append(row[3:])
    path_donnee.append(row.path + "/" + row.filename[:-4])

# Pour ne pas refaire tout le chargement de la base de données à chaque éxecution, on sauvegarde les données dans des variables
sauvegarde = np.array([D, label, path_donnee])
np.save("drive/MyDrive/Projet Cassiopée/Programmes/Steve/donnée_5", sauvegarde)

(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)
(128, 216)