In [5]:
import os
import pandas as pd
import numpy as np
import librosa
import tensorflow as tf
from tensorflow.keras.applications import VGG16
from tensorflow.keras.models import Model
from tensorflow.keras.preprocessing import image
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder
import joblib  # Pour sauvegarder le modèle

# Chemin vers le dossier contenant les sous-dossiers de genres
data_path = 'Data/genres_original/'

# Initialisation des listes pour stocker les caractéristiques et les labels
features = []
labels = []

# Fonction pour convertir un fichier audio en spectrogramme
def audio_to_spectrogram(file_path):
    try:
        y, sr = librosa.load(file_path, sr=None)
        S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000)
        S_db = librosa.power_to_db(S, ref=np.max)
        return S_db
    except Exception as e:
        print(f"Erreur lors de l'extraction du spectrogramme pour {file_path}: {e}")
        return None

# Chargement des données audio et extraction des spectrogrammes
for genre_folder in os.listdir(data_path):
    genre_path = os.path.join(data_path, genre_folder)
    if os.path.isdir(genre_path):  # Vérifie si c'est bien un dossier
        for file in os.listdir(genre_path):
            if file.endswith('.wav'):  # Charger uniquement les fichiers audio (.wav)
                file_path = os.path.join(genre_path, file)
                spectrogram = audio_to_spectrogram(file_path)
                
                # Vérification si le spectrogramme est valide
                if spectrogram is not None:
                    # Redimensionner le spectrogramme pour l'adapter au modèle VGG16 (224x224x3)
                    spectrogram_resized = np.resize(spectrogram, (224, 224, 1))
                    spectrogram_resized = np.repeat(spectrogram_resized, 3, axis=-1)  # Faire 3 canaux (RGB)
                    
                    features.append(spectrogram_resized)
                    labels.append(genre_folder)  # Le nom du dossier est le genre

# Vérification du nombre de fichiers traités
print(f"Nombre de spectrogrammes extraits : {len(features)}")

# Si la liste 'features' est vide, cela signifie qu'il y a un problème dans le chargement ou l'extraction des données.
if len(features) == 0:
    raise ValueError("Aucun spectrogramme n'a été extrait. Vérifiez vos fichiers audio et leur format.")

# Conversion en numpy array
features = np.array(features)
labels = np.array(labels)

# Normalisation des données (valeurs entre 0 et 1)
features = features.astype('float32') / 255.0

# Encodage des labels (genres)
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)

# Séparation des données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# Chargement du modèle VGG16 pré-entraîné (sans les couches entièrement connectées)
base_model = VGG16(weights='imagenet', include_top=False, input_shape=(224, 224, 3))

# Ajout de couches de classification
x = base_model.output
x = GlobalAveragePooling2D()(x)
x = Dense(256, activation='relu')(x)
x = Dense(128, activation='relu')(x)
predictions = Dense(len(np.unique(labels)), activation='softmax')(x)

# Créer le modèle final
model = Model(inputs=base_model.input, outputs=predictions)

# Geler les poids du modèle de base (VGG16)
for layer in base_model.layers:
    layer.trainable = False

# Compilation du modèle
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# Évaluation du modèle
y_pred = model.predict(X_test)
y_pred = np.argmax(y_pred, axis=1)

# Affichage des résultats
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
print("Classification Report:")
print(classification_report(y_test, y_pred, target_names=label_encoder.classes_))

# Sauvegarde du modèle entraîné
model.save('vgg_genre_model.h5')
print("Modèle VGG16 sauvegardé sous 'vgg_genre_model.h5'.")

# Sauvegarde de l'encodeur de labels
joblib.dump(label_encoder, 'label_encoder.pkl')

# Charger le modèle et faire une prédiction (exemple)
loaded_model = tf.keras.models.load_model('vgg_genre_model.h5')
loaded_label_encoder = joblib.load('label_encoder.pkl')

# Exemple d'une prédiction
sample_feature = X_test[0].reshape(1, 224, 224, 3)  # Un seul échantillon pour prédiction
predicted_genre = loaded_model.predict(sample_feature)
predicted_genre_label = loaded_label_encoder.inverse_transform(np.argmax(predicted_genre, axis=1))
print(f"Genre prédit pour l'exemple : {predicted_genre_label[0]}")


  y, sr = librosa.load(file_path, sr=None)
	Deprecated as of librosa version 0.10.0.
	It will be removed in librosa version 1.0.
  y, sr_native = __audioread_load(path, offset, duration, dtype)


Erreur lors de l'extraction du spectrogramme pour Data/genres_original/jazz\jazz.00054.wav: 
Nombre de spectrogrammes extraits : 999
Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5
[1m58889256/58889256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 0us/step
Epoch 1/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m75s[0m 3s/step - accuracy: 0.1049 - loss: 2.3400 - val_accuracy: 0.2200 - val_loss: 2.2488
Epoch 2/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m72s[0m 3s/step - accuracy: 0.2435 - loss: 2.1841 - val_accuracy: 0.2500 - val_loss: 2.1322
Epoch 3/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m69s[0m 3s/step - accuracy: 0.2950 - loss: 2.0653 - val_accuracy: 0.3050 - val_loss: 2.0310
Epoch 4/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m69s[0m 3s/step - accuracy: 0.2896 - loss: 1.9801 - val_accuracy: 0.2450 - val_loss: 1.9824
Ep

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Accuracy: 0.29
Classification Report:
              precision    recall  f1-score   support

       blues       0.00      0.00      0.00        21
   classical       0.33      1.00      0.50        12
     country       0.15      0.17      0.16        24
       disco       0.00      0.00      0.00        22
      hiphop       0.20      0.60      0.31        15
        jazz       0.00      0.00      0.00        27
       metal       0.81      0.72      0.76        18
         pop       0.31      0.42      0.36        19
      reggae       0.33      0.27      0.30        22
        rock       0.21      0.35      0.26        20

    accuracy                           0.29       200
   macro avg       0.24      0.35      0.26       200
weighted avg       0.21      0.29      0.23       200

Modèle VGG16 sauvegardé sous 'vgg_genre_model.h5'.




[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 407ms/step
Genre prédit pour l'exemple : hiphop
