In [1]:
import os
import numpy as np
import librosa
import pickle
import tensorflow as tf
from keras.models import load_model
from sklearn.preprocessing import LabelEncoder

In [8]:
# Charger le modèle entraîné
model_path = "model_speaker_recognition_CNN.keras"
model = load_model(model_path)

# Charger le LabelEncoder
with open("label_encoder.pkl", "rb") as file:
    label_encoder = pickle.load(file)

In [9]:
# Fonction pour extraire les caractéristiques d'un fichier audio
def extract_features(file_path, max_length=216, n_mfcc=13):
    waveform, sample_rate = librosa.load(file_path, sr=None)
    mfccs = librosa.feature.mfcc(y=waveform, sr=sample_rate, n_mfcc=n_mfcc)

    # Pad ou tronquer pour une longueur fixe
    if mfccs.shape[1] < max_length:
        features = np.pad(mfccs, ((0, 0), (0, max_length - mfccs.shape[1])))
    else:
        features = mfccs[:, :max_length]

    # Ajouter une dimension pour correspondre à l'entrée du modèle
    features = np.expand_dims(features, axis=-1)
    
    return np.expand_dims(features, axis=0)  # Ajouter batch dimension

In [10]:
# Chemin du fichier audio à tester
test_audio_path = "test8.wav"

# Extraire les caractéristiques
features_test = extract_features(test_audio_path)

# Prédire la classe
y_pred = model.predict(features_test)
predicted_class = np.argmax(y_pred)

# Convertir en label d'origine
predicted_label = label_encoder.inverse_transform([predicted_class])[0]

print(f"Le locuteur prédit est : {predicted_label}")

Le locuteur prédit est : Speaker0037
