1. Importation des Bibliothèques


In [1]:
import os
import numpy as np
import librosa
import joblib
import sounddevice as sd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.utils import resample
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout


1. Prétraitement des fichiers audio

Il faut convertir les fichiers audio en caractéristiques exploitables par le réseau de neurones. Une approche courante est d'extraire des MFCC (Mel-Frequency Cepstral Coefficients), qui capturent les caractéristiques audio essentielles.

Exemple de code pour extraire des MFCC

In [2]:
def extract_mfcc(file_path, max_pad_len=100):
    try:
        y, sr = librosa.load(file_path, sr=None)
        mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
        pad_width = max_pad_len - mfcc.shape[1]
        if pad_width > 0:
            mfcc = np.pad(mfcc, pad_width=((0, 0), (0, pad_width)), mode='constant')
        else:
            mfcc = mfcc[:, :max_pad_len]
        return mfcc.flatten()
    except Exception as e:
        print(f"Erreur avec le fichier {file_path}: {e}")
        return None


2. Préparer le jeu de données

Chargez les fichiers audio des commandes "allumer" et "éteindre", extrayez leurs caractéristiques, et préparez les labels correspondants.

Exemple de préparation des données

In [3]:
# Dossiers contenant les fichiers audio
allumer_folder = "C:/Users/flavi/projet/allumer_wav"
eteindre_folder = "C:/Users/flavi/projet/eteindre_wav"

# Extraire les caractéristiques et créer les labels
X, y = [], []

# Pour "allumer"
for file in os.listdir(allumer_folder):
    if file.endswith(".wav"):
        mfcc = extract_mfcc(os.path.join(allumer_folder, file))
        if mfcc is not None:
            X.append(mfcc)
            y.append("allumer")

# Pour "éteindre"
for file in os.listdir(eteindre_folder):
    if file.endswith(".wav"):
        mfcc = extract_mfcc(os.path.join(eteindre_folder, file))
        if mfcc is not None:
            X.append(mfcc)
            y.append("eteindre")

# Convertir en tableaux numpy
X = np.array(X)
y = np.array(y)

# Encoder les labels
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)  # "allumer" -> 0, "eteindre" -> 1



3. Équilibrer les Données

In [4]:
# Indices des échantillons pour chaque classe
allumer_indices = np.where(y == 0)[0]
eteindre_indices = np.where(y == 1)[0]

# Sous-échantillonner la classe majoritaire ("éteindre")
eteindre_downsampled = resample(eteindre_indices, replace=False, n_samples=len(allumer_indices), random_state=42)

# Combiner les indices équilibrés
balanced_indices = np.concatenate([allumer_indices, eteindre_downsampled])

# Créer les nouvelles données équilibrées
X_balanced = X[balanced_indices]
y_balanced = y[balanced_indices]


4. Diviser les données



In [5]:
X_train, X_test, y_train, y_test = train_test_split(X_balanced, y_balanced, test_size=0.2, random_state=42)

# Standardiser les données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


6. Créer et entraîner le modèle


In [6]:
model = Sequential()
model.add(Dense(128, input_dim=X_train.shape[1], activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(64, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entraîner le modèle
history = model.fit(X_train, y_train, epochs=25, batch_size=16, validation_split=0.2)

# Sauvegarder le modèle et les objets associés
joblib.dump(model, "nn_model.pkl")
joblib.dump(scaler, "scaler.pkl")
joblib.dump(label_encoder, "label_encoder.pkl")


Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


['label_encoder.pkl']

7. Évaluer le modèle



In [7]:
def predict_live_audio(model, scaler, label_encoder, sr=16000, duration=2, max_pad_len=100):
    try:
        # Enregistrer un audio via le microphone
        print("Parlez maintenant...")
        audio = sd.rec(int(duration * sr), samplerate=sr, channels=1)
        sd.wait()
        print("Enregistrement terminé.")
        
        # Extraire les MFCC
        mfcc = librosa.feature.mfcc(y=audio.flatten(), sr=sr, n_mfcc=13)
        pad_width = max_pad_len - mfcc.shape[1]
        if pad_width > 0:
            mfcc = np.pad(mfcc, pad_width=((0, 0), (0, pad_width)), mode='constant')
        else:
            mfcc = mfcc[:, :max_pad_len]
        
        # Transformer les caractéristiques
        features = mfcc.flatten().reshape(1, -1)
        features = scaler.transform(features)
        
        # Faire la prédiction avec le modèle
        probability = model.predict(features)[0][0]
        print(f"Probabilité prédite : {probability:.4f}")
        
        # Appliquer un seuil de confiance
        if probability < 0.5:
            print("Mot détecté : Inconnu")
        else:
            predicted_label = int(probability > 0.5)
            predicted_word = label_encoder.inverse_transform([predicted_label])[0]
            print(f"Mot détecté : {predicted_word}")
    except Exception as e:
        print(f"Erreur lors de la reconnaissance : {e}")

# Charger le modèle et les objets sauvegardés
model = joblib.load("nn_model.pkl")
scaler = joblib.load("scaler.pkl")
label_encoder = joblib.load("label_encoder.pkl")

# Tester la reconnaissance en temps réel
predict_live_audio(model, scaler, label_encoder)


Parlez maintenant...
Enregistrement terminé.
Probabilité prédite : 0.5771
Mot détecté : eteindre
