In [1]:
import os
import numpy as np
import librosa

# Chemin du dossier principal
data_path = r"C:\Users\pc\Desktop\lst sdid\S6\machine learning\projet de la reconnaissance vocale\data\archive"

# Paramètres
hop_length = 512
n_fft = 2048
sr = 22050  
fixed_length = 10000  # Longueur fixe des vecteurs 1D

# Stockage des données
X = []
y = []

# Parcourir les sous-dossiers (mots)
for word in os.listdir(data_path):
    word_path = os.path.join(data_path, word)
    
    if os.path.isdir(word_path):  
        print(f"Traitement du mot : {word}")

        for file in os.listdir(word_path):
            if file.endswith(".wav"):
                file_path = os.path.join(word_path, file)

                # Charger le fichier audio
                signal, _ = librosa.load(file_path, sr=sr)

                # STFT - Spectrogramme
                stft = librosa.stft(signal, n_fft=n_fft, hop_length=hop_length)
                spectrogram = np.abs(stft)
                spectrogram_flat = spectrogram.flatten()  # Transformation en vecteur 1D

                # Ajuster la taille du vecteur
                if len(spectrogram_flat) > fixed_length:
                    spectrogram_flat = spectrogram_flat[:fixed_length]  # Tronquer
                else:
                    spectrogram_flat = np.pad(spectrogram_flat, (0, fixed_length - len(spectrogram_flat)))  # Ajouter des zéros

                # Stocker les données
                X.append(spectrogram_flat)
                y.append(word)

# Conversion en numpy array
X = np.array(X)
y = np.array(y)

# Affichage des dimensions
print("Nombre d'échantillons :", len(X))
print("Dimension finale des vecteurs 1D :", X.shape)
print("Exemple de vecteur :", X[0][:10])  # Afficher les 10 premières valeurs du 1er vecteur

Traitement du mot : bird
Traitement du mot : cat
Traitement du mot : dog
Nombre d'échantillons : 5210
Dimension finale des vecteurs 1D : (5210, 10000)
Exemple de vecteur : [0.05146055 0.0267677  0.00131186 0.00144741 0.0037231  0.00462118
 0.00151353 0.00016141 0.00033609 0.00089991]


In [2]:
import tensorflow as tf
from tensorflow import keras
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# Encodage des labels en nombres
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)  

# Séparation en entraînement et test
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Construction du modèle MLP
model = keras.Sequential([
    keras.layers.Input(shape=(X.shape[1],)),  # Entrée avec shape (fixed_length,)
    
    keras.layers.Dense(512, activation='sigmoid'),
    keras.layers.Dropout(0.3),  # Régularisation pour éviter l'overfitting
    
    keras.layers.Dense(256, activation='sigmoid'),
    keras.layers.Dropout(0.3),
    
    keras.layers.Dense(128, activation='sigmoid'),
    
    keras.layers.Dense(len(set(y)), activation='softmax')  # Sortie avec softmax pour classification
])

# Compilation du modèle
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Affichage du résumé
model.summary()

# Entraînement du modèle
model.fit(X_train, y_train, epochs=20, batch_size=32, validation_data=(X_test, y_test))

# Évaluation du modèle
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"Test accuracy: {test_acc * 100:.2f}%")

# Sauvegarde du modèle
model.save(r"C:\Users\pc\Desktop\models\modele_reconnaissance_vocale.keras")




Epoch 1/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 44ms/step - accuracy: 0.6517 - loss: 0.7890 - val_accuracy: 0.8541 - val_loss: 0.4107
Epoch 2/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 41ms/step - accuracy: 0.8868 - loss: 0.3165 - val_accuracy: 0.8637 - val_loss: 0.3567
Epoch 3/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 41ms/step - accuracy: 0.9021 - loss: 0.2825 - val_accuracy: 0.8743 - val_loss: 0.3288
Epoch 4/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 41ms/step - accuracy: 0.9159 - loss: 0.2480 - val_accuracy: 0.8656 - val_loss: 0.3415
Epoch 5/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 42ms/step - accuracy: 0.9196 - loss: 0.2346 - val_accuracy: 0.8896 - val_loss: 0.3127
Epoch 6/20
[1m131/131[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 41ms/step - accuracy: 0.9223 - loss: 0.2161 - val_accuracy: 0.8666 - val_loss: 0.3706
Epoch 7/20
[1m131/131

In [13]:
import sounddevice as sd
import numpy as np
import librosa
import tensorflow as tf
import os

# Paramètres
duration = 2  # Durée de l'enregistrement (en secondes)
sr = 22050  # Taux d'échantillonnage
n_fft = 2048
hop_length = 512
fixed_length = 10000  # Taille des vecteurs 1D

# Charger le modèle entraîné (modifié pour utiliser le format .keras)
model = tf.keras.models.load_model(r"C:\Users\pc\Desktop\models\modele_reconnaissance_vocale.keras")

# Liste des mots utilisés dans l'entraînement (à adapter selon ton dataset)
words = os.listdir(r"C:\Users\pc\Desktop\lst sdid\S6\machine learning\projet de la reconnaissance vocale\data\archive")

def record_audio(duration, sr):
    print("🎤 Enregistrement en cours...")
    audio = sd.rec(int(duration * sr), samplerate=sr, channels=1, dtype=np.float32)
    sd.wait()
    print("✅ Enregistrement terminé.")
    return audio.flatten()

def extract_features(signal, sr):
    stft = librosa.stft(signal, n_fft=n_fft, hop_length=hop_length)
    spectrogram = np.abs(stft)
    spectrogram_flat = spectrogram.flatten()

    # Ajuster la taille
    if len(spectrogram_flat) > fixed_length:
        spectrogram_flat = spectrogram_flat[:fixed_length]
    else:
        spectrogram_flat = np.pad(spectrogram_flat, (0, fixed_length - len(spectrogram_flat)))

    return np.array([spectrogram_flat])  # Ajouter une dimension pour le modèle

# 🎤 Enregistrer la voix
audio_signal = record_audio(duration, sr)

# 🔍 Extraire les caractéristiques
X_test = extract_features(audio_signal, sr)

# 🤖 Faire la prédiction
prediction = model.predict(X_test)
predicted_word = words[np.argmax(prediction)]  # Trouver le mot le plus probable

print(f"🗣️ Mot prédit : {predicted_word}")


🎤 Enregistrement en cours...
✅ Enregistrement terminé.
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 110ms/step
🗣️ Mot prédit : bird
