In [38]:
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [39]:
train_dir = 'leapGestRecog'

# Prétraitement des images avec ImageDataGenerator
# Appliquer l'augmentation d'image pour éviter le sur-apprentissage
train_datagen = ImageDataGenerator(
    rescale=1.0/255.0,  # Normaliser les pixels entre 0 et 1
    shear_range=0.2,    # Appliquer des transformations aléatoires sur les images
    zoom_range=0.2,
    horizontal_flip=True
)

# Chargement des données d'entraînement
train_ds = train_datagen.flow_from_directory(
    train_dir,
    target_size=(64, 64),  # Redimensionner les images
    batch_size=32,
    class_mode='categorical'  # Classification multiple (plusieurs classes)
)

# Obtenir les classes (gestes)
classes = list(train_ds.class_indices.keys())

Found 20000 images belonging to 10 classes.


## Construction du model 

In [40]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout

# Définir le modèle CNN pour la reconnaissance des gestes
model = Sequential()

# Ajouter une couche de convolution avec des filtres
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(64, 64, 3)))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(128, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())  # Aplatissement des sorties de la couche convolutive

# Ajouter des couches denses pour la classification
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))  # Ajouter une régularisation Dropout pour éviter le sur-apprentissage
model.add(Dense(len(classes), activation='softmax'))  # Sortie avec une classe par geste


# Compilation du modèl 
model.compile(optimizer=Adam(learning_rate=0.001), loss='categorical_crossentropy', metrics=['accuracy'])

# Resumer du modèl
model.summary()


## Entrainement du modèl 

In [41]:
# Entraînement du modèle
history = model.fit(
    train_ds, 
    epochs=20,
    steps_per_epoch=train_ds.samples // train_ds.batch_size
)

Epoch 1/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m162s[0m 257ms/step - accuracy: 0.3920 - loss: 1.6428
Epoch 2/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m69s[0m 110ms/step - accuracy: 0.8775 - loss: 0.3260
Epoch 3/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m76s[0m 121ms/step - accuracy: 0.9375 - loss: 0.1683
Epoch 4/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m76s[0m 122ms/step - accuracy: 0.9591 - loss: 0.1110
Epoch 5/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 123ms/step - accuracy: 0.9615 - loss: 0.0993
Epoch 6/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 123ms/step - accuracy: 0.9645 - loss: 0.0857
Epoch 7/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 123ms/step - accuracy: 0.9703 - loss: 0.0747
Epoch 8/20
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m78s[0m 125ms/step - accuracy: 0.9719 - loss: 0.0615
Epoch 9/20
[1m

## Enregistrement du modèle 

In [45]:
# Sauvegarde du modèle
model.save('gesture_recognition_model.h5')




## Deployement 

In [None]:
import cv2
import numpy as np
import tensorflow as tf

# Charger le modèle pré-entraîné
model = tf.keras.models.load_model('gesture_recognition_model.h5')  # Remplacez par le chemin de votre modèle

# Définir la taille d'entrée des images (la même que celle utilisée lors de l'entraînement)
img_size = 64

# Initialiser la caméra (indice 0 pour la caméra par défaut)
cap = cv2.VideoCapture(0)

# Définir la liste des classes (gestes)
classes = ['palm', 'l', 'fist', 'fist_moved', 'thumb', 'index', 'ok', 'palm_moved', 'c', 'down']

while True:
    # Lire une image depuis la caméra
    ret, frame = cap.read()
    
    if not ret:
        break
    
    # Redimensionner l'image pour la compatibilité avec le modèle
    resized_frame = cv2.resize(frame, (img_size, img_size))

    # Normaliser les pixels de l'image
    input_frame = resized_frame / 255.0

    # Ajouter une dimension supplémentaire pour simuler un batch (le modèle attend un lot d'images)
    input_frame = np.expand_dims(input_frame, axis=0)

    # Faire la prédiction sur l'image
    predictions = model.predict(input_frame)

    # Obtenir l'indice de la classe avec la probabilité la plus élevée
    predicted_class_idx = np.argmax(predictions)

    # Obtenir le nom de la classe prédite
    predicted_class = classes[predicted_class_idx]

    # Afficher le résultat sur l'image
    cv2.putText(frame, f"Predicted: {predicted_class}", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

    # Afficher l'image avec le geste prédit
    cv2.imshow('Gesture Recognition', frame)

    # Quitter la boucle si la touche 'q' est pressée
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# Libérer les ressources
cap.release()
cv2.destroyAllWindows()




[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 126ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 41ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5