# Chat ou Chien !! une méthode d'apprentissage automatique.

Dans une entreprise de marketing, on veut faire une étude sur les clients qui fréquentent un grand magasin. L'idée est d'estimer le pourcentage de clients qui ont des chats et ceux qui ont des chiens, afin de prendre des décisions marketing ciblées. Vous proposez d'utiliser une caméra pour détecter et compter les deux animaux dans le magasin. La première étape du projet est de développer un modèle qui peut détecter le chat ou le chien. Ainsi, dans ce brief, en utilisant une base de données, vous allez entrainer un modèle d'apprentissage automatique avec un apprentissage supervisé.

# Veille technologique: Opencv python

- Préparation données imagerie pour méthode classique d'apprentissage automatique
- Entrainement et évaluation (similaire aux briefs précédents)

## Operations Simples

In [3]:
# use opencv to load and display the image
import os
import cv2
from skimage.io import imread, imsave, imshow
import numpy as np



In [4]:
# # Préparer data 
# size = 150
# # repertoir d'images avec deux sous dossiers "Cat" et "Dog"
# image_directory = 'PetImages/'
# images = []  # liste pour images  
# labels = []  # liste pour Label (0 ou 1) pour deux classes.

# # utiliser "os" pour avoir les noms des images dans chaque sous dossier
# cat_images = os.path.join(image_directory, 'Cat')
# dog_images = os.path.join(image_directory, 'Dog')

# # utiliser une boucle pour lire chaque image, redimensionner en (150,150,3),
# # et la mettre dans images, et mettre le label(0 ou 1) selon le type dans "label"

# # il y a des images corrumpues, utiliser try ... catch except pour les ignorer
# size = 150

# def resize_image(chemin_image):
#     try:
#         image = cv2.imread(chemin_image)
#         image_redimensionnee = cv2.resize(image, (size, size))
#         return image_redimensionnee
#     except Exception as e:
#         print("Erreur lors de la lecture de l'image :", e)
#         return None
    
    
# # boucle pour les images Cat
# for file in os.listdir(cat_images):
#     image_path = os.path.join(cat_images, file)
#     if os.path.isfile(image_path):
#         image = resize_image(image_path)
#         if image is not None:
#             images.append(image)
#             labels.append(0)  

# # boucle pour les images Dog

# for file in os.listdir(dog_images):
#     image_path = os.path.join(dog_images, file)
#     if os.path.isfile(image_path):
#         image = resize_image(image_path)
#         if image is not None:
#             images.append(image)
#             labels.append(1)  

# # transformer les listes en numpy 
# images_numpy = np.asarray(images)
# labels_numpy = np.asarray(labels)
# # save data as ".npy" file
# np.save('images.npy',images_numpy)
# np.save('labels.npy',labels_numpy)

# # show shape
# print("Shape des images :", images_numpy.shape)
# print("Shape des labels :", labels_numpy.shape)


In [5]:
# prepare data for classical machine learning model

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

images = np.load('images.npy')
labels = np.load('labels.npy')

# futiliser reshape pour redimensionner les données images (exemple: (120,150,150,3) ---> (120,150*150*3)
images_reshaped = images.reshape(images.shape[0], -1)


# split les données en train et test avec "stratification"
X_train, X_test, y_train, y_test = train_test_split(images_reshaped, labels, test_size=0.2, random_state=42, stratify=labels)


In [6]:
# initialiser le classifier
clf = RandomForestClassifier()

# entrainer le classifier
clf.fit(X_train, y_train)


In [7]:
# evaluate classifier
from sklearn.metrics import classification_report
# predire
y_pred = clf.predict(X_test)

# evaluer avec classification_report
report = classification_report(y_test, y_pred)

print("Rapport de classification :\n", report)


Rapport de classification :
               precision    recall  f1-score   support

           0       0.64      0.70      0.67      2496
           1       0.67      0.61      0.64      2494

    accuracy                           0.65      4990
   macro avg       0.65      0.65      0.65      4990
weighted avg       0.65      0.65      0.65      4990



### Essayer de normaliser chaque image entre 0 et 255 et rentrainer le modèle. Y a-t-il une amélioration ?

In [8]:

images_normalized = images / 255.0

# futiliser reshape pour redimensionner les données images (exemple: (120,150,150,3) ---> (120,150*150*3)
images_reshaped = images_normalized.reshape(images_normalized.shape[0], -1)


# split les données en train et test avec "stratification"
X_train, X_test, y_train, y_test = train_test_split(images_reshaped, labels, test_size=0.2, random_state=42, stratify=labels)

# evaluate classifier
from sklearn.metrics import classification_report
# predire
y_pred = clf.predict(X_test)

# evaluer avec classification_report
report = classification_report(y_test, y_pred)

print("Rapport de classification :\n", report)

Rapport de classification :
               precision    recall  f1-score   support

           0       0.50      1.00      0.67      2496
           1       0.00      0.00      0.00      2494

    accuracy                           0.50      4990
   macro avg       0.25      0.50      0.33      4990
weighted avg       0.25      0.50      0.33      4990



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


# Neural networ MLP

Entrainer un modèle MLP pour detecter la class Dog ou Cat.

In [9]:
# use PCA to reduce dimensions
# check this tuto: https://www.askpython.com/python/examples/principal-component-analysis-for-image-data

from tensorflow.keras.layers import Input, Dense, Dropout, Flatten
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam, SGD

# creer un reseau de neurone avec une couche d'entrée de taille (150*150*3), deux couches caché de taille 128 et une activation "relu". 
# Dernière couche de taille 1 avec une activation sigmoid. Choisir la bonne "loss function" et "optimizer"

input_shape = (150*150*3,)

inputs = Input(shape=input_shape)

x = Dense(128, activation='relu')(inputs)
x = Dense(128, activation='relu')(x)

outputs = Dense(1, activation='sigmoid')(x)

model = Model(inputs, outputs)

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

model.summary()


Model: "model_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_2 (InputLayer)        [(None, 67500)]           0         
                                                                 
 dense_3 (Dense)             (None, 128)               8640128   
                                                                 
 dense_4 (Dense)             (None, 128)               16512     
                                                                 
 dense_5 (Dense)             (None, 1)                 129       
                                                                 
Total params: 8656769 (33.02 MB)
Trainable params: 8656769 (33.02 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [10]:
# entrainer le modèle avec validation_split = 2, epochs = 20, et un batch_size = 128
from tensorflow.keras.callbacks import EarlyStopping
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

history = model.fit(X_train, y_train, validation_split=0.2, epochs=20, batch_size=128, callbacks=[early_stopping])

Epoch 1/20


Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20


In [11]:
# evaluate MLP
# evaluate classifier
from sklearn.metrics import classification_report
# predire
y_pred = model.predict(X_test)

# evaluer avec classification_report
y_pred_classes = (y_pred > 0.5).astype(int)


report = classification_report(y_test, y_pred_classes)
print("Rapport de classification pour le modèle MLP :\n", report)

Rapport de classification pour le modèle MLP :
               precision    recall  f1-score   support

           0       0.66      0.42      0.52      2496
           1       0.58      0.78      0.66      2494

    accuracy                           0.60      4990
   macro avg       0.62      0.60      0.59      4990
weighted avg       0.62      0.60      0.59      4990



In [12]:
print(X_train.shape[1])

67500
