# Projet P6 - Classifiez automatiquement des biens de consommation
*OPENCLASSROOMS - Parcours Data Scientist - Adeline Le Ray - 05/2024*
<hr>

![logo.png](attachment:logo.png)

## <font color='#46abe6'>Contexte</font>
Place de marché est un site de e-commerce où des vendeurs proposent des articles à des acheteurs en postant une photo et une description.
 
Actuellement, l'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc peu fiable. De plus, le volume des articles est pour l’instant très petit.
 
Pour rendre l’expérience utilisateur des vendeurs (faciliter la mise en ligne de nouveaux articles) et des acheteurs (faciliter la recherche de produits) la plus fluide possible, et dans l'optique d'un passage à l'échelle,  il devient nécessaire d'automatiser cette tâche d‘attribution de la catégorie.
 
L'objectif de ce projet est d'étudier la faisablité d'un moteur de classification à partir de la description textuelle ou de l'image du produit.

## <font color='#46abe6'>Sommaire</font>

<span style='background:#46abe6'><span style='color:white'>**Partie 1 - Données textuelles - Analyse exploratoire des données**</span></span>

<span style='background:#46abe6'><span style='color:white'>**Partie 2 - Données textuelles - Feature extraction et faisabilité**</span></span>

<span style='background:#46abe6'><span style='color:white'>**Partie 3 - Images - Analyse exploratoire des données**</span></span>

<span style='background:#d5155b'><span style='color:white'>**Partie 4 - Images - Feature extraction et faisabilité**</span></span>

[Importation des librairies + fonctions + données](#1)
* [Importation des librairies](#1_1)
* [Fonctions](#1_2)
* [Importation des données](#1_3)

[VGG16](#2)
* [Création du modèle pré-entraîné](#2_1)
* [Images couleurs](#2_2)
* [Images nuances de gris](#2_3)

[DenseNet](#3)
* [Création du modèle pré-entraîné](#3_1)
* [Images couleurs](#3_2)
* [Images nuances de gris](#3_3)

[MobileNetV3](#4)
* [Création du modèle pré-entraîné](#4_1)
* [Features extraction](#4_2)
* [Réduction de dimensions par PCA](#4_3)


<span style='background:#46abe6'><span style='color:white'>**Partie 5 - Images - Classification**</span></span>

<span style='background:#46abe6'><span style='color:white'>**Partie 6 - Images - Requête API**</span></span>

# <font color='#0a389f'>Importation librairies + fonctions<a class="anchor" id="1"></a></font>

## <font color='#46abe6'>Importation des librairies<a class="anchor" id="1_1"></a></font>

In [1]:
import numpy as np
import pandas as pd

import os
import time
import pickle
from tqdm import tqdm

from sklearn import decomposition

import cv2

In [2]:
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Flatten, Dense, GlobalAveragePooling2D
from tensorflow.keras.preprocessing.image import load_img, img_to_array

In [3]:
# Version python
!python --version
# Version des librairies utilisées
print('\n'.join(f'{m.__name__} - {m.__version__}' 
                for m in globals().values() 
                if getattr(m, '__version__', None)))

Python 3.11.4
numpy - 1.24.4
pandas - 2.2.2
cv2 - 4.10.0
tensorflow - 2.16.1


## <font color='#46abe6'>Fonctions<a class="anchor" id="1_2"></a></font>

In [9]:
def process_image(img_file):
    """!
    @brief Prétraite une image et génère des prédictions à partir d'un modèle de deep learning.

    Cette fonction charge une image, la redimensionne, la convertit en tableau numpy, applique un prétraitement
    spécifique au modèle, puis passe l'image à travers un modèle pour obtenir des prédictions.

    @param img_file: Nom du fichier de l'image à traiter (str).
    @return np.ndarray: Les prédictions du modèle pour l'image (np.ndarray).
    """
    img_path = os.path.join(path, img_file)
    img = load_img(img_path, target_size=(224, 224))   
    img = img_to_array(img) 
    img = np.expand_dims(img, axis=0)
    img = preprocess_input(img)
    return model.predict(img, verbose=0)[0]

In [10]:
def process_image_gray(img_file):
    """!
    @brief Prétraite une image en niveaux de gris et génère des prédictions à partir d'un modèle de deep learning.

    Cette fonction charge une image en niveaux de gris, améliore son contraste, la convertit en format RGB,
    et génère des prédictions en utilisant un modèle de deep learning.

    @param img_file: Nom du fichier de l'image à traiter (str).
    @return np.ndarray: Les prédictions du modèle pour l'image (np.ndarray).
    """
    img_path = os.path.join(path, img_file)
    img = load_img(img_path, target_size=(224, 224), color_mode='grayscale')
    img_array = img_to_array(img)
    img_array = img_array.astype(np.uint8)
    contrast_img = cv2.equalizeHist(img_array[:, :, 0]) # Améliorer le contraste de l'image
    img_rgb = np.stack([contrast_img] * 3, axis=-1)# répéter le canal unique pour obtenir une image RGB
    img_rgb = np.expand_dims(img_rgb, axis=0)# Ajouter une dimension supplémentaire pour le batch
    img_rgb = preprocess_input(img_rgb)
    return model.predict(img_rgb, verbose=0)

In [11]:
def reduce_and_export_features(img_features, output_file):
    """!
    @brief Réduit les dimensions d'un ensemble de caractéristiques à l'aide de la PCA et exporte les caractéristiques
    réduites dans un fichier.

    Cette fonction applique la réduction de dimension PCA sur les caractéristiques d'images, en conservant 99% de la 
    variance, puis exporte les caractéristiques réduites dans un fichier spécifié.

    @param img_features: Matrice des caractéristiques des images avant réduction (np.ndarray).
    @param output_file: Nom du fichier pour exporter les caractéristiques réduites (str).
    """
    print("Dimensions dataset avant réduction PCA : ", img_features.shape)
    # Appliquer la PCA pour réduire les dimensions
    pca = decomposition.PCA(n_components=0.99)
    feat_pca = pca.fit_transform(img_features)
    print("Dimensions dataset après réduction PCA : ", feat_pca.shape)
    # Exporter les caractéristiques réduites
    with open(output_file, 'wb') as file:
        pickle.dump(feat_pca, file) 
    print(f"Features après réduction de dimensions sauvegardées sous {output_file}")

## <font color='#46abe6'>Importation des données<a class="anchor" id="1_3"></a></font>

In [12]:
# Chemin du répertoire des images et liste des noms des images
path = 'C:/Users/Adeline/OneDrive/Documents/5-Openclassrooms/Parcours DS/P6/Dataset+projet+prétraitement+textes+images/Flipkart/Images/'
list_images = [file for file in os.listdir(path)]

# <font color='#0a389f'>VGG16<a class="anchor" id="2"></a></font>

## <font color='#46abe6'>Création du modèle pré-entraîné<a class="anchor" id="3_1"></a></font>

In [16]:
# Importation du modèle
from tensorflow.keras.applications.vgg16 import VGG16, preprocess_input

base_model = base_model = VGG16(include_top=False, input_shape=(224, 224, 3))
x = base_model.output
x = GlobalAveragePooling2D()(x)

# Modèle final pour l'extraction de features.
model = Model(inputs=base_model.inputs, outputs=x)

print(model.summary())

Le modèle a 19 couches.


None


## <font color='#46abe6'>Images sans pré-traitement<a class="anchor" id="3_2"></a></font>

* **Features extraction**

In [15]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image(img_file))

    # Conversion en array    
img_features = np.asarray(img_features)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [06:22<00:00,  2.74it/s]

Nombre de features :  (1050, 512)
Temps de traitement :           382.56 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [19]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_vgg16.pkl')

Dimensions dataset avant réduction PCA :  (1050, 512)
Dimensions dataset après réduction PCA :  (1050, 351)
Features après réduction de dimensions sauvegardées sous features_vgg16.pkl


## <font color='#46abe6'>Images avec pré-traitement<a class="anchor" id="2_3"></a></font>

* **Features extraction**

In [12]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image_gray(img_file))

# Conversion en array    
img_features = np.asarray(img_features)
img_features = img_features.reshape(img_features.shape[0], -1)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [03:29<00:00,  5.02it/s]

Nombre de features :  (1050, 4096)
Temps de traitement :           209.17 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [13]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_VGG16_gray.pkl')

Dimensions dataset avant réduction PCA :  (1050, 4096)
Dimensions dataset après réduction PCA :  (1050, 812)
Features après réduction de dimensions sauvegardées sous features_VGG16_gray.pkl


# <font color='#0a389f'>DenseNet<a class="anchor" id="3"></a></font>

## <font color='#46abe6'>Création du modèle pré-entraîné<a class="anchor" id="3_1"></a></font>

In [17]:
from tensorflow.keras.applications.densenet import DenseNet201, preprocess_input

base_model = DenseNet201(weights='imagenet', include_top = False)
# Obtenir le nombre de couches
nombre_de_couches = len(base_model.layers)
print(f"Le modèle a {nombre_de_couches} couches.")
x = base_model.output
x = GlobalAveragePooling2D()(x)

# Modèle final pour l'extraction de features.
model = Model(inputs=base_model.inputs, outputs=x)

print(model.summary())

Le modèle a 707 couches.


None


## <font color='#46abe6'>Images sans pré-traitement<a class="anchor" id="3_2"></a></font>

* **Features extraction**

In [25]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image(img_file))

# Conversion en array    
img_features = np.asarray(img_features)
img_features = img_features.reshape(img_features.shape[0], -1)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [02:50<00:00,  6.16it/s]

Nombre de features :  (1050, 1920)
Temps de traitement :           170.53 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [26]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_DenseNet.pkl')

Dimensions dataset avant réduction PCA :  (1050, 1920)
Dimensions dataset après réduction PCA :  (1050, 568)
Features après réduction de dimensions sauvegardées sous features_DenseNet.pkl


## <font color='#46abe6'>Images avec pré-traitement<a class="anchor" id="3_3"></a></font>

* **Features extraction**

In [27]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image_gray(img_file))

# Conversion en array    
img_features = np.asarray(img_features)
img_features = img_features.reshape(img_features.shape[0], -1)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [02:45<00:00,  6.33it/s]

Nombre de features :  (1050, 1920)
Temps de traitement :           165.97 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [18]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_DenseNet_gray.pkl')

Dimensions dataset avant réduction PCA :  (1050, 1920)
Dimensions dataset après réduction PCA :  (1050, 554)
Features après réduction de dimensions sauvegardées sous features_DenseNet_gray.pkl


# <font color='#0a389f'>MobileNetV3<a class="anchor" id="4"></a></font>

## <font color='#46abe6'>Création du modèle pré-entraîné<a class="anchor" id="4_1"></a></font>

In [18]:
from tensorflow.keras.applications import MobileNetV3Large
from tensorflow.keras.applications.mobilenet_v3 import preprocess_input

# Charger le modèle MobileNetV3Large pré-entraîné sans les couches de classification finales
base_model = MobileNetV3Large(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
# Obtenir le nombre de couches
nombre_de_couches = len(base_model.layers)
print(f"Le modèle a {nombre_de_couches} couches.")
x = base_model.output
x = GlobalAveragePooling2D()(x)

# Modèle final pour l'extraction de features.
model = Model(inputs=base_model.inputs, outputs=x)

print(model.summary())

Le modèle a 187 couches.


None


## <font color='#46abe6'>Images sans pré-traitement<a class="anchor" id="4_2"></a></font>

* **Features extraction**

In [16]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image(img_file))

# Conversion en array    
img_features = np.asarray(img_features)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [01:22<00:00, 12.77it/s]

Nombre de features :  (1050, 960)
Temps de traitement :            82.25 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [17]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_MobileNet.pkl')

Dimensions dataset avant réduction PCA :  (1050, 960)
Dimensions dataset après réduction PCA :  (1050, 551)
Features après réduction de dimensions sauvegardées sous features_MobileNet.pkl


## <font color='#46abe6'>Images avec pré-traitement<a class="anchor" id="4_3"></a></font>

* **Features extraction**

In [22]:
img_features = []
temps1=time.time()

for img_file in tqdm(list_images):
    img_features.append(process_image_gray(img_file).flatten())

# Conversion en array    
img_features = np.asarray(img_features)

print("Nombre de features : ", img_features.shape)
duration1=time.time()-temps1
print("Temps de traitement : ", "%15.2f" % duration1, "secondes")

100%|██████████| 1050/1050 [01:17<00:00, 13.58it/s]

Nombre de features :  (1050, 960)
Temps de traitement :            77.32 secondes





* **Réduction de dimensions par PCA**
    * La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
    * L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [23]:
# Réduction de dimensions PCA et Exportation des features extraites
reduce_and_export_features(img_features, 'features_MobileNet_gray.pkl')

Dimensions dataset avant réduction PCA :  (1050, 960)
Dimensions dataset après réduction PCA :  (1050, 533)
Features après réduction de dimensions sauvegardées sous features_MobileNet_gray.pkl
