# Projet 6 : Classifiez automatiquement des biens de consommation

Vous êtes Data Scientist au sein de l’entreprise "Place de marché”, qui souhaite lancer une marketplace e-commerce.

logo entreprise place de marché
Sur la place de marché, des vendeurs proposent des articles à des acheteurs en postant une photo et une description.

Pour l'instant, l'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc peu fiable. De plus, le volume des articles est pour l’instant très petit.

Pour rendre l’expérience utilisateur des vendeurs (faciliter la mise en ligne de nouveaux articles) et des acheteurs (faciliter la recherche de produits) la plus fluide possible, et dans l'optique d'un passage à l'échelle, il devient nécessaire d'automatiser cette tâche.

Linda, Lead Data Scientist, vous demande donc d'étudier la faisabilité d'un moteur de classification des articles en différentes catégories, avec un niveau de précision suffisant.

Voici le mail qu’elle vous a envoyé.

 

Bonjour, 

Merci pour ton aide sur ce projet !

Ta mission est de réaliser, dans une première itération, une étude de faisabilité d'un moteur de classification d'articles, basé sur une image et une description, pour l'automatisation de l'attribution de la catégorie de l'article.

Tu dois analyser les descriptions textuelles et les images des produits, au travers des étapes suivantes : 

Un prétraitement des données texte ou image suivant le cas ;
Une extraction de features ;
Une réduction en 2 dimensions, afin de projeter les produits sur un graphique 2D, sous la forme de points dont la couleur correspondra à la catégorie réelle ;
Analyse du graphique afin d’en déduire ou pas, à l’aide des descriptions ou des images, la faisabilité de regrouper automatiquement des produits de même catégorie ;
Réalisation d’une mesure pour confirmer ton analyse visuelle, en calculant la similarité entre les catégories réelles et les catégories issues d’une segmentation en clusters.
Pourrais-tu nous démontrer, par cette approche, la faisabilité de regrouper automatiquement des produits de même catégorie ?

Voici les contraintes : 

Afin d’extraire les features texte, il sera nécessaire de mettre en œuvre : 
deux approches de type “bag-of-words”, comptage simple de mots et Tf-idf ;
une approche de type word/sentence embedding classique avec Word2Vec (ou Glove ou FastText) ;
une approche de type word/sentence embedding avec BERT ;
une approche de type word/sentence embedding avec USE (Universal Sentence Encoder). 
En pièce jointe, tu trouveras un exemple de mise en œuvre de ces approches d’extraction de features texte sur un autre dataset. Je t’invite à l’utiliser comme point de départ, cela va te faire gagner beaucoup de temps !

Afin d’extraire les features image, il sera nécessaire de mettre en œuvre :
un algorithme de type SIFT / ORB / SURF ;
un algorithme de type CNN Transfer Learning.
Concernant l’approche de type SIFT, je t’invite à regarder le webinaire que nous avons réalisé, disponible dans les ressources.

En pièces jointes, tu trouveras un exemple de mise en œuvre de l’approche de type CNN Transfer Learning d’extraction de features images sur un autre dataset. Je t’invite à l’utiliser comme point de départ, cela va te faire gagner beaucoup de temps !

Merci encore, 

Linda

PS : J’ai bien vérifié qu’il n’y avait aucune contrainte de propriété intellectuelle sur les données et les images.

Pièces jointes : 

premier jeu de données d’articles avec le lien pour télécharger la photo et une description associée
un notebook d’exemple d’étude de faisabilité


Une semaine plus tard, vous partagez votre travail avec Linda, et elle vous répond avec enthousiasme avec une autre demande.

Bonjour,

Merci beaucoup pour ton travail !

Bravo d’avoir démontré la faisabilité de regrouper automatiquement des produits de même catégorie ! 

Maintenant, je te propose de passer à la deuxième itération. Pourrais-tu réaliser une classification supervisée à partir des images ? Je souhaiterais que tu mettes en place une data augmentation afin d’optimiser le modèle.

En pièce jointe, tu trouveras un exemple de mise en œuvre de classification supervisée sur un autre dataset. Je t’invite à l’utiliser comme point de départ, cela va te faire gagner beaucoup de temps !

Nous souhaitons élargir notre gamme de produits, en particulier dans l’épicerie fine. Pourrais-tu tester la collecte de produits à base de “champagne” via l’API disponible ici ? Je souhaiterais que tu puisses nous fournir une extraction des 10 premiers produits dans un fichier “.csv”, contenant pour chaque produit les données suivantes : foodId, label, category, foodContentsLabel, image.

Merci encore, 

Linda

Pièces jointes : 

un notebook d’exemple de classification supervisée d’images
Bon courage !

# Sommaire

## I. Importation des bibliothèques

## II. Les grands principes du RGPD

## III. Collecte API
### 1. Importation du fichier URL
### 2. Création du fichier CSV

## IV. Conclusion du projet 6



## I. Importation des bibliothèques

In [11]:
import csv
import json
import requests
import pandas as pd

# 

## II. Les grands principes du RGPD

Le Règlement Général Européen sur la Protection des Données (RGPD), ou  “GPRD” de son nom anglais, encadre le traitement des données personnelles au sein de l’UE.

Le RGPD est défini en 6 grands principes, il est recommandé de prendre connaissance de ces derniers pour bien assimiler le cadre législatif relatif au droit des données à caractère personnel.

Les grands principes du RGPD sont définis dans son article 5.  Notre avocat RGPD, Aurore BONAVIA, fait le point avec vous sur ces principes.

#### Principe RGPD n°1 : licéité, loyauté et transparence

C’est le premier grand principe que l’on retrouve dans le RGPD.

Lorsqu’une entreprise traite des données personnelles, elle doit s’assurer de 3 fondements :

la licéité de la donnée : le traitement est licite si, et seulement si, une parmi les 6 conditions de l’article 6 est respectée ;
la loyauté : le traitement des données doit correspondre à ce que l’entreprise a décrit à l’internaute concerné ;
la transparence : rien ne doit être caché à la personne qui fait l’objet d’un traitement de ses données.
Ces 3 fondements sont liés entre eux et leur non-respect consisterait en une violation du RGPD. Dès lors, assurez-vous que le responsable chargé de la gestion des données veille au respect ces points.

Grâce à ces informations, l’individu concerné peut donner son consentement (ou non) ou encore exercer ses droits.

Ce principe et les autres qui suivent s’intègrent avant tout dans l’objectif du RGPD.



#### Principe RGPD n°2 :  limitation des finalités
Les entreprises qui procèdent à la conservation des données personnelles des tiers qui visitent leur site doivent impérativement respecter ce grand principe du RGPD.

Toutes les datas collectées doivent l’être pour “des finalités déterminées, explicites et légitimes”.

Chaque information personnelle récoltée doit être justifiée. Il est impossible de conserver les données sans finalité concrète.

Dès lors, l’enregistrement des données à caractère personnel doit se faire :

dans un but bien précis ;
légalement ;
de façon légitime.
Si vous êtes une organisation, vous devez stipuler explicitement la raison pour laquelle vous gardez les datas des tiers qui visitent votre site.

Parmi les grands principes du RGPD (et donc de la loi informatique et libertés), celui-ci est probablement la pierre angulaire.

Comprenez bien que, pour traiter les informations des internautes, votre traitement doit avoir une finalité.



#### Principe RGPD n°3 : minimisation des données
Les données personnelles récoltées doivent être minimisées. C’est ce qu’explique l’article 5.1.b) à travers les grands principes du RGPD.

La collecte des informations sur une personne par un site internet doit être “adéquate, pertinente et limitée à ce qui est nécessaire au regard [de leurs] finalités”.

À travers cette règle, le responsable du traitement des données de l’entreprise ne doit traiter uniquement les données qui sont nécessaires.

Un exemple concret : 

Une entreprise qui envoie des produits à domicile ne gardera pas les mêmes informations que celle qui n’utilise qu’une newsletter.

Alors que la première pourra conserver l’adresse de domiciliation du client pendant une durée X (5 ans maximum), la seconde ne devra garder que le mail de l’individu.

En effet, les données ont une “durée de vie”. Il est impossible de garder une information ad vitam aeternam. La CNIL propose des recommandations à ce propos sur son site officiel.



#### Principe RGPD n°4 : exactitude des données personnelles
En plus de leur pertinence, les données personnelles collectées se doivent d’être :

exactes ;
tenues à jour si nécessaire.
Il faut comprendre par là que, l’exactitude des données à caractère personnel est exigée, que ce soit au moment de la collecte ou au moment de leur traitement.

La personne chargée du traitement des données d’une entreprise doit faire le nécessaire si certaines données venaient à manquer, à être inexactes ou incomplètes.

Ce principe RGPD rejoint celui du droit d’accès que toute personne physique concernée peut demander.

Droit d’accès qui, rappelons-le, peut être exercer auprès :

d’une société dont l’individu est client ;
d’un employeur (dossier administratif) ;
d’un médecin (dossier médical) ;
d’une administration.
Ce droit permet à celui qui le souhaite de modifier, supprimer ou rectifier une information le concernant.



#### Principe RGPD n°5 : limitation de la conservation
Si vous voulez être conforme aux RGPD, 3 chiffres sont à retenir.

En effet, le règlement européen impose une limitation à la conservation des informations des individus :

36 mois (3 ans) : c’est la durée maximum autorisée pour conserver les datas des personnes inactives dans votre base de données. Il vous est toutefois possible de les garder plus longtemps si vous les rendez anonymes ;
13 mois : tous les 13 mois, vous devez redemander à vos visiteurs leur consentement  pour enregistrer leurs données via les cookies ;
1 mois : si un utilisateur exerce son droit d’accès, vous avez 1 mois pour répondre à sa demande.



#### Principe RGPD n°6 : intégrité et confidentialité
La sécurisation est un point majeur dans le RGPD. Le responsable du fichier des datas doit garantir la sécurité ainsi que la confidentialité des données dont il dispose.

Cette sécurisation passe aussi par la protection contre la perte, le traitement non autorisé ou illicite des données, leur destruction, des dégâts accidentels.


L’intégrité et la confidentialité des données sont au cœur du Règlement Général sur la Protection des Données.


# 

## III. Collecte API

Afin de procéder à la collecte des données, nous allons utiliser le lien fourni. A partir de cette donnée, nous allons procéder à une sélection des différentes colonnes demandées puis intégrer les informations dans un fichier CSV.

Ensuite, nous allons vérifier que nous obtenons bien les 10 premières colonnes

### 1. Importation du lien URL

In [12]:

# URL de l'API pour obtenir les données
#url = "https://edamam-food-and-grocery-database.p.rapidapi.com/parser"
url = "https://edamam-food-and-grocery-database.p.rapidapi.com/api/food-database/v2/parser"

# Paramètres pour l'API, dans ce cas pour chercher des informations sur le champagne
querystring = {"ingr":"champagne"}

# En-têtes de la requête pour l'API
headers = {
    "X-RapidAPI-Key": "e81f355ac2msh75a925e51af7ee4p163ab2jsne938a9abeab4",
    "X-RapidAPI-Host": "edamam-food-and-grocery-database.p.rapidapi.com"}

# Envoyer la requête pour l'API et obtenir la réponse
response = requests.request("GET", url, headers=headers, params=querystring)


# Charger la réponse en format JSON
json_data = json.loads(response.text)


# Extraire les données pertinentes et les structurer en une liste de dictionnaires
csv_data = []
for item in json_data['hints']:
    row = {
        'foodId': item['food']['foodId'],
        'label': item['food']['label'],
        'category': item['food']['category'],
        'foodContentsLabel': item['food'].get('foodContentsLabel'),
        'image': item['food'].get('image')
    }
    csv_data.append(row)

### 2. Création du fichier CSV

In [13]:
# Écrire les données CSV dans un fichier
with open('output.csv', 'w', newline='') as csv_file:
    fieldnames = ['foodId', 'label', 'category', 'foodContentsLabel', 'image']
    writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
    writer.writeheader()
    for row in csv_data:
        writer.writerow(row)

# Charger les données CSV dans un dataframe pandas et sélectionner les colonnes souhaitées et les premières lignes
df = pd.read_csv('output.csv', nrows=10, usecols=['foodId', 'label', 'category', 'foodContentsLabel', 'image'])

# Exporter le dataframe en fichier CSV
df.to_csv('output_final.csv', index=False)

# Vérification du nombre de lignes et colonnes
df.shape

(10, 5)

In [14]:
# Constat du fichier
df

Unnamed: 0,foodId,label,category,foodContentsLabel,image
0,food_a656mk2a5dmqb2adiamu6beihduu,Champagne,Generic foods,,https://www.edamam.com/food-img/a71/a718cf3c52...
1,food_b753ithamdb8psbt0w2k9aquo06c,"Champagne Vinaigrette, Champagne",Packaged foods,OLIVE OIL; BALSAMIC VINEGAR; CHAMPAGNE VINEGAR...,
2,food_b3dyababjo54xobm6r8jzbghjgqe,"Champagne Vinaigrette, Champagne",Packaged foods,INGREDIENTS: WATER; CANOLA OIL; CHAMPAGNE VINE...,https://www.edamam.com/food-img/d88/d88b64d973...
3,food_a9e0ghsamvoc45bwa2ybsa3gken9,"Champagne Vinaigrette, Champagne",Packaged foods,CANOLA AND SOYBEAN OIL; WHITE WINE (CONTAINS S...,
4,food_an4jjueaucpus2a3u1ni8auhe7q9,"Champagne Vinaigrette, Champagne",Packaged foods,WATER; CANOLA AND SOYBEAN OIL; WHITE WINE (CON...,
5,food_bmu5dmkazwuvpaa5prh1daa8jxs0,"Champagne Dressing, Champagne",Packaged foods,SOYBEAN OIL; WHITE WINE (PRESERVED WITH SULFIT...,https://www.edamam.com/food-img/ab2/ab2459fc2a...
6,food_alpl44taoyv11ra0lic1qa8xculi,Champagne Buttercream,Generic meals,sugar; butter; shortening; vanilla; champagne;...,
7,food_byap67hab6evc3a0f9w1oag3s0qf,Champagne Sorbet,Generic meals,Sugar; Lemon juice; brandy; Champagne; Peach,
8,food_am5egz6aq3fpjlaf8xpkdbc2asis,Champagne Truffles,Generic meals,butter; cocoa; sweetened condensed milk; vanil...,
9,food_bcz8rhiajk1fuva0vkfmeakbouc0,Champagne Vinaigrette,Generic meals,champagne vinegar; olive oil; Dijon mustard; s...,


# 

## IV. Conclusion du projet 6

En conclusion, nous pouvons affirmer que notre étude de faisabilité a permis de répondre à la problématique de classification concernant les textes mais également les images.

Pour cela, nous avons procédé, dans un premier temps, à un traitement des données textuelles à travers plusieurs techniques (tokenizer, lematiser, ...), ces techniques nous ont permis d'extraire des données pertinentes et fondamentales pour notre étude comme une meilleure précision des catégories de produits ou la suppression des mots peu utiles pour une analyse des données.
Nous avons procédé à une segmentation des données dans le but d'étudier la possibilité de classer nos différents produits dans des classes spécifiques. Les résultats obtenues pour la phase textuelle nous donne des premiers résultats tout à fait convaincant.

Dans un deuxième temps, nous avons procédé à un traitement des images que nous avons dû importer à travers un fichier contenant l'ensemble des photos (1050 images). Nous avons procédé à un traitement des images (redimensionnement des données par exemple).
Par la suite, nous avons procédé à une méthodologie similaire à la segmentation selon les méthodes textuelles. Pour cela, nous avons utilisé des méthodes de traitements d'images tels que les méthodes SIFT ou ORB qui nous ont permis de découvrir l'analyse des images à travers des descripteurs.
Nous avons pris la décision de tester la segmentation à travers le modèle SIFT, ce dernier nous a donné des résultats très faible (un score inférieur à 0.1).
Afin d'obtenir des résultats plus convaincants, nous avons pris entraîné des modèles préentrainés, à savoir des modèles de Transfer Learning comme le VGG16 et VGG19, ces modèles ont permis d'obtenir des scores satisfaisants avec un score d'environ 0.55 dans le cadre d'une segmentation.

Ainsi, nous pouvons affirmer qu'il est possible de procéder à une classification des données et que l'étude de faisabilité peut être envisagée de manière optimale.



En seconde partie, nous avons procédé à une classification d'images. A la différence d'une segmentation comme dans la première partie, cette étape concerne une analyse supervisée.
Pour répondre à cette demande, nous avons pris la décision d'utiliser un générateur d'images dans le but de générer des images et ainsi de pouvoir augmenter le nombre d'images pour notre entrainement.
Ensuite, nous avons procédé à une séparation de notre jeu de données puis générer des images par séparations.
Afin de procéder à une classification, nous avons pris l'initiative de créer un premier modèle avec les différentes couches présentes pour un réseau de neurones convolutif (Convolutional Neural Network) puis à la sélection de deux modèles de Transfer Learning, à savoir le modèle VGG19 (précédemment utilisée pour l'étude de faisabilité) mais également un second réseau avec davantage de paramètres, à savoir le RESNET50.

Ce sera ce dernier modèle qui présente des résultats avec un score élevé pour une classification à 7 classes (supérieur à 0.6).
Nous pouvons estimer que nous avons su répondre à la classification demandée par l'entreprise.



Finalement, nous avons procédé, dans une dernière partie, à une collecte de donnée API afin d'obtenir de nouvelles données sur un produit spécifique, à savoir le champagne.
Pour effectuer cette tâche, nous avons utilisé le lien URL fourni puis enregistrer les données dans un fichier CSV tout en conservant les 10 premières lignes mais également les variables pertinentes à notre projet.


Il est toutefois important de rappeler que notre jeu de données initial ne présente que quelques centaines de données alors que certaines méthodes de traitements ou de classifications sont davantage utilisées pour des jeu de données avec plusieurs milliers voir davantage de données.
Nous pouvons également indiqué que des possibilités d'optimisation des différents modèles est présent mais notre principal objectif étant de répondre à la problématique de l'entité. Nous pouvons toutefois conseiller une meilleure catégorisation des données (plusieurs catégories avec la mention Home, cela peut impacter une classification mais aussi une segmentation) pourra permettre une amélioration des résultats.

