# **Gestion du projet**

# **Milestone 1** : Faisabilité de classification – Texte

## Conseils

**Livrable** : Notebook d’analyse de faisabilité de classification automatique des produits par leur description textuelle.

**Charge** : 30 %

**Problèmes et erreurs courants** :
* ⚠ L’objectif est de vérifier la faisabilité de classifier automatiquement les produits, simplement via une représentation en 2D des produits et une vérification d’une séparation automatique selon leur catégorie réelle (classification non supervisée). Il n’est donc pas demandé de réaliser de classification supervisée de prédiction des catégories des produits.

**Recommandations** :
* Réaliser un prétraitement de texte : nettoyage (ponctuation, stopwords…), lemmatization…
* Ce prétraitement doit être adapté au contexte et surtout à l’objectif. Nous cherchons à séparer les produits selon leur description textuelle. Les noms, voire certains verbes, permettent de décrire ces produits. Les adjectifs ou les adverbes sont beaucoup moins pertinents.
* Réaliser un bag of words (countVectorizer, Tf-idf…) afin de créer des « features » pour chaque produit.
Vous pourrez prendre la variable « description » et la variable « product_name » qui contient les principaux mots qui décrivent un produit.
* Pour le bag of words, l’étudiant pourra tester plusieurs approches : par exemple fit et transform sur « description » ou sur « product_name » + « description », fit sur « product_name » et transform sur « product_name » + « description » (permet de ne garder que le vocabulaire des « product_name » moins verbeux, et de renforcer le comptage avec le contenu de « description ».
* Réaliser une réduction de dimension via ACP. Une approche complémentaire via LDA afin de créer des features de dimension réduite peut être testée, elle n’est pas obligatoire.
* Comme présenté dans le webinaire sur le traitement d’images (cf. onglet Ressources), réaliser un T-SNE afin de réduire à 2 composantes les features, et les afficher en coloriant selon la catégorie réelle (1er niveau de « product_category_tree » = 7 catégories, 150 produits par catégorie).
* Le graphique montrera clairement que les produits sont relativement bien séparés selon les catégories réelles.
* Afin de vérifier l’aspect visuel, réaliser un clustering k-means à partir des 2 composantes du T-SNE (7 clusters comme le nombre de catégories), afficher les 2 composantes du T-SNE en coloriant selon le numéro de cluster du k-means, et comparer la similarité de la catégorisation (catégorie réelle / cluster k-means) via l’adjusted Rand Score (ARI). La valeur, de l’ordre de 0.4 à 0.5, confirme le visuel et donc la faisabilité de classer automatiquement les produits.
* En option, l’étudiant pourra analyser plus finement par sous-catégories.

**Ressources** :
* ARI : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html 

# **Milestone 2** : Faisabilité de classification – Text Embedding

## Conseils

**Livrable** : Notebook complémentaire au précédent, mettant en œuvre des techniques d’embedding.

**Charge** : 15 %

**Problèmes et erreurs courants** :
* ⚠ Attention à ne pas passer trop de temps sur ce sujet ;).

**Recommandations** :
* L’objectif de cette étape est de permettre de découvrir des techniques NLP plus avancées.
* Il existe, dans les ressources, un notebook donnant un exemple de mise en œuvre de ces techniques : Word2Vec (ou remplacé par Doc2Vec), BERT, USE (Universal Sentence Encoder).
* Tu réaliseras la création de features à l’aide de chacune de ces trois techniques (technique de « feature extraction » orientée « sentence embedding »). Il n’est pas attendu une grande expertise, il s’agit surtout d’une introduction à ces techniques.
* L’analyse graphique T-SNE et le calcul de l’ARI permettront de comparer les résultats avec les techniques plus simples de CountVectorizer ou Tf-idf.

**Ressources** :
* Notebook – Exemple de Sentence Embedding : cf. Ressources.
* Word/sentence Embedding BERT – Hugging Face : Exemple de Word Embedding BERT via Hugging Face.
* Word/sentence Embedding BERT – Hub pour  TensorFlow : exemple de Word Embedding BERT via le hub TensorFlow
* Sentence Embedding USE :  Exemple de Sentence Embedding USE (Universal Sentence Encoder).

# **Milestone 3** : Faisabilité de classification automatique d’images via SIFT

## Conseils

**Livrable** : Notebook d’analyse de faisabilité de classification automatique d’images via SIFT, ORB ou SURF

**Niveau d’avancement** : 30 %

**Problèmes et erreurs courants** :
* ⚠ L’objectif est de vérifier la faisabilité de classifier automatiquement les images, simplement via une représentation en 2D des images et une vérification d’une séparation automatique selon leur catégorie réelle (classification non supervisée). Il n’est donc pas demandé de réaliser de classification supervisée de prédiction de catégories des images.

**Recommandations** :
* Le webinaire sur le traitement d’images (cf. onglet Ressources) indique dans le détail la réalisation d’extraction de features et l’affichage via T-SNE, afin de vérifier la séparation automatique de manière non supervisée des images par catégorie (classification non supervisée).
* Réaliser dans un premier temps une analyse d’une image et différentes approches de transformation : niveaux de gris, equalization, filtrage bruit, contraste, floutage… (affichage image et histogramme associés).
* Ensuite réaliser l’extraction des descripteurs (cf. webinaire).
Puis générer les « features » des images via un bag of virtual words (création de clusters de descripteurs et comptage pour chaque image du nombre de descripteurs par cluster).
* Réaliser une réduction de dimension (ACP).
* Réaliser un T-SNE afin de réduire à 2 composantes les features, et les afficher en coloriant selon la catégorie réelle.
* Il est assez difficile de séparer les images selon le label. Le résultat n’est donc pas très concluant avec SIFT.
* Afin de vérifier l’aspect visuel, réaliser un clustering k-means à partir des 2 composantes du T-SNE (7 clusters comme le nombre de catégories réelles), afficher les 2 composantes du T-SNE en coloriant selon le numéro de cluster du k-means, et comparer la similarité de la catégorisation (catégorie réelle / cluster k-means) via l’Adjusted Rand Score (ARI). La valeur, de l’ordre de 0.05 à 0.1, confirme le visuel.

**Ressources** :
* ARI : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html


# **Milestone 4** : Faisabilité de classification automatique d’images via CNN Transfer Learning

## Conseils

**Livrable** : Notebook d’analyse de faisabilité de classification automatique d’images via CNN Transfer Learning.

**Charge** : 25 %

**Problèmes et erreurs courants** :
* cf. milestone 3 (SIFT)

**Recommandations** :
* Récupérer un modèle préentraîné comme précisé dans la ressource « Transfer Learning in Keras with Computer Vision Models », en particulier le paragraphe « Pre-Trained Model as Feature Extractor Preprocessor ».
* La suite est identique au milestone 3 (SIFT) :
* ACP, T-SNE, k-means, affichage des 2 composantes T-SNE des images coloriées selon la catégorie réelle, puis selon le numéro de cluster, calcul ARI.
* Le résultat tant visuel que calculé (0.4 à 0.6) est bien plus pertinent et montre, sans entraînement d’un modèle, la faisabilité de réaliser une classification automatique.

**Ressources** :
* Transfer Learning in Keras with Computer Vision Models : https://machinelearningmastery.com/how-to-use-transfer-learning-when-developing-convolutional-neural-network-models/