# Classifiez automatiquement des biens de consommation
Dans ce Notebook, nous réaliserons une classification automatique des biens de consommation fournis par les vendeurs à la plateforme [Place De Marché](https://google.com) afin de permettre une recherche simplifié de produits pour les clients.


![Place de marché](https://user.oc-static.com/upload/2019/02/24/15510259240381_Projet%20textimage%20logo.png)  


Sur cette place de marché anglophone, des vendeurs proposent des articles à des acheteurs en postant une photo et une description.

Pour l'instant, l'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc peu fiable.  
Une classification automatique permettrait de catégoriser efficacement les produits en fonction de leurs caractéristiques, facilitant ainsi la recherche et la comparaison des produits. Cela permettrait aux consommateurs de gagner du temps et de prendre des décisions plus informées, en accordant une attention particulière aux aspects qui leur importent le plus.

De plus, du côté des entreprises, la classification automatique offre une gestion plus efficace des stocks et une optimisation des chaînes d'approvisionnement. En automatisant le processus de catégorisation, la société [Place De Marché](https://google.com) pourra rationaliser ses opérations, réduire ses coûts logistiques et améliorer sa disponibilité de produits. Cela favorisera également l'innovation en facilitant l'identification des tendances émergentes dans chacun des catégories proposées par la plateforme.

## Analyse des descriptions textuelles et des images des produits.

### Introduction :  


L'objectif principal de notre projet est de développer un système intelligent capable d'analyser et de comprendre les descriptions textuelles et les images des produits de manière conjointe. En utilisant des techniques avancées de traitement du langage naturel (NLP) et de vision par ordinateur, notre solution cherchera à extraire des informations clés, à établir des liens sémantiques et à créer une représentation unifiée des produits.

## Table des matières


#### [1.Présentation des données](#1.-Présentation-des-données)
#### [2.Nettoyage du Dataset](#2.-Nettoyage-du-Dataset)
#### - [A.Traitement des valeurs aberrantes](#A.-Traitement-des-valeurs-aberrantes)
#### - [B.Traitement des valeurs manquantes](#B.-Traitement-des-valeurs-manquantes)

#### [3.Analyse exploratoire du Dataset](#3.-Analyse-exploratoire-du-Dataset)
#### - [A.Analyse univariées](#A.-Analyse-univariées)
#### - [B.Analyse bivariées](#B.-Analyse-bivariées)
#### - [C.Analyse multivariées](#C.-Analyse-multivariées)

## 1. Présentation des données

## Import
Nous utiliserons une stack de Data Science habituelle : `numpy`, `pandas`, `sklearn`, `matplotlib`.

In [197]:
# manipulation des données
import numpy as np
import pandas as pd

# matplotlib et seaborn pour les représentations graphiques
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# sklearn preprocessing pour le traiter les variables catégorielles
from sklearn.preprocessing import LabelEncoder

# Gestion du système de fichiers
import os

# Suppression des alertes
import warnings
warnings.filterwarnings('ignore')

Les données que nous utiliserons durant notre étude ont le chemin d'accès relatif suivant ["../Data/Flipkart"](). Nous pouvons retrouver dans le dossier [./Flipkart]() un fichier csv qui comprend la liste des produits avec différentes les caractéristiques de chaque produit. Nous utiliserons ce fichier pour réaliser notre analyse des descriptions textuelles des produits. Egalement dans le dossier [./Flipkart]() un sous-dossier [./Image]() qui comprend les images de chaque produit. Nous utiliserons ces images pour réaliser notre analyse des images des produits.

In [198]:
print(os.listdir("../Data/Flipkart"))

['flipkart_com-ecommerce_sample_1050.csv', '.DS_Store', 'Images']


Nous importons le fichier dont les données nous serons utile pour notre étude.

In [199]:
df = pd.read_csv("../Data/Flipkart/flipkart_com-ecommerce_sample_1050.csv")
df

Unnamed: 0,uniq_id,crawl_timestamp,product_url,product_name,product_category_tree,pid,retail_price,discounted_price,image,is_FK_Advantage_product,description,product_rating,overall_rating,brand,product_specifications
0,55b85ea15a1536d46b7190ad6fff8ce7,2016-04-30 03:22:56 +0000,http://www.flipkart.com/elegance-polyester-mul...,Elegance Polyester Multicolor Abstract Eyelet ...,"[""Home Furnishing >> Curtains & Accessories >>...",CRNEG7BKMFFYHQ8Z,1899.0,899.0,55b85ea15a1536d46b7190ad6fff8ce7.jpg,False,Key Features of Elegance Polyester Multicolor ...,No rating available,No rating available,Elegance,"{""product_specification""=>[{""key""=>""Brand"", ""v..."
1,7b72c92c2f6c40268628ec5f14c6d590,2016-04-30 03:22:56 +0000,http://www.flipkart.com/sathiyas-cotton-bath-t...,Sathiyas Cotton Bath Towel,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEGFZHGBXPHZUH,600.0,449.0,7b72c92c2f6c40268628ec5f14c6d590.jpg,False,Specifications of Sathiyas Cotton Bath Towel (...,No rating available,No rating available,Sathiyas,"{""product_specification""=>[{""key""=>""Machine Wa..."
2,64d5d4a258243731dc7bbb1eef49ad74,2016-04-30 03:22:56 +0000,http://www.flipkart.com/eurospa-cotton-terry-f...,Eurospa Cotton Terry Face Towel Set,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEG6SHXTDB2A2Y,,,64d5d4a258243731dc7bbb1eef49ad74.jpg,False,Key Features of Eurospa Cotton Terry Face Towe...,No rating available,No rating available,Eurospa,"{""product_specification""=>[{""key""=>""Material"",..."
3,d4684dcdc759dd9cdf41504698d737d8,2016-06-20 08:49:52 +0000,http://www.flipkart.com/santosh-royal-fashion-...,SANTOSH ROYAL FASHION Cotton Printed King size...,"[""Home Furnishing >> Bed Linen >> Bedsheets >>...",BDSEJT9UQWHDUBH4,2699.0,1299.0,d4684dcdc759dd9cdf41504698d737d8.jpg,False,Key Features of SANTOSH ROYAL FASHION Cotton P...,No rating available,No rating available,SANTOSH ROYAL FASHION,"{""product_specification""=>[{""key""=>""Brand"", ""v..."
4,6325b6870c54cd47be6ebfbffa620ec7,2016-06-20 08:49:52 +0000,http://www.flipkart.com/jaipur-print-cotton-fl...,Jaipur Print Cotton Floral King sized Double B...,"[""Home Furnishing >> Bed Linen >> Bedsheets >>...",BDSEJTHNGWVGWWQU,2599.0,698.0,6325b6870c54cd47be6ebfbffa620ec7.jpg,False,Key Features of Jaipur Print Cotton Floral Kin...,No rating available,No rating available,Jaipur Print,"{""product_specification""=>[{""key""=>""Machine Wa..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1045,958f54f4c46b53c8a0a9b8167d9140bc,2015-12-01 10:15:43 +0000,http://www.flipkart.com/oren-empower-extra-lar...,Oren Empower Extra Large Self Adhesive Sticker,"[""Baby Care >> Baby & Kids Gifts >> Stickers >...",STIE88ZGTX65GH4V,1399.0,999.0,958f54f4c46b53c8a0a9b8167d9140bc.jpg,False,Oren Empower Extra Large Self Adhesive Sticker...,No rating available,No rating available,Oren Empower,"{""product_specification""=>[{""key""=>""Number of ..."
1046,fd6cbcc22efb6b761bd564c28928483c,2015-12-01 10:15:43 +0000,http://www.flipkart.com/wallmantra-large-vinyl...,Wallmantra Large Vinyl Sticker Sticker,"[""Baby Care >> Baby & Kids Gifts >> Stickers >...",STIEC889ZD5GDCVQ,4930.0,1896.0,fd6cbcc22efb6b761bd564c28928483c.jpg,False,Wallmantra Large Vinyl Sticker Sticker (Pack o...,No rating available,No rating available,Wallmantra,"{""product_specification""=>[{""key""=>""Number of ..."
1047,5912e037d12774bb73a2048f35a00009,2015-12-01 10:15:43 +0000,http://www.flipkart.com/uberlyfe-extra-large-p...,Uberlyfe Extra Large Pigmented Polyvinyl Films...,"[""Baby Care >> Baby & Kids Gifts >> Stickers >...",STIE5UVGW2JWVWCT,4500.0,1449.0,5912e037d12774bb73a2048f35a00009.jpg,False,Buy Uberlyfe Extra Large Pigmented Polyvinyl F...,No rating available,No rating available,Uberlyfe,"{""product_specification""=>[{""key""=>""Number of ..."
1048,c3edc504d1b4f0ba6224fa53a43a7ad6,2015-12-01 10:15:43 +0000,http://www.flipkart.com/wallmantra-medium-viny...,Wallmantra Medium Vinyl Sticker Sticker,"[""Baby Care >> Baby & Kids Gifts >> Stickers >...",STIEC889ZGFD3RCE,3465.0,1333.0,c3edc504d1b4f0ba6224fa53a43a7ad6.jpg,False,Buy Wallmantra Medium Vinyl Sticker Sticker fo...,No rating available,No rating available,Wallmantra,"{""product_specification""=>[{""key""=>""Number of ..."


In [200]:
print(df.iloc[0, :])

uniq_id                                     55b85ea15a1536d46b7190ad6fff8ce7
crawl_timestamp                                    2016-04-30 03:22:56 +0000
product_url                http://www.flipkart.com/elegance-polyester-mul...
product_name               Elegance Polyester Multicolor Abstract Eyelet ...
product_category_tree      ["Home Furnishing >> Curtains & Accessories >>...
pid                                                         CRNEG7BKMFFYHQ8Z
retail_price                                                          1899.0
discounted_price                                                       899.0
image                                   55b85ea15a1536d46b7190ad6fff8ce7.jpg
is_FK_Advantage_product                                                False
description                Key Features of Elegance Polyester Multicolor ...
product_rating                                           No rating available
overall_rating                                           No rating available

Nous souhaitons catégoriser les produits suivant la première branche de l'arbre de catégorie de produit `product_category_tree` qui nous servira d'exemple de segmentation de catégorie de produits. Cependant dans la variable, toutes les branches de l'arbre de catégorie sont indiquées.

In [201]:
with pd.option_context('display.max_colwidth', None):
    print(df.iloc[0, 4])

["Home Furnishing >> Curtains & Accessories >> Curtains >> Elegance Polyester Multicolor Abstract Eyelet Do..."]


Nous utilisons une expression régulière pour ne garder que la première branche de l'arbre de catégorie.  

L'expression régulière `r'>.*'` permet de supprimer le caractère `>` ainsi que tout ce qui suit.  
`.str[2:]` et `.str[:-1]` permettent de supprimer les deux premiers caractère `[` et `"` et l'espace avant le caractère `>`.

In [202]:
import re
df['product_category_tree'] = df['product_category_tree'].apply(lambda x: re.sub(r'>.*', '', x))
df['product_category_tree'] = df['product_category_tree'].str[2:]
df['product_category_tree'] = df['product_category_tree'].str[:-1]

Nous pouvons compter 7 catégories de produits différentes.

In [203]:
df['product_category_tree'].unique()

array(['Home Furnishing', 'Baby Care', 'Watches',
       'Home Decor & Festive Needs', 'Kitchen & Dining',
       'Beauty and Personal Care', 'Computers'], dtype=object)

Pour simplifier notre travail d'analyse nous ne gardons que les variables pertinentes à notre étude :
- `product_name`
- `product_category_tree`
- `description`

In [204]:
df_word = []
df_word = pd.DataFrame(df_word)
df_word['product_name'] = df['product_name'].copy()
df_word['product_category_tree'] = df['product_category_tree'].copy()
df_word['description'] = df['description'].copy()

Pour commencer notre travail de nettoyage nous commençons par décomposer la description de chaque produit en tableaux de mots afin de pouvoir effectuer des opérations dessus. Nous effetuons également une supression de la ponctuation qui ne sera pas prise en compte dans notre tableau de mots.

In [205]:
df_word['description_token'] = 0

In [206]:
import nltk

tokenizer = nltk.RegexpTokenizer(r'\w+')

i = 0
while i < len(df_word['description']):
    df_word['description_token'][i] = tokenizer.tokenize(df_word['description'][i])
    i+=1

Nous transformons chaque mot de sorte qu'ils soient tous en minuscule pour que la sensibilité à la casse des librairies n'impacte pas les opérations sur chacun des mots.

In [207]:
i = 0
while i < len(df_word['description_token']):
    for j in range(len(df_word['description_token'][i])):
        df_word['description_token'][i][j] = df_word['description_token'][i][j].lower()
    i+=1

Nous passons ensuite à la suppression des `stopword`, ce sont les mots très courant de la langue étudiée (of, the, and ...), ces mots n'apportent pas de valeur informative pour la compréhension de la description des produits.

In [208]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/gaeldelescluse/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [209]:
def remove_stopwords(word_list):
    stop_words = set(stopwords.words('english'))
    filtered_words = []
    for word in word_list:
        if word not in stop_words:
            filtered_words.append(word)
    return filtered_words

In [210]:
for i in range(len(df_word['description_token'])):
    df_word['description_token'][i] = remove_stopwords(df_word['description_token'][i])

Nous représentons ensuite les mots dans leur forme cannonique par un processus de lemmatisation, nous souhaitons conserver le sens des mots dans leur forme la plus simple en supprimant les pluriels ou encore l'infinitif des verbes.

In [211]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

nltk.download('punkt')# segmentation phrases
nltk.download('averaged_perceptron_tagger') # étiquettes grammaticales
nltk.download('wordnet')# synonymes

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/gaeldelescluse/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/gaeldelescluse/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/gaeldelescluse/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [212]:
def lemmatize_words(word_list):
    lemmatizer = WordNetLemmatizer()
    lemmatized_words = [lemmatizer.lemmatize(word, get_pos(word)) for word in word_list]
    return lemmatized_words

def get_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"N": wordnet.NOUN, "V": wordnet.VERB, "R": wordnet.ADV, "J": wordnet.ADJ}
    return tag_dict.get(tag, wordnet.NOUN)

In [213]:
for i in range(len(df_word['description_token'])):
    df_word['description_token'][i] = lemmatize_words(df_word['description_token'][i])

Nous enregistrons le fichier normalisé pour réaliser différentes opération dans d'autres fichiers.

In [214]:
word_dataset = '../Data/1.normalized_dataset.csv'
df_word.to_csv(word_dataset, index=False)

In [215]:
df = pd.read_csv("../Data/1.normalized_dataset.csv",)

Nous terminons par éliminer toutes les valeurs numériques qui se sont glissées dans les différentes descriptions de produits.

In [216]:
import ast
import re

array_list = df['description_token'].values
data_list = []
for item in array_list:
    data_list.append(ast.literal_eval(item))

result = []
for lists in data_list:
    new_list = []
    for value in lists:
        new_value = re.sub(r'\d', '', value)
        new_list.append(new_value)
    result.append(new_list)

df_list = pd.DataFrame({'description_token': result})
df = df.drop(columns=['description_token'])
df['description_token'] = df_list['description_token']

In [217]:
df['words'] = df['description_token'].apply(lambda x: ' '.join(x))

In [218]:
df

Unnamed: 0,product_name,product_category_tree,description,description_token,words
0,Elegance Polyester Multicolor Abstract Eyelet ...,Home Furnishing,Key Features of Elegance Polyester Multicolor ...,"[key, feature, elegance, polyester, multicolor...",key feature elegance polyester multicolor abst...
1,Sathiyas Cotton Bath Towel,Baby Care,Specifications of Sathiyas Cotton Bath Towel (...,"[specification, sathiyas, cotton, bath, towel,...",specification sathiyas cotton bath towel bath...
2,Eurospa Cotton Terry Face Towel Set,Baby Care,Key Features of Eurospa Cotton Terry Face Towe...,"[key, feature, eurospa, cotton, terry, face, t...",key feature eurospa cotton terry face towel se...
3,SANTOSH ROYAL FASHION Cotton Printed King size...,Home Furnishing,Key Features of SANTOSH ROYAL FASHION Cotton P...,"[key, feature, santosh, royal, fashion, cotton...",key feature santosh royal fashion cotton print...
4,Jaipur Print Cotton Floral King sized Double B...,Home Furnishing,Key Features of Jaipur Print Cotton Floral Kin...,"[key, feature, jaipur, print, cotton, floral, ...",key feature jaipur print cotton floral king si...
...,...,...,...,...,...
1045,Oren Empower Extra Large Self Adhesive Sticker,Baby Care,Oren Empower Extra Large Self Adhesive Sticker...,"[oren, empower, extra, large, self, adhesive, ...",oren empower extra large self adhesive sticker...
1046,Wallmantra Large Vinyl Sticker Sticker,Baby Care,Wallmantra Large Vinyl Sticker Sticker (Pack o...,"[wallmantra, large, vinyl, sticker, sticker, p...",wallmantra large vinyl sticker sticker pack p...
1047,Uberlyfe Extra Large Pigmented Polyvinyl Films...,Baby Care,Buy Uberlyfe Extra Large Pigmented Polyvinyl F...,"[buy, uberlyfe, extra, large, pigment, polyvin...",buy uberlyfe extra large pigment polyvinyl fil...
1048,Wallmantra Medium Vinyl Sticker Sticker,Baby Care,Buy Wallmantra Medium Vinyl Sticker Sticker fo...,"[buy, wallmantra, medium, vinyl, sticker, stic...",buy wallmantra medium vinyl sticker sticker r ...


In [219]:
#dataset = '../Data/1.normalized_dataset_completed.csv'
#df.to_csv(dataset, index=False)

Nous pouvons effectuer une analyse exploratoire de la fréquence d'apparition des mots dans les différentes descriptions de produits en effectuant un comptage de chaque mot.

In [220]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['words'])

df_word_count = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

In [221]:
sum_row = df_word_count.sum()
df_word_count.loc['Total'] = sum_row

In [222]:
max_values = df_word_count.loc['Total'].nlargest(20)
max_values

product          864
free             618
buy              581
cm               577
delivery         567
cash             564
genuine          564
shipping         564
price            561
replacement      559
day              553
flipkart         481
com              473
guarantee        471
mug              457
feature          408
online           396
specification    379
color            375
design           374
Name: Total, dtype: int64

In [223]:
min_values = df_word_count.loc['Total'].nsmallest(20)
min_values

_blk            1
aaa             1
aarika          1
abrasion        1
absolute        1
absorber        1
absorbs         1
abstrcts        1
accommodate     1
accomplishes    1
acer            1
acl             1
acu             1
addiction       1
additionally    1
adino           1
advisable       1
agarwood        1
ageless         1
agrees          1
Name: Total, dtype: int64

In [224]:
words = ' '.join(df['words'].astype(str))
special_words = re.findall(r'\b\w*_\w*\b', words)

In [225]:
df_ = pd.DataFrame({'col' : special_words})
with pd.option_context('display.max_rows', None):
    print(df_)

                                col
0         megnet_led_sport_blackred
1         megnet_led_sport_blackred
2         megnet_led_sport_blackred
3                              _blk
4                     apl_led_black
5                     apl_led_black
6                     apl_led_black
7                            gm_wht
8                            gm_wht
9                            gm_wht
10                       bathmat_ri
11                           quilt_
12                           quilt_
13                         ggld_blk
14                          ggld_pl
15                hand_juicer_combo
16                              n_c
17                     he_bed_king_
18                          btp_yxk
19                           btp_xn
20                           times_
21                              nx_
22                              nx_
23                              nx_
24                              sd_
25                              sd_
26                          

In [226]:
for i in df_['col']:
    df['words'] = df['words'].str.replace(i, '')

In [228]:
for i in df_word_count.loc['Total'][df_word_count.loc['Total'] == 1].index:
    df['words'] = df['words'].str.replace(i, '')


In [229]:
dataset = '../Data/1.normalized_dataset_max.csv'
df.to_csv(dataset, index=False)