In [503]:
import pandas as pd
import numpy as np
import plotly.express as px
from functions import text_utils ,utils,classification_utils

from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score
from sklearn.multiclass import OneVsRestClassifier
import logging



logging.disable(logging.WARNING) # disable WARNING, INFO and DEBUG logging everywhere

random_state=42

# Partie 1: <u>Analyse exploiratoire, nettoyage description</u>

## 1 <u>Exploration des donnée</u>

In [504]:
df=pd.read_csv('data/Flipkart/flipkart_com-ecommerce_sample_1050.csv')

In [505]:
df.shape

(1050, 15)

In [506]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   uniq_id                  1050 non-null   object 
 1   crawl_timestamp          1050 non-null   object 
 2   product_url              1050 non-null   object 
 3   product_name             1050 non-null   object 
 4   product_category_tree    1050 non-null   object 
 5   pid                      1050 non-null   object 
 6   retail_price             1049 non-null   float64
 7   discounted_price         1049 non-null   float64
 8   image                    1050 non-null   object 
 9   is_FK_Advantage_product  1050 non-null   bool   
 10  description              1050 non-null   object 
 11  product_rating           1050 non-null   object 
 12  overall_rating           1050 non-null   object 
 13  brand                    712 non-null    object 
 14  product_specifications  

In [507]:
df.head(3)

Unnamed: 0,uniq_id,crawl_timestamp,product_url,product_name,product_category_tree,pid,retail_price,discounted_price,image,is_FK_Advantage_product,description,product_rating,overall_rating,brand,product_specifications
0,55b85ea15a1536d46b7190ad6fff8ce7,2016-04-30 03:22:56 +0000,http://www.flipkart.com/elegance-polyester-mul...,Elegance Polyester Multicolor Abstract Eyelet ...,"[""Home Furnishing >> Curtains & Accessories >>...",CRNEG7BKMFFYHQ8Z,1899.0,899.0,55b85ea15a1536d46b7190ad6fff8ce7.jpg,False,Key Features of Elegance Polyester Multicolor ...,No rating available,No rating available,Elegance,"{""product_specification""=>[{""key""=>""Brand"", ""v..."
1,7b72c92c2f6c40268628ec5f14c6d590,2016-04-30 03:22:56 +0000,http://www.flipkart.com/sathiyas-cotton-bath-t...,Sathiyas Cotton Bath Towel,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEGFZHGBXPHZUH,600.0,449.0,7b72c92c2f6c40268628ec5f14c6d590.jpg,False,Specifications of Sathiyas Cotton Bath Towel (...,No rating available,No rating available,Sathiyas,"{""product_specification""=>[{""key""=>""Machine Wa..."
2,64d5d4a258243731dc7bbb1eef49ad74,2016-04-30 03:22:56 +0000,http://www.flipkart.com/eurospa-cotton-terry-f...,Eurospa Cotton Terry Face Towel Set,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEG6SHXTDB2A2Y,,,64d5d4a258243731dc7bbb1eef49ad74.jpg,False,Key Features of Eurospa Cotton Terry Face Towe...,No rating available,No rating available,Eurospa,"{""product_specification""=>[{""key""=>""Material"",..."


L'objet de projet étant de classer un produit en fonction de l'image fournie et de la description,nous nous intéressons uniquement aux variables catégorie,image

In [508]:
relevant_cols = ['uniq_id','product_category_tree','description','product_url']
df=df[relevant_cols]

Vérification des doublons à l'aide de la variable uniq_id

In [509]:
len(df.loc[df.duplicated(subset='uniq_id',keep='first')]) ## 0 aucun doublons

0

In [510]:
df.isnull().sum()/len(df)*100 ## aucune valeur manquante

uniq_id                  0.0
product_category_tree    0.0
description              0.0
product_url              0.0
dtype: float64

In [511]:

def get_main_category_by_depth(txt,depth=0):
    "fonction permettant de récupérer la catégorie en fonction de la profondeur, par défaut elle récupère"
    return txt.split("\"")[1].split('>>')[depth].rstrip()
    

In [512]:
df['main_category']=df['product_category_tree'].apply(lambda x:get_main_category_by_depth(x,0))
df['second_category']=df['product_category_tree'].apply(lambda x:get_main_category_by_depth(x,1))
#df['third_category']=df['product_category_tree'].apply(lambda x:get_main_category_by_depth(x,2))


In [513]:
## aucune valeur manquante
df.isnull().sum()/len(df)*100

uniq_id                  0.0
product_category_tree    0.0
description              0.0
product_url              0.0
main_category            0.0
second_category          0.0
dtype: float64

In [514]:
#df['main_category'].value_counts(normalize=True).plot.pie(autopct='%1.1f%%')
df['main_category'].value_counts(normalize=True)

Home Furnishing               0.142857
Baby Care                     0.142857
Watches                       0.142857
Home Decor & Festive Needs    0.142857
Kitchen & Dining              0.142857
Beauty and Personal Care      0.142857
Computers                     0.142857
Name: main_category, dtype: float64

In [515]:
category_percent=df['main_category'].value_counts(normalize=True).reset_index().rename(columns={'index': 'names'})
px.pie(category_percent, values='main_category', names='names', title='Diagramme à secteurs des catégories de produits').show()


Les catégories racines des produits sont égalitairement bien réparties

## 2 <u>Encodage de la variable cible (labelEncoder)</u>

In [516]:

label_target_encoder=LabelEncoder()
df['target']=label_target_encoder.fit_transform(df['main_category'])


## 3 <u>preprocessing de la variable description</u>

In [517]:
## letttre un commentaire de ce que la fonction fait
df['description_transform_bow_fct']=df['description'].apply(lambda x: text_utils.transform_bow_fct(x))

In [518]:
df[['description_transform_bow_fct']].head()

Unnamed: 0,description_transform_bow_fct
0,key features elegance polyester multicolor abs...
1,specifications sathiyas cotton bath towel bath...
2,key features eurospa cotton terry face towel s...
3,key features santosh royal fashion cotton prin...
4,key features jaipur print cotton floral king s...


# Partie 2: <u>Traitement textuel NLP</u>

## 1 <u>Simple bag of words</u>

### 1-1 <u>Transformation de la description avec CountVectorizer </u>

In [519]:
countVectorizer = CountVectorizer()
bag_of_words_vec =countVectorizer.fit_transform(df['description_transform_bow_fct'])
bag_of_words_df=pd.DataFrame(bag_of_words_vec.toarray(),columns=countVectorizer.get_feature_names_out())

In [520]:
bag_of_words_df.shape

(1050, 5894)

In [521]:
bag_of_words_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1050 entries, 0 to 1049
Columns: 5894 entries, 000 to zyxel
dtypes: int64(5894)
memory usage: 47.2 MB


In [522]:
bag_of_words_df.head()

Unnamed: 0,000,001,0021,004,005,006,0083,011,01433cmgy,01727lpln,...,zinc,zingalalaa,zip,zipexterior,zipper,zippered,zone,zoom,zora,zyxel
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 1-2 <u>Comparaison entre la clusterisation Tsne et les catégories réelles des produits </u>

In [None]:

all_labels=df['target'].unique().tolist()
perplexity=30

n_components=2
ARI, X_tsne, labels =text_utils.ARI_fct(
    bag_of_words_df,
    all_labels,
    df['target'],
    perplexity,
    n_components,
    random_state
  
)

text_utils.TSNE_visu_fct(
    X_tsne, df['target'],df['main_category'].unique().tolist(), labels, ARI,
  'Représentation des produits par catégories réelles',
    'Représentation des produits par clusters'
)

L'indice de rand ajusté (0.35) entre l'ensemble issu de la clusterization tsne et l'ensemble formé par les catégories réelles auxquelles appartiennent les produits, est très faible.
Cependant,on peut remarquer, selon le résultat du tsne, une plus ou moins bonne segmentation des produits de catégorie Computers,Home Furnishing et Baby Care

### 1-3 <u>Essai de classification avec RandomForestClassifier  OneVsRestClassifier</u>

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X_tsne,df['target'],test_size=0.25)
scoring='f1_macro'
 

param_grid =[
     { 
   # 'estimator__n_estimators': [100], #[200, 500]
    #'estimator__max_features': ['auto'],#['auto', 'sqrt', 'log2']
    #'estimator__max_depth' : [5],#[4,5,6,7,8]
   'estimator__criterion' :  ['gini', 'entropy'],
         'estimator__random_state':[random_state]
}
]
 
cv=3
model=OneVsRestClassifier(RandomForestClassifier())
mean_auc,ARI,_=classification_utils.grid_search_cv_multiclass(
    model,
    param_grid,
    scoring,
    cv,
    label_target_encoder,
    df['main_category'].unique().tolist(),
    X_train,
    X_test,
    y_train,
    y_test,
'catégories réelles l\'échantillon de test des produits',
  'catégories prédites l\'échantillon de test des produits',
    'Classification OneVsRestClassifier(RandomForestClassifier())'
)


In [None]:
mean_auc

le résultat de la classification, après une réduction dimensionnelle tsne, semble être un bon score(97% la moyenne ).Plus particulièrement pour les produits de catégorie Watches (100% de Area Under the curve)

## 2 <u>TF-IDF</u>

### 1-1 <u>Transformation de la description avec TfidfVectorizer </u>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfVectorizer = TfidfVectorizer()

bag_of_words_vec =tfidfVectorizer.fit_transform(df['description_transform_bow_fct'])
bag_of_words_df=pd.DataFrame(bag_of_words_vec.toarray(),columns=tfidfVectorizer.get_feature_names_out())


In [None]:
bag_of_words_df.shape

In [None]:
bag_of_words_df.info()

In [None]:
bag_of_words_df.head()

### 1-2 <u>Comparaison entre la clusterisation Tsne et les catégories réelles des produits </u>

In [None]:

all_labels=df['target'].unique().tolist()
perplexity=30

n_components=2
ARI, X_tsne, labels =text_utils.ARI_fct(
    bag_of_words_df,
    all_labels,
    df['target'],
    perplexity,
    n_components,
    random_state
  
)

text_utils.TSNE_visu_fct(
    X_tsne, df['target'],df['main_category'].unique().tolist(), labels, ARI,
  'Représentation des produits par catégories réelles',
    'Représentation des produits par clusters'
)

L'indice de rand ajusté (0.50) entre l'ensemble issu de la clusterization tsne et l'ensemble formé par les catégories réelles auxquelles appartiennent les produits, est très faible.
Cependant,on peut remarquer, selon le résultat du tsne, une plus ou moins bonne segmentation des produits de catégorie Computers,Home Furnishing,Home Decors & Festive Needs 

### 1-3 <u>Essai de classification avec RandomForestClassifier  OneVsRestClassifier</u>

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X_tsne,df['target'],test_size=0.25)
scoring='f1_macro'
 

param_grid =[
     { 
   # 'estimator__n_estimators': [100], #[200, 500]
    #'estimator__max_features': ['auto'],#['auto', 'sqrt', 'log2']
    #'estimator__max_depth' : [5],#[4,5,6,7,8]
   'estimator__criterion' :  ['gini', 'entropy'],
         'estimator__random_state':[random_state]
}
]
 
cv=3
model=OneVsRestClassifier(RandomForestClassifier())
mean_auc,ARI,_=classification_utils.grid_search_cv_multiclass(
    model,
    param_grid,
    scoring,
    cv,
    label_target_encoder,
    df['main_category'].unique().tolist(),
    X_train,
    X_test,
    y_train,
    y_test,
'Représentation des produits par catégories réelles',
    'Représentation des produits par clusters',
     'Classification OneVsRestClassifier(RandomForestClassifier())'
)


## 3 <u>Word2Vec</u>

### 1-1 <u>Transformation de la description avec TfidfVectorizer </u>

### 1-2 <u>Comparaison entre la clusterisation Tsne et les catégories réelles des produits </u>


### 1-3 <u>Essai de classification avec RandomForestClassifier  OneVsRestClassifier</u>

## 4 <u>BERT</u>

### 1-1 <u>Transformation de la description avec TfidfVectorizer </u>

### 1-2 <u>Comparaison entre la clusterisation Tsne et les catégories réelles des produits </u>


### 1-3 <u>Essai de classification avec RandomForestClassifier  OneVsRestClassifier</u>

## 5 <u>USE (Universal Sentence Encoder)</u>

### 1-1 <u>Transformation de la description avec TfidfVectorizer </u>

### 1-2 <u>Comparaison entre la clusterisation Tsne et les catégories réelles des produits </u>

### 1-3 <u>Essai de classification avec RandomForestClassifier  OneVsRestClassifier</u>

# Partie 3: <u>Traitement des images</u>

## 1 <u>Traitement des images avec SIFT</u>

## 1 -1 Rééchantionnagle de la liste des images
* Etant donné qu'on a plusieurs images, et qu'on est dans une étude de faisabilité, traiter toutes les images peut s'avérer couteux et en termes de ressources et mémoire, nous allons opter pour un échantillonage à part égale des catégories de produits selon un pourcentage du dataframe

In [None]:
img_path='data/Flipkart/Images/'
df['img_path']=img_path+df['uniq_id']+'.jpg'

In [None]:
def resampled_df_ (df,col,n):
    df_resampled=pd.DataFrame()
    for item in df[col].unique().tolist():
        df_=df[df[col]==item].head(int(len(df)*(n/100)))
        df_resampled=pd.concat([df_,df_resampled],axis=0)
    return df_resampled.reset_index()

In [None]:
## prise en compte de 0.5% du jeu de données avec équité des catégories de produits
df_resampled=resampled_df_(df,'target',1.5)
df_resampled.info()

In [None]:
df_resampled.main_category.unique()

In [None]:
df_resampled.main_category.nunique()

In [None]:
df_resampled.info()


## 1 -2 Affichage de l'échantillon d'images par catégorie

In [None]:
from matplotlib.image import imread

 
def display_images(df_resampled,n):
    for name in df_resampled['main_category'].unique().tolist():
       
        print(name)
        
        images = df_resampled[df_resampled['main_category']==name]['img_path'].head(n).values.tolist()
    
    
    
        for i in range(n):
            plt.subplot(250 + 1 + i)

            image = imread(images[i])
            plt.imshow(image)
        print('----------------------------------------------------')
        plt.show()

In [None]:
display_images(df_resampled,5)

## 1 -2 Détermination et affichage des descripteurs SIFT d'une image

In [None]:
import cv2



def display_sift_descriptor(image):
    sift = cv2.xfeatures2d.SIFT_create()
    image = cv2.imread(image,0) # convert in gray
    image = cv2.equalizeHist(image)   # equalize image histogram
    kp, des = sift.detectAndCompute(image, None)
    img=cv2.drawKeypoints(image,kp,image)
    plt.imshow(img)
    plt.show()
    print("Descripteurs : ", des.shape)
    print()
    print(des)
    

* L'image contient 16777 descripteurs
* Chaque descripteur est un vecteur de longueur 128

In [None]:
image=df_resampled.head(1)['img_path']
display_sift_descriptor(image.values.tolist()[0])

# 1-3 Pré-traitement des images via SIFT


* Pour chaque image passage en gris et equalisation
* création d'une liste de descripteurs par image ("sift_keypoints_by_img") qui sera utilisée pour réaliser les histogrammes par image
* création d'une liste de descripteurs pour l'ensemble des images ("sift_keypoints_all") qui sera utilisé pour créer les clusters de descripteurs

In [None]:
# identification of key points and associated descriptors
import time


def img_descriptors(df_resampled,img_path):
    sift_keypoints = []
    temps1=time.time()
    list_photos=df_resampled[img_path]
    sift = cv2.xfeatures2d.SIFT_create()
    list_photos=df_resampled[img_path].tolist()
    #print('list_photos',list_photos)
    for image_num in range(len(list_photos)) :
        if image_num%100 == 0 : print(image_num)
        image = cv2.imread(list_photos[image_num],0) # convert in gray
        # image = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
        res = cv2.equalizeHist(image)   # equalize image histogram
        kp, des = sift.detectAndCompute(res, None)
        sift_keypoints.append(des)

    sift_keypoints_by_img = np.asarray(sift_keypoints)
    sift_keypoints_all    = np.concatenate(sift_keypoints_by_img, axis=0)

    print()
    print("Nombre de descripteurs : ", sift_keypoints_all.shape)

    duration1=time.time()-temps1
    print("temps de traitement SIFT descriptor : ", "%15.2f" % duration1, "secondes")
    return sift_keypoints_by_img,sift_keypoints_all
    

In [None]:
sift_keypoints_by_img,sift_keypoints_all=img_descriptors(df_resampled,'img_path')


## 1-4 Création des clusters de descripteurs


In [None]:
from sklearn.cluster import MiniBatchKMeans



def clusterize_keys_points(sift_keypoints_all,k):
    k = int(round(np.sqrt(len(sift_keypoints_all)),0))
    temps1=time.time()
    print("Nombre de clusters estimés : ", k)
    print("Création de",k, "clusters de descripteurs ...")
     
    
    # Clustering
    kmeans =MiniBatchKMeans(n_clusters=k, init_size=3*k, random_state=random_state)
    kmeans.fit(sift_keypoints_all)
    duration1=time.time()-temps1
    print("temps de traitement kmeans : ", "%15.2f" % duration1, "secondes")
    return kmeans

In [None]:
kmeans=clusterize_keys_points(sift_keypoints_all,df_resampled['main_category'].nunique())

## 1-5 Création des features des images
* Pour chaque image : 
   - prédiction des numéros de cluster de chaque descripteur
   - création d'un histogramme = comptage pour chaque numéro de cluster du nombre de descripteurs de l'image

In [None]:


def build_histogram(kmeans, des, image_num):
    res = kmeans.predict(des)
    hist = np.zeros(len(kmeans.cluster_centers_))
    nb_des=len(des)
    if nb_des==0 : print("problème histogramme image  : ", image_num)
    for i in res:
        hist[i] += 1.0/nb_des
    return hist


def build_img_features(sift_keypoints_by_img):
    # Creation of histograms (features)
    temps1=time.time()
    # Creation of a matrix of histograms
    hist_vectors=[]

    for i, image_desc in enumerate(sift_keypoints_by_img) :
        if i%100 == 0 : print(i)  
        hist = build_histogram(kmeans, image_desc, i) #calculates the histogram
        hist_vectors.append(hist) #histogram is the feature vector

    im_features = np.asarray(hist_vectors)

    duration1=time.time()-temps1
    print("temps de création histogrammes : ", "%15.2f" % duration1, "secondes")
    return im_features



In [None]:
img_features=build_img_features(sift_keypoints_by_img)


## 1-6 Réductions de dimension

### Réduction de dimension PCA
* La réduction PCA permet de créer des features décorrélées entre elles, et de diminuer leur dimension, tout en gardant un niveau de variance expliquée élevé (99%)
* L'impact est une meilleure séparation des données via le T-SNE et une réduction du temps de traitement du T-SNE

In [None]:
from sklearn import manifold, decomposition

def pca_reduction(img_features):
    print("Dimensions dataset avant réduction PCA : ", img_features.shape)
    pca = decomposition.PCA(n_components=0.99)
    feat_pca= pca.fit_transform(img_features)
    print("Dimensions dataset après réduction PCA : ", feat_pca.shape)
    return feat_pca

In [None]:
feat_pca=pca_reduction(img_features)

### Réduction de dimension T-SNE
* Réduction de dimension en 2 composantes T-SNE pour affichage en 2D des images

In [None]:
from sklearn import manifold

def tsne_reduction(feat_pca,df_resampled,random_state):
    

    tsne = manifold.TSNE(n_components=2, perplexity=30, 
                         random_state=random_state)
    X_tsne = tsne.fit_transform(feat_pca)

    df_tsne = pd.DataFrame(X_tsne[:,0:2], columns=['tsne1', 'tsne2'])
    
    df_tsne = pd.DataFrame(X_tsne[:,0:2], columns=['tsne1', 'tsne2'])
    print('main_category len',len(df_resampled["main_category"]))
    df_tsne["class"] = df_resampled["main_category"]
    print('df_tsne len',len(df_tsne["class"]))
     
    return df_tsne,X_tsne

In [None]:
df_tsne,X_tsne=tsne_reduction(feat_pca,df_resampled,random_state)


In [None]:
import seaborn as sns
plt.figure(figsize=(8,5))
sns.scatterplot(
    x="tsne1", y="tsne2", hue="class", data=df_tsne, legend="brief",
    palette=sns.color_palette('tab10', n_colors=df_resampled['main_category'].nunique()), s=50, alpha=0.6)

plt.title('TSNE selon les vraies classes', fontsize = 10, pad = 35, fontweight = 'bold')
plt.xlabel('tsne1', fontsize = 26, fontweight = 'bold')
plt.ylabel('tsne2', fontsize = 26, fontweight = 'bold')
plt.legend(prop={'size': 6}) 

plt.show()

## 1-7 Analyse mesures : similarité entre catégories et clusters

###  Création de clusters à partir du T-SNE

In [None]:
from sklearn import cluster

def cluster_tsne(df_tsne,X_tsne,k,random_state):
   cls = cluster.KMeans(n_clusters=k, random_state=random_state)
   cls.fit(X_tsne)
   df_tsne["cluster"] = cls.labels_
   print(df_tsne.shape)
   return df_tsne

In [None]:
df_tsne=cluster_tsne(df_tsne,X_tsne,df['main_category'].nunique(),random_state)

###  Affichage des images selon clusters et calcul ARI de similarité catégories images / clusters
* Le score ARI de 0.05 reste faible

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(
    x="tsne1", y="tsne2",
    hue="cluster",
    palette=sns.color_palette('tab10', n_colors=df['main_category'].nunique()), s=50, alpha=0.6,
    data=df_tsne,
    legend="brief")

plt.title('TSNE selon les clusters', fontsize = 30, pad = 35, fontweight = 'bold')
plt.xlabel('tsne1', fontsize = 26, fontweight = 'bold')
plt.ylabel('tsne2', fontsize = 26, fontweight = 'bold')
plt.legend(prop={'size': 14}) 

plt.show()

labels = df_resampled["target"]
print("ARI : ", metrics.adjusted_rand_score(labels, df_tsne["cluster"] ))