Importation du fichier de donnée retraité durant l'étape de datavisualisation

In [55]:
import pandas as pd
import numpy as np

df = pd.read_csv("Data Satisfaction - Dan processed.csv")

df.head()

Unnamed: 0.1,Unnamed: 0,Commentaire,star,date,client,reponse,source,company,ville,date_commande,ecart,Language,Commentaires_reduit,com_nb_mots,Commentaires_reduit_racine,Commentaires_reduit_4mots
0,0,"Bonjour , Ca doit faire 5 ans environ que je s...",1,2021-06-20 00:00:00+00:00,AUDREY Du 62,,TrustPilot,ShowRoom,,,,fr,"bonjour , ca doit 5 ans environ membre showroo...",246,"bonjour , ca doit 5 an environ membr showroopr...",bonjour doit environ membre showrooprive jamai...
1,1,Vente lacoste article manquant photo prise sur...,1,2021-06-20 00:00:00+00:00,Nanasky De Verteuil,,TrustPilot,ShowRoom,,,,fr,vente lacoste manquant photo prise 6 articles ...,20,vent lacost manqu photo pris 6 articl moiti li...,vente lacoste manquant photo prise articles mo...
2,2,"Vente Lacoste Honteuse , article erroné , arti...",1,2021-06-19 00:00:00+00:00,Vanessa L,,TrustPilot,ShowRoom,,,,fr,"vente lacoste honteuse , erroné , manquant , b...",219,"vent lacost honteux , erron , manqu , bon livr...",vente lacoste honteuse erroné manquant livrais...
3,3,J'ai commandé des mules de la marque Moosefiel...,2,2021-06-19 00:00:00+00:00,Valery PERRAULT,"Bonjour , Je suis sincèrement navré d'apprendr...",TrustPilot,ShowRoom,,,,fr,"commandé mules marque moosefield , très déçue ...",29,"command mul marqu moosefield , tres déçu produ...",commandé mules marque moosefield produit étiqu...
4,4,Commande téléphone etat A+ . Livraison d un vi...,1,2021-06-19 00:00:00+00:00,JULIE DRINGENBERG,"Bonjour Julie , Je suis sincèrement désolé de ...",TrustPilot,ShowRoom,,,,fr,téléphone etat a+ . livraison vieux téléphone ...,52,téléphon etat a+ . livraison vieux téléphon po...,téléphone etat livraison vieux téléphone pourr...


Retraitement du fichier:

- Attribution valeur 1 ou 0 suivant la présence de données ou de NAN pour les colonnes client, ville et réponse
- suppression de la colonne langue, ansin que de la colonne Unnamed:0

In [7]:
df = df.drop(["Unnamed: 0","Language"],axis =1)

In [8]:
df["client"] = df["client"].isna().replace(to_replace =[False,True], value=[1,0])
df["ville"] = df["ville"].isna().replace(to_replace =[False,True], value=[1,0])
df["reponse"] = df["reponse"].isna().replace(to_replace =[False,True], value=[1,0])

- Attribution de valeur numérique pour les colonnes source et company

In [9]:
df["source"] = df["source"].isna().replace(to_replace =["TrustPilot","TrustedShop"], value=[1,0])
df["company"] = df["company"].isna().replace(to_replace =["ShowRoom","VeePee"], value=[1,0])

## Modelisation 1

Dans une premiere tentative de modélisation, nous allons appliquer un algorithme de gradient boosting sur la colonnes: "commentaires_reduit_4mots".
Pour une optimisation des temps de calculs, nous allons vectoriser la colonne commentaire réduit 4 mots avec les mots revenant au moins 100 fois dans les commentaires

- Suppression des colonnes autres que "commentaires_réduit_4mots" et "star"

In [10]:
df1 = df[["star", "Commentaires_reduit_4mots"]]

Verification et suppression des valeurs NaN

In [11]:
df1.isna().sum()

star                          0
Commentaires_reduit_4mots    35
dtype: int64

In [12]:
df1 = df1.dropna(axis = 0, how = "all", subset =["Commentaires_reduit_4mots"])

Determination de l'ensemble des mots apparaissant plus d'une centaine de fois dans les commentaires

In [13]:
from collections import Counter
chaine = ' '.join(str(i).lower() for i in df1.Commentaires_reduit_4mots)
dico = Counter(chaine.split())
freqmots = pd.DataFrame.from_dict(dico, orient="index", columns = ["iteration"])
freqmots = freqmots.sort_values("iteration", ascending = False)
freq_sup_100 = freqmots[freqmots["iteration"] >= 100].reset_index()


In [14]:
freq_sup_100.head()

Unnamed: 0,index,iteration
0,livraison,4945
1,plus,4814
2,colis,3400
3,site,3173
4,service,3161


On vectorise à present l"ensemble des commentaires par cette ensemble

In [15]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer.fit_transform(freq_sup_100["index"])
tokenized = vectorizer.vocabulary_
X = vectorizer.transform(df1["Commentaires_reduit_4mots"]).todense()

On applique à present l'algorithme de GradientBoosting:

In [16]:
y = df1["star"]

In [17]:
from sklearn.model_selection import train_test_split
X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)

In [18]:
from sklearn.ensemble import GradientBoostingClassifier

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)



In [19]:
pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"])

valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,772,34,32,50,74
2,101,19,25,47,52
3,64,14,35,127,107
4,33,9,29,214,338
5,28,5,9,96,1007


In [20]:
clf.score(X_test,y_test)



0.616380608250527

on obtient un score R² de 0.62, et on observe que ce sont surtout les valeurs extremes (1 & 5) qui sont en majeur partie prédit correctement

### Optimisation : variations des parametres

Pour optimiser les performances du model, une premiere piste serait de faire varier : 
 - Les parametres du models
 - le nombre de mots utilisé dans la vectorisation des commentaires

Une estimation exhaustive de la performance en fonction des parametres ainsi que du nombre de mots à travers le code ci dessous n'as pas été possible en raison de temps de calcul extremement long (supérieur à 12h)

In [None]:
#from sklearn.model_selection import GridSearchCV
#mots = [25,50,75,100]
#parametres = {"n_estimators":[50,75,100,125,150],"learning_rate": [0.1,0.5,1,1.5,2],"max_depth":[1, 2, 3,4,5]}
#gridcv = {}
#for i in mots: 
#    freq = freqmots[freqmots["iteration"] >= i].reset_index()
#    vectorizer.fit_transform(freq["index"])
#    tokenized = vectorizer.vocabulary_
#    X = vectorizer.transform(df1["Commentaires_reduit_4mots"]).todense()
#    X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100) 
#    gcv=GridSearchCV(estimator = clf, param_grid = parametres,cv=3)
#    gcv.fit(X_train,y_train)
#    gridcv[i]= gcv

Une approche itérative a été préféré pour voir si la variation d'un des parametres améliore les performances du model

In [46]:
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=2, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))




valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,756,56,37,60,53
2,99,23,22,64,36
3,64,25,41,135,82
4,46,10,29,231,307
5,26,8,11,105,995




0.6160794941282746


In [47]:
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=3, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,757,63,44,48,50
2,97,32,35,49,31
3,66,30,53,125,73
4,45,12,48,221,297
5,20,10,19,131,965




0.6106594399277326


La variation de la profondeur ne semble pas améliorer significativement la performance du model. Voyons ce qu'il en est pour le nombre d'estimateurs:

In [48]:
clf = GradientBoostingClassifier(n_estimators=125, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,772,34,31,52,73
2,102,19,26,44,53
3,64,14,35,129,105
4,35,9,32,210,337
5,25,5,8,102,1005




0.6145739235170129


In [49]:
clf = GradientBoostingClassifier(n_estimators=150, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,772,34,31,52,73
2,102,19,26,44,53
3,64,14,35,129,105
4,35,9,32,210,337
5,25,5,8,102,1005




0.6145739235170129


La variation des estimateurs ne semble pas non plus avoir un grand impact sur la performance du model.

Faisons à présent varier le nombres de mot utilisé dans la vectorisation des commentaires:

In [51]:
freq = freqmots[freqmots["iteration"] >= 75].reset_index()

vectorizer.fit_transform(freq["index"])
tokenized = vectorizer.vocabulary_
X = vectorizer.transform(df1["Commentaires_reduit_4mots"]).todense()

X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))




valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,770,33,25,64,70
2,100,18,25,56,45
3,64,11,45,125,102
4,37,5,27,211,343
5,29,4,10,92,1010




0.6184884071062933


In [52]:
freq = freqmots[freqmots["iteration"] >= 50].reset_index()

vectorizer.fit_transform(freq["index"])
tokenized = vectorizer.vocabulary_
X = vectorizer.transform(df1["Commentaires_reduit_4mots"]).todense()

X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,781,32,27,48,74
2,95,23,23,53,50
3,61,20,44,119,103
4,36,7,31,213,336
5,26,5,9,83,1022




0.6272207166516109


La diminution du seuil de fréquence pour la prise en compte d'un mot dans la vectorisation semble avoir un plus grand impact que les variations des parametres du model. L'impact sur le R² reste cependant faible.

#### Observations:
Notre premiere piste consistant à faire varier Les parametres du models ainsi que le nombre de mots utilisé dans la vectorisation des commentaires, n'a pas permis d'améliorer de maniere significative la modelisation.

### Optimisation : rééchantillonage

En observant les matrices de confusions de nos précédentes itérations, on note que ce sont principalement les valeurs extremes (1 - 5) qui sont le mieux attribués. Si l'on se réfere à l'analyse exploratoire des données que nous avons effectué précédemment, ces notes extremes sont sur-representées par rapport aux notes intermédiaires.

Essayons de procéder à un rééchantillonnage des données avant d'appliquer notre model.


In [27]:
from imblearn.metrics  import classification_report_imbalanced
print(classification_report_imbalanced(y_test, y_pred))

                   pre       rec       spe        f1       geo       iba       sup

          1       0.77      0.80      0.90      0.79      0.85      0.72       962
          2       0.23      0.08      0.98      0.12      0.28      0.07       244
          3       0.27      0.10      0.97      0.15      0.31      0.09       347
          4       0.40      0.34      0.88      0.37      0.55      0.29       623
          5       0.64      0.88      0.74      0.74      0.81      0.66      1145

avg / total       0.56      0.62      0.85      0.58      0.68      0.50      3321



Pour confirmer notre observation, le score f1 et la moyenne géometrique des classes non extremes montrent bien que les données sont déséquilibrés.

Commençons par effectuer un sous échantillonnage: 

In [29]:
from imblearn.under_sampling import RandomUnderSampler

ru = RandomUnderSampler()
X_ru, y_ru = ru.fit_resample(X_train,y_train)



puis appliquons notre model avec les parametres de notre premiere modélisation:

In [31]:
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_ru, y_ru)
y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,576,214,98,46,28
2,46,74,70,48,6
3,24,71,113,112,27
4,12,50,128,266,167
5,19,25,85,298,718




0.5260463715748268


Le sous echantillonnage à fortement diminué les performances de notre model. Essayons la démarche inverse avec le sur échantillonnage:

In [32]:
from imblearn.over_sampling import RandomOverSampler

ro = RandomUnderSampler()
X_ro, y_ro = ru.fit_resample(X_train,y_train)



In [33]:
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_ro, y_ro)
y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,593,210,116,25,18
2,50,77,91,19,7
3,25,69,165,53,35
4,14,64,221,132,192
5,13,51,167,158,756




0.5188196326407708


Le sur echantillonnage a aussi diminué les performances de notre model. 

#### Observations: 
Le rééchantillonnage ne semble pas être la bonne méthode pour réduire les écarts dans les prédictions entres les valeurs extremes et les valeurs intermediaires

## Modelisation 2

Dans une seconde tentative de modélisation, nous allons inclure les méta données dans l'application de notre algorithme de gradient boosting.
#### La notions de date ne sera pas pris en compte pour des raisons de facilités.


In [47]:
df2 = df[["Commentaires_reduit_4mots","client","ville","reponse","source","company"]]
#la 1ere transformation ayant donnée des données de type booléén, nous changeons le type des deux colonnes suivantes pour
#ne conserver que des données numériques 
df2["source"] = df2["source"].astype("int64")
df2["company"] = df2["company"].astype("int64")
#suppression des valeurs nan de la colonne commentaires:
df2 = df2.dropna(axis = 0, how = "all", subset =["Commentaires_reduit_4mots"])
df2.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2["source"] = df2["source"].astype("int64")
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2["company"] = df2["company"].astype("int64")


Unnamed: 0,Commentaires_reduit_4mots,client,ville,reponse,source,company
0,bonjour doit environ membre showrooprive jamai...,1,0,0,0,0
1,vente lacoste manquant photo prise articles mo...,1,0,0,0,0
2,vente lacoste honteuse erroné manquant livrais...,1,0,0,0,0
3,commandé mules marque moosefield produit étiqu...,1,0,1,0,0
4,téléphone etat livraison vieux téléphone pourr...,1,0,1,0,0


In [51]:
#vectorisation colonnes commentaires
vectorizer.fit_transform(freq_sup_100["index"])
tokenized = vectorizer.vocabulary_
Com_Matrix= vectorizer.transform(df2["Commentaires_reduit_4mots"]).todense()
Com_Matrix.shape

(16604, 540)

In [53]:
#transformation du dataframe des meta données en matrice
Meta_Matrix = df2.drop("Commentaires_reduit_4mots", axis =1).to_numpy()
Meta_Matrix.shape

(16604, 5)

In [57]:
#concatenation des matrices
X = np.concatenate([Com_Matrix,Meta_Matrix],axis=1)
X.shape

(16604, 545)

In [58]:
X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,843,23,15,50,31
2,73,26,35,84,26
3,28,25,41,185,68
4,24,5,39,305,250
5,38,3,6,128,970




0.657934357121349


L'inclusion des méta données semble améliorer la performance du model.

Combinons cette inclusion avec l'extension du nombre de mots vectorisés

In [63]:
#vectorisation des mots apparaissant plus de 50 fois dans les commentaires
freq = freqmots[freqmots["iteration"] >= 50].reset_index()
vectorizer.fit_transform(freq["index"])
tokenized = vectorizer.vocabulary_
Com_Matrix = vectorizer.transform(df1["Commentaires_reduit_4mots"]).todense()
Com_Matrix.shape

(16604, 959)

In [64]:
X = np.concatenate([Com_Matrix,Meta_Matrix],axis=1)
X.shape

(16604, 964)

In [65]:
X_train,X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 100)
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

y_pred = clf.predict(X_test)
display(pd.crosstab(y_test,y_pred, rownames =["valeurs réelle"] , colnames = ["valeurs prédites"]))
print(clf.score(X_test,y_test))



valeurs prédites,1,2,3,4,5
valeurs réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,834,28,23,46,31
2,80,19,37,84,24
3,30,23,48,182,64
4,25,13,40,293,252
5,44,3,6,119,973




0.652514302920807
