In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from time import time

In [2]:
df = pd.read_csv('datasets/SatisfactionClients/cdiscount2.csv')
df_test = pd.read_csv('datasets/SatisfactionClients/amazon_test1.csv')
df.sample(3)

Unnamed: 0,note,commentaire
9622,5,très satisfaite cdiscount recommande chaque fois
81541,5,accessible rapide efficace ras tout processus ...
28814,5,entreprise sérieuse produits bonne qualité liv...


In [3]:
df.isna().sum()

note            0
commentaire    54
dtype: int64

In [4]:
df[df['commentaire'].isna()==True]

Unnamed: 0,note,commentaire
156,5,
364,4,
473,5,
476,5,
1459,5,
2040,3,
2144,5,
2293,5,
2749,5,
2920,4,


In [5]:
df = df[df['commentaire'].isna()==False]

In [6]:
# séparation de la variable cible et des variables explicatives
X = df['commentaire']
y = df['note']

In [7]:
# séparation du jeu de données en un dataset d'entrainement et un dataset de test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True)

In [8]:
# conversion des chaines de caratères en tokens numériques
# on ne prendra que les éléments répétés au moins 3 fois avec min_df=3
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=5000, min_df=3)
X_train = vectorizer.fit_transform(X_train).todense()
X_test = vectorizer.transform(X_test).todense()

In [9]:
np.save('datasets/SatisfactionClientsvector_matrix', X_train)

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

clf = DecisionTreeClassifier(max_depth=10)

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print(clf.score(X_test, y_test), end='\n\n')

cr = classification_report(y_test, y_pred)
print(cr)

cm = pd.crosstab(y_test, y_pred, rownames=['données réelles'], colnames=['predictions'])
display(cm)

# vérification des résultats sur un jeu de test externe (100 commentaires amazon également répartis entre les étoiles)
df_test_token = vectorizer.transform(df_test['commentaire']).todense()
y_predict_test = clf.predict(df_test_token)

cm_test = pd.crosstab(df_test['note'], y_predict_test, rownames=['données réelles'], colnames=['predictions'])
display(cm_test)

cm_test = pd.crosstab(df_test['note'], y_predict_test, rownames=['données réelles'], colnames=['predictions'], normalize=0)
display(cm_test)

for i in cm_test.index:
    for j in cm_test.columns :
        if (i==j and cm_test.loc[i, j] > 0.5) :
            print("les prédictions correctes sont supérieures à 50% pour {} étoile(s) avec {} %".format(i, cm_test.loc[i, j]*100))



0.6353031738512553

              precision    recall  f1-score   support

           1       0.61      0.58      0.59      2018
           2       0.10      0.01      0.01       515
           3       0.00      0.00      0.00      1113
           4       0.28      0.02      0.04      3468
           5       0.65      0.97      0.78      9774

    accuracy                           0.64     16888
   macro avg       0.33      0.32      0.29     16888
weighted avg       0.51      0.64      0.53     16888



predictions,1,2,3,4,5
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1166,24,4,41,783
2,156,4,1,44,310
3,184,6,0,74,849
4,168,0,4,82,3214
5,240,5,1,51,9477




predictions,1,2,3,4,5
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,14,1,0,0,5
2,10,0,0,0,10
3,6,0,2,0,12
4,5,0,0,2,13
5,4,0,0,1,15


predictions,1,2,3,4,5
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0.7,0.05,0.0,0.0,0.25
2,0.5,0.0,0.0,0.0,0.5
3,0.3,0.0,0.1,0.0,0.6
4,0.25,0.0,0.0,0.1,0.65
5,0.2,0.0,0.0,0.05,0.75


les prédictions correctes sont supérieures à 50% pour 1 étoile(s) avec 70.0 %
les prédictions correctes sont supérieures à 50% pour 5 étoile(s) avec 75.0 %


In [11]:
from joblib import dump
dump(clf, 'datasets/SatisfactionClients/model_dtc.joblib')

['datasets/SatisfactionClients/model_dtc.joblib']

### Evaluation sur 2 sentiments : négatif et positif

* Le DataSet cdiscount a été retraité en renommant, les notes 1 et 2 en 0, les notes 4 et 5 en 1 et en supprimant les notes 3
* Le but étant d'isoler de manière moins complexe les sentiments négatifs et les sentiments positifs et ainsi améliorer la qualité du résultat prédit

In [12]:
df_0_1 = pd.read_csv('datasets/SatisfactionClients/cdiscount_0_1.csv')

In [13]:
df_0_1.isna().sum()

note            0
commentaire    46
dtype: int64

In [14]:
df_0_1 = df_0_1[df_0_1['commentaire'].isna()==False]

In [15]:
# séparation de la variable cible et des variables explicatives
X1 = df_0_1['commentaire']
y1 = df_0_1['note']

In [16]:
# séparation du jeu de données en un dataset d'entrainement et un dataset de test
from sklearn.model_selection import train_test_split
X_train1, X_test1, y_train1, y_test1 = train_test_split(X1, y1, test_size=0.2, shuffle=True)

In [17]:
X_train1 = vectorizer.transform(X_train1).todense()
X_test1 = vectorizer.transform(X_test1).todense()

In [18]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

clf_0_1 = DecisionTreeClassifier(max_depth=10)

clf_0_1.fit(X_train1, y_train1)

y_pred_0_1 = clf_0_1.predict(X_test1)

print(clf_0_1.score(X_test1, y_test1), end='\n\n')

cr = classification_report(y_test1, y_pred_0_1)
print(cr)

cm = pd.crosstab(y_test1, y_pred_0_1, rownames=['données réelles'], colnames=['predictions'])
display(cm)

# vérification des résultats sur un jeu de test externe (100 commentaires amazon également répartis entre les étoiles)
df_test_token = vectorizer.transform(df_test['commentaire']).todense()
y_predict_test = clf_0_1.predict(df_test_token)

cm_test = pd.crosstab(df_test['note'], y_predict_test, rownames=['données réelles'], colnames=['predictions'])
display(cm_test)

cm_test2 = pd.crosstab(df_test['note'], y_predict_test, rownames=['données réelles'], colnames=['predictions'], normalize=0)
display(cm_test2)

for i in cm_test2.index:
    for j in cm_test2.columns :
        if (i==j and cm_test2.loc[i, j] > 0.5) :
            print("les prédictions correctes sont supérieures à 50% pour {} étoile(s) avec {} %".format(i, cm_test2.loc[i, j]*100))



0.9049280142068878

              precision    recall  f1-score   support

           0       0.80      0.54      0.64      2506
           1       0.92      0.97      0.95     13261

    accuracy                           0.90     15767
   macro avg       0.86      0.76      0.79     15767
weighted avg       0.90      0.90      0.90     15767



predictions,0,1
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1350,1156
1,343,12918




predictions,0,1
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1
1,13,7
2,10,10
3,7,13
4,5,15
5,4,16


predictions,0,1
données réelles,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.65,0.35
2,0.5,0.5
3,0.35,0.65
4,0.25,0.75
5,0.2,0.8


In [19]:
from joblib import dump
dump(clf_0_1, 'datasets/SatisfactionClients/model_dtc_0_1.joblib')

['datasets/SatisfactionClients/model_dtc_0_1.joblib']