<a href="https://colab.research.google.com/github/Jojocko/NLP-projects-/blob/main/Suite_we_cbow_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd

df = pd.read_csv('/content/drive/My Drive/Datasets NLP/dataset_supplychain.csv')

Mounted at /content/drive


In [2]:
df = df.drop(['client', 'langage', 'reponse'], axis=1)
df.rename(columns={'Sentiment': 'sentiment', 'Commentaire': 'commentaire'}, inplace=True)
df['sentiment'] = df['sentiment'].replace({'__label__POSITIVE': 'positif', '__label__NEGATIVE': 'negatif', '__label__NEUTRAL': 'neutre'})
df['date'] = df['date'].fillna(method="ffill")
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['date'].dt.year # pour une visualisation de l'évolution chronologique plus claire

In [3]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')
nltk.download('punkt')

stop_words = set(stopwords.words('french'))

jugement = {'très', 'extrêmement', 'particulièrement', 'exceptionnellement','tout à fait', 'absolument', 'complètement', 'entièrement', 'parfaitement', 'profondément', 'hautement', 'tout', 'plutôt', 'assez', 'bien', 'bon','vraiment', 'totalement', 'énormément', 'peu', 'moins'}
satisfaction = {'satisfait', 'content', 'heureux', 'ravi', 'enchanté', 'comblé', 'agréable', 'plaisant', 'positif', 'excellent', 'remarquable', 'exceptionnel', 'superbe', 'admirable', 'réjoui', 'gratifiant', 'récompensant', 'conquis', 'impressionné', 'élogieux'}
insatisfaction = {'insatisfait', 'mécontent', 'déçu', 'frustré', 'contrarié', 'désappointé', 'inacceptable', 'problématique', 'inadmissible', 'déplorable', 'lamentable', 'irrité', 'en colère', 'révolté', 'amère', 'négatif', 'critique', 'malheureux', 'peu convaincu', 'regrettable'}
company = {'Fnac', 'fnac', 'Amazon', 'amazon', 'CDiscount', 'cdiscount'}

stop_words.update(jugement, satisfaction, insatisfaction, company)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [4]:
# Traitement des données pour clustering des commentaires négatifs

import re
import unicodedata
from nltk.tokenize import word_tokenize

def unicode_to_ascii(s):
    return ''.join(c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn')

def preprocess_sentence(w):
    w = unicode_to_ascii(w.lower().strip())
    w = re.sub(r"([?.!,¿])", r" \1 ", w)
    w = re.sub(r'[" "]+', " ", w)
    w = re.sub(r"[^a-zA-Z?.!]+", " ", w)
    w = re.sub(r'\b\w{0,2}\b', '', w)

    mots = word_tokenize(w.strip())
    mots = [mot for mot in mots if mot not in stop_words]
    return ' '.join(mots).strip()

df.cleaned_lemma = df.cleaned_lemma.apply(lambda x :preprocess_sentence(x))

In [5]:
# Création de l'ensemble de données pour archtecture CBOW

# Tokenizer
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(df.cleaned_lemma)

word2idx = tokenizer.word_index
idx2word = tokenizer.index_word
vocab_size = tokenizer.num_words

# Ensemble de données
import numpy as np

def contexttoword(tokens, WINDOW_SIZE):
    context_size = WINDOW_SIZE // 2
    window = np.concatenate((np.arange(-context_size, 0), np.arange(1, context_size + 1)))
    X, Y = [], []
    for word_index, word in enumerate(tokens):
        if (word_index - context_size >= 0) and (word_index + context_size < len(tokens)):
            context = [tokens[word_index + offset] for offset in window]
            target = word
            X.append(context)
            Y.append(target)
    return X, Y

WINDOW_SIZE = 5

X, Y = [], []
for review in df['cleaned_lemma'][df['sentiment'] == 'negatif']:
    sentences = review.split(".")
    for sentence in sentences:
        word_list = tokenizer.texts_to_sequences([sentence.strip()])[0]
        if len(word_list) >= WINDOW_SIZE:
            X_temp, Y_temp = contexttoword(word_list, WINDOW_SIZE)
            X.extend(X_temp)
            Y.extend(Y_temp)

X = np.array(X).astype(int)
Y = np.array(Y).reshape(-1, 1)

from tensorflow.keras.preprocessing.sequence import pad_sequences

X = pad_sequences(X, padding='post')

print('Shape of X:', X.shape)
print('Shape of Y:', Y.shape)


Shape of X: (764323, 4)
Shape of Y: (764323, 1)


In [6]:
# Entraînement du modèle d'embedding

from tensorflow.keras import Sequential
from tensorflow.keras.layers import Embedding, Dense, GlobalAveragePooling1D, Dropout, GRU
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam


vocab_size = min(len(word2idx) + 1, tokenizer.num_words + 1)
embedding_dim = 512
optimizer = Adam(learning_rate=0.001)

model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim))
model.add(GRU(units=128, return_sequences=False))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(vocab_size, activation='softmax'))

model.summary()
model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])


Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 512)         5120512   
                                                                 
 gru (GRU)                   (None, 128)               246528    
                                                                 
 dense (Dense)               (None, 256)               33024     
                                                                 
 dropout (Dropout)           (None, 256)               0         
                                                                 
 dense_1 (Dense)             (None, 10001)             2570257   
                                                                 
Total params: 7970321 (30.40 MB)
Trainable params: 7970321 (30.40 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [7]:
# Chargement du du CBOW

model.load_weights('/content/drive/My Drive/weights.h5')
# early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)
# model.fit(X, Y, epochs=20, batch_size=512, callbacks=[early_stopping], validation_split=0.1)

In [8]:
# Création de clusters bi-grammes

import numpy as np
from nltk import ngrams
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.preprocessing.text import text_to_word_sequence

negative_comments = df[df['sentiment'] == 'negatif']['cleaned_lemma']

# Extraction des embeddings
embeddings = model.layers[0].get_weights()[0]

# Création des bigrammes
n = 2
n_gram_list = []
for comment in negative_comments:
    words = text_to_word_sequence(comment) # tokenization
    n_grams = list(ngrams(words, n))
    n_gram_list.extend(n_grams)

# Représentation vectorielle pour chaque bigramme
n_gram_vectors = []
for n_gram in n_gram_list:
    indices = [tokenizer.word_index.get(word, 0) for word in n_gram]
    # Checker si les indices sont valides (< vocab_size)
    if all(idx < vocab_size for idx in indices):
        word_vectors = embeddings[indices]
        n_gram_vector = np.mean(word_vectors, axis=0)
        n_gram_vectors.append(n_gram_vector)

# Standardisation des vecteurs de bigrammes
scaler = StandardScaler()
n_gram_vectors_scaled = scaler.fit_transform(n_gram_vectors)


In [9]:
# PCA

from sklearn.decomposition import PCA

pca = PCA(n_components=0.95)
n_gram_vectors_pca = pca.fit_transform(n_gram_vectors_scaled)

# Clustering avec KMeans sur les données réduites
k = 8
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(n_gram_vectors_pca)

clusters = kmeans.labels_ # pour visualisation par entreprise plus tard

cluster_n_grams = {i: [] for i in range(k)}
for i, label in enumerate(clusters):
    n_gram = n_gram_list[i]
    cluster_n_grams[label].append(" ".join(n_gram))

for cluster, n_grams in cluster_n_grams.items():
    print(f"Cluster {cluster}:")
    for n_gram in n_grams[:15]:
        print(n_gram)
    print("\n---\n")



Cluster 0:
mars produit
produit non
prix colis
colis incapable
chronopost pareilservic
veule patient
balle amazonamazon
retouramazon fuir
fuir dernier
raccrocher appel
dire signer
signer soin
gros objet
vendeur conforme
legislation francaise

---

Cluster 1:
attendre colis
politique pire
pire contrairement
rendre jour
saturer droite
droite faible
ecrire renvoyer
renvoyer disque
disque dur
dur reparable
repondre relance
relance reponse
pouvoir rien
client discussion
discussion ligne

---

Cluster 2:
version jour
jour retouramazon
voler dernier
dernier commande
marche tete
mauvais experience
retrouver rue
rue retrouver
version telechargement
telechargement livre
frauduleux service
service client
commander tube
transporteur chronopost
chronopost resoudre

---

Cluster 3:
methode voleur
voleur voyou
telephone incompetent
incompetent version
recevoir service
service client
faible rapport
conforme legislation
impossible service
service client
magnifique plomber
plomber incroyable
aider march

In [13]:

cluster_names = {
    0: "Problèmes de conformité",
    1: "Qualité défectueuse et retours",
    2: "Déception du service de livraison",
    3: "Critiques sévères du service client",
    4: "Délais et difficultés de communication",
    5: "Déception et remboursements",
    6: "Problèmes de suivi de commande",
    7: "Difficultés de l'expérience d'achat"
}

In [None]:
# Score de silhouette

# Calcul long d'où échantillonnage des données

from sklearn.metrics import silhouette_score

score = silhouette_score(n_gram_vectors_pca, kmeans.labels_, sample_size=50000)
print(f"Score de silhouette: {score}")


Score de silhouette (limité): 0.02242829462556348


In [14]:
# Test des clusters formés avec phrases de référence

ref_df = pd.read_csv('/content/drive/My Drive/Datasets NLP/ecommerce_plaintes.csv')

reference_sentences = ref_df['commentaire'].tolist()

# Prétraitement des phrases
ref_n_gram_vectors = []

for sentence in reference_sentences:
    words = text_to_word_sequence(sentence)
    n_grams = list(ngrams(words, n))  # formation de bigrammes pour les comparer aux clusters de bigrammes
    sentence_vectors = []
    for n_gram in n_grams:
        indices = [tokenizer.word_index.get(word, 0) for word in n_gram]
        if all(idx < vocab_size for idx in indices):
            word_vectors = embeddings[indices]
            n_gram_vector = np.mean(word_vectors, axis=0)
            sentence_vectors.append(n_gram_vector)

    if sentence_vectors:
        ref_n_gram_vectors.append(np.mean(sentence_vectors, axis=0))

ref_n_gram_vectors = np.array(ref_n_gram_vectors)


In [15]:
# Même PCA que pour les données d'entraînement

ref_n_gram_vectors_pca = pca.transform(ref_n_gram_vectors)

In [16]:
# 1ère méthode: Comparer les clusters attribués au jeu de test
new_clusters = kmeans.predict(ref_n_gram_vectors_pca)

for i, cluster_num in enumerate(new_clusters):
    phrase = reference_sentences[i]
    cluster_desc = cluster_names.get(cluster_num, f"Cluster {cluster_num}")
    print(f"Phrase: '{phrase}'\nAttribuée au: {cluster_desc}\n")

Phrase: 'J'ai attendu plus d'un mois pour recevoir ma commande, c'est inacceptable.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'Le suivi de mon colis indique qu'il a été livré, mais je n'ai rien reçu.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'Ma commande est restée en statut 'expédiée' pendant trois semaines.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'La livraison était prévue pour hier, mais je n'ai toujours pas mon colis.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'Le délai de livraison promis n'a pas été respecté, je suis très déçu.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'Mon article est arrivé cassé, comment cela a-t-il pu arriver?'
Attribuée au: Problèmes de suivi de commande

Phrase: 'Le produit reçu est endommagé, je demande un remboursement immédiat.'
Attribuée au: Problèmes de suivi de commande

Phrase: 'J'ai reçu ma commande, mais l'article est rayé et semble utilisé.'
Attribuée au: Problèmes de suivi de comma

In [17]:
# 2e méthode: Calcul de similarité entre jeu de d'entraînement et de test

from sklearn.metrics.pairwise import cosine_similarity

similarities = cosine_similarity(ref_n_gram_vectors_pca, kmeans.cluster_centers_)

closest_clusters = np.argmax(similarities, axis=1)

for i, cluster_num in enumerate(closest_clusters):
    print(f"\nPhrase '{reference_sentences[i]}' est la plus proche de la problématique '{cluster_names[cluster_num]}'\n")




Phrase 'J'ai attendu plus d'un mois pour recevoir ma commande, c'est inacceptable.' est la plus proche de la problématique 'Déception du service de livraison'


Phrase 'Le suivi de mon colis indique qu'il a été livré, mais je n'ai rien reçu.' est la plus proche de la problématique 'Problèmes de conformité'


Phrase 'Ma commande est restée en statut 'expédiée' pendant trois semaines.' est la plus proche de la problématique 'Problèmes de conformité'


Phrase 'La livraison était prévue pour hier, mais je n'ai toujours pas mon colis.' est la plus proche de la problématique 'Problèmes de conformité'


Phrase 'Le délai de livraison promis n'a pas été respecté, je suis très déçu.' est la plus proche de la problématique 'Problèmes de conformité'


Phrase 'Mon article est arrivé cassé, comment cela a-t-il pu arriver?' est la plus proche de la problématique 'Problèmes de conformité'


Phrase 'Le produit reçu est endommagé, je demande un remboursement immédiat.' est la plus proche de la probléma

In [18]:
# Préparation des vecteurs de commentaires pour l'affichage des clusters par entreprise

valid_indices = []
comment_vectors = []

# Génération des vecteurs de commentaires
for i, comment in enumerate(df['cleaned_lemma'][df['sentiment'] == 'negatif']):
    words = text_to_word_sequence(comment)  # Tokenisation
    word_indices = [tokenizer.word_index.get(word, -1) for word in words]
    valid_word_indices = [idx for idx in word_indices if 0 <= idx < len(embeddings)]
    if valid_word_indices:
        comment_vector = np.mean([embeddings[idx] for idx in valid_word_indices], axis=0)
        comment_vectors.append(comment_vector)
        valid_indices.append(i)  # Correctly storing index of the comment that contributes to comment_vectors

comment_vectors = np.array(comment_vectors)

scaler = StandardScaler()
comment_vectors_scaled = scaler.fit_transform(comment_vectors)



In [19]:
# Association des clusters aux commentaires
clusters = kmeans.fit_predict(comment_vectors_scaled)

# Création d'un nouvea dataframe contenant uniquement les commentaires négatifs
df_negatif_valid = df[df['sentiment'] == 'negatif'].iloc[valid_indices].copy()
df_negatif_valid['cluster'] = clusters

df_negatif_valid['cluster'] = df_negatif_valid['cluster'].replace(cluster_names)



In [20]:
# Analyse des clusters par entreprise
cluster_company_distribution = df_negatif_valid.groupby(['cluster', 'company']).size().unstack(fill_value=0)
print(cluster_company_distribution)


company                                 Amazon  CDiscount  Fnac
cluster                                                        
Critiques sévères du service client       1079        846   237
Difficultés de l'expérience d'achat        260        890   233
Déception du service de livraison          742       1600   500
Déception et remboursements               3017       9177  3146
Délais et difficultés de communication     225        770    85
Problèmes de conformité                    267       1211   279
Problèmes de suivi de commande              27        674    12
Qualité défectueuse et retours             534       1513   413
