In [None]:
#############################################################------MODELISATION DEEP LEARNING-----####################################################################################################
#                                                                    
#                                                       Modelisation de réseau de neurones récurrents (RNN) pour la prédiction de la note client
#                                                        avec une couche de LSTM (Long Short Term Memory) et une couche de Embedding
#                                                               
#                                                              
#############################################################################################################################################################################################



################################################ - IMPORTATION des bibliotheques - ##################################################



import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, LSTM, SpatialDropout1D
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer

################################################## - RECUPERATION de la base projet csv - ##################################

df = pd.read_csv(r'C:\Users\User\Desktop\Charlotte\DATASCIENTEST\Projet\derniere_base.csv', sep=';')


# Prétraitement des données
X = df['Commentaire']
y = df['Note_client']

# Encodage des labels
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Tokenisation
max_words = 1000
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Padding des séquences
max_len = 10  # Longueur maximale des séquences
X_train_pad = pad_sequences(X_train_seq, maxlen=max_len)
X_test_pad = pad_sequences(X_test_seq, maxlen=max_len)

# Création du modèle
model = Sequential()
model.add(Embedding(input_dim=max_words, output_dim=128, input_length=max_len))
model.add(SpatialDropout1D(0.2))
model.add(LSTM(100))
model.add(Dense(5, activation='softmax'))  # 5 classes pour les notes de 1 à 5
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train_pad, y_train, epochs=5, batch_size=2, verbose=1)

# Évaluation du modèle
loss, accuracy = model.evaluate(X_test_pad, y_test, verbose=1)
print(f'Loss: {loss}, Accuracy: {accuracy}')

# Prédiction sur de nouvelles données
new_texts = ['Ce produit est incroyable', 'Je ne suis pas satisfait du tout']
new_texts_seq = tokenizer.texts_to_sequences(new_texts)
new_texts_pad = pad_sequences(new_texts_seq, maxlen=max_len)
predictions = model.predict(new_texts_pad)
predicted_ratings = np.argmax(predictions, axis=1) + 1  # Ajouter 1 car les indices commencent à 0
print(predicted_ratings)

Epoch 1/5




[1m13425/13425[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m99s[0m 7ms/step - accuracy: 0.7477 - loss: 0.7405
Epoch 2/5
[1m13425/13425[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m102s[0m 8ms/step - accuracy: 0.7812 - loss: 0.6223
Epoch 3/5
[1m13425/13425[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m122s[0m 9ms/step - accuracy: 0.7937 - loss: 0.5821
Epoch 4/5
[1m13425/13425[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m118s[0m 9ms/step - accuracy: 0.8024 - loss: 0.5517
Epoch 5/5
[1m13425/13425[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m119s[0m 9ms/step - accuracy: 0.8181 - loss: 0.5155
[1m210/210[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.7662 - loss: 0.6778
Loss: 0.6886008977890015, Accuracy: 0.7629971504211426
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 300ms/step
[5 1]
