In [1]:
##https://medium.com/analytics-vidhya/predicting-the-ratings-of-reviews-of-a-hotel-using-machine-learning-bd756e6a9b9b

Prédiction de l'évaluation d'un hôtel à partir d'une critique :

Étant donné le jeu de données fourni dans le fichier csv ci-joint, l'objectif est de prédire la colonne 'Rating' en utilisant la colonne 'Review'. La tâche peut être définie comme une régression ou une classification. Les élèves doivent résoudre le problème dans les deux cas : régression et classification. Les étudiants peuvent utiliser la classe scikit-learn CountVectorizer pour transformer les évaluations en vecteurs.

Il est recommandé aux élèves de mettre en œuvre deux modèles, une solution d'apprentissage profond basée sur des réseaux neuronaux multicouches, et une autre basée sur l'apprentissage automatique classique (forêt aléatoire ou SVM). Et de comparer les performances des différents modèles.

Les étudiants doivent également évaluer correctement leurs modèles par le biais d'une validation croisée aléatoire à cinq volets.

Outre la mise en œuvre de solutions permettant de résoudre les tâches, toute analyse supplémentaire peut apporter des points supplémentaires à la note finale. Par exemple, en donnant un aperçu des raisons pour lesquelles les modèles font les prédictions qu'ils font. L'étudiant peut par exemple afficher sous forme de nuage de mots les mots qui déclenchent des évaluations élevées et ceux qui déclenchent des évaluations faibles.

Les étudiants ont 10 jours pour travailler sur leur projet et livrer leurs solutions dans un carnet de notes Jupyter que le professeur peut relire. La date limite de livraison est le 27 avril 2022.


# Methode 1 : SVM NLP


# Import Data

In [2]:
import pandas as pd

In [3]:
data=pd.read_csv("tripadvisor_hotel_reviews.csv", sep=',', encoding='latin-1')

In [4]:
data.head(10)

Unnamed: 0,Review,Rating
0,nice hotel expensive parking got good deal sta...,4
1,ok nothing special charge diamond member hilto...,2
2,nice rooms not 4* experience hotel monaco seat...,3
3,"unique, great stay, wonderful time hotel monac...",5
4,"great stay great stay, went seahawk game aweso...",5
5,love monaco staff husband stayed hotel crazy w...,5
6,"cozy stay rainy city, husband spent 7 nights m...",5
7,"excellent staff, housekeeping quality hotel ch...",4
8,"hotel stayed hotel monaco cruise, rooms genero...",5
9,excellent stayed hotel monaco past w/e delight...,5


In [5]:
data.shape

(20491, 2)

In [6]:
data['Rating'].value_counts()

5    9054
4    6039
3    2184
2    1793
1    1421
Name: Rating, dtype: int64

In [7]:
print(len(data))

20491


In [8]:
X=data['Review']
Y=data['Rating']

In [9]:
##

# Split Training and test set

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
def split (y = "Y", x= "X"):

    x_train, x_test, y_train, y_test = train_test_split(X,Y, test_size = 0.2)
    
    return {'x_train' : x_train, 'x_test' : x_test, 'y_train' : y_train, 'y_test' : y_test}

In [12]:
Data_split=split()
x_train=Data_split["x_train"]
x_test=Data_split["x_test"]

y_train=Data_split["y_train"]
y_test=Data_split["y_test"]

In [13]:
print("x_train", x_train.shape)
print("x_test", x_test.shape)
print("y_train", y_train.shape)
print("y_test", y_test.shape)

x_train (16392,)
x_test (4099,)
y_train (16392,)
y_test (4099,)


In [33]:
Vector = CountVectorizer()
vector_x_train = Vector.fit_transform(x_train)
vector_x_test = Vector.transform(x_test)



In [15]:
vector_x_test

<4099x47072 sparse matrix of type '<class 'numpy.int64'>'
	with 329411 stored elements in Compressed Sparse Row format>

In [16]:
vector_x_train

<16392x47072 sparse matrix of type '<class 'numpy.int64'>'
	with 1371401 stored elements in Compressed Sparse Row format>

# Classification Model

In [17]:
from sklearn import svm

In [18]:
clf_svm=svm.SVC(kernel = "linear")
clf_svm.fit(vector_x_train,y_train)

SVC(kernel='linear')

# Metrics Method 1

In [19]:
clf_svm.score(vector_x_test,y_test)

0.5584288850939253

In [59]:
clf_svm

SVC(kernel='linear')

# Test the model

In [20]:
from sklearn.metrics import f1_score
f1_score(y_test,clf_svm.predict(vector_x_test),average = None )

array([0.67323481, 0.35400908, 0.31277533, 0.44707875, 0.70913067])

In [73]:
comments_neg=["The stay at the hotel was really detestable, I do not recommend it!"]
comments_pos=["A great hotel! I recommend it."]
comments_neutre=["It's ok, it could be better"]

In [74]:
comments_neg=Vector.transform(comments_neg)
clf_svm.predict(comments_neg)

array([1], dtype=int64)

In [75]:
comments_pos=Vector.transform(comments_pos)
clf_svm.predict(comments_pos)

array([5], dtype=int64)

In [76]:
comments_neutre=Vector.transform(comments_neutre)
clf_svm.predict(comments_neutre)

array([3], dtype=int64)

## Method 2 MLP

In [None]:
##https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

In [26]:
from sklearn.neural_network import MLPClassifier

In [39]:
mlp = MLPClassifier(max_iter=100, learning_rate = 'constant', learning_rate_init = 0.01,  activation='relu')
mlp

MLPClassifier(learning_rate_init=0.01, max_iter=100)

In [40]:
mlp.fit(vector_x_train,y_train)

MLPClassifier(learning_rate_init=0.01, max_iter=100)

In [69]:
pred = mlp.predict(vector_x_test)
pred

array([5, 1, 4, ..., 4, 5, 1], dtype=int64)

In [62]:
vector_x_test

<4099x47072 sparse matrix of type '<class 'numpy.int64'>'
	with 329411 stored elements in Compressed Sparse Row format>

# Test Method 2

In [68]:
pred_neg = mlp.predict(comments_neg)
pred_neg

array([1], dtype=int64)

In [77]:
pred_pos = mlp.predict(comments_pos)
pred_pos

array([5], dtype=int64)

In [81]:
pred_pos = mlp.predict(comments_pos)
pred_pos

array([5], dtype=int64)

In [82]:
pred_neutral = mlp.predict(comments_neutre)
pred_neutral

array([3], dtype=int64)

In [63]:
comments_neg

<1x47072 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

# Metric Method 2

In [60]:
from sklearn.metrics import classification_report,confusion_matrix

confusion_matrix(y_test,pred)

array([[ 196,   63,   15,   10,    4],
       [  65,  128,   70,   31,   21],
       [  10,   85,  138,  146,   33],
       [   4,   26,  132,  565,  506],
       [   4,    8,   34,  392, 1413]], dtype=int64)

In [61]:
print(classification_report(y_test,pred))

              precision    recall  f1-score   support

           1       0.70      0.68      0.69       288
           2       0.41      0.41      0.41       315
           3       0.35      0.33      0.34       412
           4       0.49      0.46      0.48      1233
           5       0.71      0.76      0.74      1851

    accuracy                           0.60      4099
   macro avg       0.54      0.53      0.53      4099
weighted avg       0.59      0.60      0.59      4099



# Word Cloud

In [25]:

from nltk.corpus import stopwords
from wordcloud import WordCloud,STOPWORDS
from tensorflow.keras.utils import to_categorical
import matplotlib.pyplot as plt
import string

ModuleNotFoundError: No module named 'wordcloud'

In [None]:
!pip install wordcloud

In [None]:
def wordCloud_generator(data, title=None):
    wordcloud = WordCloud(width = 800, height = 800,
                          background_color ='black',
                          min_font_size = 10
                         ).generate(" ".join(data.values))                      
    plt.figure(figsize = (8, 8), facecolor = None) 
    plt.imshow(wordcloud, interpolation='bilinear') 
    plt.axis("off") 
    plt.tight_layout(pad = 0) 
    plt.title(title,fontsize=30)
    plt.show()
wordCloud_generator(data['Review'], title="Top words in reviews")

# Method 2 Réseau de neurones