Membres de l'équipe: Josue ABOU MAWUFEMO , Kawtar MOULAHID, Abderrahmane BAROUALI

<h1>Sentiment analysis</h1>
<ol>
<h3><li>Définition du Sujet et Objectif</h3></li>
<b>Sentiment analysis ?</b><br>
<p>Aussi connue sous le nom de <strong><i>« Opinion Mining »</i></strong>, <strong>l’analyse des sentiments</strong> consiste à identifier les informations subjectives d’un texte pour <strong>extraire l’opinion de l’auteur</strong>. <br>
De manière générale, <strong>l’analyse des sentiments</strong> permet de mesurer le niveau de satisfaction des clients vis-à-vis des produits ou services fournis par une entreprise ou un organisme. Elle peut même s’avérer <strong>bien plus efficace que des méthodes classiques</strong> comme les sondages puisque <strong>de nos jours, une partie croissante des consommateurs partage fréquemment leurs opinions sur les réseaux sociaux</strong>. </p>

<p><i><strong>Objectif du Projet:</strong></i> Notre but est donc de mettre en place un modèle permettant de classifier les différents avis des clients d’un hôtel en deux classes qui sont : Avis positifs et avis négatifs.<br>
Cette classification permettra au personnel de l’hôtel de pouvoir identifier les principales plaintes (Texte négatifs) afin d’améliorer leurs services et réduire le niveau d’insatisfaction des clients.<br></p>

<h3><li>Constitution de la dataset</h3></li>
<p>Avant d’entamer le travail proprement dit, nous allons d’abord décrire brièvement notre dataset.<br>
Nous avons utilisé une dataset téléchargeable sur Kaggle via le lien suivant : 
<a href="https://www.kaggle.com/andrewmvd/trip-advisor-hotel-reviews">https://www.kaggle.com/andrewmvd/trip-advisor-hotel-reviews</a><br></p>


<p>Aperçu de la dataset</p>

In [14]:
import pandas as pd
df = pd.read_csv('data.csv')

df.to_csv('data.csv', index=False)  

df.isna().sum()
df.head()

Review    0
Rating    0
dtype: int64

En affichant le résumé de la dataset, on voit qu’elle contient environ 20 000 lignes et deux colonnes : <br>
<ul>
    <li>Une colonne Review : qui n’est autre qu’un paragraphe contenant le commentaire de l’utilisateur</li>
    <li>Une colonne Rating : qui précise s’il s’agit d’un avis positif ou pas. Notre objectif principal est de <b>détecter les avis négatifs</b> donc la <b>classe positive(1)</b>correspond aux avis négatifs et la <b>classe négative(0)</b> correspond aux avis positifs.</li>
</ul>

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20491 entries, 0 to 20490
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Review  20491 non-null  object
 1   Rating  20491 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 320.3+ KB


<p>En affichant les quantités de données pour chaque catégorie, on s’aperçoit que la dataset est disproportionnée. Elle contient plus d’avis positifs (environ 17000) que d’avis négatifs (environ 3000). Cette différence pourra sans doute influencer le modèle lors de l’entrainement. Ce dernier risque donc d’overfitter sur les avis positifs.</p>

In [3]:
df.Rating.value_counts()

1    17277
0     3214
Name: Rating, dtype: int64

Pour remédier à cela, il existe plusieurs possibilités :
<ul>
    <li><b>Sous-échantillonnage de la classe majoritaire</b> qui consiste à réduire le nombre d'échantillons de la classe majoritaire en sélectionnant au hasard un sous-ensemble de données de cette classe à utiliser pour l'entrainement.</li>
    <br>
    <li><b>Suréchantillonnage de la classe minoritaire </b>qui consiste à augmenter le nombre de données de la classe minoritaire dans l'ensemble de données d'apprentissage.</li>
     <br>
    <li>Faire du <b>webscraping</b> afin d’augmenter le nombre d’avis négatifs.</li>

</ul>


L'un des principaux inconvénients du <b>sous-échantillonnage</b> est que des données ou des informations utiles peuvent être perdues. De plus dans notre cas, on obtiendra en tout environ 6000 lignes de données, ce qui n’est pas vraiment approprié pour un problème de NLP.<br><br>
Le principal inconvénient du <b>suréchantillonnage </b> est qu'elle peut entraîner un overfitting. <br><br>
Nous allons donc opter pour la troisième solution qui est celle du <b>webscraping</b>.<br><br>
Nous avons scrapper le site <a href="https://www.tripadvisor.com">www.tripadvisor.com</a>. Les détails du webscraping se trouve dans le notebook <a href="webscraping_NoteBook.ipynb"> webscraping_NoteBook.ipynb</a>. <br><br>
Grâce au webscraping on a pu obtenir environ 5500 lignes avis négatifs. La dataset contient désormais 25000 données. Cette fois ci, en faisant un sous-échantillonnage, on obtient 17000 données en tout (8500 pour chaque catégorie)<br>


In [17]:
import pandas as pd

df = pd.read_csv('all_reviews_final.csv')

df = df.sample(n=8500)
print(df.info())

scraped_df = pd.read_csv('scraped_data.csv')
scraped_df = scraped_df.drop(columns='Target')
scraped_df = scraped_df.sample(n=8500, replace=True)
print(scraped_df.info())
df = df.append(scraped_df)

print(df.Rating.value_counts())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8500 entries, 6280 to 6957
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Review  8500 non-null   object
 1   Rating  8500 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 199.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
Int64Index: 8500 entries, 587 to 4485
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Review  8500 non-null   object
 1   Rating  8500 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 199.2+ KB
None
0    7146
1    5583
2    4271
Name: Rating, dtype: int64


Une fois que cela est fait, Notre dataset est constitué et on peut enchainer avec les étapes suivantes.


<ol start="3">
<h3><li>Plan de travail</h3></li>
Comme on peut s’en douter, Il s’agit ici d’un problème de Natural Language Processing (NLP) ou Traitement automatique du langage naturel.<br>
Et comme pour tout problème de NLP, Notre travail se compose principalement de deux parties :

<ul>
    <li>La partie <b>« linguistique »</b>, qui consiste à prétraiter et transformer les informations en entrée en un jeu de données exploitable.</li>
    <li>La partie <b>« apprentissage automatique »</b>, qui porte sur l’application de modèles <b><i>de Machine Learning</i></b> à ce jeu de données.</li><br>
</ul>
Dans la suite du rapport, Nous allons aborder ces deux aspects, en décrivant brièvement les <b>principales méthodes utilisées </b>et en précisant les principaux défis auxquels nous avons fait face.
</ol>
<ol type="A">
<h3><li>Partie linguistique : Du texte à la donnée</li></h3>
<p>Avant toute chose, il est important de s'assurer que notre dataset ne contient pas de données manquantes</p>
<p>Parmi les principales étapes de cette partie, on retrouve :</p>
<ol type="a">
<li>Nettoyage : cette phase consiste à réaliser des tâches telles que la <b><i>suppression d’urls, d’emoji, suppression de  ponctuation, de symboles et de stopwords, passage en minuscule</i><b>.</li>
</ol>
</ol>


Ci-dessous les fonctions permettant de faire le nettoyage.

Pour que le code ci-dessous s'exectue correctement, if faut tout d'abord installer la bibliothèque nltk avec la commande <i> piip install nltk </i>. <br> Ensuite, il faute lancer le CLI de python et excetuer les commandes suivantes afin de télécharger le package <i>stopwords</i><br>
>>>import nltk <br>
>>>nltk.download('stopwords')

In [4]:
import nltk 
import re
import string
from nltk.corpus import stopwords

def remove_URL (text):
    url = re.compile(r"https?://\s+ www\.\s+")
    return url.sub(r"", text)


def remove_html(text):
    html = re.compile(r"<.*?>")
    return html.sub(r"", text)
         

def remove_emoji(string):
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F" # emoticons
        u"\U0001F300-\U0001F5FF" # symbols & pictographs
        u"\U0001F680-\U0001F6FF" # transport & map symbols
        u"\U0001F1E0-\U0001F1FF" # flags (i0s)
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        "]+",
        flags=re.UNICODE,
    )
    return emoji_pattern.sub(r"", string)


def remove_punct (text):
    table = str.maketrans ("","",string.punctuation)
    return text.translate(table)

stop = set (stopwords.words ( "english"))
def remove_stopwords (text):
    text = [word.lower () for word in text.split() if word.lower() not in stop]
    return " ".join (text)

<p>On regroupe toutes ses fonctions en une seule appelée <i>nettoyerDataframe</i></p>

In [5]:
def nettoyerDataframe(df):
    Review_cleaned = df.Review.map(lambda x: remove_URL(x))
    Review_cleaned = Review_cleaned.map(lambda x: remove_html(x))
    Review_cleaned = Review_cleaned.map(lambda x: remove_emoji(x))
    Review_cleaned = Review_cleaned.map(lambda x: remove_punct(x)) 
    Review_cleaned = Review_cleaned.map(remove_stopwords)   
    df.insert(1, "Review_cleaned", Review_cleaned)
    return df

Ensuite on applique cette fonction pour nettoyer la colonne « Review » et on stocke le résultat dans la colonne <i>« Review_cleaned »</i>


In [6]:
df = nettoyerDataframe(df)

df.head()

Unnamed: 0,Review,Review_cleaned,Rating
0,nice hotel expensive parking got good deal sta...,nice hotel expensive parking got good deal sta...,1
1,ok nothing special charge diamond member hilto...,ok nothing special charge diamond member hilto...,0
2,nice rooms not 4* experience hotel monaco seat...,nice rooms 4 experience hotel monaco seattle g...,1
3,"unique, great stay, wonderful time hotel monac...",unique great stay wonderful time hotel monaco ...,1
4,"great stay great stay, went seahawk game aweso...",great stay great stay went seahawk game awesom...,1


<ol type="a" start="2">
<li>Normalisation des données :</li>
<br>
<b><i>Tokenisation</i></b>, ou découpage du texte en plusieurs pièces appelés tokens.<br><br>
Pour cela, nous utiliserons la méthode des N-grammes.
<br><br>
Les N-grammes sont simplement toutes les combinaisons de mots ou de lettres adjacents de longueur n que nous pouvons trouver dans notre texte source. Les ngrammes avec n=1 sont appelés <i>unigrammes</i>. De même, <i>les bigrammes</i>(n=2), les trigrammes (n=3) et ainsi de suite peuvent également être utilisés.
<br><br>
Les unigrammes ne contiennent généralement pas beaucoup d'informations par rapport aux bigrammes et aux trigrammes. Le principe de base derrière les n-grammes est qu'ils capturent la lettre ou le mot susceptible de suivre le mot donné. Plus le n-gramme est long (n élevé), plus vous devez travailler avec du contexte.
<br><br>
Dans le cas de notre projet, Nous utiliserons les <b><i>unigrammes</i></b> puisque :
<ul>
<li>L’utilisation des N-grammes avec N>=2 conduit à une Memory Error (Mémoire RAM insuffisante).</li>
</ul>
<br><br>
<li> Ensuite, Afin de pouvoir appliquer les méthodes de <i>Machine Learning</i> aux problèmes relatifs au langage naturel, il est indispensable de <i>transformer les données textuelles en données numériques</i>.<br><br>Pour se faire, Il existe plusieurs approches. L’une d’entre elles que nous utiliserons dans ce projet est celle du TF-IDF (<i>Term Frequency-Inverse Document Frequency</i>). Cette méthode consiste <b>à compter le nombre d’occurrences des tokens</b> présents dans le corpus pour chaque texte, que l’on divise ensuite par le nombre d’occurrences total de ces même tokens dans tout le corpus.</li>
</ol>

Le TfidfVectorizer de la bibiliothèque sklearn.features_extraction.text de python, permet à la fois de faire la tokénization et la conversion en tfidf.<br><br>On applique le TfidfVectorizer à la colonne Review_cleaned et on stocke le résultat dans la variable X qui servira plutard pour l'entrainement des modeles.
<br><br>On affiche les valeurs non-nulles du vecteur <i>tfidf</i> obtenu pour la première ligne juste pour voir à quoi ressemblent les coefficients tfidf.

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(ngram_range=(1,1))

X = tfidf_vectorizer.fit_transform(df.Review_cleaned)

[ x for x in X.todense()[0][0:].tolist()[0] if x != 0] 

[0.12516507352450354,
 0.12854579457638562,
 0.11775813274013383,
 0.12602235717202692,
 0.07786526970232352,
 0.16404737731101304,
 0.23031114957113805,
 0.09930925839995854,
 0.06651952684158213,
 0.07965869454752911,
 0.04907235708021071,
 0.1557795892042132,
 0.06614277308084597,
 0.09356817535887117,
 0.09660179895521877,
 0.0871468693621952,
 0.11265217616460706,
 0.08363817299133694,
 0.08865468616957857,
 0.08665417795251242,
 0.0753275779580791,
 0.20315799405977988,
 0.04430043774460584,
 0.06410798187805813,
 0.04004543961652257,
 0.1390140231826502,
 0.10237811979496021,
 0.10717087033106484,
 0.08940321598726708,
 0.06068453359758819,
 0.09146981197468122,
 0.05800958965151562,
 0.0627170408205551,
 0.04745886062572005,
 0.12157677423873968,
 0.11519050646733472,
 0.10559482305524727,
 0.07588535116791896,
 0.1077887991980295,
 0.1852158314355085,
 0.16438829123009147,
 0.2491847235502386,
 0.1075086998429977,
 0.10201770255629833,
 0.1676886354069963,
 0.14329990763653955

<ol type="A" start="2">
<h3><li>La phase d'apprentissage: Des données au modèle</li></h3>
<p>De manière globale, on peut distinguer <b>3 principales approches NLP</b> : les <b>méthodes basées sur des règles</b>, modèles classiques de Machine Learning et modèles de Deep Learning.</p>
<br>
<ol type="a">
<li>Modèles utilisés</li>
<p>Nous utiliserons uniquement les modèles classiques de Machine Learning.<br>Elles mettent généralement en œuvre un modèle <b>statistique d’apprentissage automatique</b> tels que ceux de <b>Naive Bayes</b>, de <b>Régression Logistique</b>, <b>SVM</b>.
<br><br>
Nous utiliserons plusieurs modèles  et nous ferons ensuite du cross_validation afin des les comparer .</p>
</ol>
</ol>

<img src="image.jpg" style="width:800px;height:500px; display: block; margin-left: auto;margin-right: auto;">

Avant de passer à l'entraînement des modèles, il reste encore une chose importante à faire qui est la définition des métriques d'évaluation 

<ol type="a" start="2">
<li>Métriques d’évaluation </li>
<br>
Après, Donc, afin d'évaluer les modèles de classification, nous utiliserons ces métriques :
<ul>
<li><b>Accuracy:</b> quantifie le nombre de prédictions correctes</li>
<li><b>Précision:</b> quantifie le nombre de détections positives (avis négatifs) appartenant réellement à la classe positive.</li>
<li><b>Rappel:</b> quantifie le nombre détections positives à partir de l’ensemble des exemples positifs du jeu de test.</li>
<li><b>Score F1:combine subtilement la précision et le rappel. Il est intéressant et plus intéressant que l’accuracy car le nombre de vrais négatifs (tn) n’est pas pris en compte.</b></li>
</ul>
</ol>

L’objectif de notre projet étant de détecter les avis négatifs, nous allons privilégier le rappel par rapport à la précision. Puisqu’en soit, il est préférable de classifier un avis positif comme étant négatif plutôt que de plutôt que l’inverse, c’est-à-dire classifier un avis négatif comme positif.<br><br>
Toutefois, nous évaluerons quand même l’ensemble de ces métriques.<br><br>
Maintenant nous allons entrainer les modèles et faire les prédictions.

<h4>Définition de la fonction permettant de faire la validation croisée et l'affichage des métriques d'évaluation</h4>

In [8]:
from sklearn.metrics import accuracy_score,recall_score,precision_score
from sklearn.model_selection import cross_val_score

def cross_validation(model, X, y):
    rappels = cross_val_score(model, X,y, cv=10,scoring='recall')
    rappels = pd.Series(rappels)
    print("Rappels : min=",rappels.min(),"  max=",rappels.max(),"  moyenne=",rappels.mean())

    precisions = cross_val_score(model, X,y, cv=10,scoring='precision')
    precisions = pd.Series(precisions)
    print("Precisions : min=",precisions.min(),"  max=",precisions.max(),"  moyenne=",precisions.mean())

    accuracys = cross_val_score(model, X,y, cv=10,scoring='accuracy')
    accuracys = pd.Series(accuracys)
    print("Accuracy : min=",accuracys.min(),"  max=",accuracys.max(),"  moyenne=",accuracys.mean())

    f1_scores = cross_val_score(model, X,y, cv=10,scoring='f1')
    f1_scores = pd.Series(f1_scores)
    print("F1_score : min=",f1_scores.min(),"  max=",f1_scores.max(),"  moyenne=",f1_scores.mean())


<h3>Entraînement des modèles et affichage des métriques d'évaluation après validation croisée</h3>

On définit la variable "y" qui correspond aux labels

In [9]:
y = df["Rating"].values

<h4>Regression logistique</h4>

In [10]:
#Regression logistique
from sklearn.linear_model import LogisticRegression

logisticRegression = LogisticRegression(multi_class='multinomial')
logisticRegression.fit(X, y)


print("\n***** Métriques d'évaluation : Regression logistique ******")
cross_validation(logisticRegression,X,y)


***** Métriques d'évaluation : Regression logistique ******
Rappels : min= 0.9704861111111112   max= 0.9872685185185185   moyenne= 0.9805523051641682
Precisions : min= 0.926815947569634   max= 0.9555555555555556   moyenne= 0.9377207033401749
Accuracy : min= 0.9199609565641776   max= 0.9380185456320156   moyenne= 0.9286026735230749
F1_score : min= 0.9539066891512087   max= 0.964073550212164   moyenne= 0.9586197700759405


<h4>Naives Bayes</h4>

In [11]:
#Naives Bayes
from sklearn.naive_bayes import GaussianNB

gaussianNB = GaussianNB()
gaussianNB.fit(X.toarray(), y)


print("\n***** Métriques d'évaluation : Naives Bayes ******")
cross_validation(gaussianNB,X,y)

KeyboardInterrupt: 

<h4>Support Vector Machine</h4>

In [None]:
#SVM
from sklearn import svm

svmModel = svm.SVC(kernel='linear') # Linear Kernel
svmModel.fit(X, y)


print("\n***** Métriques d'évaluation : SVM ******")
cross_validation(svmModel,X,y)


***** Métriques d'évaluation : SVM ******
Rappels : min= 0.9594907407407407   max= 0.9803240740740741   moyenne= 0.9725649877222328


<h3>Conclusion</h3>
Comme explicité un peu plus haut, la métrique qui nous intéresse est le rappel, et pour les différents modèles que nous avons testé celui qui nous permet d’obtenir un meilleur rappel est la régression logistique. <br><br>
On a : …. pour la regression logistique, …… pour le Naive Bayes et ……. Pour le SVM. <br><br>
Toutefois il est important de noter que le fait d’obtenir un rappel de ….. ne garantit pas que lorsque le modèle sera en production on aura toujours ce même rappel. Mais on sait que cela est probable.