# Presentation
---

Le but de cet exercice est de nous familiariser avec la manipulation de données. Pour ce faire, nous allons commencer par analyser une base de données de critiques tripadvisor pour ensuite faire de la prédiction de notes données par les clients. Le jeu de données peut être récupéré à [l'adresse suivante.](https://www.kaggle.com/datasets/andrewmvd/trip-advisor-hotel-reviews/data).

## Import des librairies

In [1]:
from langdetect import detect
import numpy as np
import pandas as pd
import plotly.express as px

## Chargement des données

In [3]:
tripadvisor_reviews = pd.read_csv("data/tripadvisor_hotel_reviews.csv")

# Partie 1) Etude de la qualité des données

---

1) De combien de données disposons-nous ? 
2) Possédons-nous des données manquantes ou des doublons ? 
3) Est-ce nous possédons des commentaires en doubles ? Qu'en faire ?
3) Quelles sont les longueurs de nos commentaires ?
3) Dans quelles langues se trouvent nos données ?

In [5]:
print(f"Le nombre de reviews est de {len(tripadvisor_reviews)}. Je possède {len(tripadvisor_reviews.columns)} colonnes.") 

Le nombre de reviews est de 20491. Je possède 2 colonnes.


In [6]:
tripadvisor_reviews.isna().sum()

Review    0
Rating    0
dtype: int64

In [8]:
tripadvisor_reviews.head()

Unnamed: 0,Review,Rating
0,nice hotel expensive parking got good deal sta...,4
1,ok nothing special charge diamond member hilto...,2
2,nice rooms not 4* experience hotel monaco seat...,3
3,"unique, great stay, wonderful time hotel monac...",5
4,"great stay great stay, went seahawk game aweso...",5


In [13]:
print(f"Est-ce que tous mes commentaires sont uniques ? {len(tripadvisor_reviews['Review'].apply(lambda x : x.lower()).unique()) == len(tripadvisor_reviews)}.")

Est-ce que tous mes commentaires sont uniques ? True.


In [14]:
tripadvisor_reviews["Review_len"] = tripadvisor_reviews["Review"].apply(len)

In [15]:
tripadvisor_reviews.describe()

Unnamed: 0,Rating,Review_len
count,20491.0,20491.0
mean,3.952223,724.896833
std,1.23303,689.101024
min,1.0,44.0
25%,3.0,339.0
50%,4.0,537.0
75%,5.0,859.0
max,5.0,13501.0


In [17]:
fig = px.histogram(tripadvisor_reviews.loc[tripadvisor_reviews["Review_len"] < 4000], x="Review_len", title = "Répartition des longueurs de textes")
fig.show()

In [20]:
tripadvisor_reviews["review_language"] = tripadvisor_reviews["Review"].apply(detect)

In [21]:
tripadvisor_reviews.groupby("review_language")["Review"].count()

review_language
af        6
ca        1
da        1
en    20471
fr       10
nl        1
ro        1
Name: Review, dtype: int64

In [22]:
tripadvisor_reviews.loc[tripadvisor_reviews["review_language"] != "en"]

Unnamed: 0,Review,Rating,Review_len,review_language
140,"rudest people dont stay, despite fact cool hot...",1,160,fr
1642,"good value good value money, suggest getting r...",4,92,af
4469,little gem lovely little hotel roman artifacts...,5,118,fr
4878,best hotels london nice small hotel suite not ...,5,104,fr
5189,best time best time hotel staff sexy helpful m...,5,134,nl
6851,excellence excellent just retruned delightful ...,5,165,fr
7643,"amazing weekend going make annual trip nyc, ho...",5,217,af
7925,"great beds, best beds hotel, friendly staff fr...",5,93,da
8043,"attitude love space receptionist rude abrupt, ...",2,75,ro
8205,"not good aware not 4 star hotel, stayed week d...",2,106,af


In [23]:
tripadvisor_reviews_en = tripadvisor_reviews.drop(index = [17264, 18859])

# Partie 2) Analyse

---

1) Analysez la distribution des notes. Qu'est-ce que cela présage pour la partie machine learning ?
2) Faire un wordcloud pour indiquer les mots les plus populaires dans nos différents commentaires en fonction de la note attribuée à la fin.
3) Faire la même chose que la question précédente mais avec du stemming au préalable (nous vous conseillons d'utiliser porterstemmer pour plus de facilité).
4) Faire la même chose que la question précédente mais cette fois-ci en considérant les groupes de deux mots adjacents (note culturelle : les groupes de k mots adjacents sont appelés k-grams)
5) Nous décidons qu'il serait bien de connaître un poil mieux nos utilisateurs. Afin de pouvoir en savoir plus, utilisons de la LDA afin de pouvoir trouver des thèmes dans nos commentaires d'utilisateurs. 

Note : afin d'étudier plus en détail les thèmes, nous aurions pu utiliser du bertopic qui nous aurait renvoyé des thèmes pertinents.

# Partie 3) Machine learning

---

1) Faut-il considérer le problème comme un problème de classification ou de regression ? Discutez des enjeux des deux approches.
2) Comment transformer nos données textuelles afin de faire du deep learning ?
3) Utilisez un modèle pré-entrainé pour obtenir le sentiment de chaque texte.
4) Faire un embedding des textes en utilisant un modèle pré-entrainé.
5) Construisez un modèle de deep learning pour prédire les notes.

### Partie 4) Analyse de thèmes
---

1) En utilisant la méthode KMeans trouvez le nombre optimal de cluster dans nos données.
2) Identifiez les thèmes évoqués dans les différents clusters.
2) En utilisant BertTopic, classifiez nos avis par sujets.