**a. Installation et importation des bibliothèques nécessaires**

In [None]:
pip install wordcloud textblob nltk 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from textblob import TextBlob
from nltk.corpus import stopwords
from collections import Counter
import nltk

nltk.download('stopwords')

**b. Chargement et préparation des données**

In [None]:
# Charger le dataset
df = pd.read_csv('fashionnova_reviews.csv')

# on affiche les infos sur les données 
print(df.info())

# Nettoyer les données (dans un premier temps on va supprimer les valeurs manquantes (on peut aussi les rattraper))
df = df.dropna(subset=['Review Text', 'Rating'])

# vu que les dates ne sont pas au bon format on Convertit les colonnes de date en format datetime
df['Review Date'] = pd.to_datetime(df['Review Date'])
df['Date of Experience'] = pd.to_datetime(df['Date of Experience'])

# enfin on extrait la note (nombre d'étoiles) à partir de la colonne Rating
df['Stars'] = df['Rating'].str.extract(r'(\d+)').astype(int)

**c. Analyse Exploratoire**

In [None]:
# Distribution des notes
plt.figure(figsize=(8,6))
sns.countplot(x='Stars', data=df, palette='viridis')
plt.title('Distribution des Notes')
plt.show()

# Distribution des notes par pays
plt.figure(figsize=(10,8))
sns.boxplot(x='Country', y='Stars', data=df)
plt.title('Distribution des Notes par Pays')
plt.xticks(rotation=90)
plt.show()

**d. Analyse des sentiments**

In [None]:
# definissons une Fonction pour analyser les sentiments
def get_sentiment(text):
    analysis = TextBlob(text)
    if analysis.sentiment.polarity > 0:
        return 'Positive'
    elif analysis.sentiment.polarity == 0:
        return 'Neutral'
    else:
        return 'Negative'

# Appliquons l'analyse des sentiments
df['Sentiment'] = df['Review Text'].apply(get_sentiment)

# Distribution des sentiments
plt.figure(figsize=(8,6))
sns.countplot(x='Sentiment', data=df, palette='coolwarm')
plt.title('Distribution des Sentiments des Avis')
plt.show()


**d. Analyse des mots-clés**

In [None]:
# Préparer le texte pour l'analyse des mots-clés pour distinguer les avis positifs des avis négatifs 
stop_words = set(stopwords.words('english'))
df['Cleaned Text'] = df['Review Text'].str.lower().str.replace('[^\w\s]','')

# Fonction pour extraire les mots-clés
def extract_keywords(text):
    words = text.split()
    words = [word for word in words if word not in stop_words]
    return words

# Appliquer l'extraction des mots-clés
df['Keywords'] = df['Cleaned Text'].apply(extract_keywords)

# Générer un nuage de mots pour les avis positifs
positive_text = ' '.join(df[df['Sentiment'] == 'Positive']['Cleaned Text'])
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(positive_text)
plt.figure(figsize=(10, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nuage de Mots pour les Avis Positifs')
plt.show()

# Nuage de mots pour les avis négatifs
negative_text = ' '.join(df[df['Sentiment'] == 'Negative']['Cleaned Text'])
wordcloud = WordCloud(width=800, height=400, background_color='black', colormap='Reds').generate(negative_text)
plt.figure(figsize=(10, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nuage de Mots pour les Avis Négatifs')
plt.show()

**f. Analyse temporelle**

In [None]:
# Avis par mois
df['Review Month'] = df['Review Date'].dt.to_period('M')

plt.figure(figsize=(12, 6))
sns.countplot(x='Review Month', data=df, order=df['Review Month'].value_counts().index, palette='coolwarm')
plt.title('Nombre d\'Avis par Mois')
plt.xticks(rotation=90)
plt.show()

**e. Définition de l'Indice de Désirabilité**

**L'indice de désirabilité** pourrait être défini comme une combinaison pondérée des éléments suivants :

- Note (étoiles) : Une évaluation directe du produit ou du service, sur une échelle de 1 à 5.
- Sentiment : Une analyse du ton de l'avis (positif, négatif, neutre).
- Longueur de l'avis : Une mesure du détail dans l'avis, car un avis plus long pourrait indiquer un engagement plus profond, qu'il soit positif ou négatif.
- Présence de mots-clés positifs/négatifs : Utilisation fréquente de mots tels que "amazing", "great", "love", ou au contraire "disappointed", "bad".

**Création de l'indice**

In [None]:
# Normalisation de la note sur une échelle de 0 à 1
df['Normalized Stars'] = df['Stars'] / 5

# Conversion des sentiments en scores
sentiment_mapping = {'Positive': 1, 'Neutral': 0.5, 'Negative': 0}
df['Sentiment Score'] = df['Sentiment'].map(sentiment_mapping)

# Longueur de l'avis
df['Review Length'] = df['Review Text'].apply(lambda x: len(x.split()))
# Normalisation de la longueur de l'avis sur une échelle de 0 à 1
df['Normalized Review Length'] = df['Review Length'] / df['Review Length'].max()

# Pondération et combinaison des scores pour créer l'indice de désirabilité
# Vous pouvez ajuster les poids en fonction de l'importance que vous souhaitez accorder à chaque facteur
df['Desirability Index'] = (0.5 * df['Normalized Stars'] + 
                            0.3 * df['Sentiment Score'] + 
                            0.2 * df['Normalized Review Length'])

**Interprétation de l'indice**

L'indice de désirabilité est compris entre 0 et 1 :

- 0 : Indique une très faible désirabilité (évaluations faibles, sentiments négatifs, avis courts).
- 1 : Indique une très haute désirabilité (évaluations élevées, sentiments positifs, avis détaillés).

**Visualisation et analyse de l'indice**

In [None]:
# Distribution de l'indice de désirabilité
plt.figure(figsize=(8,6))
sns.histplot(df['Desirability Index'], bins=20, kde=True, color='blue')
plt.title('Distribution de l\'Indice de Désirabilité')
plt.xlabel('Indice de Désirabilité')
plt.ylabel('Nombre d\'Avis')
plt.show()

# Indice de désirabilité moyen par pays
plt.figure(figsize=(10,8))
sns.barplot(x='Country', y='Desirability Index', data=df, estimator=lambda x: sum(x)/len(x), palette='viridis')
plt.title('Indice de Désirabilité Moyen par Pays')
plt.xticks(rotation=90)
plt.show()