## Importer les librairies

In [None]:
#! pip install numpy 
#! pip install pandas 
#! pip install matplotlib 
#! pip install plotly 
#! pip install nltk 
#! pip install textblob 
#! pip install wordcloud 
#! pip install scikit-learn
#! pip install sklearn 
#! pip install openpyxl
#! pip install nbformat==4.2.0
#! python -m textblob.download_corpora


In [1]:
# Basic Libraries 📚
# --------------------------------------
import numpy as np
import pandas as pd
import re

# Plot library 📊
# --------------------------------------
import matplotlib.pyplot as plt
import plotly.graph_objs as go
import plotly.io as pio


# NLP
# --------------------------------------
import nltk
from nltk.corpus import stopwords
from nltk.sentiment import SentimentIntensityAnalyzer
from textblob import Word, TextBlob
from wordcloud import WordCloud  # visualization of words
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer


# Metrics 📐
# --------------------------------------
from sklearn.model_selection import cross_val_score, GridSearchCV, cross_validate
from sklearn.preprocessing import LabelEncoder


# Machine Learning Models 🤖
# --------------------------------------
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier


# Customize to Remove Warnings and Better Observation 🔧
# --------------------------------------------------------
from warnings import filterwarnings
filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 200)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

### Problèmatique

Augmenter ses ventes en analysant les commentaires reçus sur des produits, et améliorer leurs caractéristiques en fonction des plaintes reçues. Conformément à cet objectif, les commentaires seront étiquetés en effectuant une analyse des sentiments et un modèle de classification sera créé avec les données étiquetées.

### Les données

L'ensemble de données comprend les commentaires faits pour un certain groupe de produits, le titre du commentaire, le nombre d'étoiles et les variables qui indiquent combien de personnes ont trouvé le commentaire utile.

### Import du dataset :

In [2]:
df = pd.read_excel("amazon.xlsx")
df.head(15)

Unnamed: 0,Star,HelpFul,Title,Review
0,5,0,looks great,Happy with it
1,5,0,Pattern did not align between the two panels.,Good quality material however the panels are m...
2,5,0,Imagery is stretched. Still fun.,Product was fun for bedroom windows.<br />Imag...
3,5,0,Que se ven elegantes muy finas,Lo unico que me gustaria es que sean un poco ...
4,5,0,Wow great purchase,Great bang for the buck I can't believe the qu...
5,5,0,Not for us,Looks different then photo
6,5,0,Perfect for spa room,Was exactly what i was looking for. Heavy mate...
7,5,0,Actually better than expected,"Looking at the picture, I thought these curtai..."
8,4,0,Not what expected,Much whiter than I thought it would be and was...
9,5,0,Pretty as a Picture,These are curtains just as the picture shows. ...


In [9]:
### Commencez par supprimer les reviews sans commentaire
### utilisez la fonction dropna de pandas
print("Il y a",df['Review'].isnull().sum(),"avis sans commentaire(s)")
xxx


Il y a 18 avis sans commentaire(s)


## Pré Traitement du texte

### Mettez tous les charactères en minuscule


In [None]:
### Utilisez la fonction .str.lower() de pandas
xxx

### Ponctuation

Tout comme les majuscules et les minuscules, les signes de ponctuation ne contiennent pas de valeur de mesure. Par exemple, si nous pensons que nous faisons un exemple de classification, il y a 2 avis, l'un d'eux a beaucoup plus de points/virgules. Dans cette situation, nous n'attendons AUCUN modèle des ponctuations. Bien qu'il s'agisse de l'approche courante, elle peut varier en fonction du problème.


In [None]:
### Supprimez toute forme de ponctuation par un espace
### Utilisez la fonction .str.replace() de pandas et les expressions régulières ! 
xxx

### Chiffres

RAPPEL :
Comme ci-dessus, notre problématique peut avoir une discrimination sur les nombres. Par exemple, inclure beaucoup ou moins de nombres peut être crucial pour le problème. Dans ce type de problème, la suppression des nombres n'est pas une méthode à utiliser. Dans notre exemple, nous supprimons les nombres car ils ne sont pas significatifs.

L'approche générale consiste à supprimer toutes les structures problématiques en dehors du texte. Par exemple, lorsqu'il y a des données de médias sociaux, nous pouvons choisir de supprimer les émojis, les liens de pages, etc.

Ici, Nous détectons les chiffres via une expression régulière. \d nous aide à capturer les chiffres.


In [12]:
### Même chose que la dernière cellules
xxx

### Balises HTML

Ils y a des balises HTML dans certains commentaires, avant d'éliminer les caractères spéciaux, assurons nous d'enlever ces balises d'abord

In [None]:
## Utiliser la librairie re
CLEANR = re.compile('<.*?>') 
xxxx

### Caractère spéciaux

Maintenant la même chose avec tout les caractères spéciaux.

In [None]:
## Indice : [^a-zA-Z0-9]
xxxxxx

### Stopword

Les mots couramment utilisés dans la langue n'ont pas de mesure. Des expressions telles que diverses conjonctions telles que est, pour, ceci ou divers pronoms n'ont pas de signification métrique. Par conséquent, nous supprimerons ces expressions.

Nous devons télécharger « stopwords » de la bibliothèque nltk. Il a été préparé pour l'anglais, il existe également des études pour d'autres langues. Par conséquent, vous pouvez utiliser la langue que vous souhaitez comme argument.

In [13]:
nltk.download('stopwords')
sw = stopwords.words('english')

[nltk_data] Error loading stopwords: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


In [14]:
#### Completez le xxxxx
df['Review'] = df['Review'].apply(lambda x: " ".join(x for x in str(x).split() if x not in xxxxx))
df['Review'].head(5)

0                                                Happy
1    Good quality material however panels mis-matched.
2    Product fun bedroom windows.<br />Imagery bit ...
3    Lo unico que gustaria es que sean un poco mas ...
4    Great bang buck I can't believe quality materi...
Name: Review, dtype: object

### Lemmatization


In [None]:
nltk.download('wordnet')
nltk.download('omw-1.4')

#### Completez le xxxxx

df['Review'] = df['Review'].apply(lambda x: " ".join([Word(word).lemmatize() for word in xxxxxx]))

df['Review'].head(5)


## Visualisation


### Fréquence

In [15]:
# extract the term frequencies(frequency of the words) and create a df
tf = df["Review"].apply(lambda x: pd.value_counts(x.split(" "))).sum(axis=0).reset_index()
tf.head(10)

Unnamed: 0,index,0
0,Happy,11.0
1,Good,106.0
2,quality,563.0
3,material,361.0
4,however,27.0
5,panels,87.0
6,mis-matched.,1.0
7,Product,18.0
8,fun,42.0
9,bedroom,96.0


In [16]:
# fix the column names
tf.columns = ["words", "tf"]  

# to see the most frequent words
tf.sort_values("tf", ascending=False)

Unnamed: 0,words,tf
19,I,4413.00
60,curtains,1203.00
72,The,1070.00
214,like,987.00
150,love,788.00
...,...,...
11991,static,1.00
11992,collect,1.00
12008,unfortunately.,1.00
12007,mane,1.00


In [None]:
#### Plot 1
xxxxxxxxx

In [None]:
##### Plot 2
xxxxxxxxxxxxxxx

## Analyse de sentiments

Cette section sera divisée en 2 parties. La première partie explique les méthodes et comment utiliser l'analyse des sentiments. La deuxième partie concerne la mise en œuvre de l'analyse des sentiments dans notre ensemble de données.

L'analyse des sentiments vise à exprimer l'état émotionnel des textes de manière mathématique. Supposons que nous ayons une phrase, chaque mot qui la compose a une signification positive/négative/neutre. Ces significations sont évaluées de manière holistique et des évaluations sont faites pour déterminer si un texte est positif ou négatif.


In [17]:
nltk.download('vader_lexicon')  # pre-trained model for sentiment analysis

[nltk_data] Error loading vader_lexicon: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


False

In [18]:
# Example 1
sia = SentimentIntensityAnalyzer()
sia.polarity_scores("The film was awesome")

{'neg': 0.0, 'neu': 0.423, 'pos': 0.577, 'compound': 0.6249}

In [19]:
# Example 2
sia.polarity_scores("I liked this music but it is not good as the other one")

{'neg': 0.207, 'neu': 0.666, 'pos': 0.127, 'compound': -0.298}

In [None]:
### Pour chaque avis, ajouter une colonne 'compound' du score compound dans le dataset
xxxxxx

In [None]:
### Ajoutez une colonne 'Polarity Scores' égale 'pos' si le compound est super à zero sinon 'neg' 
xxxxxx
df["Polarity Scores"].value_counts()

In [None]:
df.groupby("Polarity Scores")["Star"].mean()

Nous allons maintenant développer notre propre modèle d'analyse des sentiments 

In [None]:
df["Polarity Scores"] = LabelEncoder().fit_transform(df["Polarity Scores"])
y = df["Polarity Scores"]
X = df["Review"]

In [None]:
print(" X ".center(50, "~"))
display(X.head())
print("")
print(" Y ".center(50, "~"))
display(y.head())

En d'autres termes, nous devons effectuer de telles opérations sur X afin de pouvoir le mettre dans un format mesurable, sur lequel des opérations mathématiques et une modélisation par apprentissage automatique peuvent être effectuées. Pour cela, nous devons créer des vecteurs de mots. Méthodes couramment utilisées :

- Count Vectors
- TF-IDF
- Autres méthodes d'incorporation de mots (Word2Vec, GloVe, BERT, etc.)

Nous analyserons l'implémentation de Count Vectors et TF-IDF. D'autres méthodes d'incorporation de mots peuvent être recherchées et appliquées avec un prétraitement similaire (comme la suppression des ponctuations, des nombres, etc.). Chacune de ces méthodes est la méthode utilisée par l'ordinateur pour mettre ces textes dans des opérations mathématiques dans le monde de l'algèbre linéaire. Le texte que j'ai est sous la forme d'un texte et je dois faire quelque chose avec ce texte pour qu'il puisse être traité dans le monde de l'algèbre linéaire. Commençons par l'explication des méthodes et l'application sur notre ensemble de données.

## Count Vector 

In [23]:
a = """ngram is a contiguous sequence of n items from a given sample of text or speech."""

TextBlob(a).ngrams(3)  # For example, let's create a triple ngram

[WordList(['ngram', 'is', 'a']),
 WordList(['is', 'a', 'contiguous']),
 WordList(['a', 'contiguous', 'sequence']),
 WordList(['contiguous', 'sequence', 'of']),
 WordList(['sequence', 'of', 'n']),
 WordList(['of', 'n', 'items']),
 WordList(['n', 'items', 'from']),
 WordList(['items', 'from', 'a']),
 WordList(['from', 'a', 'given']),
 WordList(['a', 'given', 'sample']),
 WordList(['given', 'sample', 'of']),
 WordList(['sample', 'of', 'text']),
 WordList(['of', 'text', 'or']),
 WordList(['text', 'or', 'speech'])]

In [24]:
corpus = ['This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?']
# word frequency
vectorizer = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X_c = vectorizer.fit_transform(corpus)  # we transformed the corpus with fit_transform
vectorizer.get_feature_names_out()  

array(['and this', 'document is', 'first document', 'is the', 'is this',
       'second document', 'the first', 'the second', 'the third',
       'third one', 'this document', 'this is', 'this the'], dtype=object)

In [25]:
X_c.toarray()

array([[0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0],
       [1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0],
       [0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1]])

In [None]:
### Appliquer cette méthode à notre ensemble X
xxxxxx

### word frequency


In [26]:
tf_idf_word_vectorizer = TfidfVectorizer()  # default = word frequency
corpus_tf_idf_word = tf_idf_word_vectorizer.fit_transform(corpus)
tf_idf_word_vectorizer.get_feature_names_out()
corpus_tf_idf_word.toarray()


array([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524],
       [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
        0.53864762, 0.28108867, 0.        , 0.28108867],
       [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
        0.        , 0.26710379, 0.51184851, 0.26710379],
       [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524]])

In [None]:
### Appliquer cette méthode à notre ensemble X
xxxxxx
X_tf_idf_word = xxxx

In [None]:
### Vous pouvez aussi utilisez cette méthode avec des ngram
### en mettant en paramétre de TfidfVectorizer()  ngram_range=(2, 3)

xxxxxx
X_tf_idf_ngram = xxxx

## Regression logistique

In [None]:
# Words with TF-IDF
log_model = LogisticRegression().fit(X_tf_idf_word, y)
cross_val_score(log_model,
                X_tf_idf_word,
                y,
                scoring="accuracy",
                cv=5).mean()

In [None]:
new_review = pd.Series("this product is great")

# Utilisez le modèle log_model que vous venez de générer pour classer ce nouvel avis

In [None]:
# Let's pick a sample comment from the original dataset and ask it to the model
sample = df["Review"].sample(1).values
print(sample)
random_review = pd.Series(sample)
new_review = TfidfVectorizer().fit(X).transform(random_review)
log_model.predict(new_review)

## Random Forrest

In [None]:
# Count Vectors
rf_model = RandomForestClassifier().fit(X_c, y)
print("Count Vectors Score", cross_val_score(rf_model, X_c, y, cv=5, n_jobs=-1).mean()) 

# TF-IDF Word-Level
rf_model = RandomForestClassifier().fit(X_tf_idf_word, y)
print("TF-IDF Word-Level Score", cross_val_score(rf_model, X_tf_idf_word, y, cv=5, n_jobs=-1).mean())

# TF-IDF N-Gram
rf_model = RandomForestClassifier().fit(X_tf_idf_ngram, y)
print("TF-IDF N-Gram Score", cross_val_score(rf_model, X_tf_idf_ngram, y, cv=5, n_jobs=-1).mean())

In [None]:
## Utilisez le dernier modèle pour classifier une review que vous avez créer (en anglais bien sûr).