## Supervised Learning using BERT for Sentiment Analysis and Notation Prediction

### Data Extraction and Preprocessing (we follow the same process as in data_cleaning but we keep a different sample of the data)

In [45]:
import pandas as pd
import nltk
from cleantext import clean
import tqdm
import numpy as np
from deep_translator import GoogleTranslator

In [46]:
reviews_df = pd.read_csv("data/reviews.csv", sep=";")
reviews_df.head(3)

Unnamed: 0,category_link,company_link,company_name,score,description,review_page_nb,review_link,review_score,review_title,review_text,category
0,https://fr.trustpilot.com/categories/food_beverages_tobacco?verified=true,https://fr.trustpilot.com/review/lefourgon.com,Le Fourgon,49,"Le Fourgon vous livre vos boissons consign√©es √† domicile :\nüç∂ la commande se passe sur lefourgon.com : bi√®res, jus, sodas, eaux, lait, vins, soupes, spririteux, & co.\nüöö nous vous livrons gratuitement chez vous sur le cr√©neau choisi\nüå± et au passage suivant on r√©cup√®re vos bouteilles vides qu‚Äôon renvoie lav√©es au producteur pour r√©-emploi #zerodechet",329,https://fr.trustpilot.com/reviews/65a5388a60d6a4425263fe42,5,Application conviviale pour passer ses‚Ä¶,Application conviviale pour passer ses commandes. Manquent juste les ingr√©dients pas √©vidents √† trouver.Notification par SMS peu de temps avant le cr√©neau choisi pour un cr√©neau pr√©cis de 20 minutes.Livreurs agr√©ables.Merci le Fourgon !,food_beverages_tobacco
1,https://fr.trustpilot.com/categories/food_beverages_tobacco?verified=true,https://fr.trustpilot.com/review/lefourgon.com,Le Fourgon,49,"Le Fourgon vous livre vos boissons consign√©es √† domicile :\nüç∂ la commande se passe sur lefourgon.com : bi√®res, jus, sodas, eaux, lait, vins, soupes, spririteux, & co.\nüöö nous vous livrons gratuitement chez vous sur le cr√©neau choisi\nüå± et au passage suivant on r√©cup√®re vos bouteilles vides qu‚Äôon renvoie lav√©es au producteur pour r√©-emploi #zerodechet",329,https://fr.trustpilot.com/reviews/65a53245a223c5f420a9cee3,5,Tr√®s facile pour la commande,"Tr√®s facile pour la commande, tr√®s rapide et livraison tr√®s professionnelle! Le livreur a apport√© les bacs chez nous car ils √©taient lourds! 12 bouteilles par bacs... soit 12kg sans compter le poids des bouteilles. Tr√®s pro et sympa!Vraiment chouette et √©cologique! On recommandera sans h√©siter! Fini les microparticules de plastique!",food_beverages_tobacco
2,https://fr.trustpilot.com/categories/food_beverages_tobacco?verified=true,https://fr.trustpilot.com/review/lefourgon.com,Le Fourgon,49,"Le Fourgon vous livre vos boissons consign√©es √† domicile :\nüç∂ la commande se passe sur lefourgon.com : bi√®res, jus, sodas, eaux, lait, vins, soupes, spririteux, & co.\nüöö nous vous livrons gratuitement chez vous sur le cr√©neau choisi\nüå± et au passage suivant on r√©cup√®re vos bouteilles vides qu‚Äôon renvoie lav√©es au producteur pour r√©-emploi #zerodechet",329,https://fr.trustpilot.com/reviews/659f0e15dd570fb981a1d433,5,Premi√®re exp√©rience r√©ussie !,"Pour nous, c'√©tait une premi√®re.Ravis d'avoir trouv√© un syst√®me de consigne pour un choix plus large de produits qu'en magasin.Cr√©neau horaire de livraison respect√©, avec une information pr√©cise sur l'approche du livreur.Livreur sympathique, souriant et serviable.√Ä bient√¥t pour une nouvelle commande !",food_beverages_tobacco


In [47]:
reviews_df = reviews_df[["company_name", "score", "review_score", "review_title", "review_text", "category"]]

In [48]:
# we merge the title and the text of the review
reviews_df["review"] = reviews_df["review_title"] + " " + reviews_df["review_text"]
reviews_df.head(3)

Unnamed: 0,company_name,score,review_score,review_title,review_text,category,review
0,Le Fourgon,49,5,Application conviviale pour passer ses‚Ä¶,Application conviviale pour passer ses commandes. Manquent juste les ingr√©dients pas √©vidents √† trouver.Notification par SMS peu de temps avant le cr√©neau choisi pour un cr√©neau pr√©cis de 20 minutes.Livreurs agr√©ables.Merci le Fourgon !,food_beverages_tobacco,Application conviviale pour passer ses‚Ä¶ Application conviviale pour passer ses commandes. Manquent juste les ingr√©dients pas √©vidents √† trouver.Notification par SMS peu de temps avant le cr√©neau choisi pour un cr√©neau pr√©cis de 20 minutes.Livreurs agr√©ables.Merci le Fourgon !
1,Le Fourgon,49,5,Tr√®s facile pour la commande,"Tr√®s facile pour la commande, tr√®s rapide et livraison tr√®s professionnelle! Le livreur a apport√© les bacs chez nous car ils √©taient lourds! 12 bouteilles par bacs... soit 12kg sans compter le poids des bouteilles. Tr√®s pro et sympa!Vraiment chouette et √©cologique! On recommandera sans h√©siter! Fini les microparticules de plastique!",food_beverages_tobacco,"Tr√®s facile pour la commande Tr√®s facile pour la commande, tr√®s rapide et livraison tr√®s professionnelle! Le livreur a apport√© les bacs chez nous car ils √©taient lourds! 12 bouteilles par bacs... soit 12kg sans compter le poids des bouteilles. Tr√®s pro et sympa!Vraiment chouette et √©cologique! On recommandera sans h√©siter! Fini les microparticules de plastique!"
2,Le Fourgon,49,5,Premi√®re exp√©rience r√©ussie !,"Pour nous, c'√©tait une premi√®re.Ravis d'avoir trouv√© un syst√®me de consigne pour un choix plus large de produits qu'en magasin.Cr√©neau horaire de livraison respect√©, avec une information pr√©cise sur l'approche du livreur.Livreur sympathique, souriant et serviable.√Ä bient√¥t pour une nouvelle commande !",food_beverages_tobacco,"Premi√®re exp√©rience r√©ussie ! Pour nous, c'√©tait une premi√®re.Ravis d'avoir trouv√© un syst√®me de consigne pour un choix plus large de produits qu'en magasin.Cr√©neau horaire de livraison respect√©, avec une information pr√©cise sur l'approche du livreur.Livreur sympathique, souriant et serviable.√Ä bient√¥t pour une nouvelle commande !"


In [49]:
clean(reviews_df["review"].values[0], no_emoji=True, no_line_breaks=True, lower=False).replace("#", "")

'Application conviviale pour passer ses Application conviviale pour passer ses commandes. Manquent juste les ingredients pas evidents a trouver.Notification par SMS peu de temps avant le creneau choisi pour un creneau precis de 20 minutes.Livreurs agreables.Merci le Fourgon !'

In [50]:
reviews_df["review"] = reviews_df["review"].apply(lambda x: clean(x, no_emoji=True, no_line_breaks=True, lower=False).replace("#", ""))

In [51]:
reviews_df["review"].values[100]

"Exceptionnel La brulerie Belleville est devenue mon unique fournisseur en cafe, le cafe est vraiment d'une qualite exceptionnelle ! De plus, le service apres-vente est d'une qualite humaine devenue bien rare a present !"

#### We Keep only a sample of the data (the top 100 companies with the most reviews) Because of the traduction cost of the "review" column

In [58]:
# number of reviews per company
reviews_df["company_name"].value_counts()[:10]

company_name
Hardloop          236
Alltricks         210
Ekosport          140
vertbaudet        140
Mode Tactique     120
Weenect           120
AAAEP             120
Handball Store    111
Meyclub           100
Bleen             100
Name: count, dtype: int64

In [60]:
# number of reviews in all the dataset
len(reviews_df)

235503

In [53]:
# print the first company name
reviews_df["company_name"].value_counts().index[0]

'Hardloop\xa0'

In [54]:
reviews_df["company_name"] = reviews_df["company_name"].apply(lambda x: x.replace("\xa0", "") if x != "\xa0" else x)
reviews_df["company_name"].value_counts().index[0]

'Hardloop'

In [62]:
# we keep only the reviews of the first 100 companies in terms of number of reviews
revsample_df = reviews_df[reviews_df["company_name"].isin(reviews_df["company_name"].value_counts()[:100].index)]
revsample_df["company_name"].value_counts().sum()

8972

In [56]:
revsample_df["company_name"].value_counts()[:10]

company_name
Hardloop          236
Alltricks         210
vertbaudet        140
Ekosport          140
Mode Tactique     120
Weenect           120
AAAEP             120
Handball Store    111
Bleen             100
Meyclub           100
Name: count, dtype: int64

In [65]:
revsample_df = revsample_df.dropna(ignore_index=True)

In [67]:
# we display all the lines of the first company
pd.set_option("display.max_colwidth", None)
revsample_df[revsample_df["company_name"] == "Hardloop"]

Unnamed: 0,company_name,score,review_score,review_title,review_text,category,review
7658,Hardloop,45,1,Premi√®re commande sur ce site,"Premi√®re commande sur ce site, et extr√™mement d√©√ßue !Pantalon de randonn√©e command√© pour un cadeau de No√´l d√©but d√©cembre, il n‚Äôest toujours pas r√©ceptionn√© malgr√© les dates indiqu√©es sur le site. Diverses relances aupr√®s du service client par e-mail et Instagram afin d‚Äôobtenir √† minima un retour sur la livraison ou sur un remboursement √©ventuel pour l‚Äôacheter ailleurs : aucun retour.Une honte.√Ä fuir‚Ä¶Merci de supprimer mon adresse e-mail priv√©e √† ce commentaire (m√©thode tr√®s douteuse pour que je supprime mon commentaire n√©gatif).",sports,"Premiere commande sur ce site Premiere commande sur ce site, et extremement decue !Pantalon de randonnee commande pour un cadeau de Noel debut decembre, il n'est toujours pas receptionne malgre les dates indiquees sur le site. Diverses relances aupres du service client par e-mail et Instagram afin d'obtenir a minima un retour sur la livraison ou sur un remboursement eventuel pour l'acheter ailleurs : aucun retour.Une honte.A fuirMerci de supprimer mon adresse e-mail privee a ce commentaire (methode tres douteuse pour que je supprime mon commentaire negatif)."
7659,Hardloop,45,1,Pantalon √† 150‚Ç¨ re√ßu 10 jours apr√®s la‚Ä¶,"Pantalon √† 150‚Ç¨ re√ßu 10 jours apr√®s la commande. Pour cause de taille trop grande, impossible d'obtenir un bon de retour pour retourner l'article, car le site √©met syst√©matiquement un message d'erreur quand on en fait la demande. Le num√©ro de tel du pr√©tendu standard n'est en fait qu'un simple r√©pondeur, o√π il n'est m√™me pas possible de laisser un message.Finalement, apr√®s deux mails envoy√©s, j'ai fini par recevoir un bon de retour imprimable. Pas de remboursement re√ßu un mois apr√®s l'envoi... mais re√ßu imm√©diatement apr√®s apr√®s que j'aie renvoy√© un mailde reclamation. √Ä fuir.",sports,"Pantalon a 150 recu 10 jours apres la Pantalon a 150 recu 10 jours apres la commande. Pour cause de taille trop grande, impossible d'obtenir un bon de retour pour retourner l'article, car le site emet systematiquement un message d'erreur quand on en fait la demande. Le numero de tel du pretendu standard n'est en fait qu'un simple repondeur, ou il n'est meme pas possible de laisser un message.Finalement, apres deux mails envoyes, j'ai fini par recevoir un bon de retour imprimable. Pas de remboursement recu un mois apres l'envoi... mais recu immediatement apres apres que j'aie renvoye un mailde reclamation. A fuir."
7660,Hardloop,45,5,Equipe tr√®s r√©active en cas de probl√®me‚Ä¶,Equipe tr√®s r√©active en cas de probl√®me sur une commande pour trouver des solutions.,sports,Equipe tres reactive en cas de probleme Equipe tres reactive en cas de probleme sur une commande pour trouver des solutions.
7661,Hardloop,45,4,Tr√®s bon service,"Beaucoup de choix, produits bien emball√©s, et livraison rapide.",sports,"Tres bon service Beaucoup de choix, produits bien emballes, et livraison rapide."
7662,Hardloop,45,5,Parfait,"Parfait, livraison rapide et service optimal, je recommande",sports,"Parfait Parfait, livraison rapide et service optimal, je recommande"
...,...,...,...,...,...,...,...
8676,Hardloop,40,5,"Competitive price, rapid delivery","Competitive price, rapid delivery to Poland",vehicles_transportation,"Competitive price, rapid delivery Competitive price, rapid delivery to Poland"
8677,Hardloop,40,1,Szczytem chamstwa nie jest dostarczyƒá‚Ä¶,"Szczytem chamstwa nie jest dostarczyƒá produkt, kt√≥ry zgodnie z prawem zakupi≈Çem, i kt√≥ry jest dostƒôpny w sklepie, tylko dlatego, ≈ºe w≈Ça≈õcicielowi nie podoba siƒô kwota, za kt√≥rƒÖ zosta≈Ç sprzedany. W systemie by≈Ça widoczna cena w promocji. I z niej korzystajƒÖc kupi≈Çem kurtkƒô Helly Hannsena. Anulowanie mojego kupna i zwrot pieniƒôdzy zas≈ÇaniajƒÖc siƒô rzekomym b≈Çƒôdem w wy≈õwietlaniu ceny jest co najmniej nie na miejscu. Je≈ºeli nawet do takiego dosz≈Ço w≈Ça≈õciciel powinien rozwiƒÖzywaƒá tƒÖ kwestiƒô, w≈õr√≥d swoich pracownik√≥w odpowiedzialnych za to, nastƒôpnie wyciƒÖgaƒá konsekwencje i ≈ºƒÖdaƒá zado≈õƒáuczynienia z ich strony. A nie traktowaƒá kupujƒÖcego jakby nie mia≈Ç ≈ºadnych praw i nic nie znaczy≈Ç. Sprawƒô moi prawnicy kierujƒÖ do rzecznika praw konsumenta we Francji. Je≈ºeli trzeba bƒôdzie wejdƒÖ na ≈õcie≈ºkƒô prawnƒÖ. W ≈ºyciu nie zosta≈Çem w ten spos√≥b potraktowany, zw≈Çaszcza przed wyjazdem na narty, kiedy zam√≥wiona przeze mnie odzie≈º jest mi niezbƒôdna. Zdecydowanie nie polecam tego sklepu.",vehicles_transportation,"Szczytem chamstwa nie jest dostarczyc Szczytem chamstwa nie jest dostarczyc produkt, ktory zgodnie z prawem zakupiem, i ktory jest dostepny w sklepie, tylko dlatego, ze wascicielowi nie podoba sie kwota, za ktora zosta sprzedany. W systemie bya widoczna cena w promocji. I z niej korzystajac kupiem kurtke Helly Hannsena. Anulowanie mojego kupna i zwrot pieniedzy zasaniajac sie rzekomym bedem w wyswietlaniu ceny jest co najmniej nie na miejscu. Jezeli nawet do takiego doszo wasciciel powinien rozwiazywac ta kwestie, wsrod swoich pracownikow odpowiedzialnych za to, nastepnie wyciagac konsekwencje i zadac zadoscuczynienia z ich strony. A nie traktowac kupujacego jakby nie mia zadnych praw i nic nie znaczy. Sprawe moi prawnicy kieruja do rzecznika praw konsumenta we Francji. Jezeli trzeba bedzie wejda na sciezke prawna. W zyciu nie zostaem w ten sposob potraktowany, zwaszcza przed wyjazdem na narty, kiedy zamowiona przeze mnie odziez jest mi niezbedna. Zdecydowanie nie polecam tego sklepu."
8678,Hardloop,40,2,Wrong product in my shipment.,Wrong product in my shipment.No contact with information what to do - after my claim - no answer.,vehicles_transportation,Wrong product in my shipment. Wrong product in my shipment.No contact with information what to do - after my claim - no answer.
8679,Hardloop,40,1,Bad customer service,The order itself is ok but I wanted to return the product and no response from customer service :/,vehicles_transportation,Bad customer service The order itself is ok but I wanted to return the product and no response from customer service :/


We keep only the reviews in french

In [71]:
from nltk import wordpunct_tokenize
from nltk.corpus import stopwords
print(stopwords.fileids())

['arabic', 'azerbaijani', 'basque', 'bengali', 'catalan', 'chinese', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hebrew', 'hinglish', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']


In [72]:
def detecte_langage(message):
    # on definie un dictionnaire vide
    # {langue : nbre de stopwords communs 
    # entre langue et les mots de message}
    languages_shared_words = {}
    # tokenization en mots
    words = wordpunct_tokenize(message)
    for language in stopwords.fileids():
        # stopwords pour chaque langue
        stopwords_liste = stopwords.words(language)
        # on retire les doublons
        words = set(words)
        # les mots communs entre stopwords 
        # d'une langue et les mots de message
        common_elements = words.intersection(stopwords_liste)
        # ajout du couple au dictionnaire
        languages_shared_words[language] = len(common_elements)
    # on retourne la langue avec le max de mots commun
    return  max(languages_shared_words, key = languages_shared_words.get)

In [73]:
# on applique la fonction pour chaque message sur la colonne review et on ne garde que les lignes ou la langue est en francais
revsample_df["langue"] = revsample_df["review"].apply(detecte_langage)

In [74]:
revsample_df[revsample_df["langue"] == "french"].count()

company_name    7729
score           7729
review_score    7729
review_title    7729
review_text     7729
category        7729
review          7729
langue          7729
dtype: int64

In [75]:
revsample_df_fr = revsample_df[revsample_df["langue"] == "french"]

Training sample : 

In [1]:
from transformers import CamembertTokenizer

Neither PyTorch nor TensorFlow >= 2.0 have been found.Models won't be available and only tokenizers, configurationand file/data utilities can be used.


ImportError: cannot import name 'CamembertTokenizer' from 'transformers' (c:\Users\gdetr\anaconda3\envs\global\Lib\site-packages\transformers\__init__.py)

In [1]:
print("balvke")

balvke


In [3]:
! pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Looking in indexes: https://download.pytorch.org/whl/cu121




In [8]:
! pip install torch==2.1.2+cu121 torchvision==0.16.2+cu121 torchaudio==2.1.2+cu121





In [9]:
import torch

ModuleNotFoundError: No module named 'torch'

In [4]:
torch.cuda.is_available()

NameError: name 'torch' is not defined