## WEM project: JVC Review Bombing Detection

#### Project's members:  Campos Carvalho Cédric, Feuillade Florian, Ramosaj Nicolas

#### Import Libraires

In [49]:
import pandas as pd
import numpy as np
from review_bombing import *
from tools.read import get_data

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


#### Load Dataset

In [50]:
dataset = get_data('data/dataset500.csv')
data = [{'game':dataset['name'][i], 'platform':dataset['platform'][i], 
        'grade':comment['grade'][0],'comment':comment['comment'][0],'username':comment['username'][0]}
        for i, comments in enumerate(dataset['comments']) for comment in comments]
df = pd.DataFrame(data, columns=['game', 'platform', 'comment', 'username', 'grade'])
df.head()
#print(len(df))

Unnamed: 0,game,platform,comment,username,grade
0,Elden Ring,PlayStation 5,"Comme Socrate disait:""les personnes qui font s...",Platon_Socrate,20
1,Elden Ring,PlayStation 5,La quintessence de la formule des Souls.Miyaza...,Chichariito,19
2,Elden Ring,PlayStation 5,Le jeu est excellent et tourne bien sur PS5 en...,TheRealBigBoss,20
3,Elden Ring,PlayStation 5,"Je suis là pour corriger ma note, j'ai retiré ...",keanu77fr,18
4,Elden Ring,PlayStation 5,Tout à fait novice dans les jeux Fromsoftware ...,enguerrand_92,19


#### Data normalization

In [51]:
df['comment_normalized'] = [normalize_lemm_stem(comment) for comment in df['comment']]

In [52]:
df.head()

Unnamed: 0,game,platform,comment,username,grade,comment_normalized
0,Elden Ring,PlayStation 5,"Comme Socrate disait:""les personnes qui font s...",Platon_Socrate,20,comme socrate disaitles personnes font subir p...
1,Elden Ring,PlayStation 5,La quintessence de la formule des Souls.Miyaza...,Chichariito,19,quintessence formule soulsmiyazaki continue co...
2,Elden Ring,PlayStation 5,Le jeu est excellent et tourne bien sur PS5 en...,TheRealBigBoss,20,jeu excellent tourne bien ps5 mode performance...
3,Elden Ring,PlayStation 5,"Je suis là pour corriger ma note, j'ai retiré ...",keanu77fr,18,corriger note jai retiré précédent commentaire...
4,Elden Ring,PlayStation 5,Tout à fait novice dans les jeux Fromsoftware ...,enguerrand_92,19,tout fait novice jeux fromsoftware jai jouer q...


#### Statistical Analysis

In [53]:
df_grade_pos = df[df['grade'] > 18]
print("Number of comments with grade 19 or 20:", len(df_grade_pos))
df_grade_neg = df[df['grade'] < 2]
print("Number of comments with grade 0 or 1:", len(df_grade_neg))

Number of comments with grade 19 or 20: 2705
Number of comments with grade 0 or 1: 1168


In [54]:
names_pos = extreme_behaviour(dataframe=df, sentiment='positive')
names_neg = extreme_behaviour(dataframe=df, sentiment='negative')
print("Number of user with a positive behaviour:", len(names_pos))
print("Number of user with a negative behaviour:", len(names_neg))

Number of user with a positive behaviour: 246
Number of user with a negative behaviour: 249


#### Prepare Review Bombing Words and Extract Malicious Comments

In [55]:
print(get_bombing_words())

['0', '0/20', '20', '20/20', 'augmente', 'augmenté', 'augmenter', 'augmentes', 'augmentés', 'baisse', 'baissé', 'baisser', 'baisses', 'baissés', 'bombing', 'boycott', 'boycotts', 'bug', 'bugs', 'colere', 'coleres', 'colère', 'colères', 'contre', 'contré', 'contrer', 'contres', 'contrés', 'descendre', 'descendu', 'descendus', 'ensemble', 'ensembles', 'equilibre', 'equilibrer', 'equilibres', 'equilibré', 'equilibrés', 'équilibre', 'équilibrer', 'équilibres', 'équilibré', 'équilibrés', 'evaluation', 'évaluation', 'evalue', 'evalué', 'évalue', 'évalué', 'evaluer', 'évaluer', 'evalues', 'evalués', 'évalues', 'évalués', 'gars', 'honte', 'honteuse', 'honteuses', 'honteux', 'jeuxvideo', 'jeuxvideocom', 'jvc', 'koi', 'mauvais', 'mauvaise', 'mauvaises', 'mec', 'mecs', 'negatif', 'negatifs', 'negative', 'negatives', 'négatif', 'négatifs', 'négative', 'négatives', 'note', 'noter', 'notes', 'patch', 'patche', 'patcher', 'patché', 'positif', 'positifs', 'positive', 'positives', 'quoi', 'rage', 'ragé

In [56]:
review_bombing_pos = naive_bombing(dataframe=df, sentiment='positive')
review_bombing_neg = naive_bombing(dataframe=df, sentiment='negative')
print(len(review_bombing_pos), len(review_bombing_neg))

1251 712


In [57]:
review_bombing_pos = review_bombing_pos[review_bombing_pos['username'].isin(names_pos)]
review_bombing_neg = review_bombing_neg[review_bombing_neg['username'].isin(names_neg)]

#### Positive sentiment analysis Vader

In [58]:
# review_bombing_pos = extract_game_sentiment(dataframe=review_bombing_pos, game='Elden Ring')
review_bombing_pos = extract_game_sentiment(dataframe=review_bombing_pos, game=None)
review_bombing_neg = extract_game_sentiment(dataframe=review_bombing_neg, game=None)

In [59]:
# print(len(review_bombing_pos))
# review_bombing_pos.to_csv('pos.csv', encoding='utf-8-sig')

In [60]:
review_bombing_pos.head(-5)

Unnamed: 0,game,platform,comment,username,grade,comment_normalized,compound_vader
9,Elden Ring,PlayStation 5,D'habitude je rédige de longs avis détaillés m...,Dark-Saul,20,dhabitude rédige longs avis détaillés elden ri...,0.6604
67,Elden Ring,PlayStation 5,C'est un chef-d'oeuvre.Beaucoup le compareront...,FeykroLeRetour,19,cest chefdoeuvrebeaucoup compareront zelda bot...,0.9444
85,Elden Ring,PlayStation 5,Si on pouvait mettre au dessus de 20/20 je le ...,yvic33,20,pouvait mettre dessus 2020 ferai franchement j...,0.8070
126,Elden Ring,PlayStation 5,20/20 sur ps5 pour remonter un peu la note des...,madjz,20,2020 ps5 remonter peu note avis désastreux jeu...,0.8251
161,Elden Ring,PlayStation 5,"Oui, la nôte peut sembler excessive, comme c'e...",Ersqg,20,oui nôte peut sembler excessive comme cest plu...,0.9103
...,...,...,...,...,...,...,...
10411,Until Dawn,PlayStation 4,Un jeux excellent. Il encore meilleur quand on...,armitage13,20,jeux excellent encore meilleur quand joue amis...,0.9764
10580,Batman Arkham Knight - Batgirl : Une Affaire d...,PC,Quand je lis : « Harley Quinn dans son vieux c...,titanatlas,20,quand harley quinn vieux costume lanimé donnan...,0.9766
10659,Batman Arkham Knight,PlayStation 4,Après un Batman Arkham Origins qui aura un peu...,gaelrasengan,19,après batman arkham origin peu divisé foules l...,0.9917
10689,Batman Arkham Knight,PlayStation 4,Ma note réelle est un bon 18/20 mais je met 20...,Scabbia33,20,note réelle bon 1820 met contrer kikoos pciste...,-0.5996


In [61]:
review_pos_high = review_bombing_pos[['game','comment','username']].set_index('game')
review_pos_high['confidence'] = 'HIGH'

In [62]:
review_pos_high.head(5)

Unnamed: 0_level_0,comment,username,confidence
game,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Elden Ring,D'habitude je rédige de longs avis détaillés m...,Dark-Saul,HIGH
Elden Ring,C'est un chef-d'oeuvre.Beaucoup le compareront...,FeykroLeRetour,HIGH
Elden Ring,Si on pouvait mettre au dessus de 20/20 je le ...,yvic33,HIGH
Elden Ring,20/20 sur ps5 pour remonter un peu la note des...,madjz,HIGH
Elden Ring,"Oui, la nôte peut sembler excessive, comme c'e...",Ersqg,HIGH


In [63]:
review_pos_high.to_csv('data/positive_bombing_high.csv')


In [65]:
review_pos_high = pd.read_csv('data/positive_bombing_high.csv')
review_neg_high = pd.read_csv('data/negative_bombing_high.csv')
review_pos_medium = pd.read_csv('data/positive_bombing_medium.csv')
review_neg_medium = pd.read_csv('data/negative_bombing_medium.csv')
review_pos_low = pd.read_csv('data/positive_bombing_low.csv')
review_neg_low = pd.read_csv('data/negative_bombing_low.csv')

full_review_pos = pd.concat((review_pos_high,review_pos_medium,review_pos_low)).set_index('game')
full_review_neg = pd.concat((review_neg_high,review_neg_medium,review_neg_low)).set_index('game')


In [68]:
full_review_pos.to_csv('data/positive_bombing.csv')
full_review_neg.to_csv('data/negative_bombing.csv')

In [64]:
review_neg_high = review_bombing_neg[['game','comment','username']].set_index('game')
review_neg_high['confidence'] = 'HIGH'
review_neg_high.to_csv('data/negative_bombing_high.csv')

In [12]:
pred = predict_review_bombing(dataframe=review_bombing_pos, sentiment='positive')
print("Comment:", pred[0], "From", pred[1])

Comment: 13 sur 20 par la communauté, pourtant on à ici un jeux sérieux solide et qui respecte les passionnés de voitures.
Ok gt7 n'est plus le port- étendard de la simulation de voitures par excellence, comme il l'était a une époque.
C'est pas une révolution graphique ou même niveaux sensation.
Mais honnêtement le jeux fait plus que le taff, un 16 ou 17 c'est pas volé mais voilla comme certains sous côte car le jeux n'est pas pensé comme eux l'on pensé ou par mauvaise foies simple ou se retrouve avec des exclus sony basher. Last of us, horizon, gt7 franchement c'est triste de chier sur un travail de qualité. Jusqu'à quand seigneur, jusqu'à quand. From Kounic89


In [16]:
pred = predict_review_bombing(dataframe=review_bombing_pos, sentiment=None)
print("Comment:", pred[0], "From", pred[1])

Comment: J'ai le jeu depuis la sortie.
Aucunement embeté par la connexion obligatoire..
On aurrais pu s'en passer, mais qui n'as pas internet en 2022. Un faux problème.
Les mictotransactions trop présentent ? Pas plus que dans cod et fifa, et ne pas sortir la cb ne vous handicaperas pas.
60h de jeux, je n'ai pas finis les 'menus' (quêtes en solo), et j'ai 2 permis sur 5.. Une page de defis sur 6.
On dirais qu'on parle d'un jeu avec 3 voitures et 2 circuits, et le reste en dlc payant... C'est pas le cas.Ces 0, ce review bombing massif me dégoûte de la communauté des 'joueurs', qui, en 2022, ne se fait pas un avis en jouant, mais en imitant tel des lemmings les dires de leurs youtubeurs ou streamers préfférés, adeptent des dramas et titres putacliquiens pour le buzz.
On dirais qu'on parle d'un cyberpunk injouable à sa sortie, alors que là, on as un jeu finis et bien finis, sans bugs, et qui peut vous tennir plus de 50h juste avec son contenu d'origine.
Bien plus en refesant des courses d

#### Negative sentiment analysis with TextBlob and Vader

In [13]:
# review_bombing_neg = extract_game_sentiment(dataframe=review_bombing_neg, game='Elden Ring')
review_bombing_neg = extract_game_sentiment(dataframe=review_bombing_neg, game='Gran Turismo 7')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe['compound_vader'] = [senti['compound'] for senti in senti_vader]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe['polarity_tb'] = [senti[0] for senti in sentiment_blob]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe['subjectivity_tb'] = [senti[1] for senti in sentiment_

In [14]:
print(len(review_bombing_neg))
review_bombing_neg.to_csv('neg.csv', encoding='utf-8-sig')

11


In [15]:
pred = predict_review_bombing(dataframe=review_bombing_neg, sentiment='negative')
print("Comment:", pred[0], "From", pred[1])

Comment: Comment est-ce possible ? Un jeu qui devait tout avoir pour plaire !Un côté RPG à l'ancienne allié à la capacité de la console dernière génération !On sent l'amour de la voiture des développeurs à chaque minute, quel dommage de gâcher ça avec l'amour de l'argent, probablement ajouté de force par les développeurs à cause d'une hiérarchie définitivement peu au courant de comment marche le monde du jeu vidéo.Un jeu vendu 80€, bourré de micro-transactions aux prix plus que prohibitifs (qui va dépenser 120€ dans une voiture sur un jeu qui coûte déjà aussi cher ??!). Et quand les joueurs râlent puis trouvent des alternatives, on les sanctionne en baissant les récompenses !Les récompenses parlons-en, chaque jour on gagne un "ticket de loterie". Ne comptez pas trop sur votre bonne étoile, les dés sont pipés. regardez-bien le plus petit lot que vous pourrez avoir avec ledit ticket: c'est celui que vous aurez 95% du temps. Cette statistique n'est pas une extrapolation. Graphiquement nou