# Analyse des notes Metacritic

Metacritic est un agrégateur de note qui prend les notes publiés sur chaque jeux par les plus gros sites parlant de jeu vidéo à travers le monde. Cet outil est aujourd'hui la référence dans le domaine et est souvent utilisé comme étalon pour connaître la qualité d'un jeu. Il est aussi possible pour les utilisateurs de notés les jeux permettant de facilement comparer l'avis des joueurs par rapport à l'avis des critiques. 

A chaque sortie d'un jeu son score Metacritic est mis en avant sur les réseaux sociaux et est souvent remis en cause par les joueurs estimant que les critiques ont été biaisé soit par du sponsoring soit parce qu'ils deviennent de plus en plus clément avec le temps.

### Données
Nous utilisons 2 jeux de données pour ce projet : 
 - Le premier set de données est un scrapping du site Metacritic et couvre les données récoltés de 1995 à 2020.
 - Le second est le chiffre des ventes des jeux ayant dépassé les 100 000 exemplaires physiques dans le monde.
 
 L'usage des données de Metacritic et VGSales sont autorisés tant que cela est fait dans un cadre non-commercial.

### Objectifs 
Grâce à ces jeux de données nous allons chercher des liens entre les notes Metacritic des critiques et des utilisateurs avec différents parametres comme leur genre, leur plateforme, leur année de sortie et leurs ventes. 
La visualiation des données par année permet aussi de mettre en avant l'emergence et la "mort" commerciale des consoles et genre.

In [214]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
import pandas as pd

In [215]:
data = pd.read_csv("data/vgcritics.csv")
data

Unnamed: 0,name,platform,r-date,score,user score,developer,genre,players,critics,users
0,The Legend of Zelda: Ocarina of Time,Nintendo64,"November 23, 1998",99,9.1,Nintendo,"Action Adventure,Fantasy",1 Player,22,5749
1,Tony Hawk's Pro Skater 2,PlayStation,"September 20, 2000",98,7.4,NeversoftEntertainment,"Sports,Alternative,Skateboarding",1-2,19,647
2,Grand Theft Auto IV,PlayStation3,"April 29, 2008",98,7.6,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,64,3806
3,SoulCalibur,Dreamcast,"September 8, 1999",98,8.5,Namco,"Action,Fighting,3D",1-2,24,324
4,Grand Theft Auto IV,Xbox360,"April 29, 2008",98,7.9,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,86,3364
...,...,...,...,...,...,...,...,...,...,...
17939,Vroom in the Night Sky,Switch,"April 5, 2017",17,3.1,Poisoft,"Sports,Individual,Biking",No Online Multiplayer,15,105
17940,Leisure Suit Larry: Box Office Bust,PlayStation3,"May 5, 2009",17,1.9,Team17,"Action Adventure,Adventure,Third-Person,Open-W...",No Online Multiplayer,11,45
17941,Yaris,Xbox360,"October 10, 2007",17,4.3,BackboneEntertainment,"Driving,Racing,Arcade,Arcade,Automobile",2 Online,7,129
17942,Ride to Hell: Retribution,PC,"June 24, 2013",16,1.3,"Eutechnyx,DeepSilver","Driving,Modern,Racing,Motorcycle,Motocross,Mod...",No info,9,581


### Nettoyage du fichier
- Suppression des jeux avec moins de 5 critiques
- Suppression des jeux qui n'ont pas de genre
- Changement de format de date

In [216]:
data['r-date'] = pd.to_datetime(data['r-date'], format='%B %d, %Y')
data = data.loc[data['user score'] != 'tbd']
data = data.loc[(data.critics > 5) & (data.genre != "No info")]
data

Unnamed: 0,name,platform,r-date,score,user score,developer,genre,players,critics,users
0,The Legend of Zelda: Ocarina of Time,Nintendo64,1998-11-23,99,9.1,Nintendo,"Action Adventure,Fantasy",1 Player,22,5749
1,Tony Hawk's Pro Skater 2,PlayStation,2000-09-20,98,7.4,NeversoftEntertainment,"Sports,Alternative,Skateboarding",1-2,19,647
2,Grand Theft Auto IV,PlayStation3,2008-04-29,98,7.6,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,64,3806
3,SoulCalibur,Dreamcast,1999-09-08,98,8.5,Namco,"Action,Fighting,3D",1-2,24,324
4,Grand Theft Auto IV,Xbox360,2008-04-29,98,7.9,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,86,3364
...,...,...,...,...,...,...,...,...,...,...
17939,Vroom in the Night Sky,Switch,2017-04-05,17,3.1,Poisoft,"Sports,Individual,Biking",No Online Multiplayer,15,105
17940,Leisure Suit Larry: Box Office Bust,PlayStation3,2009-05-05,17,1.9,Team17,"Action Adventure,Adventure,Third-Person,Open-W...",No Online Multiplayer,11,45
17941,Yaris,Xbox360,2007-10-10,17,4.3,BackboneEntertainment,"Driving,Racing,Arcade,Arcade,Automobile",2 Online,7,129
17942,Ride to Hell: Retribution,PC,2013-06-24,16,1.3,"Eutechnyx,DeepSilver","Driving,Modern,Racing,Motorcycle,Motocross,Mod...",No info,9,581


# Lien entre note et genre

Construction d'un graphique permettant de comparer la note moyenne des jeux des principaux genres présents sur le site. 

In [217]:
#Need genre / mean score / number of games

genre_list = ["Action", "Adventure", "Arcade", "Sports", "Fighting", "Open-World", "Role-Playing", "RPG", "Platformer", "Fantasy", "Shooter", "Simulation", "Racing", "Survival"]
yearTarget = 2005
data_annual = data.loc[data["r-date"].dt.year == yearTarget]

def score(row, targetGenre) : 
    if targetGenre in row.genre :
        return row.score
    
def user_score(row, targetGenre) :
    if targetGenre in row.genre :
        if row[4] != "tbd" : 
            return float(row[4])

data_gs = pd.DataFrame()
for tg in genre_list : 
    meanScore = data_annual.apply(score, targetGenre = tg, axis='columns').mean()
    meanUserScore = data_annual.apply(user_score, targetGenre = tg, axis='columns').mean()
    numberInGenre = data_annual.genre.map(lambda g: tg in g).value_counts().loc[True]
    data_tmp = pd.DataFrame({'genre' : tg, 'Score moyen des critiques' : meanScore, 'Score moyen des utilisateurs': meanUserScore, 'nb_games' : numberInGenre}, index=["A"])
    data_gs = data_gs.append(data_tmp)

data_gs

Unnamed: 0,genre,Score moyen des critiques,Score moyen des utilisateurs,nb_games
A,Action,68.563805,7.364501,431
A,Adventure,68.97619,7.305357,168
A,Arcade,70.833333,7.24697,66
A,Sports,76.841584,7.471287,101
A,Fighting,65.225806,7.151613,31
A,Open-World,74.4,7.08,5
A,Role-Playing,71.242857,7.567143,70
A,RPG,70.666667,7.595,60
A,Platformer,67.411765,7.415686,51
A,Fantasy,71.090909,7.487879,66


### Show graphics

In [218]:
import numpy as np
import pandas as pd
import plotly.express as px 

pd.options.plotting.backend = "plotly"

In [219]:
genre_colors = {'Action':'gold', 'Adventure':'green', 'Arcade':'brown', 'Sports':'navy', 'Fighting':'#FF0004', 'Open-World':'#00FF16', 'Role-Playing':'#FFB300', 'RPG':'#FAB900', 'Platformer':'#00FCCD', 'Fantasy':'#FC00AB', 'Shooter':'#A33E02', 'Simulation':'#1F8714', 'Racing':'#9B9B9B', 'Survival':'#825C02'}

fig = px.scatter(data_gs, x='Score moyen des utilisateurs', y='Score moyen des critiques', color="genre", hover_name="genre",
                 color_discrete_map=genre_colors, title="Score moyen par genre sur Metacritic en " + str(yearTarget),
                 size='nb_games', size_max=50)
fig

## Bilan
Globalement la moyenne des notes des joueurs suit la moyenne des notes des critiques et montre que les jeux les plus appréciés sont des RPG et des plateformers. Cela montre que de façon générale **utilisateurs et critiques s'accordent plutôt bien sur la qualité d'un jeu.** 

*Ce commentaire est valide lorsque l'on regarde les datas pour toute les années*

La différence visible la plus importante concerne le genre **Open World** qui est le genre préféré des critiques mais est loin d'être celui des joueurs. 
Une des raisons qui pourrait expliquer cette différence est que les Open World sont souvent des jeux très longs. Les critiques devant jouer à beaucoup de jeux n'ont pas le temps d'aller au bout de ce genre de jeux et se retrouvent donc souvent à critiquer une oeuvre dont ils n'ont vu qu'une portion. La note qu'ils donnent risque alors d'être biaisé par rapport à celle d'un joueur ayant parcouru tout le jeu.

# Lien entre note et plateforme

In [220]:
#Need platform / mean score / number of games

platform_list = ["PC", "XboxOne", "Xbox360", "Xbox", "PlayStation4", "PlayStation3", "PlayStation2", "PlayStation", "Switch", "WiiU", "Wii", "GameCube", "Nintendo64", "Dreamcast", "3DS", "DS", "GameBoyAdvance", "PlayStationVita", "PSP"]
data_annual = data.loc[data["r-date"].dt.year == yearTarget]

def score(row, targetPlatform) : 
    if targetPlatform == row.platform :
        return row.score
    
def user_score(row, targetPlatform) :
    if targetPlatform == row.platform :
        if row[4] != "tbd" : 
            return float(row[4])

data_platform = pd.DataFrame()
previousMeanScore = 0
for tg in platform_list : 
    meanScore = data_annual.apply(score, targetPlatform = tg, axis='columns').mean()
    if pd.isna(meanScore) : 
        continue
    meanUserScore = data_annual.apply(user_score, targetPlatform = tg, axis='columns').mean()
    numberInPlatform = data_annual.platform.map(lambda g: g == tg).value_counts().loc[True]
    data_tmp = pd.DataFrame({'platform' : tg, 'Score moyen des utilisateurs' : meanUserScore, 'Score moyen des critiques': meanScore, 'nb_games' : numberInPlatform}, index=["A"])
    data_platform = data_platform.append(data_tmp)

data_platform

Unnamed: 0,platform,Score moyen des utilisateurs,Score moyen des critiques,nb_games
A,PC,7.046835,71.721519,158
A,Xbox360,7.191176,74.470588,34
A,Xbox,7.184713,71.133758,157
A,PlayStation2,7.701942,69.140777,206
A,GameCube,7.352778,70.611111,72
A,DS,7.32069,68.948276,58
A,GameBoyAdvance,7.746341,69.268293,41
A,PSP,7.447143,70.157143,70


In [221]:
platform_colors = {'PC':'silver',"XboxOne":"greenyellow", "Xbox360":"chartreuse", "Xbox":"lime", "PlayStation4":"navy", "PlayStation3":"blue", "PlayStation2":"dodgerblue", "PlayStation":"cyan", "Switch":"red", "WiiU":"firebrick", "Wii":"lightcoral", "GameCube":"salmon", "Nintendo64":"darkred", "Dreamcast":"sandybrown", "3DS":"#B05500", "DS":"#FF7B00", "GameBoyAdvance":"#F3ED36", "PlayStationVita":"#C9C40E", "PSP":"gold"}

fig = px.scatter(data_platform, x='Score moyen des utilisateurs', y='Score moyen des critiques', color="platform", hover_name="platform",
                 color_discrete_map=platform_colors, title="Score moyen par plateforme sur Metacritic en " + str(yearTarget),
                 size='nb_games', size_max=50)
fig.update_layout(yaxis_range=[55, 95])
fig.update_layout(xaxis_range=[5.5,9.5])
fig

### Bilan
On peut observer un fort désaccord entre les joueurs et les critiques pour certaines consoles. La Wii par exemple est selon la critique la consoles ayant les plus mauvais jeux alors que selon les joueurs elle se classe au même niveau et même mieux qu'une bonne partie des consoles.

Plusieurs raisons possible pour l'exemple de la Wii : 
- La Wii est une console ayant des mauvaises performances graphiques par rapport à ses concurents de l'époque. Or, les critiques prennent souvent la qualité visuel fortement en compte. 
- La Wii propose de nombreux jeux ayant une cible familiale. Les critiques jouent souvent seul ou au moins dans un contexte de travail ce qui influence l'expérience qu'ils vont vivre et l'avis qu'ils auront des jeux. 

In [222]:
#Evolution des ventes de jeux

# Lien entre note et ventes

Un jeu salué par la critique fait t-il forcément de grosse vente ? Nous allons voir s'il existe un lien entre les deux et si le score donné par les utilisateurs est aussi liés à ce chiffre.

Pour pouvoir faire un lien entre les notes et les ventes nous devons fusioner 2 sets de données différents, l'un contenant les notes (que nous avons utilisé précédemment) et l'autre contenant les ventes des jeux. Nous pouvons les lier en utilisant le nom des jeux. 

Le données de ventes contiennent des jeux sorties avant la création de Metacritic et uniquement des jeux ayant vendus plus de 100 000 exemplaires. Par conséquent il y a moins de jeux que dans notre premier jeu de données.

In [223]:
data_sales = pd.read_csv("data/vgsales.csv")
data_sales

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,Kemco,0.01,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003,Shooter,Infogrames,0.01,0.00,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,Activision,0.00,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,2010,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01


In [224]:
name_corres = [("XOne", "XboxOne"), ("X360", "Xbox360"), ("XB", "Xbox"), ("PS4", "PlayStation4"), ("PS3", "PlayStation3"), ("PS2", "PlayStation2"), ("PS", "PlayStation"), ("GC", "GameCube"), ("GBA", "GameBoyAdvance"), ("N64", "Nintendo64"), ("PSV", "PlaystationVita")]

# Same name easier merged between both data base  
data_sales.rename(columns = {"Name": "name", "Platform": "platform"}, inplace = True)

for pair in name_corres : 
    data_sales.loc[data_sales['platform'] == pair[0], 'platform'] = pair[1]


data_merged = pd.merge(data, data_sales, on=["name", "platform"])
data_merged

Unnamed: 0,name,platform,r-date,score,user score,developer,genre,players,critics,users,Rank,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,The Legend of Zelda: Ocarina of Time,Nintendo64,1998-11-23,99,9.1,Nintendo,"Action Adventure,Fantasy",1 Player,22,5749,95,1998,Action,Nintendo,4.10,1.89,1.45,0.16,7.60
1,Tony Hawk's Pro Skater 2,PlayStation,2000-09-20,98,7.4,NeversoftEntertainment,"Sports,Alternative,Skateboarding",1-2,19,647,226,2000,Sports,Activision,3.05,1.41,0.02,0.20,4.68
2,Grand Theft Auto IV,PlayStation3,2008-04-29,98,7.6,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,64,3806,57,2008,Action,Take-Two Interactive,4.76,3.76,0.44,1.62,10.57
3,Grand Theft Auto IV,Xbox360,2008-04-29,98,7.9,RockstarNorth,"Action Adventure,Modern,Modern,Open-World",1 Player,86,3364,52,2008,Action,Take-Two Interactive,6.76,3.10,0.14,1.03,11.02
4,Super Mario Galaxy,Wii,2007-11-12,97,9.0,Nintendo,"Action,Platformer,Platformer,3D,3D",No Online Multiplayer,73,3059,49,2007,Platform,Nintendo,6.16,3.40,1.20,0.76,11.52
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6327,Charlie's Angels,GameCube,2003-07-09,23,4.4,NekoEntertainment,"Action,Beat-'Em-Up",1 Player,21,35,15524,2003,Action,Ubisoft,0.01,0.00,0.00,0.00,0.02
6328,Fast & Furious: Showdown,Xbox360,2013-05-21,22,1.3,"Activision,FirebrandGames","Driving,Racing,Arcade,GT / Street,GT / Street,...",No info,9,132,13356,2013,Action,Activision,0.00,0.04,0.00,0.00,0.05
6329,Drake of the 99 Dragons,Xbox,2003-11-03,22,1.7,IdolFX,"Action,Shooter,Third-Person,Fantasy",1 Player,16,41,12017,,Shooter,Unknown,0.05,0.01,0.00,0.00,0.07
6330,Deal or No Deal,DS,2007-07-23,20,2.2,ArtefactsStudio,"Miscellaneous,Trivia / Game Show,Trivia / Game...",1-2,13,44,1045,2007,Misc,Mindscape,1.15,0.41,0.00,0.15,1.71


In [225]:
# Show the graph
fig = px.scatter(data_merged, x='Global_Sales', y='score', hover_name="genre",
                 color_discrete_map=genre_colors, title="Score des jeux comparés à leurs ventes mondiales", labels={
                     "Global_Sales": "Vente mondiale (en millions)",
                     "score": "Note des critiques metacritic",
                 }, log_x=True)
fig

In [226]:
fig = px.scatter(data_merged, x='Global_Sales', y='user score', hover_name="genre",
                 color_discrete_map=genre_colors, title="Score des jeux comparés à leurs ventes mondiales", labels={
                     "Global_Sales": "Vente mondiale (en millions)",
                     "user score": "User score",
                 }, log_x=True)
fig['layout']['yaxis']['autorange'] = "reversed"
fig

## Bilan

On peut voir qu'il semble y avoir peut de lien entre le score d'un jeu et son nombre de vente autant du coté des critiques que des joueurs pour les jeux faisant moins de 2 millions de ventes. Au délà de 2 millions il y a presque uniquement des jeux bien notés.

## Evolution des notes moyennes sur Metacritic

Les succès critiques impressionnants de nombreux jeux ces dernières années pourrait nous faire penser que les critiques note de plus en plus généreusement. Voyons si le moyenne des notes sur Metacritic évolue vraiment avec les années.

Graphe d'évolution des notes en gardant les 50 jeux les mieux notés de chaque année :

In [227]:
data_mean = data.groupby(data['r-date'].dt.year).head(50)
del data_mean['users']
del data_mean['critics']

evolution_per_year = data_mean.groupby(data['r-date'].dt.year).mean()

px.line(evolution_per_year, title="Moyenne des 50 meilleurs notes par année", labels={
                     "value": "Score moyen",
                     "r-date": "Année",
                 },)

In [228]:
data_mean = data.groupby(data['r-date'].dt.month).head(50)
del data_mean['users']
del data_mean['critics']
evolution_per_month = data_mean.groupby(data['r-date'].dt.month).mean()

px.line(evolution_per_month, title="Moyenne des 50 meilleurs notes par mois", labels={
                     "value": "Score moyen",
                     "r-date": "Mois",
                 },)

## Bilan 

Contrairement a la croyance populaire les notes des meilleurs jeux n'augmentent pas d'année en année c'est même l'inverse, on peut observer une descente progressive. 

On peut voir que la période de l'année ayant les meilleurs jeux est en novembre. C'est à ce moment là que sorte beaucoup de très grosses production pour profiter des ventes de noël. A l'inverse l'été est une période creuse où sorte en moyenne moins de très bons jeux. 

### Stats par plateforme

In [229]:
# Evolution des notes des jeux d'une console
def note_evolution_platform(platform) :
    data_platform = data.loc[data["platform"] == platform]
    data_mean = data_platform.groupby(data['r-date'].dt.year).mean()

    evolution_per_year = data_mean

    return evolution_per_year

platform = "Wii"
evolution_per_year = note_evolution_platform(platform)
px.line(evolution_per_year, y="score", title="Evolution des notes des jeux sorties sur " + platform, labels={
                         "score": "Score moyen",
                         "r-date": "Année",
                     },)

In [230]:
def sales_evolution_platform(platform) :
    data_platform = data_sales.loc[data_sales["platform"] == platform]
    data_mean = data_platform.groupby(data_platform['Year']).sum()

    evolution_per_year = data_mean

    return evolution_per_year

platform = "XboxOne"
evolution_per_year = sales_evolution_platform(platform)
px.line(evolution_per_year, y="Global_Sales", title="Evolution des ventes cumulés des jeux sorties pendant une année sur " + platform, labels={
                         "Global_Sales": "Ventes mondiales (en millions)",
                         "Year": "Année",
                     },)

In [231]:
platform = "XboxOne"

data_platform = data.loc[data["platform"] == platform]
data_platform['user score'] = data_platform['user score'].astype(float)
data_diff_scores = data_platform.groupby(data['r-date'].dt.year).mean()
#px.line(data_diff_scores, y="Global_Sales", title="Différence de note entre critique et utilisateur sur une année sur " + platform, labels={
#                         "Global_Sales": "Ventes mondiales (en millions)",
#                         "Year": "Année",
#                     },)
data_diff_scores['diff'] = data_diff_scores['score'] - (data_diff_scores['user score'] * 10)
px.line(data_diff_scores, y="diff", title="Evolution des différences entre critiques et joueurs pour des jeux sorties pendant une année sur " + platform, labels={
                         "diff": "Différence moyenne entre notes des critiques et des joueurs",
                         "r-date": "Année",
                     },)




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

