# EDA com Análise Gráfica - Explorando o dataset da plataforma Metracritic

## Importando Bibliotecas & Definindo Constantes

In [1]:
from typing import Dict, List
import os
import re
from collections import Counter

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

%matplotlib inline

In [2]:
sns.set_theme()

In [10]:
DATA_INPUT_FOLDER = 'https://raw.githubusercontent.com/SLMath/Metacritic_Score-Analysis/main/data/'
DATA_FILES = ('games.csv', 'movies.csv', 'music.csv', 'tv.csv')

ARCHIVE_FOLDER = '/content/archive'
OUTPUT_FOLDER = '/content/output'

## Importando os Dados

Extraídos da base: https://www.kaggle.com/datasets/patkle/metacritic-scores-for-games-movies-tv-and-music

Os dados são referentes a notas de jogos, filmes, músicas e séries (de TV) avaliados por usuários e pelo próprio domínio Metacritic.

In [11]:
# Um dicionário contendo os 4 DataFrames, separados
df_dict : Dict[ str, pd.DataFrame ] = {}
for file_data in DATA_FILES:
    print(os.path.join( DATA_INPUT_FOLDER, file_data ))
    df_dict[file_data[:-4]] = pd.read_csv(
        os.path.join( DATA_INPUT_FOLDER, file_data ),
        index_col=0,
        parse_dates= ['release_date'],
        dayfirst= True
    )

print(df_dict.keys())

https://raw.githubusercontent.com/SLMath/Metacritic_Score-Analysis/main/data/games.csv
https://raw.githubusercontent.com/SLMath/Metacritic_Score-Analysis/main/data/music.csv
https://raw.githubusercontent.com/SLMath/Metacritic_Score-Analysis/main/data/tv.csv
https://raw.githubusercontent.com/SLMath/Metacritic_Score-Analysis/main/data/movies.csv
dict_keys(['games', 'music', 'tv', 'movies'])


In [15]:
for type_, df in df_dict.items():
    print(type_)
    df.info()
    print()

games
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20022 entries, 543718 to 213564
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   metascore     20022 non-null  int64         
 1   platform      20022 non-null  object        
 2   release_date  20022 non-null  datetime64[ns]
 3   sort_no       20022 non-null  int64         
 4   summary       19930 non-null  object        
 5   title         20022 non-null  object        
 6   user_score    20022 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 1.2+ MB

music
<class 'pandas.core.frame.DataFrame'>
Int64Index: 13147 entries, 13354 to 2756
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   artist        13147 non-null  object        
 1   metascore     13147 non-null  int64         
 2   release_date  13147 non-null  datetime

# Analizando Inicialmente a Base exclusiva de Jogos

## Visão Geral

In [None]:
games_df = df_dict['games']

# Observar informações gerais sobre os dados e tipos
display(games_df.info())
display(games_df.head())

O banco apresenta 20022 registros (linhas), com 7 propriedades (colunas):

- metascore: nota da plataforma
- plataforma
- data de lançamento
- número de ordenação (não está claro a que se refere)
- resumo: descrição breve do jogo
- título: nome do jogo
- nota dos usuários

Podemos verificar que

- metascore é de 0 a 100 e está ocupando espaco de um int 64
- Há dados nulos (faltando) para o resumo (summary) de alguns registros
- Os dados de nota dos usuários (user_score) estão sendo tratados como texto (object) em vez de números (float)

## Entendendo o Significado dos Dados

### sort_no

Analisar número de ordenação (sort_no), para tentar entendê-lo e descobrir se ele é útil

In [None]:
# Conferir se é único
np.any(games_df['sort_no'].duplicated())

In [None]:
# Conferir se tem alguma relação com outra coluna, principalmente de notas
games_df.sort_values('sort_no')

In [None]:
# comparar se a ordenação pelo metascore (decrescente) e pelo sort_no (crescente) tem mesmas notas metascore
np.all(
    games_df.sort_values('metascore', ascending= False, ignore_index= True)['metascore'] ==
    games_df.sort_values('sort_no', ignore_index= True)['metascore']
)

Logo concluímos que sort_no é uma ordenação de ranking com base nos maiores metascore

## Levantando Questionamentos

1.
    a. Qual o top 10 jogos mais bem avaliados pelo site?
    b. E pelos usuários?
    c. E o bottom 10 (piores avaliados)?
2. Como é a distribuição da diferença entre as notas (colocando-as na mesma escala)?
3. Qual a plataforma que mais aparece entre os 100
    a. melhores avaliados pelos usuários?
    b. piores avaliados pelos usuários?
4.
    a. As notas dos jogos melhoraram a cada ano?
    b. E para cada plataforma ao longo dos anos?
5. Tem alguma epoca do ano que apresenta:
    a. maior número de lançamentos?
    b. maior sucesso em relação a notas maiores?
    c. maior fracasso em relação a piores notas?
6. Que palavras mais aparecem
    a. nos títulos dos 1000 melhores jogos?
    b. E dos 1000 piores?
    c. E nos resumos?
7. Para os mesmos jogos disponibilizados para diferentes plataformas, como se comportam
    a. as notas dos usúarios?
    b. as notas do site?
    c. a diferença entre as notas?
8. Qual o número de games produzidos para cada plataforma do Dataset? Esses valores indicam qual porcentagem do total?
9. Qual a proporção de cada tipo de classificação metascore atribuída aos games? Qual a porcentagem do total de cada uma?

## Limpando dados

### metascore (número de bytes)

In [None]:
# int 8 vai até 128, contemplando todos os valores
games_df = ( games_df.astype({'metascore': 'int8'}) )

### user_score

In [None]:
# tentativa de converter o tipo dos dados de user_score, para ver os valores que falham
set_errors = set()
for score in games_df['user_score']:
    try:
        float(score)
    except Exception as e:
        set_errors.add(str(e))
print(set_errors)

In [None]:
# Entendendo os registros com nota tbd (To Be Determined, traduzido como "a ser determinado")
display( games_df[ games_df['user_score'] == 'tbd' ].head() )
print(f"Número de registros com nota dos usuários pendente: { np.sum( games_df['user_score'] == 'tbd' ) }")
print(f"Porcentagem de registros com nota dos usuários pendente: { np.sum( games_df['user_score'] == 'tbd' ) / len( games_df ) :0.1%}")

Uma possível explicação para esse valor é de que esse número é uma média e ainda não tiveram avaliações de usuários o suficiente para computar uma média adequada.

Podemos adotar algumas abordagens:

- substituir os valores pela média geral
- separar em grupos de acordo com algum critério e substituir os valores pelas médias de cada grupo
    - mesmo metascore
    - mesma plataforma
    - mesmo metascore e plataforma
- substituir os valores usando técnicas que mantenham a distribuição dos dados válidos
    - bfill (backward fill) : substituir pela proxima observacao
    - ffill (forward fill) : substituir pela observacao anterior
- excluir linhas

Como esses dados representam 7% dos valores, não desejo excluí-los, então tentarei uma média de acordo o agrupamento pela plataforma

In [None]:
# para comparação
games_df['user_score_raw'] = games_df['user_score']

# Transformar a coluna em float, e os valores faltantes em NaN para poder computar a média
games_df['user_score'] = games_df['user_score'].replace('tbd', np.nan).astype(float)

# Criar uma cópia do dataframe, para alterar o user_score somente na cópia
games_df['user_score'] = games_df['user_score'].fillna(
    games_df.groupby('platform')['user_score'].transform('mean')
)

display( games_df[['user_score', 'user_score_raw']].head() )
display( games_df[games_df['user_score_raw'] == 'tbd'][['platform', 'user_score', 'user_score_raw']].head(10) )

games_df = games_df.drop(columns= 'user_score_raw')

### summary

In [None]:
print('número de resumos faltantes:', games_df['summary'].isna().sum() )
display( games_df[games_df['summary'].isna()].head() )

Parece ser um caso de dados não coletados, pois a falta de um texto no csv gera um NaN

Podemos adotar algumas abordagens:

- procurar os dados na internet e preencher manualmente
- substituir por um valor padrão
- deixar como está
- excluir linhas

Como é uma descrição do jogo, não há necessidade em perder os outros dados por conta dele.

Substituirei os valores por uma string vazia, assim como está em games.csv

In [None]:
games_df['summary'] = games_df['summary'].fillna('')
games_df['summary'].isna().sum()

## Criando Novas Variáveis

### Trimestre de Lançamento

Como forma de expandir nossas possibilidades de análise, vamos inserir nos dados uma nova variável que informa qual o trimestre do ano em que o Jogo foi lançado.

In [None]:
def set_year_quarter(month : int) -> str:
    '''Retorna uma nova variável que informa o trimestre do ano em que
    o jogo foi lançado. Essa definição de trimestre se baseia no mês de lançamento
    da coluna release_date.
    '''
    return (
        'Q1' if month in [1, 2, 3] else
        'Q2' if month in [4, 5, 6] else
        'Q3' if month in [7, 8, 9] else
        'Q4' if month in [10, 11, 12] else
        np.nan
    )

In [None]:
# Aplicando função:
games_df['release_quarter'] = games_df['release_date'].apply(set_year_quarter)

# Checando resultado:
games_df[['release_quarter', 'release_date']].sample(10)

### Metascore_class

Essa variável tem como objetivo abrigar a classificação dos valores do Metascore. De acordo com um [FAQ do próprio site](https://www.metacritic.com/about-metascores), para cada range de notas temos uma classificação geral atribuída a ele como ilustrado na imagem abaixo retirada diretamente do FAQ:

<img src="https://raw.githubusercontent.com/JoSEPHDev2022/Metacritc_Scores_Video_Games/main/images/metascore_classification.png" width=700 height=350>

https://www.metacritic.com/about-metascores

In [None]:
def set_metascore_class(score : int) -> str:
    '''Retorna uma nova variável que consta a classificação do Jogo
    com base em sua nota. Essas classificações são:
        - "Universal Acclaim" para games com notas entre 90 e 100;
        - "Generally Favorable Reviews" para games com notas entre 75 e 89;
        - "Mixed or Average Reviews" para games com notas entre 50 e 74;
        - "Generally Unfavorable Reviews" para games com notas entre 20 e 49;
        - "Overwhelming Dislike" para games com notas entre 0 e 19.
    '''
    return (
        '1st - Universal Acclaim' if 90 <= score <= 100 else
        '2nd - Generally Favorable' if 75 <= score <= 89 else
        '3rd - Mixed or Average' if 50 <= score <= 74 else
        '4th - Generally Unfavorable' if 20 <= score <= 49 else
        '5th - Overwhelming Dislike' if 0 <= score <= 19 else
        np.nan
    )

In [None]:
# Aplicando função:
games_df['classification'] = games_df['metascore'].apply(set_metascore_class)

# Visualizando resultados:
games_df[['classification', 'metascore']].sample(10)

## Funcoes auxiliares

Com objetivo de estudar palavras presentes na descrição e título, criarei uma função que realiza a extração das palavras

In [None]:
def extract_words(texto : str) -> List[str]:
    return re.findall('\w+', texto)

extract_words('Injustice 2: Legendary Edition')

In [None]:
def count_words(serie_texto : pd.Series) -> Dict[str, int]:
    '''
    It counts the number of text elements from the input series which contain a certain word
    @input:
        - serie_texto: a string-type pd.Series
    @output:
        A dict where each key is a word and the value its count as described
    '''
    word_counter = Counter()
    for texto in serie_texto:
        word_counter.update( Counter( set( extract_words(texto) ) ) )
    return word_counter

count_words(pd.Series(['Injustice 2: Legendary Edition', 'Injustice 2: Legendary Edition', 'Mini Metro']))

## EDA

### Análise Univariada

In [None]:
games_df.columns

#### Ánalise de Variável Categórica: platform

In [None]:
games_df['platform'].value_counts(ascending= True).plot.barh()

Há muitas plataformas, e muitas estão relacionadas pelo 'fabricante', entao criaremos outra coluna

In [None]:
platform_manufacturer = {
    'PC' : 'PC',
    'PlayStation' : 'PlayStation',
    'PlayStation 5' : 'PlayStation',
    'PlayStation 4' : 'PlayStation',
    'PlayStation 3' : 'PlayStation',
    'PlayStation 2' : 'PlayStation',
    'PlayStation Vita' : 'PlayStation',
    'PSP' : 'PlayStation',
    'Nintendo 64' : 'Nintendo',
    'GameCube' : 'Nintendo',
    'Wii U' : 'Nintendo',
    'Wii' : 'Nintendo',
    'Switch' : 'Nintendo',
    'Game Boy Advance' : 'Nintendo',
    'DS' : 'Nintendo',
    '3DS' : 'Nintendo',
    'Xbox Series X' : 'Xbox',
    'Xbox' : 'Xbox',
    'Xbox One' : 'Xbox',
    'Xbox 360' : 'Xbox',
    'Xbox 360' : 'Xbox',
    'Stadia' : 'Other',
    'Dreamcast' : 'Other'
}
games_df['manufacturer'] = games_df['platform'].map(platform_manufacturer)
games_df['manufacturer'].value_counts().plot.bar(rot= 45)

Assim podemos ver que a PlayStation na verdade ultrapassa o número de jogos de PC no total,
considerando que ela renova o console de tempos em tempos

#### Histogramas: analisando variáveis numéricas continuas

##### funcao auxiliar

In [None]:
# Definindo uma função para plotagem dos histogramas pelo MatPlotLib:

def histogram_plot(data: pd.DataFrame, column: pd.Series, bin_width: float, title: str):
    '''Retorna um Histograma detalhado sobre os dados fornecidos.

    PARÂMETROS:

        - data > Um DataFrame do Pandas contendo os dados;
        - column > Uma Series do Pandas contendo os dados desejados para plotagem;
        - bin_width: > Número float para a dimensão das barras do histograma;
        - title > O título desejado para o plot.
    '''
    fig, ax1 = plt.subplots(figsize=(12,6))

    ax2 = sns.histplot(data=data,
                       x=column,
                       kde=True,
                       label='Frequência',
                       binwidth=bin_width,
                       edgecolor='black',
                       line_kws={'linestyle': 'dashdot'},
                       color='#151bbf')

    ax2.set_title(title, fontdict={'size': 15,
                                   'weight': 'bold'})

    ax2.set_ylabel('Num. Registros', fontdict={'size': 12,
                                               'family': 'monospace'})

    ax2.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda number, char: format(int(number), ',')))

    ax2.set_xlabel('')

##### release_year

In [None]:
# Histograma:
histogram_plot(games_df,
               'release_year',
               1,
               'Distribuição de Lançamento de Jogos por Ano')

# Anotando lançamento PS2:
plt.annotate('Lançamento PS2',
             fontsize=9,
             fontfamily='monospace',
             xy=(2000.1, 370),
             xytext=(1994.5,400),
             arrowprops={'arrowstyle':'->', 'color':'black'},
             bbox={'boxstyle': 'round', 'fc': '0.65', 'color': '#0bc3d4'})

# Anotando lançamento X-Box:
plt.annotate('Lançamento X-Box',
             fontsize=9,
             fontfamily='monospace',
             xy=(2001.1, 555),
             xytext=(1994.5,570),
             arrowprops={'arrowstyle':'->', 'color':'black'},
             bbox={'boxstyle': 'round', 'fc': '0.65', 'color': '#0bd422'})

plt.show()

Centralidade

- Em relação aos anos de lançamento dos jogos, temos uma tendência central entre 2015 e 2020, onde as maiores quantidades de data points se acumulam.

Amplitude

In [None]:
amplitude = games_df['release_year'].max() - games_df['release_year'].min()

print(f'Período de {amplitude} anos.')

##### release_month

In [None]:
# Histograma:
histogram_plot(games_df,
               'release_month',
               0.95,
               'Distribuição de Lançamento de Jogos por Mês')

Centralidade

- Em relação aos meses de lançamento dos jogos, temos uma tendência central mais ao final do ano, a partir de Setembro (9) a Novembro (11).

Amplitude

In [None]:
amplitude = games_df['release_month'].max() - games_df['release_month'].min()

print(f'Intervalo de Tempo de {amplitude} meses.')

##### user_score

In [None]:
# Histograma:
histogram_plot(games_df,
               'user_score',
               0.3,
               'Distribuição de Avaliações de Usuários')

Centralidade

- Em relação as notas fornecidas pelos usuários, temos uma tendência central dos dados entre 7 e 8, como a mediana de 7.1 nos apontou anteriormente.

Amplitude

- Temos uma amplitude pequena por se tratar de uma avaliação, indo de 0 a 10.

In [None]:
_= games_df['user_score'].plot.box(vert= False)

user_score apresentam muitos outliers a esquerda (valores baixos)e mais da metade dos jogos está avaliado no intervalo de 6 a 8.

##### metascore

In [None]:
# Histograma:
histogram_plot(games_df,
               'metascore',
               1,
               'Distribuição de Avaliações Metacritic')

Centralidade

- Em relação as notas fornecidas pelo Metacritic, temos uma tendência central dos dados entre 70 e 80. A distribuição de notas do Metacritic parece seguir o mesmo padrão das notas fornecidas pelos usuários, o que demonstra que as notas fornecidas pelo site não são tão discrepantes em relação as fornecidas pelos usuários. A correlação exata dessas duas métricas de avaliação será estudada mais a frente.

Amplitude

- Temos uma amplitude de dados variando de 0 a 100.

In [None]:
_= games_df['metascore'].plot.box(vert= False)

metascore também apresentam muitos outliers a esquerda (valores baixos)
e mais da metade dos jogos está avaliado no intervalo de 60 a 80, bem semelhante ao user_score, considerando as escalas.

### Análise Bivariada

#### Correlação entre as variáveis

In [None]:
# Criando matriz de correlações:

correlation_matrix = games_df.select_dtypes(include=[np.number]).corr()

correlation_matrix

In [None]:
# Selecionando as colunas relevantes (excluindo 'sort_no')
cols = [col for col in games_df.columns if col != 'sort_no']
subset_df = games_df[cols]

# Calculando a matriz de correlação
correlation_matrix = subset_df.corr()

# Criando o Heatmap:
fig, ax = plt.subplots(figsize=(16, 6))

ax = sns.heatmap(correlation_matrix,
                 vmin=-1,
                 vmax=1,
                 annot=True,
                 linewidths=1,
                 cmap='coolwarm')

# Formatação:
plt.title('Correlações de Variáveis', fontdict={'size': 18, 'weight': 'bold'}, pad=16)

plt.show()

<font color='#039c0b'>**Correlação igual a 1**</font>

- Correlação positiva perfeita. Quando o valor de uma variável X aumenta, o valor de outra variável Y também aumenta.

<font color='#039c0b'>**Correlação acima de 0**</font>

- Correlação positiva. Quando o valor de uma variável X aumenta, o valor de outra variável Y tende a aumentar, porém essa regra não é absoluta, tendo valores da variável Y que não se alteram ou diminuem.

**Correlação igual a 0**

- Não existe correlação entre as duas variáveis.

<font color='#a80505'>**Correlação menor que 0**</font>

- Correlação negativa. Quando o valor de uma variável X aumenta, o valor de outra variável Y tende a diminuir, porém essa regra não é absoluta, tendo valores da variável Y que não se alteram ou aumentam.

<font color='#a80505'>**Correlação igual a -1**</font>

- Correlação neagtiva perfeita. Quando o valor de uma variável X aumenta, o valor de outra variável Y diminui.

A correlação positiva entre user_score e metascore era esperada, apesar de não ser tão forte (>0.8). O que significa que há uma divergência entre as notas dadas pelo site e pelos usuários.

Outra correlação que aparece, apesar de fraca, é negativa entre o user_score e release_year. Isso quer dizer que quanto mais novos os jogos, maior o release_year e menor o user_score

#### user_score e metascore

In [None]:
def scale_scores(row : pd.DataFrame) -> pd.DataFrame:
    row['metascore'] /= 100
    row['user_score'] /= 10
    return row

_= sns.violinplot( games_df[['user_score', 'metascore']].apply(scale_scores, axis= 1) )

Ambos tem comportamento parecido na distribuição, porém devemos olhar a relação dos pares para cada jogo em específico para melhor avaliar a relação

In [None]:
plt.figure(figsize= (6,6)) # importante deixar quadradro para uma comparaçao justa
_= sns.scatterplot(games_df, x= 'user_score', y= 'metascore', size= 0.5, alpha= 0.5)

É visível que, apesar da forte tendencia de que jogos com notas altas no metascore sejam bem avaliados pelos usuários, existem muitos casos bem avaliados pelo site, porém com nota bem baixa dos usuários, e vice-versa.

#### user_score e release_year

In [None]:
_= sns.lineplot(games_df, x= 'release_year', y= 'user_score', color= 'darkred')
plt.ylim(0, 10)

Ao longo do tempo, a média das notas dos usuários tem caído. Isso nos leva a pensar se a qualidade dos jogos tem piorado, se os usuários estão mais críticos, ou outras hipóteses como: será que o volume de jogos aumentou muito e também a diversidade dos estilos, o que não agrada a todos e decai as notas?

### Análise Multivariável

#### Padrões nos jogos conforme a avaliação


In [None]:
games_df['classification_hue'] = games_df['classification'].map({
    'Universal Acclaim' : 'best',
    'Generally Favorable' : 'average',
    'Mixed or Average' : 'average',
    'Generally Unfavorable' : 'worst',
    'Overwhelming Dislike' : 'worst'
})

In [None]:
import matplotlib.patches as mpatches

# removendo sort_no e metascore do gráfico ja que classification é baseada neles
fig, axes = plt.subplots(2, 2, figsize= (15,8))
axes = axes.flatten()

for datetime_col, ax in zip(
        ['release_day', 'release_month', 'release_year', 'release_date'],
        axes
    ):
    sns.scatterplot(
        games_df,
        ax= ax,
        x= datetime_col,
        y= 'user_score',
        hue= 'classification_hue',
        hue_order= ['best', 'average', 'worst'],
        palette= {'average' : 'grey', 'worst' : 'orange', 'best' : 'green'},
        alpha= 0.2
    )
    ax.tick_params(axis='x', rotation=90)
    legend = ax.get_legend()
    legend.remove()

handles = []
for hue, color in {'average' : 'grey', 'worst' : 'orange', 'best' : 'green'}.items():
    patch = mpatches.Patch(color= color, label= hue)
    handles.append(patch)
_= fig.legend(handles= handles, loc= 'center right')

Note que antes de 2000 os jogos eram muito bem avaliados pelos usuários, e também é uma região que concentra muitos pontos verdes

In [None]:
_= games_df.groupby(['classification_hue', 'manufacturer'], as_index= False)['title'].count().pivot(
    index='manufacturer', columns='classification_hue', values='title'
).apply(
    lambda row : 100 * row / row.sum(),
    axis= 1
)[ ['best', 'worst'] ].sort_values('best').plot.barh(
    title= 'Parcela de jogos entre os melhores e piores (%)'
)

Desconsiderando o novo grupo 'Other', os outros não apresentam diferenças significativas entre eles considerando os melhores jogos. Até os piores a diferença é pequena, mas claramente 'PC' não apresentam tantos jogos ruin como o Xbox em termos percentuais.

In [None]:
_= games_df.groupby(['classification_hue', 'platform'], as_index= False)['title'].count().pivot(
    index='platform', columns='classification_hue', values='title'
).apply(
    lambda row : 100 * row / row.sum(),
    axis= 1
)[ ['best', 'worst'] ].sort_values('best').plot.barh(
    title= 'Parcela de jogos entre os melhores e piores (%)'
)

Aqui observa-se um obvio sucesso nos jogos da NIntendo 64 e do PS1 e Dreamcast quando comparados as outras plataformas em percentual.

### Analisando Hipoteses E Respondendo Questionamentos

#### H1 - Qual o top 10 jogos mais bem avaliados pelo site? E pelos usuários?

In [None]:
h1_games_df = games_df[['title', 'user_score']].sort_values(by='user_score', ascending=False).head(10)

plt.figure(figsize=(10,6))
ax = sns.barplot(data=h1_games_df, y='title', x='user_score', orient='h', color='lightblue')
ax.set_title('10 Melhores jogos segundo os usuários')
ax.set_ylabel('Título do Jogo')
ax.set_xlabel('Nota dos Usuários Metacritic')
ax.axvline(games_df['user_score'].mean(), color= 'darkgrey')
ax.text(games_df['user_score'].mean(), 8.3, 'média', rotation= 'vertical', color= 'darkgrey')
plt.show()

In [None]:
h1_games_df = games_df[['title', 'metascore']].sort_values(by='metascore', ascending=False).head(10)

plt.figure(figsize=(8,6))
ax = sns.barplot(data=h1_games_df, y='title', x='metascore', orient='h', color='lightblue')
ax.set_title('10 Melhores jogos segundo o Metacritic')
ax.set_ylabel('Título do Jogo')
ax.set_xlabel('Nota Metacritic')
ax.axvline(games_df['metascore'].mean(), color= 'darkgrey')
ax.text(games_df['metascore'].mean(), 8.3, 'média', rotation= 'vertical', color= 'darkgrey')
plt.show()

In [None]:
pd.merge(
    games_df.sort_values(by='user_score', ascending=False).head(10),
    games_df.sort_values(by='metascore', ascending=False).head(10)
)

Nenhum em comum

#### H2 - Qual a plataforma que mais aparece entre os 100 melhores avaliados pelos usuários?

In [None]:
h2_games_df = games_df.sort_values(by='user_score', ascending=False).head(100).groupby('platform').count()['user_score'].sort_values(ascending=False).reset_index()

In [None]:
plt.figure(figsize=(12,6))
ax = sns.barplot(data=h2_games_df, y='platform', x='user_score', orient='h', color= 'lightblue')
ax.set_ylabel('Plataforma')
ax.set_xlabel('Jogos entre os 100 melhores')
plt.show()

In [None]:
plt.figure(figsize=(12,6))
ax = sns.barplot(
    data= games_df.sort_values(
            by='user_score', ascending=False
        ).head(100).groupby('manufacturer', as_index= False)['user_score'].count().sort_values(
            by='user_score', ascending=False
        ),
    y='manufacturer',
    x='user_score',
    orient='h',
    color= 'lightblue')
ax.set_xlabel('Jogos entre os 100 melhores')
plt.show()

Considerando a junção dos jogos de PS, eles ultrapassam ligeiramente os jogos de PC, e os da Nintendo também se aproximam bastante.

#### H3 - As notas dos jogos melhoraram a cada ano? E para cada plataforma ao longo dos anos?

In [None]:
h3_df1 = games_df.groupby(['release_year'],as_index=False)[['metascore']].mean()
h3_df2 = games_df.groupby(['release_year'],as_index=False)[['user_score']].mean()

h3_games_df = h3_df1.append(h3_df2)
h3_games_df.reset_index(inplace=True, drop=True)
h3_games_df['score'] = np.where(h3_games_df['metascore'].isna() == True, h3_games_df['user_score'], h3_games_df['metascore']/10)
h3_games_df['source'] = np.where(h3_games_df['metascore'].isna() == True, 'user_score', 'metascore')
h3_games_df.drop(columns=['metascore', 'user_score'], inplace=True)

In [None]:
plt.figure(figsize=(10,6))
ax = sns.lineplot(data=h3_games_df, x='release_year', y='score', hue='source', errorbar = None)
ax.set_xlabel('Ano de Lançamento')
ax.set_ylabel('Pontuação')
plt.show()

In [None]:
# usaremos a nota dos usuários como parametro
plt.figure(figsize=(10,6))
ax = sns.lineplot(
    data= games_df.drop(games_df[games_df['manufacturer'] == 'Other'].index),
    x='release_year',
    y='user_score',
    hue='manufacturer',
    errorbar=None
)
ax.set_xlabel('Ano de Lançamento')
ax.set_ylabel('Pontuação')
plt.show()

A média de todos tem caído. Nos ultimos 10 anos, observa-se que apenas a nintendo mantem um patamar minimo das médias, enquanto o restante decai menos, porém continua diminuindo

In [None]:
plt.figure(figsize=(10,6))
ax = sns.lineplot(
    data= games_df.query('''
        platform in ("Nintendo 64", "GameCube", "Wii", "Wii U", "Switch")
    '''),
    x='release_year',
    y='user_score',
    hue='platform'
)
ax.set_xlabel('Ano de Lançamento')
ax.set_ylabel('Pontuação')
ax.set_title('Média de notas dos Consoles da Nintendo ao longo dos anos')
plt.show()

Wii e Wii U apresentam um desempenho que vai melhorando ao longo dos lançamentos, porém o restante é mais constante com uma leve oscilação. Uma anomalia é o GameCube que tem um péssimo desempenho no final dos lançamentos.

#### H4 - Tem alguma epoca do ano que apresenta maior sucesso em relação a notas maiores?

In [None]:
h4_df1 = games_df.groupby('release_quarter')[['metascore']].mean()
h4_df2 = games_df.groupby('release_quarter')[['user_score']].mean()

h4_games_df = h4_df1.append(h4_df2)
h4_games_df.reset_index(inplace=True)
h4_games_df['score'] = np.where(h4_games_df['metascore'].isna() == True, h4_games_df['user_score'], h4_games_df['metascore']/10)
h4_games_df['source'] = np.where(h4_games_df['metascore'].isna() == True, 'user_score', 'metascore')
h4_games_df.drop(columns=['metascore', 'user_score'], inplace=True)

In [None]:
plt.figure(figsize=(12,6))
ax = sns.barplot(data=h4_games_df, x='release_quarter', y='score', hue='source')
ax.set_xlabel('Nota')
ax.set_ylabel('Trimestre')
plt.show()

#### H11 - Qual o número de games produzidos para cada plataforma do Dataset? Esses valores indicam qual porcentagem do total?

In [None]:
h11_games_df = games_df.groupby(["manufacturer", 'platform'])[['title']].count().sort_values(by='title')
h11_games_df['percentage'] = (h11_games_df['title'] / h11_games_df['title'].sum() * 100).round(2)
h11_games_df.reset_index(inplace=True)

In [None]:
from matplotlib.colors import to_rgba
manufacturer_color = {
    'PC' : to_rgba('C1', 0.4),
    'PlayStation' : to_rgba('C2', 0.4),
    'Nintendo' : to_rgba('C3', 0.4),
    'Xbox' : to_rgba('C4', 0.4),
    'Other' : to_rgba('C5', 0.4)
}

plt.figure(figsize=(10,6))

plt.barh(
    data=h11_games_df,
    y='platform',
    width='percentage',
    color= h11_games_df['platform'].map(platform_manufacturer).map(manufacturer_color)
)
plt.xlabel('Percentual do Dataset (%)')

handles = []
for manuf, color in manufacturer_color.items():
    label = f'{manuf} ({ h11_games_df[h11_games_df["manufacturer"] == manuf].title.sum() / h11_games_df.title.sum() :.1%})'
    patch = mpatches.Patch(color= color, label= label)
    handles.append(patch)
_= plt.legend(handles= handles, loc= 'center right')

#### H14 - Qual a proporção de cada tipo de classificação atribuída aos games? Qual a porcentagem do total de cada uma?

Agrupando os dados e realizar a contagem de cada ocorrência das classificações. Após isso, vamos calcular a porcentagem de cada um em relação ao total.

In [None]:
# Contando ocorrências de cada classificação:
classification_count = (games_df
                        .groupby('classification')[['classification']]
                        .count()
                        .unstack()
                        .reset_index()
                        .drop('level_0', axis=1)
                        .rename(columns={0: 'quantity'})
                        .sort_values(by='quantity', ascending=False))

classification_count

In [None]:
# Inserindo porcentagem do total:
classification_count['%_total'] = round((classification_count['quantity']/games_df.shape[0]) * 100, 2)

(classification_count
 .style
 .hide_index()
 .format({'%_total': '{:.2f}%'}))

In [None]:
# Definindo parâmetros de tamanho:
fig, ax = plt.subplots(figsize=(15, 7))

# Criando o barplot:
sns.barplot(data=classification_count,
            x='quantity',
            y='classification',
            edgecolor='black',
            palette='winter')

# Definindo título e ajustando labels nos eixos X e Y:
plt.title('Distribuição de Classificações Metacritic',
           fontdict={'size': 18, 'weight': 'bold'}, pad=16)

plt.xlabel('Núm. Games com a Classificação',
           fontdict={'size': 11}, labelpad=3)

plt.ylabel('')

# Formatando valores do eixo X para ter uma vírgula:
ax.get_xaxis().set_major_formatter(
    plt.FuncFormatter(lambda number, char: format(int(number), ','))
    )

# Adicionando tabela com conteúdos
row_color = np.full(len(classification_count.index), 'lightskyblue')
col_color = np.full(len(classification_count.columns), 'lightskyblue')
row_index = np.arange(1,6)

data_table = plt.table(cellText=classification_count.values,
                       cellLoc='center',
                       rowLabels=row_index,
                       rowColours=row_color,
                       colLabels=classification_count.columns,
                       colColours=col_color,
                       bbox=[0, -0.41, 1, 0.3])

# Preciso aumentar a fonte da tabela
plt.show()

#### H16 - Quais são os top 10 games mais bem avaliados pelos usuários e pelo metacritic? Eles são muito diferentes?

- User Score

In [None]:
# Coletando os 10 registros com notas mais altas dos usuários:
user_top_10 = (games_df.loc[:, ['title', 'platform', 'user_score',
                                  'release_year', 'metascore', 'classification']]
               .sort_values('user_score', ascending=False)
               .head(10)
               .reset_index()
               .drop('id', axis=1))

In [None]:
# Criando nova variável de variação dos dados:
user_top_10['variation'] = (user_top_10['user_score'] - (user_top_10['metascore']/10)).abs()

# Redefinindo index para iniciar por 1 em vez de 0:
user_top_10.index += 1

# Mostrando dados finais:
(user_top_10
 .style
 .highlight_max(subset='user_score', color='#39fc03')
 .highlight_max(subset='variation', color='#a82620')
 .highlight_min(subset='user_score', color='#a82620')
 .highlight_min(subset='variation', color='#39fc03')
 .format('{:.1f}', subset='user_score')
 .format('{:.1f}', subset='variation'))

#### H17 - Quais são os bottom 10 games pior avaliados pelos usuários e pelo metacritic? Eles são muito diferentes?

- Pelo user_score

In [None]:
user_bottom_10 = (games_df.query('user_score != -1')[['title', 'platform', 'release_year',
                                                        'user_score', 'metascore', 'classification']]
               .sort_values('user_score', ascending=True)
               .head(10)
               .reset_index())

# Criando nova variável de variação dos dados:
user_bottom_10['variation'] = (user_bottom_10['user_score'] - (user_bottom_10['metascore']/10)).abs()

# Redefinindo index para iniciar por 1 em vez de 0:
user_bottom_10.index += 1

# Mostrando dados finais:
(user_bottom_10
 .style
 .highlight_max(subset='user_score', color='#39fc03')
 .highlight_max(subset='variation', color='#a82620')
 .highlight_min(subset='user_score', color='#a82620')
 .highlight_min(subset='variation', color='#39fc03')
 .format('{:.1f}', subset='user_score')
 .format('{:.1f}', subset='variation'))

- Pelo metascore

In [None]:
metascore_bottom_10 = (games_df.loc[:, ['title', 'platform', 'release_year',
                                       'user_score', 'metascore', 'classification']]
               .sort_values('metascore', ascending=True)
               .head(10)
               .reset_index())

# Criando nova variável de variação dos dados:
metascore_bottom_10['variation'] = (metascore_bottom_10['metascore']/10) - (metascore_bottom_10['user_score']).abs()

# Redefinindo index para iniciar por 1 em vez de 0:
metascore_bottom_10.index += 1

# Mostrando dados finais:
(metascore_bottom_10
 .style
 .highlight_max(subset='metascore', color='#39fc03')
 .highlight_max(subset='variation', color='#39fc03')
 .highlight_min(subset='metascore', color='#a82620')
 .highlight_min(subset='variation', color='#a82620')
 .format('{:.1f}', subset='user_score')
 .format('{:.1f}', subset='variation'))

In [None]:
h19_games_df = games_df.groupby(['release_month', 'release_year']).count().sort_values(by=['release_year','release_month'], ascending=[True, True])
h19_games_df.reset_index(inplace=True)
h19_games_df[['release_month', 'release_year']] = h19_games_df[['release_month', 'release_year']].astype(str)
h19_games_df['release_year_month'] = h19_games_df[['release_year','release_month']].apply("-".join, axis=1)
h19_games_df.drop(columns=['release_month', 'release_year', 'metascore', 'platform', 'release_date', 'sort_no', 'summary', 'title','user_score', 'release_quarter', 'release_day'], inplace=True)
h19_games_df = h19_games_df.append(h19_games_df.append(h19_games_df.append(h19_games_df.append(h19_games_df))))
h19_games_df.reset_index(drop=True,inplace=True)
h19_games_df[['platform','count_of_released_games']] = np.nan
h19_games_df.index += 1
h19_games_df

In [None]:
h19_games_df_2 = games_df.copy()
h19_games_df_2[['release_month', 'release_year']] = h19_games_df_2[['release_month', 'release_year']].astype(str)
h19_games_df_2['release_year_month'] = h19_games_df_2[['release_year','release_month']].apply("-".join, axis=1)

platform_list = ['PC', 'PlayStation 4', 'Switch', 'Xbox 360', 'PlayStation 2']

sum_released_games_number = 0
platform = 'PC'
for index, row in h19_games_df.iterrows():
    if index % 321 == 0 and index // 321 < 5:
        platform = platform_list[index//321]
        sum_released_games_number = 0
    year_month = row['release_year_month']
    sum_released_games_number += h19_games_df_2.query(f'release_year_month == "{year_month}" & platform == "{platform}"').shape[0]
    h19_games_df.loc[index, 'platform'] = platform
    h19_games_df.loc[index, 'count_of_released_games'] = sum_released_games_number

h19_games_df

In [None]:
fig = px.bar(h19_games_df,x='platform', y="count_of_released_games", animation_frame='release_year_month', range_y=[0, 7000])
fig.show()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=2de3bbe3-f90a-472d-99e1-fa85ad9b52c8' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>