## Step 1

### Importing data

In [346]:
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt
import plotly.express as px
import scipy.stats as st

In [99]:
data = pd.read_csv("games.csv")

### Pre analysis

In [100]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


In [101]:
data.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


### Checking unique values

In [102]:
#Checking unique values in the following columns: 'Name', 'Platform', 'Year_of_Release', 'Genre' and 'Rating'.

print("Valores únicos na coluna Name:\n\n",data['Name'].unique(),'\n')
print("Valores únicos na coluna Platform:\n\n",data['Platform'].unique(),'\n')
print("Valores únicos na coluna Year_of_Release:\n\n",data['Year_of_Release'].unique(),'\n')
print("Valores únicos na coluna Genre:\n\n",data['Genre'].unique(),'\n')
print("Valores únicos na coluna Rating:\n\n",data['Rating'].unique(),'\n')
print("Valores únicos na coluna User_Score:\n\n",data['User_Score'].unique(),'\n')
print("Valores únicos na coluna Critic_Score:\n\n",data['Critic_Score'].unique(),'\n')

Valores únicos na coluna Name:

 ['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica'] 

Valores únicos na coluna Platform:

 ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX'] 

Valores únicos na coluna Year_of_Release:

 [2006. 1985. 2008. 2009. 1996. 1989. 1984. 2005. 1999. 2007. 2010. 2013.
 2004. 1990. 1988. 2002. 2001. 2011. 1998. 2015. 2012. 2014. 1992. 1997.
 1993. 1994. 1982. 2016. 2003. 1986. 2000.   nan 1995. 1991. 1981. 1987.
 1980. 1983.] 

Valores únicos na coluna Genre:

 ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' nan] 

Valores únicos na coluna Rating:

 ['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP'] 

Valores únicos na coluna User_Score:

 ['8' nan '8.3' '8.5' '6.6' '8

## Step 2: Preparing data

### Converting the columns names to lower case

In [103]:
# Converting the columns names to lower case
data.columns = data.columns.str.lower()

### Coverting data types

#### Coluna "year_of_release

In [104]:
# Converta os dados para os tipos necessários - year_of_release

print("Valores ausentes na coluna 'year_of_release' antes da conversão: ",data['year_of_release'].isna().sum())

Valores ausentes na coluna 'year_of_release' antes da conversão:  269


In [105]:
data['year_of_release'] = data['year_of_release'].fillna(0.0)

In [106]:
data['year_of_release'] = data['year_of_release'].astype(int)
data['year_of_release'].dtype #Verificação de que a conversão foi bem sucedida

dtype('int32')

**Explicação**

Eu optei por realizar o preenchimento dos valores ausentes na coluna year_of_release por 0.0, pelos seguintes motivos:
1. Eu preciava realizar a conversão da coluna de 'float' para 'integer' e isso não poderia ocorrer com os valores ausentes presentes na coluna/
2. A utilização de '0.0'ao invés de 0 foi com o objetivo único de manter todos os valores da coluna como 'float' antes da conversão.

A conversão foi realizada, porque não há o que se falar em números não inteiros para valores como o ano de lançamento de um produto.

#### Coluna user_score

In [107]:
# Converta os dados para os tipos necessários - user_score

print("Valores ausentes na coluna 'user_score' antes da conversão: ",data['user_score'].isna().sum())

Valores ausentes na coluna 'user_score' antes da conversão:  6701


In [108]:
data['user_score'] = pd.to_numeric(data['user_score'],downcast = 'float',errors='coerce')
data['user_score'].dtype

dtype('float32')

In [109]:
print("Valores ausentes na coluna 'user_score' após conversão: ",data['user_score'].isna().sum())

Valores ausentes na coluna 'user_score' após conversão:  9125


**Explicação**

Eu optei por não realizar o preenchimento dos valores ausentes em user_score e realizar a conversão direta de tipo 'string' para tipo 'float', visto que, durante uma análise preliminar, foi constatados a presença do numeral 0 em user score, entendendo que isso reflete a opinião de usuários no que diz respeito á um determinado jogo, achei que seria mais condizente com os dados manter os valores ausentes do que supor uma nota 0.

O tipo 'float' foi selecionado, ao invés de 'integer', pois foi identificado na análise preliminar números não inteiros na nota do usuário.

Utilizei de coerce por conta da classificação de tbd (to be determined) presente nessa categoria, identificando que a nota ainda não foi fornecida. O qual também não nos daria um resultado correto simplesmente ao converter para 0.

#### Coluna critic_score

A coluna critic_score é uma coluna do tipo float, mas que apresenta apenas valores inteiros, por conta disso é necessário realizar a alteração.

In [110]:
data['critic_score'].unique()

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

In [111]:
data['critic_score'] = pd.to_numeric(data['critic_score'],downcast = 'integer',errors='coerce')

In [112]:
data['critic_score'].isna().sum()

8578

Optei por manter os valores ausentes na coluna 'critic_score', visto que a inclusão de qualquer numeral representaria um valor incorreto da crítica.

### Valores ausentes nas colunas restantes

#### Coluna "name", "genre" e "rating"

In [113]:
print('Valores ausentes na coluna "name" antes de correção: ',data['name'].isna().sum())
data['name'] = data['name'].fillna('not identified')

Valores ausentes na coluna "name" antes de correção:  2


In [114]:
print('Valores ausentes na coluna "genre" antes de correção: ',data['genre'].isna().sum())
data['genre'] = data['genre'].fillna('not identified')

Valores ausentes na coluna "genre" antes de correção:  2


Os valores ausentes na coluna "genre" e "name" foram alterados para o termo "not identified".

A coluna rating é referente á classificação indicativa para o jogo, farei o mesmo realizado anteriormente para as colunas "genre" e "name" e alterarem para "not identified"

In [115]:
print('Valores ausentes na coluna "rating" antes de correção: ',data['rating'].isna().sum())
data['rating'] = data['rating'].fillna('not identified')

Valores ausentes na coluna "rating" antes de correção:  6766


### Coluna com total de vendas em todas as regiões

In [116]:
data.sample(5)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
10487,Exit DS,DS,2008,Puzzle,0.09,0.0,0.01,0.01,64.0,6.7,E
13241,Major League Baseball 2K11,PS2,2011,Sports,0.02,0.02,0.0,0.01,,,E
10462,The Bachelor: The Videogame,Wii,2010,Misc,0.1,0.0,0.0,0.01,,,not identified
8251,The Secret World,PC,2012,Role-Playing,0.07,0.08,0.0,0.02,74.0,8.2,M
14244,not identified,GEN,1993,not identified,0.0,0.0,0.03,0.0,,,not identified


In [117]:
data['total_sales'] = data['na_sales'] + data['eu_sales'] + data['jp_sales'] + data['other_sales']
data.sample(5)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
14289,Daito Giken Koushiki Pachi-Slot Simulator: Yos...,PSP,2006,Misc,0.0,0.0,0.03,0.0,,,not identified,0.03
6459,Inazuma Eleven GO 3: Galaxy,3DS,2013,Sports,0.0,0.0,0.26,0.0,,,not identified,0.26
8446,One Piece: Pirate Warriors 3,PSV,2015,Action,0.0,0.03,0.13,0.01,76.0,6.3,T,0.17
1831,Persona 4: Golden,PSV,2012,Role-Playing,0.36,0.23,0.38,0.15,93.0,9.2,M,1.12
14752,Metal Saga: Hagane no Kisetsu,DS,2006,Role-Playing,0.0,0.0,0.03,0.0,,,not identified,0.03


## Etapa 3: Analise de dados

### Quantidade de jogos lançados por ano:

In [118]:
data['year_of_release'].value_counts()

2008    1427
2009    1426
2010    1255
2007    1197
2011    1136
2006    1006
2005     939
2002     829
2003     775
2004     762
2012     653
2015     606
2014     581
2013     544
2016     502
2001     482
1998     379
2000     350
1999     338
1997     289
0        269
1996     263
1995     219
1994     121
1993      62
1981      46
1992      43
1991      41
1982      36
1986      21
1989      17
1983      17
1990      16
1987      16
1988      15
1985      14
1984      14
1980       9
Name: year_of_release, dtype: int64

Sim, os dados de cada período são significativos, principalmente para confirmar a popularização das plataformas de jogos, o que acarretou em um maior investimentos em jogos.

### Quantidade de jogos vendidos por plataforma

#### Observação

Por acidente foi identificado um jogo para a platforma de DS (Nintendo DS) do ano de 1985, o qual seria impossível dado o ano em que a plataforma foi lançada, ao pesquisar no google esse jogo teve seu ano alterado no código abaixo:

Eu entendo que, muitos dos valores ausentes referentes ao ano de lançamento poderiam ser corrigidos com uma busca no google a alteração individual, no entanto, como esse não é objetivo desse projeto, eu decidi por manter os valor de 0 para aqueles jogos com ano de lançamento ausente e corrigi apenas esse que continha um valor errado e acabaria atrapalhando o desenvolver da análise.

In [119]:
data.loc[data['name'] == 'Strongest Tokyo University Shogi DS', 'year_of_release'] = 2010

#### Criação de gráfico de barras para comparação das 5 plataformas com maiores vendas

In [120]:
# Organização das plataformas por total de vendas, para identificar as 5 mais populares

best_sellers_platform = data.groupby('platform')['total_sales'].sum().reset_index(name = 'total_sales_per_platform').sort_values(by = 'total_sales_per_platform',ascending = False)

# Separação das 5 plataformas com maior total de vendas

top_5_plataforms = best_sellers_platform.head(5)

In [121]:
# Filtragem do dataframe para apresentar apenas os dados das 5 plataformas com maior total de vendas

best_sellers = data.merge(top_5_plataforms['platform'], on = 'platform', how = 'inner')

In [122]:
# Agrupamento dos dados para exclusão dos jogos com valor em ano de lançamento iguais á 0

best_sellers_per_year = best_sellers.groupby(['platform','name','year_of_release'])['total_sales'].sum().reset_index(name = 'total_sales')
best_sellers_per_year = best_sellers_per_year[best_sellers_per_year['year_of_release']!=0]

In [123]:
# Agrupamento para a criação do gráfico de barras
best_sellers_graph = best_sellers_per_year.groupby(['platform','year_of_release'])['total_sales'].sum().reset_index()

In [382]:
#Gráfico de barras

fig = px.bar(best_sellers_graph, x='year_of_release', y='total_sales', color='platform', title='Vendas por plataforma e ano',
             labels={'year_of_release': 'Ano de Lançamento', 'total_sales': 'Vendas Totais', 'platform': 'Plataforma'},barmode='group')
fig.update_xaxes(type='category',categoryorder = 'category ascending')
fig.update_layout(bargap = 0.150,)
fig

#### Plataformas que costumavam ser populares, mas não tem mais vendas

Encontre as plataformas que costumavam ser populares, mas agora não têm vendas. Quanto tempo leva para as novas plataformas aparecerem e as antigas desaparecerem?

In [125]:
# Ano de lançamento de plataformas
data_without_year_0 = data[data['year_of_release']!=0]
first_year = data_without_year_0.groupby('platform')['year_of_release'].min().reset_index(name = 'first_year')


In [126]:
# Ano em que o último jogo foi lançado para as plataformas

final_year = data_without_year_0.groupby('platform')['year_of_release'].max().reset_index(name = 'final_year')


In [127]:
# Duração de lançamentos para as plataformas

data_working_year = first_year.merge(final_year,how='outer')
data_working_year['duration'] = data_working_year['final_year'] - data_working_year['first_year']+1 #Valor mais 1 adicionado para incluir o próprio ano de lançamento, ao invés de apenas a diferença entre o lançamento do primeiro e último jogo.

O PC foi removido da análise sobre a duração das plataformas porque quando pretendemos verificar a duração de plataformas de jogos e classificamos o PC de uma forma tão limitada, sem analisar por exemplo vida útil da placa de vídeo. Um XBOX, XBOX one e XBOX 360 são todos XBOX, mas tem uma alteração nos componentes internos, o qual ocorre com a evolução do PC, apesar de não acarretar nessa separação de  nomenclatura.

In [128]:
#Tabela apenas com a plataforma e duração do console

consoles_working_year = data_working_year[data_working_year['platform']!='PC'].sort_values(by='duration',ascending=False)


In [129]:
# Plataforma mais duradoura no mercado de video games.
print('A plataforma que durou mais tempo recebendo novos lançamentos de jogos foi:', consoles_working_year['platform'].iloc[0],'\n')
print('A média de duração das plataformas foi de: ', consoles_working_year['duration'].mean(), 'anos','\n')
print('As 5 plataformas mais populares foram: ','\n\n', consoles_working_year.iloc[0:5],'\n')
print('O ano de lançamento do último jogo para as 5 plataformas mais populares foi: ',consoles_working_year['final_year'].iloc[0:5].max())


A plataforma que durou mais tempo recebendo novos lançamentos de jogos foi: GB 

A média de duração das plataformas foi de:  7.2 anos 

As 5 plataformas mais populares foram:  

    platform  first_year  final_year  duration
5        GB        1988        2001        14
16      PS2        2000        2011        12
11      NES        1983        1994        12
28     X360        2005        2016        12
19      PSP        2004        2015        12 

O ano de lançamento do último jogo para as 5 plataformas mais populares foi:  2016


#### Diagrama de caixa para as vendas globais de todos os jogos

O diagrama abaixo representa as vendas globais de todos os jogos divididos por plataforma, com diferenças significativas entre elas. O Wii, por exemplo, apesar de ser uma das 5 plataformas com maior número de jogos vendidos possui uma mediana inferior de seus concorrentes (PS2, PS3 e X360).

No entanto foi a única plataforma em que conseguiu alcançar um valor total de vendas tão alto em um único jogo (82,54). Em uma rápida análise identificamos, sem muita surpresa, que esse jogo foi Wii sports.

In [130]:
boxplot_graph = pd.DataFrame(data.groupby(['name','platform'])['total_sales'].sum().reset_index(name = 'total_sales'))

fig = px.box(boxplot_graph,y = 'total_sales',x = 'platform', hover_name= 'name', points = 'all')
fig.update_xaxes(tickangle=90)
fig.show()


In [131]:
best_selling_wii_game = boxplot_graph[boxplot_graph['platform']=='Wii'].sort_values(by = 'total_sales', ascending= False).head(1)
best_selling_wii_game

Unnamed: 0,name,platform,total_sales
16043,Wii Sports,Wii,82.54


A média de venda de jogos por plataforma varia bastante, conforme o gráfico abaixo

In [132]:
top5 = {'DS','Wii','PS2','PS3','X360'}

average_selling_platforms = data.groupby('platform')['total_sales'].mean().reset_index(name = 'mean').sort_values(by = 'mean',ascending = False)
average_selling_platforms['Legenda'] = average_selling_platforms['platform'].isin(top5)
average_selling_platforms['Legenda'] = average_selling_platforms['Legenda'].map({True: 'Top5', False: ''})

fig = px.bar(average_selling_platforms, x = 'platform', y= 'mean', color='Legenda', color_discrete_map={'': 'LightBlue', 'Top5': 'orange'},text = 'mean')
fig.update_layout(title = 'Média de venda de jogos por plataforma', yaxis_title = 'média',xaxis_title = 'plataforma')
fig.update_traces(textposition='outside',texttemplate='%{text:.3}')
fig.show()



#### Impacto das avaliações dos usuários na venda - Wii

In [133]:
# Dados da plataform 'Wii' com valores presentes nas colunas 'critic_score' e 'user_score'

Wii_with_score = data[(data['platform'] == 'Wii') & (data['critic_score'] >=0) & (data['user_score']>=0)]

In [134]:
# Gráfico de dispersão entre notas dos usuários e vendas totais

px.scatter(Wii_with_score, x = 'critic_score', y = 'total_sales', hover_name = 'name', labels = {'critic_score':'Nota da crítica','total_sales':'Vendas totais'})

In [135]:
# Gráfico de dispersão entre notas dos usuários e vendas totais

px.scatter(Wii_with_score, x = 'user_score', y = 'total_sales', hover_name = 'name', labels = {'user_score':'Nota dos usuários','total_sales':'Vendas totais'})

A analise do grafico de dispersão não apresentou nenhuma relação entre as notas da crítica ou dos usuários como fator de influência para o aumento das vendas na plataforma Wii. Abaixo eu realizo algumas rapidas filtragens no dataframe, para verificar que:

1. Os 5 jogos com notas mais altas, de acordo com a crítica, tiveram uma variação de score entre 93 a 97 e uma variação de vendas entre 3.94, como a mais baixa e 12.84 como a mais alta, sendo que o jogo mais vendido da plataforma teve um total de 82.54

2. Ao pesquisar os 5 jogos com notas mais altas, de acordo com a nota dada pelos usuários, tivemos uma variação de score entre 8.9 e 9.3, o que me obrigou a aumentar a lista de jogos para todos aqueles com nota igual ou maior que 8.9, acarretando em uma lista com 12 jogos, com suas vendas totais variando entre 0.3 a 12.84.

3. A lista dos 5 jogos mais vendidos tem uma nota de críticos variando entre 58 a 87 e uma nota de usuário variando entre 6.6 a 8.4.

**Conclusões**

4. O quarto jogo mais vendido da plataforma foi Wii Play com uma nota da crítica de 58 e uma nota 6.6 entre os usuários, o qual alcançou 28.91 em vendas.

5. Dentre os jogos com maiores críticas profissionais e de usuários que também alcançaram grandes números em vendas, entrando para o top 10, temos apenas os 3 títulos:

- Super Mario Galaxy (critic_score: 97, user_score: 8.9, vendas: 11.35)
- Super Mario Galaxy 2 (critic_score: 97, user_score: 9.1, vendas: 7.51)
- Super Smash Bros. Brawl (critic_score: 93, user_score: 8.9, vendas: 12.84)

6. Mesmo esses três títulos venderam menos da metade do quinto lugar de vendas e menos que um terço do jogo mais vendido:

- New Super Mario Bros (critic_score: 87, user_score: 8.4, vendas: 28.32)
- Wii Sports (critic_score: 76, user_score: 8.0, vendas: 82.54)

##### Filtragem do dataframe

In [136]:
Wii_with_score[Wii_with_score['critic_score']>=93].sort_values(by='critic_score',ascending = False)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
49,Super Mario Galaxy,Wii,2007,Platform,6.06,3.35,1.2,0.74,97.0,8.9,E,11.35
97,Super Mario Galaxy 2,Wii,2010,Platform,3.56,2.35,0.98,0.62,97.0,9.1,E,7.51
107,The Legend of Zelda: Twilight Princess,Wii,2006,Action,3.74,2.14,0.6,0.68,95.0,9.0,T,7.16
39,Super Smash Bros. Brawl,Wii,2008,Fighting,6.62,2.55,2.66,1.01,93.0,8.9,T,12.84
306,The Legend of Zelda: Skyward Sword,Wii,2011,Action,2.03,1.16,0.37,0.38,93.0,8.0,E10+,3.94


In [137]:
Wii_with_score[Wii_with_score['user_score']>=8.9].sort_values(by='user_score',ascending = False)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
3285,Metroid Prime: Trilogy,Wii,2009,Shooter,0.42,0.05,0.0,0.14,91.0,9.3,T,0.61
97,Super Mario Galaxy 2,Wii,2010,Platform,3.56,2.35,0.98,0.62,97.0,9.1,E,7.51
107,The Legend of Zelda: Twilight Princess,Wii,2006,Action,3.74,2.14,0.6,0.68,95.0,9.0,T,7.16
39,Super Smash Bros. Brawl,Wii,2008,Fighting,6.62,2.55,2.66,1.01,93.0,8.9,T,12.84
49,Super Mario Galaxy,Wii,2007,Platform,6.06,3.35,1.2,0.74,97.0,8.9,E,11.35
155,LEGO Star Wars: The Complete Saga,Wii,2007,Action,3.57,1.55,0.0,0.51,80.0,8.9,E10+,5.63
977,Metroid Prime 3: Corruption,Wii,2007,Shooter,0.89,0.74,0.07,0.09,90.0,8.9,T,1.79
1043,The Beatles: Rock Band,Wii,2009,Misc,1.17,0.39,0.0,0.15,89.0,8.9,T,1.71
2275,Xenoblade Chronicles,Wii,2010,Role-Playing,0.43,0.25,0.16,0.07,92.0,8.9,T,0.91
2794,Harvest Moon: Animal Parade,Wii,2008,Simulation,0.58,0.08,0.02,0.05,76.0,8.9,E,0.73


In [138]:
Wii_with_score.sort_values(by='total_sales',ascending = False).head(10)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,total_sales
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,82.54
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,35.52
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,32.77
7,Wii Play,Wii,2006,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E,28.91
8,New Super Mario Bros. Wii,Wii,2009,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E,28.32
13,Wii Fit,Wii,2007,Sports,8.92,8.03,3.6,2.15,80.0,7.7,E,22.7
15,Wii Fit Plus,Wii,2009,Sports,9.01,8.49,2.53,1.77,80.0,7.4,E,21.8
39,Super Smash Bros. Brawl,Wii,2008,Fighting,6.62,2.55,2.66,1.01,93.0,8.9,T,12.84
49,Super Mario Galaxy,Wii,2007,Platform,6.06,3.35,1.2,0.74,97.0,8.9,E,11.35
61,Just Dance 3,Wii,2011,Misc,5.95,3.11,0.0,1.06,74.0,7.8,E10+,10.12


##### Correlação entre revisões e vendas

In [197]:
correlation = Wii_with_score[['critic_score', 'user_score', 'total_sales']].corr()
correlation

Unnamed: 0,critic_score,user_score,total_sales
critic_score,1.0,0.681846,0.169668
user_score,0.681846,1.0,0.110151
total_sales,0.169668,0.110151,1.0


Como imaginado, a correlação entre a nota dos crítico (0.24) e as notas de usuários (0.08) representam uma correlação mínima e insuficiente no total de vendas.

#### Compare as vendas dos mesmos jogos em outras plataformas.

Muitas plataformas possuem jogos exclusivos e isso ocorre com o Wii, que, apesar de possui jogos que podem ser jogados em outras plataformas, não teve esses jogos como relevantes o suficiente para entrarem no top 5 de jogos mais vendidos OU de melhor nota de usuário OU de melhor nota da crítica. Por conta disso eu realizarei uma segunda comparação com a plataforma: PS2 (base) e XB(comparação dos jogos) que compartilham uma quantidade maior de títulos em comum

In [165]:
XB_with_score = data[(data['platform'] == 'XB') & (data['critic_score'] >=0) & (data['user_score']>=0)]
PS2_with_score = data[(data['platform'] == 'PS2') & (data['critic_score'] >=0) & (data['user_score']>=0)]

In [166]:
# Gráfico de distribuição dos jogos por vendas e nota da crítica
px.scatter(PS2_with_score, x = 'critic_score', y = 'total_sales', hover_name = 'name', labels = {'critic_score':'Nota da crítica','total_sales':'Vendas totais'})

In [168]:
# Gráfico de distribuição dos jogos por vendas e nota de usuário
px.scatter(PS2_with_score, x = 'user_score', y = 'total_sales', hover_name = 'name', labels = {'user_score':'Nota dos usuários','total_sales':'Vendas totais'})

In [196]:
correlation = PS2_with_score[['critic_score','user_score','total_sales']].corr()
correlation

Unnamed: 0,critic_score,user_score,total_sales
critic_score,1.0,0.563254,0.38922
user_score,0.563254,1.0,0.16942
total_sales,0.38922,0.16942,1.0


A correlação entre nota da crítica e total de vendas, assim, como nota de usuário e total de vendas, apesar de ser um pouco superior que na analisada anteriormente na plataforma do Wii, ainda não representa um valor significativo do qual poderíamos afirmar que sim, a opinião crítica afeta o seu desempenho

##### Filtragem do Dataframe

In [221]:
PS2_top5_user_score = pd.DataFrame(PS2_with_score.sort_values(by = 'user_score',ascending = False).head(5))


In [220]:
PS2_top5_critic_score = pd.DataFrame(PS2_with_score.sort_values(by = 'critic_score',ascending = False).head(5))


In [219]:
PS2_top5_sales = pd.DataFrame(PS2_with_score.sort_values(by = 'total_sales',ascending = False).head(5))


##### Comparação das vendas dos mesmo jogos em outras plataformas - gráfico

In [218]:
# Jogos encontrados no top5 da crítica, top5 de usuários e top5 de vendas

PS2_results_concat = pd.concat([PS2_top5_critic_score,PS2_top5_user_score,PS2_top5_sales]).drop_duplicates().sort_values(by='name',ascending = True)


In [251]:
# Jogos separados acima em outras plataformas
merged = data[data['name'].isin(PS2_results_concat['name'])]

#Comparando as vendas dos mesmos jogos em outras plataformas - Gráfico
fig = px.bar(merged,
             x = 'name',
             y= 'total_sales',
             hover_name='name',
             barmode = 'group',
             color='platform',
             text = 'total_sales',
             labels = {'total_sales':'Vendas totais','name':'Jogos'}
             )
fig.update_traces(textposition='outside',
                  texttemplate='%{text:.3}'
                  )


#### Distribuição geral de jogos por gênero

In [280]:
# Gênero mais vendido por plataforma para as 5 plataformas com maior renda

genres_best_sellers = data[data['platform'].isin(top_5_plataforms['platform'])].groupby(['platform','genre'])['total_sales'].sum().reset_index(name = 'total_sales').sort_values(by = 'total_sales', ascending = False)
px.bar(genres_best_sellers, x = 'platform',y = 'total_sales',color = 'genre',barmode = 'group')

Cada plataforma em cada geração alcança um público diferente, o nintendo wii trouxe a inovação do controle com sensor de movimentos e jogos como Wii Sports e Wii Resort, assim como o Wii Fit, foram marcos na história dos video games e, como visto durante análise, mesmo não possuindo as notas mais altas entre crítica especializada e usuários, Wii Sports foi o jogo mais vendido da plataforma, ultrapansando em mais de 100% o segundo colocado. Xbox possui Halo, um jogo de tiro exclusivo da Microsoft, como um dos seus carros chefes. Não há o que falar sobre generalização sobre gêneros com vendas altas e baixas, esses dados diferem de acordo com a plataforma, ano de lançamento e até mesmo duração do console no mercado. Por exemplo: jogadores que optam pela plataforma Nintendo não estão muito interessados em jogos de tiro, que precisam de uma alta velocidade de processamento de imagem, a Nintendo não fabrica jogos com essa intenção e oferece pouco suporte para os poucos títulos em sua plataforma, sendo preferível para os usuários favoritos desse gênero buscarem outras plataformas, como a da Sony ou Microsoft.

#### Criando um perfil de usuário para cada região

##### Principais plataformas em cada região

In [287]:
# As 5 plataformas com mais vendas na américa do norte

north_america_profile = data.groupby(['platform'])['na_sales'].sum().reset_index(name = 'na_sales').sort_values(by = 'na_sales',ascending= False).head(5)
north_america_profile

Unnamed: 0,platform,na_sales
28,X360,602.47
16,PS2,583.84
26,Wii,496.9
17,PS3,393.49
4,DS,382.4


In [292]:
# As 5 plataformas com mais vendas no japão

japan_profile = data.groupby(['platform'])['jp_sales'].sum().reset_index(name = 'jp_sales').sort_values(by = 'jp_sales',ascending= False).head(5)
japan_profile

Unnamed: 0,platform,jp_sales
4,DS,175.57
15,PS,139.82
16,PS2,139.2
23,SNES,116.55
2,3DS,100.67


In [291]:
# As 5 plataformas com mais vendas na união europeia

european_union_profile = data.groupby(['platform'])['eu_sales'].sum().reset_index(name = 'eu_sales').sort_values(by = 'eu_sales',ascending= False).head(5)
european_union_profile

Unnamed: 0,platform,eu_sales
16,PS2,339.29
17,PS3,330.29
28,X360,270.76
26,Wii,262.21
15,PS,213.61


**Conclusões**

- O playstation 2 (PS2) como console mais vendido no mundo encontra sua parcela no top5 das 3 'localidades'.
- A diferença de vendas parece ser extremamente discrepante no comparativo entre japão, colocando-o em uma posição aparente de consumo irrelevante, no entanto devemos perceber que fazendo um comparativo populacional, a quantidade de vendas no japão foi de um tamanho significativo. Ainda mais que nessas comparações esta incluído toda a américa do norte e toda a união europeia vs japão.
- Também percebemos o quão popular foi um produto local (Nintendo) dentro do cenário de video games japonês, com essa marca obtendo 3 posições no top 5 do japão com as seguintes plataformas: DS, SNES e 3DS
- Entre a união europeia e a américa do norte, não há muitas diferenças além de posições e a inclusão do Playstation 1 no top 5 da europa que, na américa do norte, foi substituído pelo nintendo DS.

##### Principais gêneros em cada região

In [301]:
north_america_genre_profile = data.groupby('genre')['na_sales'].sum().reset_index(name = 'na_sales').sort_values(by = 'na_sales', ascending = False).head(5)
north_america_genre_profile

Unnamed: 0,genre,na_sales
0,Action,879.01
10,Sports,684.43
8,Shooter,592.24
4,Platform,445.5
3,Misc,407.27


In [304]:
european_union_genre_profile = data.groupby('genre')['eu_sales'].sum().reset_index(name = 'eu_sales').sort_values(by = 'eu_sales', ascending = False).head(5)
european_union_genre_profile

Unnamed: 0,genre,eu_sales
0,Action,519.13
10,Sports,376.79
8,Shooter,317.34
6,Racing,236.51
3,Misc,212.74


In [305]:
japan_genre_profile = data.groupby('genre')['jp_sales'].sum().reset_index(name = 'jp_sales').sort_values(by = 'jp_sales', ascending = False).head(5)
japan_genre_profile

Unnamed: 0,genre,jp_sales
7,Role-Playing,355.41
0,Action,161.43
10,Sports,135.54
4,Platform,130.83
3,Misc,108.11


**Conclusões**

- Analisando o japão e vendo o gênero de Role-Playing (RPG), temos isso como uma informação previsível quando analisamos que o DS foi a plataforma mais vendida no país e franquias como: Pokemon e Zelda são extremamente famosas e reconhecidas E a maioria de seus jogos entra nessa categoria;
- Novamente a união europeia e a américa do norte possui top 5 semelhantes, diferindo apenas para a inclusão de jogos do tipo racing na união europeia em preferência a jogos de tipo platform.

##### As classificações do ESRB afetam as vendas em regiões individuais?

In [316]:
ESRB_japan_sales = data[data['rating']!= 'not identified'].groupby('rating')['jp_sales'].sum().reset_index(name = 'jp_sales').sort_values(by = 'jp_sales',ascending = False)
ESRB_japan_sales

Unnamed: 0,rating,jp_sales
1,E,198.11
7,T,151.4
5,M,64.24
2,E10+,40.2
4,K-A,1.46
0,AO,0.0
3,EC,0.0
6,RP,0.0


In [317]:
ESRB_north_america_sales = data[data['rating']!= 'not identified'].groupby('rating')['na_sales'].sum().reset_index(name = 'na_sales').sort_values(by = 'na_sales',ascending = False)
ESRB_north_america_sales

Unnamed: 0,rating,na_sales
1,E,1292.99
7,T,759.75
5,M,748.48
2,E10+,353.32
4,K-A,2.56
3,EC,1.53
0,AO,1.26
6,RP,0.0


In [322]:
ESRB_european_america_sales = data[data['rating']!= 'not identified'].groupby('rating')['eu_sales'].sum().reset_index(name = 'eu_sales').sort_values(by = 'eu_sales',ascending = False)
ESRB_european_america_sales

Unnamed: 0,rating,eu_sales
1,E,710.25
5,M,483.97
7,T,427.03
2,E10+,188.52
0,AO,0.61
4,K-A,0.27
3,EC,0.11
6,RP,0.08


**Conclusões**

- O publico japonês não realizou a compra de títulos 'Adult Only', mas um valor 0 na vendas representa uma população que não teve interesse na plataforma ou legislações locais que não permitiram o acesso? De toda forma, ao comunidade japonesa se mostrou uma grande consumidora de títulos da nintendo, os quais não possuem títulos AO em seu catálogo;
- No mercado de video games faz sentido que as empresas prefiram produzir títulos que não tenham um público tão limitado, até porque nem mesmo todos os adultos estariam interessados, manter os jogos em uma categoria de E - T parece ser uma boa receita para o sucesso, apesar de grandes franquias com rating M, como GTA serem extremamente bem sucedidas.
- A quantidade de títulos disponíveis para cada classificação vai interferir no total de vendas.
- Se eu estivesse produzindo um jogo e pensando em realizá-lo com uma classificação AO, eu me preocuparia em pesquisar legislações de grandes centros urbanos, além do desempenho de jogos similares e jogos classificados como Mature. 
- Eu acredito que a classificação interfira no resultado final, mas não apenas pelo fator de classificação, mas também pela quantidade limitada de títulos, plataformas e locais em que o jogo seria aceito.


#### Teste de hipóteses

In [325]:
data['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [361]:
# As classificações médias dos usuários das plataformas Xbox One e PC são as mesmas?

# Separação dos dados

XOne_mean = data[data['platform']=='XOne']['user_score']
PC_mean = data[data['platform']=='PC']['user_score']

# Teste as hipóteses

alpha = 0.05

results = st.ttest_ind(XOne_mean, PC_mean, equal_var=False,nan_policy = 'omit')

print('Valor-p:', results.pvalue,'\n')


if results.pvalue < alpha:
    print('Rejeitamos a hipótese nula','\n')
    print('As médias das notas dos usuários não são as mesmas entre as plataformas XOne e PC')
    
else:
    print('Não rejeitamos a hipótese nula','\n')
    print('As médias das notas dos usuários são as mesmas entre as plataformas XOne e PC')



Valor-p: 4.935074315154814e-06 

Rejeitamos a hipótese nula 

As médias das notas dos usuários não são as mesmas entre as plataformas XOne e PC


In [378]:
# As classificações médias de usuários para os gêneros Action (ação) e Sports (esportes) são diferentes.

# Separação dos dados
Action_mean = data[data['genre']=='Action']['user_score']
Sports_mean = data[data['genre']=='Sports']['user_score']


# Teste as hipóteses

alpha = 0.05

results = st.ttest_ind(Action_mean, Sports_mean, nan_policy = 'omit')

print('Valor-p:', results.pvalue,'\n')


if results.pvalue < alpha:
    print('Rejeitamos a hipótese nula','\n')
    print('As médias das notas dos usuários não são as mesmas entre os gêneros de "Action" e "Sports"')
    
else:
    print('Não rejeitamos a hipótese nula','\n')
    print('As médias das notas dos usuários são as mesmas entre os gêneros de "Action" e "Sports"')



Valor-p: 0.10406938023419746 

Não rejeitamos a hipótese nula 

As médias das notas dos usuários são as mesmas entre os gêneros de "Action" e "Sports"


Eu usei um valor alpha padrão de 0.05.
A hipótese nula pretendia afirmar que não há similaridade entre as variáveis apresentadas, enquanto que a hipótese alternativa tem o objetivo contrário de comprovar similaridade.

## Etapa 4: Conclusão Geral

Através desse projeto nós podemos identificar o impacto de diferentes plataformas de jogos em três regiões específicas (Japão, União Europeia e América do Norte). Alguns dados observados foram os seguintes:

- As plataformas maiores vendas foram: PS2, DS, PS3, Wii e X360;
- A média de duração entre todas as plataformas foi de 7.2 anos, no entanto, a média entre as 5 plataformas mais duradouras foi de 12.4 anos, deixando claro que houveram algumas plataformas com um período de duração bem abaixo da média;
- Verificamos que as notas da crítica, assim como as notas dos usuários não acarretaram em interferência significativa na popularidade dos jogos;
- Também podemos identificar uma diferença significativa no resultado de vendas de um mesmo jogo em diferentes plataformas, nos fazendo crer que usuários do console da Microsoft (XBOX) e do console da Sony (Playstation) podem possuir interesses diferentes quanto ás suas preferencias de jogos;
- Essa diferença é ainda mais clara entre os usuários de Nintendo, visto que não ocorre tamanha compatibilidade de jogos como entre as duas supracitadas plataformas;
- Tambem identificamos os gêneros mais vendidos entre as 5 plataformas com maior vendas, momento em que a diferença na preferência do tipo de jogos por plataforma ficou mais nítida, mostrando que usuários de XBOX consumiram uma quantidade maior de jogos de tiro que em comparação com seus concorrentes.
- Analisamos o comportamento dos usuários de cada região identificando os jogos e plataformas mais populares, assim como o impacto de jogos de classificação adulta nas vendas nessas regiões.