# **Padr√µes de vendas de jogos digitais** üéÆ 

Jos√© Henrique de Oliveira<br>
[Portf√≥lio](https://joseportfolio.notion.site/Portf-lio-do-Z-308350bb4f4544adb87da2a1a83b8f78) | [LinkedIn](https://www.linkedin.com/in/jholiveira94/)

---

# **Introdu√ß√£o**

A industria de jogos digitais entrega grande volume de produ√ß√µes todos os anos e, como qualquer outro setor, necessita que seus produtos **desempenhem bem no mercado**.<br>
Portanto, **determinar quais nichos de jogos e clientes** trar√£o tal resultado √© essencial para a continuidade dos projetos de uma empresa desse ramo.

Com esse contexto em mente, durante este estudo ser√£o analisadas as vendas de jogos digitais com objetivo de encontrar padr√µes que auxiliem nessa tomada de decis√£o t√£o impactante.<br>
O conjunto de dados escolhido para conduzir essa investiga√ß√£o pode ser encontrado na plataforma Kaggle: [**Video Game Sales**](https://www.kaggle.com/datasets/gregorut/videogamesales/data)

### **Problemas de neg√≥cio**

Ao longo desse trabalho, ser√° constru√≠do um **modelo de recomenda√ß√£o de lan√ßamento de jogos por regi√£o** baseado nos padr√µes de vendas observados nos dados.<br>
Para tal, ser√£o respondidas quest√µes mais objetivas que auxiliar√£o a destrinchar o tema elencado.<br>
As perguntas est√£o agrupadas para facilitar a organiza√ß√£o geral do estudo.

##### **Objetivo**

<div style="background-color: purple; color: white; padding: 10px; border-radius: 5px;">
<b>Recomenda√ß√£o de g√™neros populares por regi√£o</b> <br>
Quais g√™neros de jogos devem ser lan√ßados em uma regi√£o espec√≠fica para maximizar as vendas?
</div>

##### **Quest√µes norteadoras**
An√°lise das vendas globais por g√™nero e plataforma:
- Quais g√™neros de jogos t√™m o maior sucesso em termos de vendas globais?
- Como as vendas variam entre diferentes plataformas para um mesmo g√™nero de jogo?

Distribui√ß√£o geogr√°fica das vendas:
- Qual regi√£o (Am√©rica do Norte, Europa, Jap√£o, Outras) √© mais forte em termos de vendas para diferentes g√™neros ou plataformas?
- Existem padr√µes regionais nas prefer√™ncias de g√™neros de jogos?

Tend√™ncias temporais de lan√ßamento e vendas:
- Como as vendas de jogos mudaram ao longo do tempo?
- Existe uma correla√ß√£o entre o ano de lan√ßamento e o sucesso de vendas em diferentes regi√µes?

Impacto da publisher nas vendas:
- Quais publishers t√™m consistentemente os jogos mais vendidos?
- Existe uma rela√ß√£o entre o publisher e o sucesso regional ou global de um jogo?

Compara√ß√£o de sucesso entre plataformas:
- Quais plataformas tendem a ter jogos com maiores vendas globais e por regi√£o?
- Existe uma diferen√ßa significativa nas vendas entre plataformas para jogos do mesmo g√™nero?

---

# **1. Prepara√ß√µes**

### **1.1 Bibliotecas**

In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

### **1.2 Carregando e conhecendo os dados**

In [3]:
df = pd.read_csv('vgsales.csv')
df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


Nesse conjunto de dados, h√° os seguintes atributos:

- Rank - Classifica√ß√£o geral das vendas
- Name - Nome do jogo
- Platform - Platforma de lan√ßamento do jogo (PC,PS4, etc.)
- Year - Ano de lan√ßamento do jogo
- Genre - G√™nero do jogo
- Publisher - Empresa respons√°vel pela publica√ß√£o do jogo
- NA_Sales - Vendas na Am√©rica do Norte (em milh√µes)
- EU_Sales - Vendas na Europa (em milh√µes)
- JP_Sales - Vendas no Jap√£o (em milh√µes)
- Other_Sales - Vendas no restante do mundo (em milh√µes)
- Global_Sales - Total mundial de vendas

Considerando que este estudo est√° em portugu√™s, algumas express√µes ser√£o traduzidas para melhor localiza√ß√£o do estudo.<br>
Segue rela√ß√£o de tradu√ß√£o:

|   **Original**   |    **Tradu√ß√£o**    |
| :----------: | :------------: |
|     Rank     |       -        |
|     Name     |      Nome      |
|   Platform   |   Plataforma   |
|     Year     |      Ano       |
|    Genre     |     Genero     |
|  Publisher   |       -        |
|   NA_Sales   |   Vendas_AN    |
|   EU_Sales   |   Vendas_EU    |
|   JP_Sales   |   Vendas_JP    |
| Other_Sales  | Vendas_Outras  |
| Global_Sales | Vendas_Globais |

As express√µes **Rank** e **Platform** n√£o receber√£o tradu√ß√£o pelo uso comum da comunidade de jogos, mesmo no Brasil.

### **1.3 Adequa√ß√µes iniciais**

In [4]:
'''
Considerando que o Rank traz informa√ß√£o individualizada de cada jogo e esse estudo focar√° em comportamentos agrupados,
a coluna Rank ser√° retirada. As demais permanecer√£o.
'''

df = df.drop('Rank', axis = 1)

In [5]:
''' 
Como colocado na Contextualiza√ß√£o, as colunas ser√£o traduzidas.
'''

df.columns = ['Nome', 'Plataforma', 'Ano', 'Genero', 'Publisher', 'Vendas_AN', 'Vendas_EU', 'Vendas_JP', 'Vendas_Outras', 'Vendas_Globais']

In [6]:
''' 
Verificando a tipagem das features e a exist√™ncia de valores nulos
'''

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Nome            16598 non-null  object 
 1   Plataforma      16598 non-null  object 
 2   Ano             16327 non-null  float64
 3   Genero          16598 non-null  object 
 4   Publisher       16540 non-null  object 
 5   Vendas_AN       16598 non-null  float64
 6   Vendas_EU       16598 non-null  float64
 7   Vendas_JP       16598 non-null  float64
 8   Vendas_Outras   16598 non-null  float64
 9   Vendas_Globais  16598 non-null  float64
dtypes: float64(6), object(4)
memory usage: 1.3+ MB


<div style="background-color: purple; color: white; padding: 10px; border-radius: 5px;">
üí° Percep√ß√µes
</div>

A partir dessas informa√ß√µes, conclui-se que:
- A tipagem da feature Ano pode ser adequada para int.
- H√° valores nulos nas features Ano e Publisher. 
    - J√° pode-se entender que √© uma quantidade insignificante, portanto n√£o atrapalhar√° o estudo.

In [7]:
''' 
Modificando a tipagem da coluna Ano.
Para isso, os valores NA ser√£o preenchidos por zero.
'''

df['Ano'] = df.Ano.fillna(0)

df['Ano'] = df['Ano'].astype(int)

In [8]:
''' 
Verificando as altera√ß√µes
'''

df['Ano'].info()

df.head(3)

<class 'pandas.core.series.Series'>
RangeIndex: 16598 entries, 0 to 16597
Series name: Ano
Non-Null Count  Dtype
--------------  -----
16598 non-null  int32
dtypes: int32(1)
memory usage: 65.0 KB


Unnamed: 0,Nome,Plataforma,Ano,Genero,Publisher,Vendas_AN,Vendas_EU,Vendas_JP,Vendas_Outras,Vendas_Globais
0,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82


In [22]:
''' 
Verifica√ß√£o das plataformas, g√™neros e publishers apresentadas nesse conjunto de dados
'''

for c in df[['Plataforma', 'Genero', 'Publisher']]:
    if c in df[['Plataforma', 'Genero']]:
        print(f'A quantidade de valores √∫nicos de {c} √©:', df[c].nunique(), '\n')
        print(f'Os valores √∫nicos de {c} s√£o:\n', df[c].unique(), '\n')
        print('-'*85)
    else:
        print(f'A quantidade de valores √∫nicos de {c} √©:', df[c].nunique())
        print(f'Em fun√ß√£o da quantidade, optou-se por suprimir a lista de valores √∫nicos de {c}.')

A quantidade de valores √∫nicos de Plataforma √©: 31 

Os valores √∫nicos de Plataforma s√£o:
 ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' '3DS' 'PS4' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'GC' 'WiiU' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX'] 

-------------------------------------------------------------------------------------
A quantidade de valores √∫nicos de Genero √©: 12 

Os valores √∫nicos de Genero s√£o:
 ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy'] 

-------------------------------------------------------------------------------------
A quantidade de valores √∫nicos de Publisher √©: 578
Em fun√ß√£o da quantidade, optou-se por suprimir a lista de valores √∫nicos de Publisher.


<div style="background-color: purple; color: white; padding: 10px; border-radius: 5px;">
üí° Percep√ß√µes
</div>

A verifica√ß√£o de valores √∫nicos auxilia para compreender a diversidade das informa√ß√µes presentes no conjunto de dados.<br>
Por exemplo, fica n√≠tido que uma an√°lise individualizada por Plataforma, G√™nero ou Publisher √© invi√°vel se n√£o houver sele√ß√£o ou agrupamento desses dados.

Por outro lado, fortalece as quest√µes norteadoras quanto ao estudo de comportamentos generalizados e quanto a buscar valores com maior impacto.

In [None]:
''' 
Verifica√ß√£o geral de estat√≠sticas descritivas do Dataset
'''

df.describe().round(2)

Unnamed: 0,Ano,Vendas_AN,Vendas_EU,Vendas_JP,Vendas_Outras,Vendas_Globais
count,16598.0,16598.0,16598.0,16598.0,16598.0,16598.0
mean,1973.65,0.26,0.15,0.08,0.05,0.54
std,254.35,0.82,0.51,0.31,0.19,1.56
min,0.0,0.0,0.0,0.0,0.0,0.01
25%,2003.0,0.0,0.0,0.0,0.0,0.06
50%,2007.0,0.08,0.02,0.0,0.01,0.17
75%,2010.0,0.24,0.11,0.04,0.04,0.47
max,2020.0,41.49,29.02,10.22,10.57,82.74


<div style="background-color: purple; color: white; padding: 10px; border-radius: 5px;">
üí° Percep√ß√µes
</div>

Considerando que as vendas est√£o na casa dos milh√µes, como descrito no **Contexto**, percebe-se com essa an√°lise que a maioria dos jogos n√£o atinge quantidade expressiva de vendas.

Apenas a partir do terceiro quartil encontram-se jogos com ao menos um milh√£o de c√≥pias vendidas, mesmo olhando para Vendas_Globais, que √© a soma das regi√µes.

### **1.4 Considera√ß√µes iniciais**

A partir das verifica√ß√µes feitas nesse t√≥pico, constata-se que:
- As quest√µes norteadoras previamente elencadas s√£o coerentes para esse conjunto de dados.
- Analisar comportamentos a partir de agrupamentos, como por regi√£o ou g√™nero, ser√° importante para que dados menos expressivos tenham mais espa√ßo no estudo.

---

# **2. EDA - An√°lise Explorat√≥ria dos Dados**

Nessa etapa, ser√£o respondidas as 

An√°lise das vendas globais por g√™nero e plataforma