<a href="https://colab.research.google.com/github/vitoriaborelli/projeto-panda/blob/main/ProjetoFinalPANDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Vitória Rodrigues Pinto Borelli Figueiredo - RA: 800203


---


# Projeto Final - PANDA
## Introdução à Ciência de Dados
### Análise de Vendas de Vídeo-Games

---




## Introdução



Este projeto tem como objetivo colocar em prática os conhecimentos obtidos no curso PANDA: Introdução à Ciência de Dados. Para isso, será utilizado um conjunto de dados a partir do qual a análise exploratória estará baseada. Assim, serão expostas hipóteses iniciais a respeito do mesmo e estas, assim como novos questionamentos que surgirão ao longo do desenvolvimento, deverão ser respondidos ao final. Para tanto, serão utilizadas bibliotecas gráficas como forma de visualização de tais resultados e a biblioteca PANDAS para análise.

In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objs as go

## Conjunto de Dados

### Descrição

O conjunto de dados escolhido para análise trata-se de informações a respeito da venda de jogos de video game com o passar dos anos ao redor do mundo. Estes podem ser acessados a partir do link: https://www.kaggle.com/datasets/gregorut/videogamesales e algumas de suas características básicas são representadas a seguir.

In [None]:
games = pd.read_csv('/content/vgsales.csv')

In [None]:
# aspecto geral dos dados
games

Unnamed: 0,Rank,Platform,Year,Genre,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii,2006.0,Sports,41.49,29.02,3.77,8.46,82.74
1,2,NES,1985.0,Platform,29.08,3.58,6.81,0.77,40.24
2,3,Wii,2008.0,Racing,15.85,12.88,3.79,3.31,35.82
3,4,Wii,2009.0,Sports,15.75,11.01,3.28,2.96,33.00
4,5,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...
16593,16596,GBA,2002.0,Platform,0.01,0.00,0.00,0.00,0.01
16594,16597,GC,2003.0,Shooter,0.01,0.00,0.00,0.00,0.01
16595,16598,PS2,2008.0,Racing,0.00,0.00,0.00,0.00,0.01
16596,16599,DS,2010.0,Puzzle,0.00,0.01,0.00,0.00,0.01


In [None]:
# quantidade de linhas e colunas
games.shape

(16598, 11)

In [None]:
# atributos das colunas
games.columns

Index(['Rank', 'Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales'],
      dtype='object')

Apesar de autoexplicativos, é válida uma apresentação detalhada dos atributos da base. Assim sendo, temos:

1. Rank: posição no ranking de número de vendas.
2. Name: nome do jogo em questão.
3. Platform: plataforma que suporta o jogo.
4. Year: ano de lançamento.
5. Genre: gênero.
6. Publisher: companhia responsável por sua publicação.
7. NA_Sales: unidades vendidas na América do Norte (em milhões)
7. EU_Sales: unidades vendidas na Europa (em milhões)
7. JP_Sales: unidades vendidas no Japão (em milhões)
7. Other_Sales: unidades vendidas em demais localidades (em milhões)
7. Global_Sales: unidades totais vendidas ao redor do mundo (em milhões)



### Ambientação e Hipóteses Iniciais

Inicialmente, como forma de compreensão inicial da abrangência de tais dados, serão analisados os conteúdos das seguintes colunas:

In [None]:
# opções de plataformas
games['Platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       '3DS', 'PS4', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne', 'GC',
       'WiiU', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [None]:
# opções de gênero
games['Genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy'], dtype=object)

In [None]:
# opções de companhias
games['Publisher'].describe()

count               16540
unique                578
top       Electronic Arts
freq                 1351
Name: Publisher, dtype: object

In [None]:
# abrangência de datas analisadas
ano_max = games['Year'].max()
ano_min = games['Year'].min()

[ano_min, ano_max]


[1980.0, 2020.0]

A partir disso, é possível criar algumas hipóteses iniciais:

**I.** Primeiramente, podemos intuitivamente supor que a **quantidade de vendas total anual deve crescer com o passar dos anos**, devido à expansão da tecnologia e sua democratização mundo afora.

**II.** Acoplado a isso, imagina-se que, com o passar dos anos, as plataformas usadas como console foram sendo substituídas por mais modernas, assim, os jogos de maior popularidade devem possuir um **padrão de plataformas de acordo com seu período de lançamento**.

**III.** Sabendo também que no início da popularização de víde-games haviam plataformas que dominavam o mercado e, em contrapartida, nos dias atuais houve o desenvolvimento de mais empresas relacionadas ao desenvolvimento de tais tecnologias, grande parte delas com qualidade competitiva, podemos sugerir que, **com a evolução do tempo, a variedade de plataformas dos jogos mais popularizados foi aumentando**.

**IV.** Já tratando-se de localização, serão exploradas as diferenças culturais das localidades presentes nos atributos, procurando **padrões nos jogos de maior popularidade de cada região**.

Vale ressaltar que os itens anteriores tratam-se apenas de suposições, cujo andamento do projeto confirmará (ou não) sua corretude.

## Limpeza e Pré-Processamento

Nesta etapa, a tabela inicial será refinada de modo a apresentar apenas os dados que serão relevantes para a análise.


### Atributos Redundantes e/ou Irrelevantes


Dado que a análise será feita em grande escala com objetivo de reconhecer padrões, a coluna que contém o nome dos jogos torna-se insignificante para a análise, sendo assim retirada do conjunto de dados e simplificando a visualização.

Pelo mesmo motivo, percebe-se que não convém fazer análises detalhadas em relação às companhias que publicam os jogos devido à sua grande variedade.

Vale ressaltar que não há redundâncias entre as colunas, assim sendo, todas elas representam unicamente suas informações.

In [None]:
games.drop(columns = ['Name', 'Publisher'], axis = 1, inplace=True)

In [None]:
games.columns

Index(['Rank', 'Platform', 'Year', 'Genre', 'NA_Sales', 'EU_Sales', 'JP_Sales',
       'Other_Sales', 'Global_Sales'],
      dtype='object')

### Atributos Faltantes

In [None]:
# quantidade atributos faltantes por coluna (em porcentagem)
games.isna().mean().round(4).mul(100).sort_values(ascending=False)

Year            1.63
Rank            0.00
Platform        0.00
Genre           0.00
NA_Sales        0.00
EU_Sales        0.00
JP_Sales        0.00
Other_Sales     0.00
Global_Sales    0.00
dtype: float64

A partir de tal resultado, percebe-se que a existência de atributos faltantes está apenas relacionada ao ano de publicação e representa pequenas porcentagens em relação à quantidade total de dados (inferior a 2%), indicando que, possivalmente, os impactos finais também serão baixos. Neste caso, costuma-se apenas excluí-los do dataset, no entanto, como forma de impedir que a ausência dessas colunas impacte nos outros atributos, eles serão substituídos, visto que linhas únicas podem possuir valor total de venda significativos.



In [None]:
# linhas dos dados faltantes
games[(games['Year'].isna())==True]

Unnamed: 0,Rank,Platform,Year,Genre,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
179,180,PS2,,Sports,4.26,0.26,0.01,0.71,5.23
377,378,PS2,,Sports,0.59,2.36,0.04,0.51,3.49
431,432,Wii,,Action,1.86,1.02,0.00,0.29,3.17
470,471,PS2,,Fighting,1.57,1.02,0.00,0.41,3.00
607,608,2600,,Shooter,2.36,0.14,0.00,0.03,2.53
...,...,...,...,...,...,...,...,...,...
16307,16310,GC,,Racing,0.01,0.00,0.00,0.00,0.01
16327,16330,PC,,Shooter,0.01,0.00,0.00,0.00,0.01
16366,16369,PS3,,Adventure,0.01,0.00,0.00,0.00,0.01
16427,16430,GC,,Role-Playing,0.01,0.00,0.00,0.00,0.01


Com base na observação destas linhas, não é possível encontrar padrões que possam explicar o motivo da ausência de tais dados e, consequentemente, dar-nos uma ideia de como substituí-los. Assim, os valores faltantes serão simplesmente substituídos pela média encontrada abaixo.

In [None]:
games['Year'].describe()

count    16327.000000
mean      2006.406443
std          5.828981
min       1980.000000
25%       2003.000000
50%       2007.000000
75%       2010.000000
max       2020.000000
Name: Year, dtype: float64

In [None]:
games.fillna(2007, inplace=True)

In [None]:
# checando se os valores foram realmente substituídos
games.isna().mean().round(4).mul(100).sort_values(ascending=False)

Rank            0.0
Platform        0.0
Year            0.0
Genre           0.0
NA_Sales        0.0
EU_Sales        0.0
JP_Sales        0.0
Other_Sales     0.0
Global_Sales    0.0
dtype: float64

###Discretização

Nota-se que algumas das abreviações de possíveis plataformas tornam difícil a tarefa de de reconhecê-las, assim, estas serão substituídas por seus nomes reais, a fim de deixar o conjunto de dados mais intuitivo.

In [None]:
games_discretizado = games.copy()

In [None]:
games_discretizado['Platform'] = games_discretizado['Platform'].map({
    'GB': 'Game Boy',
    'X360': 'Xbox 360',
    'SNES': 'Super NES',
    'GBA': 'Game Boy Advance',
    'N64': 'Nintendo 64',
    'XB': 'Xbox',
    '2600': 'Atari 2600',
    'XOne': 'Xbox One',
    'GC': 'Nintendo GameCube',
    'DC': 'DreamCast',
    'PSV': 'PS Vita',
    'SAT': 'Sega Saturn',
    'SCD': 'Sega CD',
    'WS': 'WonderSwan',
    'NG': 'NeoGeo',
    'TG16': 'TurboGrafx-16',
    'GG': 'Game Gear',
    'Wii': 'Wii',
    'NES': 'NES',
    'DS': 'DS',
    'PS3': 'PS3',
    'PS2': 'PS2',
    '3DS': '3DS',
    'PS4': 'PS4',
    'PS': 'PS',
    'PC': 'PC',
    'PSP': 'PSP',
    'WiiU': 'WiiU',
    'GEN': 'GEN',
    '3DO': '3DO',
    'PCFX': 'PCFX'
})

In [None]:
games_discretizado['Platform'].unique()

array(['Wii', 'NES', 'Game Boy', 'DS', 'Xbox 360', 'PS3', 'PS2',
       'Super NES', 'Game Boy Advance', '3DS', 'PS4', 'Nintendo 64', 'PS',
       'Xbox', 'PC', 'Atari 2600', 'PSP', 'Xbox One', 'Nintendo GameCube',
       'WiiU', 'GEN', 'DreamCast', 'PS Vita', 'Sega Saturn', 'Sega CD',
       'WonderSwan', 'NeoGeo', 'TurboGrafx-16', '3DO', 'Game Gear',
       'PCFX'], dtype=object)

Vale ressaltar a não necessidade de discretização de demais dados, visto que tanto os nomes das colunas quanto o conteúdo de seus dados são autoexplicativos por si só.

### Outliers

Nesta última fase de limpeza dos dados, serão buscados outliers, ou seja, dados que fogem muito do padrão. Assim, serão exibidos os gráficos boxplot de alguns dos atributos numéricos.

In [None]:
fig = px.box(games_discretizado, y ='Year')
fig.show()

A partir deste gráfico que representa os anos de publicação, percebe-se que há muitos valores abaixo do limite inferior (outliers). No entanto, visto que serão feitas também análises temporais que levam em conta todos os períodos, inclusive além dos limites, estes não podem ser excluídos ou tratados por possuírem relevância no valor final.

In [None]:
fig = px.box(games_discretizado, y ='Global_Sales')
fig.show()

Neste segundo gráfico, a mesma questão vêm à tona: grande variedade de valores além dos limites. Observando, fica explicitado que a grande maioria das vendas globais gira em torno de 1 a 2 milhões. No entanto, há uma certa variedade de jogos que vende muito acima disso, até 40 milhões e, por fim, há um único jogo que se destaca e possui quantidade de vendas próxima ao dobro disso.

Pela diferença muito grande destes com o valor médio, conseguimos concluir que o cálculo de vendas médias será afetado, ocasionando em valores muito mais altos do que o realista (visto que a soma total ficará grande devido aos outliers, aumentando a média e não representando a fração majoritária dos dados). Neste caso, sugere-se como solução que o uso de médias seja substituído pelo uso de medianas.

**Fora isso, como a maioria dos dados se encontra concentrada num espaço muito menor e distante dos máximos, a visualização nos gráficos ficará comprometida. Assim, no caso de gráficos, convém analisar apenas a fração da escala que contém a maioria dos dados, de forma a observar melhor suas variações.**

## Análises Descritivas e Visualização

Agora, já com os dados devidamente prontos para serem trabalhados, finalmente as questões sugeridas no início do projeto começarão a ser respondidas.


### Univariada

Inicialmente, serão analisados alguns dados individualmente para, em seguida, começar a estudar seus impactos e relações entre si.

#### Quais as plataformas com mais jogos lançados?

In [None]:
fig = px.histogram(games_discretizado, x="Platform").update_xaxes(categoryorder='total ascending')
fig.show()

A partir de tal gráfico, notamos que os consoles mais antigos são aqueles que possuem menos jogos lançados. Isto faz sentido ao imaginar que, na época, os dispositivos eram limitados e criados para suportar menos tipos de jogos.

#### Quais períodos tiveram mais jogos lançados?

In [None]:
fig = px.histogram(games_discretizado, x="Year")
fig.show()

In [None]:
games.head(10)

Unnamed: 0,Rank,Platform,Year,Genre,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii,2006.0,Sports,41.49,29.02,3.77,8.46,82.74
1,2,NES,1985.0,Platform,29.08,3.58,6.81,0.77,40.24
2,3,Wii,2008.0,Racing,15.85,12.88,3.79,3.31,35.82
3,4,Wii,2009.0,Sports,15.75,11.01,3.28,2.96,33.0
4,5,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,31.37
5,6,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,30.26
6,7,DS,2006.0,Platform,11.38,9.23,6.5,2.9,30.01
7,8,Wii,2006.0,Misc,14.03,9.2,2.93,2.85,29.02
8,9,Wii,2009.0,Platform,14.59,7.06,4.7,2.26,28.62
9,10,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,28.31


A partir da análise do gráfico, nota-se claramente que houve um pico de novos lançamentos entre 2006 e 2010. Já com a tabela exibida em seguida, nota-se também que, dos 10 jogos mais vendidos de todo o período analisado, 6 deles estão dentro da faixa de pico.

Assim, percebe-se que não só este período teve uma grande quantidade de novos jogos, como jogos de alta lucratividade, o que nos faz sugerir que tal período possa ter sido também o mais lucrativo. A resposta para tal suposição ficará para a seção de análises bivariadas e será respondida justamente com a primeira questão levantada no início do projeto.

#### Quais zonas consomem mais jogos de vídeo-game?

In [None]:
import plotly.express as px

In [None]:
x0 = games['JP_Sales'].sum()
x1 = games['EU_Sales'].sum()
x2 = games['NA_Sales'].sum()
x3 = games['Other_Sales'].sum()

labels = ['Japan Sales','Europe Sales','North America Sales','Other Sales']
values = [x0, x1, x2, x3]

colors = ['lightcyan', 'cyan', 'royalblue', 'darkblue']

fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update_traces(marker=dict(colors=colors, line=dict(color='#8a8383', width=2)))
fig.show()

A partir do gráfico acima, pode-se ter noções das proporções entre o consumo em cada localidade, assim como notar que a América do Norte mostra-se um grande consumidor de vídeo-games, representando praticamente metade dos gastos mundiais.

### Bivariada

Iniciando a análise bivariada, mais algumas questões ainda devem ser respondidas.

#### Qual a relação do total de vendas com o passar dos anos?

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="Year",
                         y="Global_Sales",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

Diferente do imaginado com as suposições iniciais, a quantidade total de vendas globalmente não foi crescente por tempo indeterminado. Assim, comprovando a teoria que foi exposta ao decorrer da análise exploratória, houve um pico não só de novos lançamentos, mas também de maior quantidade de vendas em nível mundial entre 2006 e 2010. Uma possibilidade de motivo está no lançamento e popularização de novas plataformas. Para tanto, será explorada na seção a seguir a relação entre as plataformas com maior quantidade de jogos lançados por período.

#### Quais as plataformas mais populares e qual a variedade dessas em cada período?

In [None]:
games_discretizado.groupby('Year')['Platform'].value_counts()

Year    Platform  
1980.0  Atari 2600     9
1981.0  Atari 2600    46
1982.0  Atari 2600    36
1983.0  Atari 2600    11
        NES            6
                      ..
2016.0  WiiU          10
        Xbox 360       8
2017.0  PS Vita        2
        PS4            1
2020.0  DS             1
Name: Platform, Length: 247, dtype: int64

In [None]:
fig = px.scatter(games_discretizado, x="Year", y="Platform",
	         size="Global_Sales", hover_name="Platform", color="Platform",
           log_x=True, size_max=80)
fig.show()

Com o gráfico de bolhas acima é possível notar que, no período antes mencionado como auge de vendas de vídeo-games, houve um enorme aumento na quantidade de jogos para a plataforma Wii, que foi lançada justamente no final de 2006. Assim, seu lançamento e consequente sucesso desta, associado com a ascenção de outras plataformas também recém lançadas na época (DS, Xbox 360 e PS3) foram os responsáveis pelos picos de venda do período.

Fora isso, a partir de tal gráfico também é interessante analisar as tendências de plataformas de cada época e suas evoluções. Assim como também é possível observar que o desaparecimento do lançamento de jogos de uma, na maior parte dos casos está relacionado ao aumento da quantidade de novos jogos de outra mais moderna, e assim elas foram sendo substituídas.

#### Há padrões entre os tipos de jogos mais populares de cada localidade?

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="JP_Sales",
                         y="Genre",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="EU_Sales",
                         y="Genre",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="NA_Sales",
                         y="Genre",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="Other_Sales",
                         y="Genre",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

A partir destes gráficos, pode-se notar que, diferente do esperado, os padrões de popularidade de gênero de jogo são majoritariamente globais, com pouca ou nenhuma influência da cultura local como fator diferenciador.

Os gêneros mais populares são, nesta ordem, ação, esportes, diversos, aventura e RPG.

Como única exceção, temos o caso do Japão, onde os gêneros aventura e RPG não possuem tanta popularidade, dando espaço a jogos de corrida e atirador.

#### Há uma relação da preferência de gêneros com o passar dos anos?

In [None]:
fig = px.density_heatmap(games_discretizado,
                         x="Year",
                         y="Genre",
                         color_continuous_scale=[[0, 'rgb(12,51,131)'], [0.25, 'rgb(10,136,186)'], [0.5, 'rgb(242,211,56)'], [0.75, 'rgb(242,143,56)'], [1, 'rgb(217,30,30)']],
                        marginal_x="histogram",
                         marginal_y="histogram"
                         )
fig.show()

Assim como não há diferenças chamativas nas preferências de gênero em relação à localidade, também mantém-se um padrão quando trata-se do período de análise, com os gêneros mais populares sendo ainda assim aqueles tratados na seção anterior.
Vale apenas ressaltar que, com o passar dos anos e o declínio no lançamento de vídeo-games, todos os gêneros tiveram declínio considerável, com exceção dos jogos de ação, que mantêm-se com taxas similares.

## Conclusões


A partir desse projeto foi possível compreender a evolução dos jogos de vídeo-game e de seu consumo não só ao longo do tempo, como de acordo com sua localidade. Pôde-se também ter noção das quedas e ascenções de diversos tipos de plataformas e consoles, permitindo entender a evolução de tais tenologias.