# <center>Análise sobre vendas de jogos pelo mundo durante a história dos videogames

---

### <center>Uma breve análise exploratória sobre a queda e ascensão de algumas empresas de videogames

##### <center>Autor: <a href="https://github.com/Sartorio12" target="_blank">Mateus Burock Sartorio</a></center>

<center><img src="https://i.imgur.com/Vmagj4O.jpg">

### Introdução

Bem, pra começo de conversa, sempre gostei muito de jogar, e com o propósito de praticar, resolvi fazer uma análise de um dataset sobre Jogos, apesar de ser uma análise simples, vou tentar ressaltar todos os pontos interessantes sobre essa base de dados. O conjunto que iremos analisar confere as vendas de jogos do ano de 1980 até o ano de 2020, de diversos consoles lançados.Esse dataset contém uma lista de jogos e videogames com vendas acima de 100,000 unidades. Foi gerado a partir de uma raspagem de dados do site <a href="https://www.vgchartz.com/"><b>vgchartz.com</b></a>. A primeira coisa que precisamos fazer, é importar o arquivo CSV que iremos analisar hoje. Confira abaixo:

### Importando as bibliotecas utilizadas

Começaremos com o básico para a nossa análise, a importação de bibliotecas fundamentais para que nossa pesquisa ocorra, importando o ***pandas*** e ***numpy***, para a análise do dataset, ***matplotlib*** e ***seaborn*** para a constução de gráficos:

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Lendo o nosso arquivo CSV

Aqui vamos puxar a nossa base de dados da internet, faremos nossas análises em cima dela, utilizando o comando do ***pandas*** podemos fazer isso com facilidade, além de transformar um arquivo CSV em um DataFrame, para melhor visualização

In [4]:
df = pd.read_csv('./vgsales.csv')

# <center>Tudo tem um começo

### Limpando e tratando os dados

A primeira coisa a se fazer quando analisamos um dataset, é realizar a limpeza e formatação dos dados, para que nossa análise ocorra de forma coesa e sem maiores erros, afinal, imagine só você fazer isso pro seu chefe e ter algum dado incorreto ou incompleto, ele certamente não gostaria né ?

Vamos então a primeira etapa, visualizar como veio nosso DataFrame

In [None]:
df

De cara, podemos notar que os nomes das colunas estão em inglês, vamos traduzir essas colunas para nosso idioma utilizando o comando ***.columns*** do ***pandas***. Podemos utilizar o ***columns*** também para alterar uma coluna específica passando os atributos, mas como queremos alterar todas elas, faremos direto dessa vez.

In [6]:
df.columns = ['Ranking', 'Nome', 'Plataforma', 'Ano','Gênero', 'Editora', 'Vendas América do Norte', 'Vendas EUA','Vendas Japão',
              'Outras vendas', 'Vendas Global']

df['Gênero'] = df['Gênero'].replace({'Action':'Ação','Adventure':'Aventura','Fighting':'Luta','Platform':'Plataforma','Racing':'Corrida',
'Role-Playing':'RPG','Shooter':'Tiro','Simulation':'Simulação','Sports':'Esporte','Strategy':'Estratégia'})

Logo em seguida, faremos uma breve análise sobre os tipos de dados com os quais estamos trabalhando, podemos perceber que estão todos corretos e já prontos para serem tratados.

In [None]:
df.dtypes

A função ***describe()*** traz informações importantes sobre nossos dados, que podem ser usados para gerar estatísticas, por exemplo. Verifique que cada linha da tabela mostra um dado diferente. Na primeira nós temos a **count**, que realiza uma contagem dos valores existentes no conjunto de dados; a segunda linha **— std**, ou *standard deviation* — traz o desvio padrão dos valores; em seguida temos os valores **mínimos**, **quartis** e valores **máximos** de cada coluna.

In [None]:
df.describe()

Em seguida, uma verificação básica, pra saber qual é o tamanho do nosso DataFrame, o comando *.shape* nos mostra quantas **linhas** e **colunas** temos, respectivamente. Com o comando abaixo, dá pra perceber que temos *16598 linhas* e *11 colunas*.

In [None]:
df.shape

Dentro desse DataFrame, nós temos alguns campos que estão sem informação, como podemos ver abaixo, temos *271* registros nulos na tabela Ano e *58* registros nulos na coluna Editora, com viés de facilitar a nossa análise, deixaremos os dados nulos nesses campos, pois eles não influenciarão em nossa pesquisa no momento.

In [None]:
df.isna().sum()

Após esses procedimentos, realizamos a limpeza dos dados e fizemos uma breve análise deles, verificando o que seria possível e o que não seria. A partir de agora, realizaremos uma análise mais aprofundadas, criaremos filtros e gráficos para demonstrar como esses dados se comportam, e vamos também extrair informações importantes dele.

# <center>Análises exploratórias dos dados

### Criando filtros de pesquisa

Quando se visualiza um DataFrame sem criar filtros, vemos todas as informações que ele contém, porém para que se extraia alguma informação mais precisa dele, torna-se necessário a criação de um filtro baseado no que você quer saber. Vamos a alguns exemplos abaixo:

In [None]:
crosstab_vg = pd.crosstab(df['Plataforma'],df['Gênero'])
crosstab_vg['Total'] = crosstab_vg.sum(axis=1)
crosstab_vg.sort_values('Total', ascending=False)



No exemplo acima, podemos perceber que foi criado um tipo de filtro que exibe os consoles e a quantidade de jogos separados por gênero que foram lançados para a plataforma, isso é útil para que possamos ver qual foi a plataforma com mais jogos lançados, que nesse caso foi o ***NintendoDS***, com ***2163*** títulos lançados até o ano de 2020.

Aqui utilizamos alguns métodos para manipular o DataFrame ao nosso favor, como o método *crosstab,sum* e *sort_values*. 

#### ***"Mas o que é isso ? Nunca vi isso na minha vida"***

- Então, basicamente o método *crosstab* faz com que você possa agrupar duas variáveis diferentes ​​e realizar cálculos de um determinado valor para cada grupo. É claro que essas operações são possíveis usando *groupby()* ou *pivot_table()*, mas como veremos mais adiante, o *crosstab()* apresenta vários benefícios ao seu fluxo de trabalho, como a praticidade e economia de processamento.

- O método ***sum()*** realiza para nós a soma de variáveis dentro do DataFrame, nesse caso, a soma do eixo 1 (***axis=1***), que corresponde as nossas linhas criadas, basicamente ele vai somar a quantia de jogos de cada gênero, e em uma última coluna, retornar o valor total da soma.

- ***sort_values()*** faz com que os valores fiquem ordenados, lembrando que ele sempre precisa ter algum parâmetro dentro, sendo que esse parâmetro na maioria das vezes será a coluna a qual você quer ordenar *(do maior pro menor ou vice-versa)*.



***Agora vamos criar um filtro de pesquisa diferenciado, você certamente tem seu jogo favorito, e se você quisesse saber quantos jogos a sua franquia favorita vendeu ?***

Podemos criar um filtro específico para isso usando o comando ***str.contains()***, que vai retornar pra gente todas as células em uma coluna específica do DataFrame que contém o nome pesquisado.

No exemplo abaixo, fiz com a franquia *"Kingdom Hearts"*, listando todos os jogos lançados de 2000 a 2014, com seus respectivos valores arrecadados em vendas pelo mundo inteiro.

Também criei uma cópia de nosso DataFrame original, para que quaisquiser alterações não implicassem em nossa pesquisa base.

In [None]:
df2 = df.copy() # Aqui eu criei uma cópia do DataFrame original

df2 = df[df['Nome'].str.contains('Kingdom Hearts', na = False)] # Aqui eu criei um filtro de pesquisa baseado em uma string
sorted_df = df2.sort_values(by=['Vendas Global'], ascending=False) # Aqui eu determinei que queria os resultados organizados pelo valor total de vendas
sorted_df

### Criando gráficos

Sabemos que criando filtros, já temos uma forma de filtrar nossos dados ao que nos interessa, porém, e se a gente melhorasse isso ainda mais? **(sim, dá pra melhorar sempre)** 

Uma excelente forma de conseguir visualizar dados é por meio de *gráficos*, fazemos isso com as bibliotecas *matplotlib* e *seaborn*.

No exemplo abaixo, veremos como se destacam os 10 consoles com mais títulos lançados no período destacado no DataFrame original.

In [None]:
df['Plataforma'].value_counts().head(10).plot(kind='bar',figsize=(11,6),grid=False,rot=0,color='Red')
plt.title('Os 10 Videogames com mais títulos lançados')
plt.xlabel('Plataforma')
plt.ylabel('Quantidade de jogos lançados')
plt.show()

In [None]:
top_10_vendas = df[['Nome','Vendas Global']].head(10).set_index('Nome').sort_values('Vendas Global', ascending=True)
top_10_vendas.plot(kind='barh',figsize=(11,7),grid=False,color='darkred',legend=False)

plt.title('Os 10 jogos mais vendidos do mundo')
plt.xlabel('Total de vendas(em milhões de dólares)')
plt.show()

In [None]:
top_10_plat = crosstab_vg[crosstab_vg['Total'] > 1000].sort_values('Total', ascending = False)
top_10_final = top_10_plat.append(pd.DataFrame(top_10_plat.sum(), columns=['Total']).T,ignore_index=False)

sns.set(font_scale=1)
plt.figure(figsize=(18,9))
sns.heatmap(top_10_final, annot=True, vmax=top_10_final.loc[:'PS',:'Strategy'].values.max(), vmin = top_10_final.loc[:,:'Strategy'].values.min(),fmt='d')
plt.xlabel('GÊNERO')
plt.ylabel('CONSOLE')
plt.title('QUANTIDADE DE TÍTULOS POR GÊNERO E CONSOLE')
plt.show()

Preciso realizar a comparação entre as franquias mais populares no japão e nos eua

In [13]:
df2 = df

In [14]:
df2

Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras vendas,Vendas Global
0,1,Wii Sports,Wii,2006.0,Esporte,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Plataforma,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Corrida,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Esporte,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,RPG,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Plataforma,Kemco,0.01,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003.0,Tiro,Infogrames,0.01,0.00,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008.0,Corrida,Activision,0.00,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,2010.0,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01


In [None]:
df.sort_values('Ano')

In [None]:
df.sort_values('Ano',ascending=False)

Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras vendas,Vendas Global
5957,5959,Imagine: Makeup Artist,DS,2020.0,Simulação,Ubisoft,0.27,0.00,0.00,0.02,0.29
14390,14393,Phantasy Star Online 2 Episode 4: Deluxe Package,PS4,2017.0,RPG,Sega,0.00,0.00,0.03,0.00,0.03
16241,16244,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017.0,RPG,Sega,0.00,0.00,0.01,0.00,0.01
16438,16441,Brothers Conflict: Precious Baby,PSV,2017.0,Ação,Idea Factory,0.00,0.00,0.01,0.00,0.01
8293,8295,Shin Megami Tensei IV: Final,3DS,2016.0,RPG,Deep Silver,0.03,0.00,0.14,0.00,0.17
...,...,...,...,...,...,...,...,...,...,...,...
16307,16310,Freaky Flyers,GC,,Corrida,Unknown,0.01,0.00,0.00,0.00,0.01
16327,16330,Inversion,PC,,Tiro,Namco Bandai Games,0.01,0.00,0.00,0.00,0.01
16366,16369,Hakuouki: Shinsengumi Kitan,PS3,,Aventura,Unknown,0.01,0.00,0.00,0.00,0.01
16427,16430,Virtua Quest,GC,,RPG,Unknown,0.01,0.00,0.00,0.00,0.01
