# <center>Análise sobre vendas de jogos pelo mundo durante a história dos videogames

---

### <center>Uma breve análise exploratória sobre a queda e ascensão de algumas empresas de videogames

##### <center>Autor: <a href="https://github.com/Sartorio12" target="_blank">Mateus Burock Sartorio</a></center>

<center><img src="https://i.imgur.com/Vmagj4O.jpg">

### Introdução

Bem, pra começo de conversa, sempre gostei muito de jogar, e com o propósito de praticar, resolvi fazer uma análise de um dataset sobre Jogos, apesar de ser uma análise simples, vou tentar ressaltar todos os pontos interessantes sobre essa base de dados. O conjunto que iremos analisar confere as vendas de jogos do ano de 1980 até o ano de 2020, de diversos consoles lançados.A primeira coisa que precisamos fazer, é importar o arquivo CSV que iremos analisar hoje. Confira abaixo:

###Importando as bibliotecas utilizadas

Começaremos com o básico para a nossa análise, a importação de bibliotecas fundamentais para que nossa pesquisa ocorra, importando o ***pandas*** e ***numpy***, para a análise do dataset, ***matplotlib*** e ***seaborn*** para a constução de gráficos:

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

###Lendo o nosso arquivo CSV

Aqui vamos puxar a nossa base de dados da internet, faremos nossas análises em cima dela, utilizando o comando do ***pandas*** podemos fazer isso com facilidade, além de transformar um arquivo CSV em um DataFrame, para melhor visualização

In [32]:
df = pd.read_csv('https://download1580.mediafire.com/7lo57ur2436g/97w5yidhu2juon3/vgsales.csv')

# <center>Tudo tem um começo

### Limpando e tratando os dados

A primeira coisa a se fazer quando analisamos um dataset, é realizar a limpeza e formatação dos dados, para que nossa análise ocorra de forma coesa e sem maiores erros, afinal, imagine só você fazer isso pro seu chefe e ter algum dado incorreto ou incompleto, ele certamente não gostaria né ?

Vamos então a primeira etapa, visualizar como veio nosso DataFrame

In [None]:
df

De cara, podemos notar que os nomes das colunas estão em inglês, vamos traduzir essas colunas para nosso idioma utilizando o comando ***.columns*** do ***pandas***. Podemos utilizar o ***columns*** também para alterar uma coluna específica passando os atributos, mas como queremos alterar todas elas, faremos direto dessa vez.

In [11]:
df.columns = ['Ranking', 'Nome', 'Plataforma', 'Ano','Gênero', 'Editora', 'Vendas América do Norte', 'Vendas EUA','Vendas Japão',
              'Outras vendas', 'Vendas Global']

In [34]:
df.dtypes

Rank              int64
Name             object
Platform         object
Year            float64
Genre            object
Publisher        object
NA_Sales        float64
EU_Sales        float64
JP_Sales        float64
Other_Sales     float64
Global_Sales    float64
dtype: object

In [None]:
df.head(10)

In [None]:
df.describe()

In [None]:
df.shape

In [None]:
df.isna().sum()

In [None]:
df['Plataforma'].value_counts()

In [None]:
df['Plataforma'].value_counts().head(10).plot(kind='bar',figsize=(11,6),grid=False,rot=0,color='Red')
plt.title('Os 10 Videogames com mais títulos lançados')
plt.xlabel('Videogame')
plt.ylabel('Quantidade de jogos lançados')
plt.show()

In [None]:
top_10_vendas = df[['Nome','Vendas Global']].head(10).set_index('Nome').sort_values('Vendas Global', ascending=True)
top_10_vendas.plot(kind='barh',figsize=(11,7),grid=False,color='darkred',legend=False)

plt.title('Os 10 jogos mais vendidos do mundo')
plt.xlabel('Total de vendas(em milhões de dólares)')
plt.show()

In [None]:
crosstab_vg = pd.crosstab(df['Plataforma'],df['Gênero'])
crosstab_vg['Total'] = crosstab_vg.sum(axis=1)
crosstab_vg.head()

In [None]:
top_10_plat = crosstab_vg[crosstab_vg['Total'] > 1000].sort_values('Total', ascending = False)
top_10_final = top_10_plat.append(pd.DataFrame(top_10_plat.sum(), columns=['Total']).T,ignore_index=False)

sns.set(font_scale=1)
plt.figure(figsize=(18,9))
sns.heatmap(top_10_final, annot=True, vmax=top_10_final.loc[:'PS',:'Strategy'].values.max(), vmin = top_10_final.loc[:,:'Strategy'].values.min(),fmt='d')
plt.xlabel('GÊNERO')
plt.ylabel('CONSOLE')
plt.title('QUANTIDADE DE TÍTULOS POR GÊNERO E CONSOLE')
plt.show()

In [12]:
df2 = df

In [None]:
df2

In [29]:
df.sort_values('Ano')

Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras vendas,Vendas Global
6896,6898,Checkers,2600,1980.0,Misc,Atari,0.22,0.01,0.0,0.00,0.24
2669,2671,Boxing,2600,1980.0,Fighting,Activision,0.72,0.04,0.0,0.01,0.77
5366,5368,Freeway,2600,1980.0,Action,Activision,0.32,0.02,0.0,0.00,0.34
1969,1971,Defender,2600,1980.0,Misc,Atari,0.99,0.05,0.0,0.01,1.05
1766,1768,Kaboom!,2600,1980.0,Misc,Activision,1.07,0.07,0.0,0.01,1.15
...,...,...,...,...,...,...,...,...,...,...,...
16307,16310,Freaky Flyers,GC,,Racing,Unknown,0.01,0.00,0.0,0.00,0.01
16327,16330,Inversion,PC,,Shooter,Namco Bandai Games,0.01,0.00,0.0,0.00,0.01
16366,16369,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,Unknown,0.01,0.00,0.0,0.00,0.01
16427,16430,Virtua Quest,GC,,Role-Playing,Unknown,0.01,0.00,0.0,0.00,0.01


In [28]:

df2 = df[df['Nome'].str.contains('Pong', na = False)]
sorted_df = df2.sort_values(by=['Ano'], ascending=True)
sorted_df


Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras vendas,Vendas Global
2040,2042,Pong: The Next Level,PS,1998.0,Puzzle,Hasbro Interactive,0.56,0.38,0.0,0.07,1.01
11830,11832,Pong / Asteroids / Yars' Revenge,GBA,2005.0,Misc,Zoo Digital Publishing,0.05,0.02,0.0,0.0,0.07
