In [1]:
# Importando as bibliotecas necessárias para análise
import pandas as pd
import warnings
import numpy as np
warnings.simplefilter(action='ignore', category=FutureWarning)
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Carregando o dataset
dados = pd.read_csv('vgsales.csv')

In [3]:
dados.head(10)

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37
5,6,Tetris,GB,1989.0,Puzzle,Nintendo,23.2,2.26,4.22,0.58,30.26
6,7,New Super Mario Bros.,DS,2006.0,Platform,Nintendo,11.38,9.23,6.5,2.9,30.01
7,8,Wii Play,Wii,2006.0,Misc,Nintendo,14.03,9.2,2.93,2.85,29.02
8,9,New Super Mario Bros. Wii,Wii,2009.0,Platform,Nintendo,14.59,7.06,4.7,2.26,28.62
9,10,Duck Hunt,NES,1984.0,Shooter,Nintendo,26.93,0.63,0.28,0.47,28.31


In [4]:
# Renomeando as colunas
dados.columns = ['Ranking', 'Nome', 'Plataforma', 'Ano', 'Gênero', 'Editora', 'Vendas América do Norte', 'Vendas EUA', 'Vendas Japão', 'Outras Vendas', 'Vendas Globais']

In [5]:
# Após renomear as colunas, iremos visualizar as primeiras linhas do dataset
dados.head()

Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras Vendas,Vendas Globais
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


In [6]:
# Verificando as ultimas linhas do dataset
dados.tail()

Unnamed: 0,Ranking,Nome,Plataforma,Ano,Gênero,Editora,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras Vendas,Vendas Globais
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Platform,Kemco,0.01,0.0,0.0,0.0,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003.0,Shooter,Infogrames,0.01,0.0,0.0,0.0,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008.0,Racing,Activision,0.0,0.0,0.0,0.0,0.01
16596,16599,Know How 2,DS,2010.0,Puzzle,7G//AMES,0.0,0.01,0.0,0.0,0.01
16597,16600,Spirits & Spells,GBA,2003.0,Platform,Wanadoo,0.01,0.0,0.0,0.0,0.01


In [7]:
# Verificando o tamanho do dataset
print('N. linhas:', dados.shape[0])
print('N. colunas:', dados.shape[1])

N. linhas: 16598
N. colunas: 11


In [8]:
# Realizando uma estatística descritiva dos dados
dados.describe()

Unnamed: 0,Ranking,Ano,Vendas América do Norte,Vendas EUA,Vendas Japão,Outras Vendas,Vendas Globais
count,16598.0,16327.0,16598.0,16598.0,16598.0,16598.0,16598.0
mean,8300.605254,2006.406443,0.264667,0.146652,0.077782,0.048063,0.537441
std,4791.853933,5.828981,0.816683,0.505351,0.309291,0.188588,1.555028
min,1.0,1980.0,0.0,0.0,0.0,0.0,0.01
25%,4151.25,2003.0,0.0,0.0,0.0,0.0,0.06
50%,8300.5,2007.0,0.08,0.02,0.0,0.01,0.17
75%,12449.75,2010.0,0.24,0.11,0.04,0.04,0.47
max,16600.0,2020.0,41.49,29.02,10.22,10.57,82.74


In [None]:
# Verificando os tipos das variáveis presentes no dataset
dados.dtypes

In [None]:
# Agora queremos saber qual a media de Vendas dos EUA
dados['Vendas EUA'].mean()

In [None]:
# Verificando qual a média de vendas globais
media_total_vendas = dados['Vendas Globais'].mean()
media_total_vendas

In [None]:
# Verificando qual a quantidade de Editoras no dataset
dados['Editora'].value_counts().head(15)

In [None]:
# Verificando a quantidade de Plataformas no dataset
dados['Plataforma'].value_counts().head(15)

In [None]:
# Agora iremos verificar qual foi o maior número de vendas do Japão
dados.sort_values(by='Vendas Japão',ascending = False)

In [None]:
# Agora queremos saber quais os valores unicos da Variavel Gênero
dados['Gênero'].unique()

In [None]:
# Verificando se existe alguma correlação entre as variáveis 
plt.figure(figsize=(14,9))
sns.heatmap(dados.corr(),annot=True,cmap='RdBu_r');

**Valores positivos mostram correlação positiva, enquanto valores negativos mostram correlação inversa. Como podemos ver, as vendas na América do Norte contribuíram consideravelmente para as vendas globais globais; portanto, podemos ver uma correlação positiva entre os dois.**

In [None]:
dados1 = dados.groupby(['Ano'])
plt.figure(figsize=(8,8))
dados1_mean = dados1['Vendas América do Norte','Vendas EUA','Vendas Japão','Outras Vendas'].aggregate(np.mean)
dados1_mean.plot(figsize=(18,7))
plt.title('Average sales over the course of years');

**Como podemos ver, a venda de videogames atingiu seu pico por volta de 1990, e foi diminuindo ao longo dos anos seguintes**

In [None]:
# Agora iremos analisar qual foi a frequencia de lançamento dos jogos ao longo do período
plt.rcParams['figure.figsize'] = (12,7)
sns.countplot(x=dados['Ano'],data = dados,palette="husl") 
plt.title("Frequência de lançamento do jogo")
plt.xlabel("Ano")
plt.ylabel("Frequencia")
plt.xticks(rotation=90)
plt.show()

In [None]:
# Share dos jogos por gênero

labels=dados.Gênero.value_counts().index
explode = [0,0,0,0,0,0,0,0,0,0,0,0]
sizes = dados.Gênero.value_counts().values
# visual
plt.figure(figsize = (7,7))
plt.pie(sizes, explode=explode, labels=labels, colors=sns.color_palette('Set2'), autopct='%1.1f%%')
plt.title('Jogos de acordo com o gênero',fontsize = 17,color = 'green');

In [None]:
# Top 15 das Plataformas que venderam mais
by_plataforma = dados.groupby('Plataforma')

by_plataforma['Vendas Globais'].sum().sort_values(ascending=False).head(15)

In [None]:
# Agora iremos plotar um gráfico para visualizar o TOP 15 das Plataformas que mais venderam 
dados_2 = dados.groupby('Plataforma')['Vendas Globais'].sum().sort_values(ascending = False).head(15).plot(kind='bar',
                                                                                                           figsize =(15,5),
                                                                                                           grid = False,
                                                                                                           rot = 0,
                                                                                                           color = ('lightseagreen'))
plt.title("TOP 15 das Plataformas que mais venderam")
plt.xlabel("Plataforma dos Jogos")
plt.ylabel("Vendas")
plt.show()

In [None]:
sns.lmplot(x="Vendas América do Norte", y="Vendas Globais", data=dados)
plt.show()

In [None]:
# TOP 10 Editoras que mais venderam
dados_2 = dados.groupby('Editora')['Vendas Globais'].sum().sort_values(ascending = False).head(10).plot(kind='bar',
                                                                                                           figsize =(15,5),
                                                                                                           grid = False,
                                                                                                           rot = 60,
                                                                                                           color = ('royalblue'))
plt.title("TOP 10 Editoras que mais venderam")
plt.xlabel("Plataforma dos Jogos")
plt.ylabel("Vendas")
plt.show()

**Percebemos que neste caso existe uma boa correlação entre as variáveis pois há uma Este tipo de correlação acontece quando há uma tendência crescente entre os pontos.**

In [None]:
plat_pop = pd.crosstab(dados.Plataforma,dados.Gênero)
plat_pop_total = plat_pop.sum(axis=1).sort_values(ascending= False)
plt.figure(figsize=(10, 10))
ax = sns.barplot(y = plat_pop_total.index, x = plat_pop_total.values)
ax.set_xlabel(xlabel ='Plataforma', fontsize= 15 )
ax.set_ylabel(ylabel ='Número de Jogos', fontsize= 15 )
ax.set_title(label='Número de jogos em cada plataforma', fontsize=15)
plt.show()

In [None]:
dados3 = dados.groupby(['Plataforma'])
val = dados3['Vendas América do Norte','Vendas EUA','Vendas Japão','Outras Vendas'].aggregate(np.mean)
plt.figure(figsize=(12,8))
ax = sns.boxplot(data=val, orient='h')
plt.xlabel('Receita por jogo',fontsize=16)
plt.ylabel('Região',fontsize=16)
plt.title('Distribuição de Vendas por Plataforma',fontsize=16);

**Após análise percebemos que há uma maior distribuição de vendas na Região da América do Norte**

In [None]:
# Número de jogos lançados pelas 20 maiores empresas de jogos
plt.figure(figsize=(15,6))
sns.barplot(x=dados.Editora.value_counts().index[:20],y=dados.Editora.value_counts().values[:20],data=dados)
plt.xticks(rotation=60)
plt.xlabel("Nome da empresa de jogos")
plt.ylabel("Número de jogos lançados")
plt.title("Número de jogos lançados pelas 20 maiores empresas de jogos",color="blue",fontsize=15);