# **DESAFIO TERA - ANÁLISE EXPLORATÓRIA**

Este foi o primeiro desafio proposto no curso e foram disponibilizados três datasets e o roteiro a ser seguido.


# Importando os arquivos do Drive e as bibliotecas

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import numpy as np
import math

dados1 = pd.read_csv('/content/drive/MyDrive/Desafio1/dataset1.csv', encoding='iso8859-1')
dados2 = pd.read_csv('/content/drive/MyDrive/Desafio1/dataset2.csv', encoding='iso8859-1')
dados3 = pd.read_csv('/content/drive/MyDrive/Desafio1/dataset3.csv', encoding='iso8859-1')

# Obtendo informações sobre o Dataset1

In [None]:
dados1.info()

**Quantas linhas e quantas colunas esse dataset possui?**

106 linhas e 11 colunas.

In [None]:
dados1.head()

**Faça um dicionário das colunas contendo o nome da coluna, o tipo do dado e seu significado**


In [None]:
dados1.columns

**Dicionário das colunas do dataset1:**
* **ID:** Número de identificação do jogo
* **Name:** Nome do jogo
* **Platform:** Plataforma em que o jogo foi lançado
* **Year_of_Release:** Ano de lançamento do jogo
* **Genre:** Gênero/categoria do jogo
* **Publisher:** Empresa responsável pela publicação/distribuição do jogo
* **NA_Sales:** Vendas na América do Norte
* **EU_Sales:** Vendas na Europa
* **JP_Sales:** Vendas no Japão
* **Other_Sales:** Vendas em outros lugares do mundo
* **Global_Sales:** Total de vendas global

**Classificação das variáveis:**
* **ID:** qualitativa ordinal
* **Name:** qualitativa nominal
* **Platform:** qualitativa nominal
* **Year_of_Release:** qualitativa ordinal
* **Genre:** qualitativa nominal
* **Publisher:** qualitativa nominal
* **NA_Sales:** quantitativa discreta
* **EU_Sales:** quantitativa discreta
* **JP_Sales:** quantitativa discreta
* **Other_Sales:** quantitativa discreta
* **Global_Sales:** quantitativa discreta

**Descreva se o Dataset está em formato Tidy e explique o motivo. Caso não esteja, crie uma versão Tidy para a exploração.**

O Dataset1 não está no formato Tidy.
Uma forma de apresentar o dataset1 em formato Tidy seria apresentar 4 ids para cada jogo por região com a quantidade de vendas, ao invés de apresentar 1 id com as vendas separadas em colunas.

#Validação de dados e entendimento das variáveis

**Quantos registros faltantes (dados nulos) por coluna?**

In [None]:
dados1.isnull().sum()

**Avalie a unicidade dos dados. Há duplicatas de linhas?**

A unicidade dos dados está na coluna "Id".

In [None]:
dados1.duplicated()

**Há algum problema com os tipos das variáveis?**

As variáveis de "sales" deveriam ser do tipo numeral, e não do tipo object.

In [None]:
dados1.dtypes

**Descreva o conteúdo de cada coluna, se atentando ao tipo de variável:**
1. Qualitativas: quantas categorias distintas? Qual a distribuição por categoria?
Temos duas categorias distintas: nominal (Name, Platform, Genre e Publisher) e ordinal (ID e Year_of_Release).

2. Quantitativas: valores mínimo e máximo. Média e desvio padrão. Mediana, P25 e P75.

In [None]:
dados1.describe()

In [None]:
dados1.median()

# Gráficos para visualização dos dados

Obs: Gráficos gerados antes da limpeza dos dados

**Gráfico 01 - Distribuição da quantidade de jogos por plataforma**


In [None]:
dados1['Platform'].value_counts().plot(kind='bar', figsize=(15,5), color='red')



---



**Gráfico 02 - Distribuição dos jogos por gênero**

Podemos observar que o gênero mais procurado é o de tiro e o menos procurado o de aventura.

In [None]:
dados1['Genre'].value_counts().plot(kind='bar', figsize=(15,5), color='red')



---



**Gráfico 03 - Jogos lançados ao longo dos anos**

O ano com mais lançamento de jogos é 2009, seguido pelo ano de 2005.

In [None]:
dados1['Year_of_Release'].value_counts().plot(figsize=(15,5), marker='o', color='magenta')



---



**Gráfico 04 - Jogos por distribuidora**

A distribuidora que mais tem jogos é a Nintendo, mas ao analisar os dados vemos que tem quatro escritas diferentes para a mesma empresa (Nintendo, Ñintendo, nintendo, NINTENDO). Na etapa de limpeza de dados precisamos padronizar a escrita para que a contagem de dados fique correta.
O gráfico mostra que a diferença da Nintendo para as outras distribuidoras é bem expressivo.

In [None]:
dados1['Publisher'].value_counts().plot(figsize=(15,5), kind='bar', color='red')

#Distribuição dos dados

**Como está a distribuição dos dados? Existem valores discrepantes? Descreva o que pode significar.**

---

**Quais conclusões você pode tirar até aqui? Você está lidando com dados de qualidade? Existe alguma relação com a coleta? Há dados pessoais expostos?**

Não há dados pessoais expostos.

#**Limpeza dos Dados**
Caso aplicável, dê uma tratativa para os seguintes itens e explique o motivo da solução aplicada.

1. Valores nulos.

2. Registros duplicados.

3. Validade dos tipos dos dados.

4. Valores discrepantes.

5. Dados inconsistentes.


Antes de começar a fazer a limpeza de dados, vamos criar uma cópia do dataset1 para não perder nenhuma informação e trabalhar apenas com a cópia a partir de agora.

In [None]:
novodados1 = dados1.copy()

In [None]:
novodados1.info()

**Verficar se há dados duplicados**

In [None]:
novodados1.duplicated()

A unicidade está na coluna Id, então conseguimos verificar quais são as linhas que estão duplicadas.

In [None]:
novodados1.Id.value_counts()

In [None]:
novodados1[novodados1.Id.isin([78, 83, 61, 17, 86])]

**Limpeza de valores nulos**

Os campos que estiverem com valores nulos aparecerão com o valor NaN (Not a Number). Podemos utilizar uma função do pandas que irá retornar a soma de todas as linhas do dataset1 que tiverem valores nulos.

In [None]:
novodados1.isnull().sum()

Dessa forma, sabemos que na coluna "Vendas Global" temos 29 valores nulos, na coluna "Plataforma" temos 9, na coluna "Vendas Japão" temos 5 e nas demais colunas (exceto coluna ID) temos 1 valor nulo cada.

Agora precisamos avaliar o que fazer para resolver isso. No caso da coluna "Vendas Global", sabemos que ela é o somatório das demais vendas, portanto podemos aplicar uma fórmula que faça o somatório do valor das outras colunas e apresente o resultado.

Podemos considerar, no caso dos valores nulos da coluna "Vendas Japão", que o resultado será o valor de "Vendas Global" subtraído dos outros valores ("Vendas América do Norte", "Vendas Europa" e "Outras Vendas"). Seguimos a mesma lógica para as demais colunas de vendas ("Vendas América do Norte", "Vendas Europa" e "Outras Vendas") que possuem um valor nulo cada.

#Corrigindo os dados da coluna "Publisher"

In [None]:
novodados1.Publisher.value_counts()

Podemos observar que existe 4 escritas diferentes para uma mesma distribuidora: Nintendo, NINTENDO, nintendo e Ñintendo.
Vamos padronizar para "Nintendo".
Nesta coluna este é o único problema que conseguimos verificar no momento.

In [None]:
cond = novodados1['Publisher'].isin(['nintendo', 'NINTENDO', 'Ñintendo'])
novodados1.loc[cond, 'Publisher'] = 'Nintendo'

In [None]:
novodados1.Publisher.value_counts()

Agora vamos analisar qual a linha que tem valor nulo na coluna Publisher e como podemos corrigir isso.

In [None]:
novodados1[novodados1.Publisher.isnull()].head()

Podemos observar que todos os dados da linhas 87 possuem valor nulo, portanto podemos excluir a linha toda do nosso dataset sem perda de informação.

#Corrigindo os dados da coluna "Year_of_Release"


In [None]:
novodados1[['Year_of_Release']].describe()

In [None]:
novodados1['Year_of_Release'].str.len().sort_values(ascending=False)

Podemos observar que três valores possuem comprimento maior que 4 (linhas 24, 33 e 49) e, portanto, devem ser corrigidos, pois o ano deve ser representado por quatro dígitos.

In [None]:
novodados1.loc[[24, 33, 49]]

Analisando os valores apresentados, vamos assumir que houve erro de digitação nas linhas 33 e 49 e que os valores deveriam ser 2010 e 2004, respectivamente.

No caso da linha 24 o valor está representado no formato MM/DD/AAAA, então vamos deixar apenas o ano, 2013.

In [None]:
novodados1.loc[24, 'Year_of_Release'] = '2013'
novodados1.loc[33, 'Year_of_Release'] = '2010'
novodados1.loc[49, 'Year_of_Release'] = '2004'

In [None]:
novodados1.loc[[24, 33, 49]]

In [None]:
novodados1[['Year_of_Release']] = novodados1[['Year_of_Release']].apply(pd.to_numeric)
novodados1[['Year_of_Release']].describe()

Podemos observar que a maioria dos jogos (50%) foram lançados em 2008.

Também vemos que, convertendo os valores para numeral, o máximo é 3007 e o mínimo é 1804. Sabemos que os dataset1 possuem dados de um intervalo de 40 anos, portanto os valores máximo e mínimo não fazem sentindo.

Vamos verificar os 5 primeiros (nlargest) e os 5 últimos (nsmallest) valores da coluna ano e analisar o que pode estar errado.

In [None]:
novodados1.nlargest(5, 'Year_of_Release')

In [None]:
novodados1.nsmallest(5, 'Year_of_Release')

Entre os máximos, podemos observar que apenas a linha 72 possui um valor discrepante (3007). Já para os mínimos, temos as linhas 82 e 99 com valores errados (1804 e 1948, respectivamente).
Vamos assumir novos valores para estas linhas: 2007, 2004 e 1998.

*Obs: em uma pesquisa no Google, conseguimos confirmar que estes novos valores estão corretos.*
* Call of Duty 4 - 2007
* The Legend of Zelda: Ocarina of Time - 1998
* Halo 2 - 2004



In [None]:
novodados1.loc[72, 'Year_of_Release'] = '2007'
novodados1.loc[82, 'Year_of_Release'] = '2004'
novodados1.loc[99, 'Year_of_Release'] = '1998'

In [None]:
novodados1.loc[[72, 82, 99]]

#Corrigindo os dados das colunas de "Vendas"

As colunas de vendas estão como "object", mas deveriam ser do tipo numérico (float64).

In [None]:
novodados1[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']] = novodados1[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']].apply(lambda x: x.str.replace(',','.')).apply(pd.to_numeric)
novodados1.describe()

Analisando os dados anteriores podemos observar que existem jogos que vendem muito mais que outros, comparando os valores de max e min.

Também verificamos que as vendas na América do Norte (NA_Sales) são muito maiores que nas demais regiões (ver valores de 50%).

In [None]:
novodados1.info()

In [None]:
novodados1.isnull().sum()


**Dados nulos**
* NA_Sales: 1
* EU_Sales: 1
* JP_Sales: 5
* Other_Sales: 1
* Global_Sales: 29

Sabemos que Global_Sales é igual ao somatório das demais vendas.

#Corrigindo os dados da coluna "Platform"

Agora vamos verificar se existe alguma inconsistência nos valores da coluna "Platform".

In [None]:
novodados1.Platform.value_counts()

Houve um erro na coleta dos dados e onde temos X3600000 deveria ser X360, portanto vamos corrigir esse dado.

Os demais valores parecem estar corretos.

In [None]:
cond = novodados1['Platform'].isin(['X3600000'])
novodados1.loc[cond, 'Platform'] = 'X360'

In [None]:
novodados1.Platform.value_counts()

Agora vamos analisar as linhas que possuem valor nulo na coluna "Platform"

In [None]:
novodados1.Platform.isnull().sum()

In [None]:
novodados1[novodados1.Platform.isnull()].head(10)

Temos 9 linhas com valores nulos e podemos observar que 8 se referem a jogos lançados na plataforma Wii, portanto podemos incluir essa informação nestas linhas.

In [None]:
novodados1.loc[0, 'Platform'] = 'Wii'
novodados1.loc[2, 'Platform'] = 'Wii'
novodados1.loc[3, 'Platform'] = 'Wii'
novodados1.loc[7, 'Platform'] = 'Wii'
novodados1.loc[8, 'Platform'] = 'Wii'
novodados1.loc[13, 'Platform'] = 'Wii'
novodados1.loc[15, 'Platform'] = 'Wii'
novodados1.loc[83, 'Platform'] = 'Wii'

In [None]:
novodados1.loc[[0, 2, 3, 7, 8, 13, 15, 83]]

#Corrigindo os dados da coluna "Name"

In [None]:
novodados1.Name.value_counts().head(10)

In [None]:
novodados1.Platform.isnull().sum()

In [None]:
novodados1[novodados1.Name.isnull()].head()

In [None]:
novodados1[novodados1.Name == 'Grand Theft Auto V']

In [None]:
novodados1[novodados1.Name == 'Grand Theft Auto IV']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Ghosts']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Modern Warfare 3']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Black Ops 3']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Black Ops']

In [None]:
novodados1[novodados1.Name == 'Super Mario 64']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Black Ops II']

In [None]:
novodados1[novodados1.Name == 'Call of Duty: Modern Warfare 2']

Podemos observar que 9 jogos foram lançados em duas plataformas ou mais (Xbob e PS).
Apenas o "Super Mario 64" foi lançado em duas plataformas da Nintendo.
Como são plataformas diferentes, não são considerados dados duplicados, portanto não precisamos tratá-los.

In [None]:
top_10_vendidos = novodados1[['Name', 'Global_Sales']].head(10).set_index('Name').sort_values('Global_Sales', ascending=False)
top_10_vendidos

Essa é a lista dos 10 jogos mais vendidos, considerando o Total de Vendas Global.

#Corrigindo os dados da coluna "Genre"

In [None]:
novodados1['Genre'].value_counts()

In [None]:
novodados1[novodados1.Genre == 'Adventure']

Analisando as informações sobre o gênero/categoria dos jogos, eles são classificados em 11 categorias.

Podemos verificar que a maioria dos jogos lançados são de tiro (shooter), seguido por jogos de plataforma. O gênero menos lançado é de aventura, tendo apenas um jogo (Super Mario Land 2: 6 Golden Coins).

#Novos Gráficos para visualização dos dados

**Gráfico 5 - Lançamento de jogos por gênero**

In [None]:
plt.figure(figsize=(15, 10))
sns.countplot(x="Genre", data=novodados1, order = novodados1['Genre'].value_counts().index)
plt.xticks(rotation=90)



---



**Gráfico 6 - Total de jogos lançados por ano**

In [None]:
plt.figure(figsize=(15, 10))
sns.countplot(x="Year_of_Release", data=novodados1, order = novodados1.groupby(by=['Year_of_Release'])['Name'].count().sort_values(ascending=False).index)
plt.xticks(rotation=90)
plt.title('Total de jogos lançados ao ano')



---



**Gráfico 7 - Os 5 anos com mais lançamento de jogos por gênero**

In [None]:
plt.figure(figsize=(15, 10))
sns.countplot(x="Year_of_Release", data=novodados1, hue='Genre', order=novodados1.Year_of_Release.value_counts().iloc[:5].index)
plt.xticks(size=13, rotation=90)

#**Tidy Data**

In [None]:
tidy_dataset = novodados1.drop('Global_Sales', axis=1)
tidy_dataset = tidy_dataset.rename({'NA_Sales': 'North_America', 'EU_Sales': 'Europe', 'JP_Sales': 'Japan', 'Other_Sales': 'Other'}, axis=1)
tidy_dataset = pd.melt(tidy_dataset, id_vars=['Id', 'Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher'], var_name='Region', value_name='Sold_Millions_Units')

In [None]:
tidy_dataset[tidy_dataset.Name == 'Wii Sports']

In [None]:
tidy_dataset[tidy_dataset.Name == 'Wii Sports'].Sold_Millions_Units.sum()

In [None]:
novodados1[novodados1.Name == 'Wii Sports']

# **Corrigindo a rota**

**Compare o dataset1 e dataset2. Quais são as maiores diferenças? O que você acha que pode ter acontecido?**

O dataset2 (16719, 11) possui mais dados que o dataset1 (106, 11).
Além disso, os atributos do dataset2 já estão corrigidos para as colunas de Sales, mas o atributo do "Year_of_Release" está errdo (aparece como número, mas deveria ser data).


---



**Já o dataset3 é uma extensão do dataset2, combine-os e revise suas respostas dos passos anteriores (01, 02 e 03). De agora em diante, você usará apenas essa combinação de datasets (dataset2 e dataset3) e não mais o dataset1.**

O dataset3 (16719, 11) inclui novas categorias como "Critic_Score", "Critic_Count", "User_Score", "User_Count", "Developer" e "Rating".

# Obtendo informações sobre os Dataset2 e Dataset3

In [None]:
dados2.shape

In [None]:
dados3.shape

**Quantas linhas e quantas colunas esse dataset possui?**
* **Dataset2:** 16719 linhas e 11 colunas.
* **Dataset3:** 16719 linhas e 12 colunas.

In [None]:
dados2.columns

In [None]:
dados3.columns

**Faça um dicionário das colunas contendo o nome da coluna, o tipo do dado e seu significado**


**Dicionário das colunas do dataset1:**

**Dataset2**
* **ID:** Número de identificação do jogo
* **Name:** Nome do jogo
* **Platform:** Plataforma em que o jogo foi lançado
* **Year_of_Release:** Ano de lançamento do jogo
* **Genre:** Gênero/categoria do jogo
* **Publisher:** Empresa responsável pela publicação/distribuição do jogo
* **NA_Sales:** Vendas na América do Norte
* **EU_Sales:** Vendas na Europa
* **JP_Sales:** Vendas no Japão
* **Other_Sales:** Vendas em outros lugares do mundo
* **Global_Sales:** Total de vendas global


---
**Dataset3**
* **ID:** Número de identificação do jogo
* **Name:** Nome do jogo
* **Platform:** Plataforma em que o jogo foi lançado
* **Year_of_Release:** Ano de lançamento do jogo
* **Genre:** Gênero/categoria do jogo
* **Publisher:** Empresa responsável pela publicação/distribuição do jogo
* **Critic_Score:** Pontuação do jogo dada pelo crítico
* **Critic_Count:** Número de críticos que avaliaram o jogo
* **User_Score:** Pontuação do jogo dada pelo usuário
* **User_Count:** Número de usuários que avaliaram o jogo
* **Developer:** Nome da empresa de desenvolvimento do jogo
* **Rating:** Classificação etária dos jogos (ESRB)


**Comparando as informações do dataset2 e dataset3**

O Dataset2 mostra as informações sobre as vendas dos jogos. Já o Dataset3 apresenta informações sobre crítica e avaliação dos jogos.

#Validação de dados e entendimento das variáveis

**Quantos registros faltantes (dados nulos) por coluna?**

In [None]:
dados2.isnull().sum() 

In [None]:
dados3.isnull().sum()

In [None]:
dados2.dtypes

In [None]:
dados3.dtypes

**Há algum problema com os tipos das variáveis?**

Todas as variáveis do Dataset2 estão corretas. Já a variável "User_Score"está como object, mas deveria ser numeral (float64).


**Descreva o conteúdo de cada coluna, se atentando ao tipo de variável:**
1. Qualitativas: quantas categorias distintas? Qual a distribuição por categoria?
Temos duas categorias distintas: nominal (Name, Platform, Genre e Publisher) e ordinal (ID e Year_of_Release).

2. Quantitativas: valores mínimo e máximo. Média e desvio padrão. Mediana, P25 e P75.

In [None]:
dados2.describe()

In [None]:
dados2.median()

# Combinação dos Dataset2 e Dataset3

Vamos criar o dataset "dadoscompletos" com todos os dados dos Dataset2 e Dataset3, considerando as colunas que são iguais para os dois (Id, Name, Platform, Years_of_Release, Genre e Publisher).

In [None]:
dadoscompletos = pd.merge(dados2, dados3, on=['Id', 'Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher'])

In [None]:
dadoscompletos.info()

In [None]:
dadoscompletos.head()

In [None]:
dadoscompletos.shape

O dataset "dadoscompletos"possui 16719 linhas e 17 colunas.

In [None]:
dadoscompletos[['Year_of_Release']].describe()

Estão sendo considerados os jogos lançados entre 1980 e 2020.

**Quantos registros faltantes (dados nulos) por coluna?**

In [None]:
dadoscompletos.duplicated().sum()

In [None]:
dadoscompletos.isnull().sum()

In [None]:
dadoscompletos[dadoscompletos.Name.isnull()].head()

In [None]:
dadoscompletos[dadoscompletos.Genre.isnull()].head()

#Classificação etária dos jogos (Rating)

A classificação dos jogos é feita pela ESRB (Entertainment Software Rating Board), uma organização independente do governo que possui o sistema de classificação utilizado pelos jogos vendidos nos EUA, Canadá e América Latina. Na Europa a o sistema de classificação dos jogos (PEGI - Pan Europe Game Information) começou a ser usado em 2003 e segue a mesma descrição da ESRB.

In [None]:
dadoscompletos.Rating.value_counts()

**Classificações da ESRB**
* **EC - Early Childhood:** crianças a partir de 3 anos.
* **E - Everyone:** contém conteúdo apropriado para maiores de 6 anos.
* **E10+ - Everyone 10+:** conteúdo considerado impróprio para menores de 10 anos (*obs*: começou a ser utilizado apenas em 2005).
* **T - Teen:** contém conteúdo considerado impróprio para menores de 13 anos (*obs*: classificação usada quando não existia o E10+).
* **M - Mature:** contém conteúdo considerado impróprio para menores de 17 anos.
* **AO - Adults Only:** contém conteúdo impróprio para menores de 18 anos (*obs*: Nintendo, Sony e Microsoft não permitem que jogos com essa classificação sejam lançados para suas plataformas).
* **K-A - Kids to Adults:** contém conteúdo destinado a menores de 6 anos, podendo agradar pessoas com mais idade (*obs*: a partir de 1998 foi substituída pela E).
* **RP - Rating Pending:** o jogo ainda não foi classificado pela ESRB.


In [None]:
dadoscompletos[dadoscompletos.Rating == 'AO']

In [None]:
dadoscompletos[dadoscompletos.Rating == 'RP']

In [None]:
dadoscompletos[dadoscompletos.Rating == 'K-A']

#Empresas de Desenvolvimento de jogos (Developer)

In [None]:
dadoscompletos.Developer.isnull().sum()

In [None]:
dadoscompletos[['Developer']].describe()

In [None]:
dadoscompletos.Developer.value_counts()

In [None]:
dadoscompletos[dadoscompletos.Developer == 'Nintendo'].value_counts().sum()

#Plataformas onde os jogos foram lançados (Platform)

In [None]:
dadoscompletos.Platform.value_counts()

#Empresas responsáveis pela publicação/distribuição dos jogos (Publisher)

In [None]:
novodados1.Publisher.value_counts()

#Informações sobre as avaliações dos críticos e dos usuários

A avaliação dos críticos (Critic_Score) segue uma pontuação de 0 a 100, enquanto a dos usuários (User_Score) é de 0 a 10.

In [None]:
dadoscompletos.Critic_Score.value_counts().head()

#Informações sobre as Vendas

In [None]:
dadoscompletos[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].agg('sum')

Comparando o valor das vendas por região, a América do Norte corresponde a quase 50% do total de vendas.

In [None]:
dadoscompletos[dadoscompletos['JP_Sales']>1]['Publisher'].value_counts()[:10]

No mercado Japonês a Nintendo domina as vendas com 126 jogos, seguida pela Sony com apenas 16 títulos.

In [None]:
dadoscompletos[dadoscompletos['NA_Sales']>1]['Publisher'].value_counts()[:10]

O mesmo acontece no mercado Norte Americano. A Nintendo possui 171 jogos, mas a diferença para a segunda maior empresa divulgadora é menor, Electronic Arts com 144 títulos.

In [None]:
dadoscompletos[dadoscompletos['NA_Sales']>1]['Genre'].value_counts()

Os três gêneros mais comprados na América do Norte são: action, shooter e sports. E o menos procurado é o de adventure.

In [None]:
dadoscompletos[dadoscompletos['NA_Sales']>1]['Platform'].value_counts()[:10]

#Tidy Data

In [None]:
tidy_dataset2 = dadoscompletos.drop('Global_Sales', axis=1)
tidy_dataset2 = tidy_dataset2.rename({'NA_Sales': 'North_America', 'EU_Sales': 'Europe', 'JP_Sales': 'Japan', 'Other_Sales': 'Other'}, axis=1)
tidy_dataset2 = pd.melt(tidy_dataset2, id_vars=['Id', 'Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher', 'Critic_Score', 'Critic_Count', 'User_Score', 'User_Count', 'Developer', 'Rating'], var_name='Region', value_name='Sold_Millions_Units')

In [None]:
tidy_dataset2[tidy_dataset2.Name == 'Donkey Kong']

# **Acelerando**


**Relacionamento das variáveis e Tendências:**

As variáveis possuem algum tipo de correlação? Caso positivo, investigue os coeficientes de correlação existentes, identifique os aplicáveis, selecione um, utilize no dataset e explique.

Existe alguma tendência no Dataset? Ex: de quantidade de vendas em determinados anos, por gênero, console ou plataforma.

**Conclusões e Direcionamentos para os próximos passos:**


**Que outras perguntas você acredita que poderiam ter sido feitas para auxiliar na exploração dos dados?**


**Como você apresentaria o seu estudo para a CEO?**

# Gráficos

**Gráfico 8 - Lançamento de jogos por gênero**

In [None]:
plt.figure(figsize=(25, 10))
fsize=20
lsize=15
sns.countplot(x="Genre", data=dadoscompletos, order = dadoscompletos['Genre'].value_counts().index)
plt.xticks(rotation=45)
plt.title('Total de jogos lançados por ano', fontsize=fsize)
plt.ylabel('Quantidade de jogos lançados', fontsize=lsize)
plt.xlabel('Gênero dos jogos', fontsize=lsize)



---



**Gráfico 9 - Total de jogos lançados por ano**

O gráfico mostra do ano (2008) com maior jogos lançados para o menor (2020).

In [None]:
plt.figure(figsize=(25, 10))
fsize=20
lsize=15
sns.countplot(x="Year_of_Release", data=dadoscompletos, order = dadoscompletos.groupby(by=['Year_of_Release'])['Name'].count().sort_values(ascending=False).index)
plt.xticks(rotation=90)
plt.title('Total de jogos lançados ao ano', fontsize=fsize)
plt.ylabel('Quantidade de jogos lançados', fontsize=lsize)
plt.xlabel('Ano de lançamento', fontsize=lsize)



---



**Gráfico 10 - Número de jogos por ano de lançamento**

O gráfico mostra os anos em ordem crescente (1980 - 2017).
Comparando com o gráfico 9, conseguimos visualizar melhor que o número de jogos lançados aumentou ao longo dos anos e teve sua máxima em 2008 e, a partir disso, esse número foi diminuindo.

In [None]:
titles_by_year = dadoscompletos.groupby(['Year_of_Release']).agg({'Name':lambda x : len(x) if (len(x) > 1) else None}).dropna()
plt.subplots(figsize=(12,5))
ax = sns.pointplot(x=titles_by_year.index, y=titles_by_year.Name)
g = ax.set_xticklabels(ax.get_xticklabels(), rotation=45)
ax.set_title('Número de jogos por ano de lançamento', size=25, color='black', alpha=0.5)
ax.set_xlabel('Ano de lançamento', size=25, color='green', alpha=0.5)
ax.set_ylabel('Número de jogos', size=25, color='green', alpha=0.5)

**Gráfico 11 - Os 5 anos com mais lançamento de jogos por gênero**

In [None]:
plt.figure(figsize=(25, 10))
fsize=20
lsize=15
sns.countplot(x="Year_of_Release", data=dadoscompletos, hue='Genre', order=dadoscompletos.Year_of_Release.value_counts().iloc[:5].index)
plt.xticks(size=13, rotation=90)
plt.title('Os 5 anos com mais de lançamento de jogo por gênero', fontsize=fsize)
plt.ylabel('Quantidade de jogos lançados', fontsize=lsize)
plt.xlabel('Ano de lançamento', fontsize=lsize)

**Gráfico 12 - Total de vendas global por gênero**

In [None]:
global_sales_by_genre = dadoscompletos.groupby('Genre').agg({'Global_Sales' :np.sum}).sort_values('Global_Sales')
plt.subplots(figsize=(11,8))
ax = sns.barplot(x=global_sales_by_genre.index, y=global_sales_by_genre.Global_Sales)
ax.set_title('Total de Vendas Global por Gênero (1980-2020)', color='black', size=25, alpha=0.5)
ax.set_xlabel('Gênero do jogo', color='green', size=20, alpha=0.5)
ax.set_ylabel('Total de Vendas Global', color='green', size=20, alpha=0.5)

**Gráfico 13 - As 10 Distribuidoras por Venda Global**

In [None]:
global_sales_publisher = dadoscompletos.pivot_table(index=['Publisher'], values=['Global_Sales', 'NA_Sales', 'EU_Sales', 'JP_Sales'], 
                                                    aggfunc=np.sum).sort_values(['Global_Sales'], ascending=False)
global_sales_publisher = global_sales_publisher[['Global_Sales', 'NA_Sales', 'EU_Sales', 'JP_Sales']]
ax = global_sales_publisher.iloc[0:10,:].plot(kind='bar', stacked=True, grid=False)
ax.set_title('Top 10 Distribuidoras por Venda Global', color='black', size=25, alpha=0.5)
ax.set_xlabel('Distribuidora', color='green', size=20, alpha=0.5)
ax.set_ylabel('Vendas', color='green', size=20, alpha=0.5)



---




**Gráfico 14 - Total de Vendas por Plataformas**

In [None]:
global_sales_by_platform = dadoscompletos.groupby('Platform').agg({'Global_Sales' :np.sum}).sort_values('Global_Sales')
plt.subplots(figsize=(20,8))
ax = sns.barplot(x=global_sales_by_platform.index, y=global_sales_by_platform.Global_Sales)
ax.set_title('Total de Vendas Global por Plataformas', color='black', size=25, alpha=0.5)
ax.set_xlabel('Plataforma do jogo', color='green', size=20, alpha=0.5)
ax.set_ylabel('Total de Vendas Global', color='green', size=20, alpha=0.5)

#**O que você tira desse case?**

* Os dados correspondem ao período de tempo de 40 anos, entre 1980 e 2020.
O ano com mais lançamentos foi 2008 (total de 1427 jogos) e em 2020 só foi lançado 1 jogo.
Podemos observar que em 1993 foram lançados 62 jogos e no ano seguinte esse número dobrou (121 jogos). Uma explicação para isso é que em 1994 a Sony entrou no mercado de videogames com o lançamento do seu primeiro console, o PlayStation.

* Também vemos que as vendas aumentaram ao longo dos anos, mas a partir de 2008 o número de jogos em mídias físicas diminuiu e o dataset fornecido não contempla as vendas de jogos online em plataformas (ex: Steam).
Com o aumento do uso de smartphones, surgiram mais jogos desenvolvidos para o mobile (IOS e Android).
Além disso, os consoles lançados nos últimos anos não possuem mais entrada para mídia física e os jogos começam a ser lançados em mídia digital.

* Quanto ao gênero/categoria, os jogos de action são os mais vendidos mundialmente, seguidos por sports. Já os de strategy tem o menor número de vendas global.

* Uma das possíveis fontes do Dataset3 pode ser o site Metacritic https://www.metacritic.com/, onde os jogos podem ser avaliados pelos críticos (pontuação de 0 a 100) e pelos usuários (pontuação de 0 a 10).
O site também apresenta outras informações sobre os jogos como ano de lançamento, empresa que desenvolveu, classificação segundo a EBSR, entre outras.

* Com relação a classificação dos jogos (Rating), a maioria do nosso banco de dados é "E - Everyone", ou seja, jogos que contém conteúdo indicado para todas as idades. 
Jogos com classificação "AO - Adults Only", com conteúdo considerado impróprio para menores de 18 anos, temos apenas 1 no banco de dados (Grand Theft Auto: San Andreas).

* Entre as empresas de desenvolvimento de jogos, a Ubisoft é a que possui mais jogos (204), seguida pela EA Sports (172) e a EA Canada (167). A Nintendo é responsável pelo desenvolvimento de 68 jogos.

* As 5 empresas (Publisher) com maior número de jogos distribuídos são: Nintendo, Activision, Take-Two Interactive, Sony Computer Entertainment e Electronic Arts. Mas se analisarmos o total de vendas temos: Nintendo, Eletronic Arts, Activision, Sony Computer Entertainment e Ubisoft.

* Com relação a Plataforma do jogo, temos para as 5 plataformas com mais jogos: PS2 (2161 jogos), DS (2152 jogos), PS3 (1331 jogos), Wii (1320 jogos) e X360 (1262 jogos). Considerando o total de vendas a ordem altera um pouco: PS2, X360, PS3, Wii e DS.