# Bibliotecas

In [None]:
# Bibliotecas base
import pandas as pd

In [None]:
# Plotagem e exibição de gráficos
from matplotlib import pyplot as plt

# Plotagem com Plotly Express
import plotly.express as px
import seaborn as sns

# Sobre o arquivo

## Processo de Obtenção
O arquivo `vgsales.csv` utilizado durante a execução deste projeto, pode ser obtido através do [Kaggle](https://www.kaggle.com/datasets/gregorut/videogamesales), disponibilizado de forma gratuita na plataforma pelo usuário [GregorySmith](https://www.kaggle.com/gregorut).

## Atualização e Disponibilização da Base de Dados
De acordo com as informações disponibilizadas no site do onde obtive o arquivo `vgsales.csv`, a base de dados foi gerada através do processo de *scrape* no site [VGChartz](https://www.vgchartz.com/).
Desta forma, com o objetivo de adicionar informações na base de dados e permitir um estudo sobre essa temática, realizei um processo de *scraping* no mesmo site. Para tal, utilizei como base o script disponibilizado pelo usuário [GregorUT](https://github.com/GregorUT/vgchartzScrape), com anotações e atualizações para atender a atual demanda.

## Uso da Base de Dados
Será mantida a licença GPL-3.0 de acordo com a o usuário [GregorUT](https://github.com/GregorUT/vgchartzScrape) e, como as informações disponibilizadas no site [VGChartz](https://www.vgchartz.com/) estão em domínio público, não há razões para modificar o termo de licença.

## Sobre a base de Dados
A base de dados é composta pelas seguintes informações:

1. `Rank`: Valor numérico incremental. Não há relevância para análise.
0. `Name`: Nome do Jogo.
0. `Platform`: Plataforma em que o Jogo foi lançado.
0. `Day`: Dia em que o Jogo foi lançado.
0. `Month`: Mês em que o Jogo foi lançado.
0. `Year`: Ano em que o Jogo foi lançado.
0. `Genre`: Gênero do Jogo.
0. `Publisher`: Distribuidores do Jogo.
0. `Developer`: Desenvolvedores do Jogo
0. `Critic_Score`: Nota de Avaliação crítica do Jogo.
0. `User_Score`: Nota de Avaliação dos usuários referente ao Jogo.
0. `NA_Sales`: Território de Publicação de Jogos Eletrônicos (NA).
0. `EU_Sales`: Território de Publicação de Jogos Eletrônicos (EU).
0. `JP_Sales`: Território de Publicação de Jogos Eletrônicos (JP).
0. `PAL_Sales`: Território de Publicação de Jogos Eletrônicos (PAL).
0. `Other_Sales`: Agrupamento de outros territórios de Publicação de Jogos Eletrônicos.
0. `Global_Sales`: Total de vendas registradas.

Durante a execução deste processo, os dados serão analisados, tratados e, posteriormente exportados para exibir as informações através de Dashboards via Streamlit.

## Leitura do Arquivo
O arquivo está em `UTF-8`e possui como `index` a coluna 0 (zero).

### Informações Iniciais

In [None]:
# Leitura do arquivo 'vgsales.csv'
df = pd.read_csv('vgsales.csv', encoding='utf-8', index_col=0)

In [None]:
# Exibe as 5 (cinco) primeiras linhas do DataFrame
df.head()

In [None]:
# Exibe as 5 (cinco) ultimas linhas do DataFrame
df.tail()

In [None]:
# Exibe a quantidade de linhas (rows = dados) e colunas (cols = atributos) da base de dados
df.shape

In [None]:
# Exibe o nome das colunas (atributos) da base de dados
df.keys()

In [None]:
# Por questões de estética, será realizada a tradução no nome das colunas (atributos)
df.rename(columns={'Name': 'Nome',
                   'Platform': 'Plataforma',
                   #'Day': 'Dia',
                   #'Month': 'Mês',
                   'Year': 'Ano',
                   'Genre': 'Gênero',
                   'Publisher': 'Publicação',
                   #'Developer': 'Desenvolvedor',
                   #'Critic_Score': 'Avaliação Crítica',
                   #'User_Score': 'Avaliação dos Usuários',
                   'NA_Sales': 'Vendas NA',
                   'EU_Sales': 'Vendas EU',
                   #'PAL_Sales': 'Vendas PAL',
                   'JP_Sales': 'Vendas JP',
                   'Other_Sales': 'Vendas OUT',
                   'Global_Sales': 'Total de Vendas'}, inplace=True)

In [None]:
# Exibe o nome das colunas (atributos) da base de dados após mudança dos nomes
df.keys()

### Dados Nulos
Processo de verificação de Dados Nulos na Base de dados.

In [None]:
# Exibe a soma dos dados nulos encontrados por coluna
df.isnull().sum()

<div class="alert alert-block alert-info"> <b>INFORMAÇÃO:</b> Foi identificado a presença de dados nulos na base de dados. Estes dados devem ser verificados e analisados. Existem <b>271</b> registros sem informação no campo <b>Ano</b> e <b>58</b> registros sem informação no campo <b>Publicação</b>.</div>

#### Análise de Campos Nulos

In [None]:
# Gráfico de distribuição dos valores Nulos
plt.figure(figsize=(15,6))
plt.title('Análise de Campos Nulos')
sns.heatmap(df.isnull(), cbar=False);

In [None]:
# Exibe as linhas que possuem, ao menos, um valor nulo
df[df.isna().any(axis=1)]

In [None]:
# Quantidade de Linhas com, ao menos, um valor nulo
df[df.isna().any(axis=1)].shape

<div class="alert alert-block alert-warning"> <b>CUIDADO:</b> Identificou-se a presença total de <b>307</b> registros contendo, ao menos, um atributo <b>nulo</b>. Este valor representa aproximadamente <b>1,85%</b> dos registros da base de dados.</div>

<div class="alert alert-block alert-danger"> <b>ATENÇÃO:</b> Optou-se, por questões de estudo, na <b>exclusão</b> dos dados que possuem ao menos um atributo <b>nulo</b>.</div>

In [None]:
# Apaga as linhas que possuem, ao menos, um valor nulo
df.dropna(inplace=True)

In [None]:
# Exibe a quantidade de linhas (rows = dados) e colunas (cols = atributos) da base de dados após a exclusão dos dados nulos
df.shape

In [None]:
# Exibe a soma dos dados nulos encontrados por coluna
df.isnull().sum()

In [None]:
# Quantidade de Linhas com, ao menos, um valor nulo. Observe que não há mais registros com valor nulo na base de dados
df[df.isna().any(axis=1)].shape

### Tratamento de Atributos
É importante verificar os tipos de atributos que a Base de Dados possui para melhor exibi-las e analisa-las.

In [None]:
# Exibe os tipos de dados por colunas
df.info()

<div class="alert alert-block alert-info"> <b>NOTE:</b> Observe que o campo <b>Ano</b> está no formato <b>Float64</b> e deveriam estar em <b>Int64</b>. Por essa razão, estes campos serão formatados. Os demais campos apresentam formato condizente com a necessidade. Isso será tratado ao lidar com o atributo <b>Ano</b>.</div>


#### Atributo `Rank` (Index)
Após a exclusão dos registros com ao menos um atributo nulo, e levando em conta que a quantidade de indices encontrava-se diferente da quantidade de registros apresentados, será necessária a indexação da base de dados.

**Operações**
* Reordenar o indice

**Análises**
* Não há análises que possam ser realizadas para este campo

In [None]:
# Reseta a sequência numérica dos Indices do banco de dados
df.reset_index(drop=True, inplace=True)
display(df)

#### Atributo `Ano`
Conforme mensionado anteriormente, será necessário a alteração do formato *float64* para *Int64*. Aproveitaremos a oportunidade para realizar algumas análises de distribuição de dados.

**Operações**
* Alteração no formato do campo;

**Análises**
* Distribuição dos dados ao longo dos anos;

##### Operações no atributo `Year`

In [None]:
# Converte os dados 'Ano' para Inteiro (Int64)
df['Ano'] = df['Ano'].convert_dtypes()
df.info()

In [None]:
df.head()

##### Análises do campo `Ano`

In [None]:
# Intervalo de valores únicos na coluna 'Ano' organizado de forma crescente (ascending=True)
df['Ano'].drop_duplicates().sort_values(ascending=True).values
#df.groupby(['Ano'])['Ano'].count().index  # Outra forma de fazer a mesma ação anterior

In [None]:
# Quantidade de jogos publicados por ano organizado de forma crescente de acordo com o ano de lançamento
df['Ano'].value_counts().sort_index().values
#df.groupby(['Ano'])['Ano'].count()  # Outra forma de fazer a mesma ação anterior

In [None]:
# Quantidade de jogos publicados por ano
x_anos = df['Ano'].drop_duplicates().sort_values(ascending=True).values
y_contagem = df['Ano'].value_counts().sort_index().values

fig = px.line(x=x_anos, y=y_contagem,
            labels={
                "y": "Quantidade de Jogos",
                "x": "Período"},
            title='Jogos publicados ao longo dos anos<br><sup>1980-2020</sup>',
            line_shape='spline',
            markers=True)
fig.update_layout(xaxis_range=[1980,2020])
fig.show()

In [None]:
# Mesma representação anterior em outro gráfico
fig = px.bar(x=x_anos, y=y_contagem,
            labels={
                "y": "Quantidade de Jogos",
                "x": "Período"},
            title='Jogos publicados ao longo dos anos<br><sup>1980-2020</sup>')
fig.update_layout(xaxis_range=[1980,2020])
fig.show()

#### Distribuição de Dados pelo Atributo 'Name'

In [None]:
# Valores Únicos
df['Nome'].drop_duplicates().sort_values(ascending=True).values

In [None]:
# Quantidade de valores únicos no campo 'nome'
df['Nome'].drop_duplicates().count()

<div class="alert alert-block alert-info"> <b>NOTE:</b> Foram registrados <b>11.325</b> jogos distintos na base de dados. Uma possível análise seria verificar nomes similares e agrupar para analisar as franquias de jogos.</div>

#### Distribuição de Dados pelo Atributo `Plataforma`

In [None]:
# Plataformas
df['Plataforma'].drop_duplicates().sort_values(ascending=True).values

In [None]:
# Quantidade de jogos por plataforma
# Retorna um array com a quantidade de registros de jogos por plataforma
df['Plataforma'].value_counts().sort_index().values

In [None]:
# Quantidade de jogos por plataforma
df.groupby('Plataforma').size()

In [None]:
# Exibindo os dados em forma de gráfico
x = df.groupby(['Plataforma'])['Plataforma'].count().index
y = df.groupby(['Plataforma'])['Plataforma'].count()

fig = px.scatter(x=x, y=y,
                 marginal_y='violin',
                 labels={
                     "y": "Volume de Jogos por Plataforma",
                     "x": "Plataformas"
                 },
                 title='Quantidade de Jogos por Plataforma',
                 size=y)
fig.update_layout(yaxis_range=[0,2500])
fig.show()

In [None]:
df['Plataforma'].value_counts()['PS2']

In [None]:
# Exibindo os dados em forma de gráfico
x = df.groupby(['Plataforma'])['Plataforma'].count().sort_values(ascending=False).index
y = df.groupby(['Plataforma'])['Plataforma'].count().sort_values(ascending=False)

fig = px.bar(x=x, y=y,
                 labels={
                     "y": "Volume de Jogos",
                     "x": "Plataformas"
                 },
                 title='Quantidade de Jogos por Plataforma')
fig.show()

#### Distribuição de Dados pelo Atributo 'Genre'

In [None]:
# Contagem de Gênero de jogos vendidos
sorted(df['Gênero'].unique())

In [None]:
df['Gênero'].value_counts().sort_index()

In [None]:
# Distribuição de vendas ao longo dos anos
x = df.groupby(['Gênero'])['Gênero'].count().sort_values(ascending=False).index # Nomes (names)
y = df.groupby(['Gênero'])['Gênero'].count().sort_values(ascending=False) # Quantidade (values)

fig = px.pie(values=y, names=x,
                 title='Lançamento de Jogos por Gênero')
fig.show()

#### Distribuição de Dados pelo Atributo 'Publisher'

In [None]:
# Contagem por Desenvolvedoras
sorted(df['Publicação'].unique())

In [None]:
# Contagem por Desenvolvedoras
df['Publicação'].value_counts().sort_index()

Para melhorar a visualização, mostrar apenas as desenvolvedoras com maior volume de jogos vendidos.

In [None]:
x=df['Publicação'].value_counts().sort_index()
y=sorted(df['Publicação'].unique())

fig = px.bar(x=x, y=y,
                orientation='h',
                labels={
                    "x": "Quantidade de Vendas",
                    "y": "Plataforma de Publicação"
                },
                title='Volume de Jogos por Plataforma de Publicação')
fig.show()

### Verificação das vendas 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales' e 'Global_Sales'

Sugestões de análises:
* Taxa de Variação de Preço por Plataforma
* Média de Preços por jogos ou plataformas

In [None]:
df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']]

In [None]:
# Média das Colunas
df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']].mean()

In [None]:
# Média das Linhas
df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']].mean(axis=1)

# Exporta a Base de Dados

In [None]:
# Exporta o Banco de Dados
df.to_csv(r'vgsales-bd-tratado.csv', index=False, encoding='utf-8')