# Video Game Sales

`Matheus Raz (mrol@cin.ufpe.br)`

`João Paulo Lins (jplo@cin.ufpe.br)`

In [None]:
from IPython.display import display

import numpy as np
import pandas as pd
import warnings 
warnings.filterwarnings('ignore')
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score

In [None]:
df = pd.read_csv('VideoGamesSalesWithRatings.csv')
df.head()

In [None]:
df.info()

In [None]:
df

In [None]:
minor = df['Year_of_Release'].min()
major = df['Year_of_Release'].max()
print("Menor ano da base: %d"%(minor))
display(df[df['Year_of_Release'] == minor])
print("Maior ano da base: %d"%(major))
display(df[df['Year_of_Release'] == major])

In [None]:
df.drop(labels=5936,inplace=True)
major = df['Year_of_Release'].max()
print("Maior ano da base: %d"%(major))
display(df[df['Year_of_Release'] == major])

O jogo `Imagine: Makeup Artist` possui vendas espalhadas pelo mundo todo mesmo antes de seu lançamento, isso nos levou a pensar que fosse um tipo de pre-venda, porém após algumas pesquisas constatamos que o jogo foi lançado em 2009 e não possuia nenhuma previsão de lançamento para 2020, por isso tudo indica que seja um dado ruidoso, nos levando a questionar se os outros valores referentes a ele estariam realmente corretos. Optamos então por deletar esse valor do nosso dataset.

In [None]:
df.drop(labels=[14086,16222,16385],inplace=True)
major = df['Year_of_Release'].max()
print("Maior ano da base: %d"%(major))
display(df[df['Year_of_Release'] == major])

Os jogos `Phantasy Star Online 2 Episode 4: Deluxe Package` de PS4 e PSV e `Brothers Conflict: Precious Baby` foram lançados em 2016 apenas no Japão e tinham como 2017 o ano de lançamento no resto do mundo. Porém, como a base data de 22 de Dezembro de 2016, não foi computado as vendas no resto do mundo, nem nota da crítica e etc. Sendo assim, optamos por deletar esses valores do nosso dataset.

In [None]:
df.columns

In [None]:
qtdUserScoreTbd = len(list(filter(lambda x : x is True, [x == 'tbd'  for x in df['User_Score']])))
display("Quantidade de valores \"tbd\" na coluna User_Score: %d"%(qtdUserScoreTbd))

df['User_Score'].replace('tbd', np.nan, inplace=True)

qtdUserScoreNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['User_Score']])))
display("Quantidade de valores \"NaN\" na coluna User_Score após a converção: %d"%(qtdUserScoreNan))

df['User_Score'] = df['User_Score'].apply(lambda x : float(x))
df.info()

A coluna `User_Score` possuia valores igual a `tbd` que no Metacritic significa "to be determined". Ou seja, é quando não houve o número mínimo de 4 avaliações para que o Metacritic pode-se considerar a avaliação média dos usuários. Sendo assim, resolvemos considerar que os valores iguais a `tbd` equivalem a `NaN`, visto que os valores correspondentes a `User_count` nesses registros está como `NaN`, o que implíca dizer que não houve usuários avaliadores.

Após a substituição de valores, convertemos o tipo da coluna `User_Score` de categórico para numérico

In [None]:
qtdAnosNan = len(df[np.isnan(df['Year_of_Release'])])
display("Quantidade de valores \"NaN\" na coluna Year_of_Release: %d"%(qtdAnosNan))

qtdNASalesNan = len(df[np.isnan(df['NA_Sales'])])
display("Quantidade de valores \"NaN\" na coluna NA_Sales: %d"%(qtdNASalesNan))

qtdEUSalesNan = len(df[np.isnan(df['EU_Sales'])])
display("Quantidade de valores \"NaN\" na coluna EU_Sales: %d"%(qtdEUSalesNan))

qtdJPSalesNan = len(df[np.isnan(df['JP_Sales'])])
display("Quantidade de valores \"NaN\" na coluna JP_Sales: %d"%(qtdJPSalesNan))

qtdOtherSalesNan = len(df[np.isnan(df['Other_Sales'])])
display("Quantidade de valores \"NaN\" na coluna Other_Sales: %d"%(qtdOtherSalesNan))

qtdGlobalSalesNan = len(df[np.isnan(df['Global_Sales'])])
display("Quantidade de valores \"NaN\" na coluna Global_Sales: %d"%(qtdGlobalSalesNan))

qtdCriticScoreNan = len(df[np.isnan(df['Critic_Score'])])
display("Quantidade de valores \"NaN\" na coluna Critic_Score: %d"%(qtdCriticScoreNan))

qtdCriticCountNan = len(df[np.isnan(df['Critic_Count'])])
display("Quantidade de valores \"NaN\" na coluna Critic_Count: %d"%(qtdCriticCountNan))

qtdUserScoreNan = len(df[np.isnan(df['User_Score'])])
display("Quantidade de valores \"NaN\" na coluna User_Score: %d"%(qtdUserScoreNan))

qtdUserCountNan = len(df[np.isnan(df['User_Count'])])
display("Quantidade de valores \"NaN\" na coluna User_Count: %d"%(qtdUserCountNan))

In [None]:
qtdNameNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Name']])))
display("Quantidade de valores \"NaN\" na coluna Name: %d"%(qtdNameNan))

qtdPlatformNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Platform']])))
display("Quantidade de valores \"NaN\" na coluna Platform: %d"%(qtdPlatformNan))

qtdGenreNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Genre']])))
display("Quantidade de valores \"NaN\" na coluna Genre: %d"%(qtdGenreNan))

qtdPublisherNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Publisher']])))
display("Quantidade de valores \"NaN\" na coluna Publisher: %d"%(qtdPublisherNan))

qtdDeveloperNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Developer']])))
display("Quantidade de valores \"NaN\" na coluna Developer: %d"%(qtdDeveloperNan))

qtdRatingNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Rating']])))
display("Quantidade de valores \"NaN\" na coluna Rating: %d"%(qtdRatingNan))

In [None]:
df = df.dropna(subset = ['Name', 'Genre', 'Publisher', 'Year_of_Release'])

qtdNameNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Name']])))
qtdGenreNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Genre']])))
qtdPublisherNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Publisher']])))
qtdAnosNan = len(df[np.isnan(df['Year_of_Release'])])

display("Quantidade após drop desses valores \"NaN\" na coluna Name: %d"%(qtdNameNan))
display("Quantidade após drop desses valores \"NaN\" na coluna Genre: %d"%(qtdGenreNan))
display("Quantidade após drop desses valores \"NaN\" na coluna Publisher: %d"%(qtdPublisherNan))
display("Quantidade após drop desses valores \"NaN\" na coluna Year_of_Release: %d"%(qtdAnosNan))

In [None]:
qtdCriticScoreNan = len(df[np.isnan(df['Critic_Score'])])
display("Quantidade de valores \"NaN\" na coluna Critic_Score: %d"%(qtdCriticScoreNan))

qtdCriticCountNan = len(df[np.isnan(df['Critic_Count'])])
display("Quantidade de valores \"NaN\" na coluna Critic_Count: %d"%(qtdCriticCountNan))

qtdUserScoreNan = len(df[np.isnan(df['User_Score'])])
display("Quantidade de valores \"NaN\" na coluna User_Score: %d"%(qtdUserScoreNan))

qtdUserCountNan = len(df[np.isnan(df['User_Count'])])
display("Quantidade de valores \"NaN\" na coluna User_Count: %d"%(qtdUserCountNan))

df['Critic_Score'].replace(np.nan, 0, inplace=True)
df['Critic_Count'].replace(np.nan, 0, inplace=True)
df['User_Score'].replace(np.nan, 0, inplace=True)
df['User_Count'].replace(np.nan, 0, inplace=True)

display("Após substituição dos valores \"NaN\" para \"0\" temos:")

qtdCriticScoreZero = len(list(filter(lambda x : x is True, [x == 0  for x in df['Critic_Score']])))
display("Quantidade de valores \"0\" na coluna Critic_Score: %d"%(qtdCriticScoreZero))

qtdCriticCountZero = len(list(filter(lambda x : x is True, [x == 0  for x in df['Critic_Count']])))
display("Quantidade de valores \"0\" na coluna Critic_Count: %d"%(qtdCriticCountZero))

qtdUserScoreZero = len(list(filter(lambda x : x is True, [x == 0  for x in df['User_Score']])))
display("Quantidade de valores \"0\" na coluna User_Score: %d"%(qtdUserScoreZero))

qtdUserCountZero = len(list(filter(lambda x : x is True, [x == 0  for x in df['User_Count']])))
display("Quantidade de valores \"0\" na coluna User_Count: %d"%(qtdUserCountZero))

In [None]:
# qtdDeveloperNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Developer']])))
# display("Quantidade de valores \"NaN\" na coluna Developer: %d"%(qtdDeveloperNan))

# for i in range(len(df)):
#     if((df.index.isin([i]).any()) and (df.loc[i,'Developer'] is np.nan) and (df.loc[i,'Publisher'] is not np.nan)):
#         df['Developer'][i] = df['Publisher'][i]

# qtdDeveloperNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Developer']])))
# display("Quantidade de valores \"NaN\" na coluna Developer após substituição: %d"%(qtdDeveloperNan))

qtdRatingNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Rating']])))
display("Quantidade de valores \"NaN\" na coluna Rating: %d"%(qtdRatingNan))

df['Rating'].replace(np.nan, 'E', inplace=True)

qtdRatingNan = len(list(filter(lambda x : x is True, [x is np.nan  for x in df['Rating']])))
display("Quantidade de valores \"NaN\" na coluna Rating após substituição: %d"%(qtdRatingNan))

### Tratamento de valores "NaN"

Testamos se havia valores `NaN`em todas as colunas do dataframe e vimos que as seguintes colunas possuiam as seguintes quantidades desses valores ruidosos:
- Year_of_Release: 269
- Critic_Score: 8578
- Critic_Count: 8578
- User_Score: 9125
- User_Count: 9125
- Name: 2
- Genre: 2
- Publisher: 54
- Developer: 6620
- Rating: 6766

Como as colunas `Year_of_Release`, `Name`, `Genre` e `Publisher` possuem poucos valores ruidosos comparado ao total de dados do dataframe (16.715 linhas), optamos por dropar esses registros da base.

Já as colunas `Critic_Score`, `Critic_Count`, `User_Score` e `User_Count` possuiam mais de 8000 registros ruidosos. Sendo assim optamos por substituir os valores `NaN` por `0`, pois consideramos que `Critic_Count` e `User_Count` com valores `NaN` significa que nenhum usuário avaliou aquele jogo e por isso o `Critic_Score` e `User_Score` possuiriam nota 0.

Por fim, como `Rating` é uma coluna de valores categóricos e possuia mais de 6000 registros ruidosos. Neste caso, consideramos que um registro de rating `NaN` seria equivalente ao rating `E`.

In [None]:
df['Year_of_Release'] = df['Year_of_Release'].apply(lambda x : int(x))
df.drop(labels=['Critic_Count', 'User_Count'], axis=1, inplace=True)
df

Convertemos os valores da coluna `Year_of_Release` de float para int.
Consideramos que as colunas `Critic_Count` e `User_Count` são irrelevantes dentre as hipóteses levantadas, e por isso decidimos dropálas da base.