# Etapa de início

Para esta atividade de pré-processamento de dados e análise descritiva, utilizaremos um *dataset* chamado [**Video Game Sales**](https://www.kaggle.com/gregorut/videogamesales).

> *"This dataset contains a list of video games with sales greater than 100,000 copies."*
>
> por GregorySmith, usuário do Kaggle

Este *dataset* é 16.598x11 (16.598 amostras com 11 colunas).

In [1]:
import pandas
import numpy
import seaborn

vgsales = pandas.read_csv("../../docs/vgsales.csv")
vgsales_df = pandas.DataFrame(vgsales)
vgsales_df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


As colunas do *dataset* carregam nomes que separados por traço, portanto não é necessário a alteração dos nomes de qualquer uma das colunas.

---

# Pré-processamento de dados

Antes de iniciar qualquer análise profunda ou algo que precise de mais detalhes, vamos primeiro observar com que tipos de dados estamos lidando, quantos jogos por editora têm dentro deste *dataset* e entre outros detalhes importantes que possam vir a ajudar na hora da análise.

In [2]:
print(vgsales_df.dtypes)

Rank              int64
Name             object
Platform         object
Year            float64
Genre            object
Publisher        object
NA_Sales        float64
EU_Sales        float64
JP_Sales        float64
Other_Sales     float64
Global_Sales    float64
dtype: object


É possível observar que temos, ao todo, três tipos de dados: flutuantes de 64 bits, inteiros de 64 bits e objetos. Cada objeto deve estar instanciado de alguma classe primária, algo como String ou DateTime, por exemplo.

Mas, e quantas editoras tem neste *dataset*? Delas, quantos jogos estão presentes dentro deste *dataset*? É importante sabermos isso para poder analisar, posteriormente, qual foi a editora que mais vendeu jogos de sucesso (*"sales greater than 100,000 copies"*).

In [5]:
publisher_game_sale_count = vgsales_df['Publisher'].value_counts()
print(publisher_game_sale_count.head())

Electronic Arts                 1351
Activision                       975
Namco Bandai Games               932
Ubisoft                          921
Konami Digital Entertainment     832
Name: Publisher, dtype: int64


De acordo com os valores retornados, temos um total de 578 editoras (indicado no tamanho do vetor caso apenas mande imprimir a variável `publisher_game_sale_count`). A que mais vendeu, aparentemente, foi a EA, seguido da Activision e, como medalha de bronze, a Namco Bandai Games.

### Merge

gora, vamos analisar os jogos e suas vendas na Europa. Para fazermos isso, iremos criar um **merge** em dois data frames diferentes para podermos ter uma melhor visualização. Isso será feito pois temos um dataset com bastante colunas e, se formos selecionar apenas as colunas que queremos dentro deste dataset, pode acabar demorando mais que o normal porque irá puxar muita informação desnecessária. Ele irá servir para trabalharmos apenas com os jogos e a quantidade de vendas de cada um na Europa.

In [6]:
games_df = pandas.DataFrame(vgsales_df['Name'])
eu_sales_df = pandas.DataFrame(vgsales_df['EU_Sales'])

games_df.merge(eu_sales_df, left_on='Name', right_on='EU_Sales')

ValueError: You are trying to merge on object and float64 columns. If you wish to proceed you should use pd.concat

Um erro foi gerado pois a tentativa de dar merge nos dois data frames foi inválida por conta dos dois data frames serem de tipos diferentes. Então, para poder consertar isso, é necessário fazer a conversão de tipos para manter os dois data frames com tipos iguais e, portanto, conseguir fazer o merge.

### Conversão de tipos

In [43]:
eu_sales_df = eu_sales_df.to_string

Desta forma é feita a conversão do tipo do data frame das vendas na Europa de *float* para *string*, podendo então fazer o que era preciso antes: o **merge**.

In [44]:
games_df.merge(eu_sales_df, left_on='Name', right_on='EU_Sales')

TypeError: Can only merge Series or DataFrame objects, a <class 'method'> was passed

### Concat

Descrição

In [5]:
is_Nintendo = vgsales_df.Publisher == "Nintendo"
is_Activision = vgsales_df.Publisher == "Activision"

Nintendo_Publisher_serie = pandas.Series(vgsales_df['Publisher'])
Activision_serie = pandas.Series(vgsales_df['NA_Sales'])

# vgsales_df.loc[is_Activision]

### Replace

Descrição

### Subset

Descrição

### Group By

Descrição