# **Recomenda√ß√£o para jogos digitais - Parte 2: Modelo** üéÆ 

Jos√© Henrique de Oliveira<br>
[Portf√≥lio](https://joseportfolio.notion.site/Portf-lio-do-Z-308350bb4f4544adb87da2a1a83b8f78) | [LinkedIn](https://www.linkedin.com/in/jholiveira94/)

---

# **Introdu√ß√£o**

A ind√∫stria de jogos digitais entrega grande volume de produ√ß√µes todos os anos e, como qualquer outro setor, necessita que seus produtos **desempenhem bem no mercado**.<br>
Portanto, **determinar quais nichos de jogos e clientes** trar√£o tal resultado √© essencial para a continuidade dos projetos de uma empresa desse ramo.

Com esse contexto em mente, durante este estudo ser√£o analisadas as vendas de jogos digitais com objetivo de encontrar padr√µes que auxiliem nessa tomada de decis√£o t√£o impactante.<br>
O conjunto de dados escolhido para conduzir essa investiga√ß√£o pode ser encontrado na plataforma Kaggle: [**Video Game Sales**](https://www.kaggle.com/datasets/gregorut/videogamesales/data)

Esse estudo ter√° como base a metodologia proposta no **CRISP-DM**:
1. Entendendo o neg√≥cio
2. Entendendo os dados
3. Prepara√ß√£o dos dados
4. Modelgem
5. Valida√ß√£o
6. Conclus√µes do estudo

Nesse notebook, ser√£o continuadas as etapas do **CRISP-DM**, contemplado **parte da etapa 3**, agora com foco na **modelagem** de machine learning, **at√© a etapa 6**.

Em notebook anterior, foi trabalhado da **etapa 1 at√© parte da 3**, pois o foco foi a **EDA - An√°lise Explorat√≥ria dos Dados**. <br>
Para mais detalhes do estudo das vari√°veis do conjunto de dados selecionado, olhar o documento **Parte 01 - EDA.ipynb**.

### **Problemas de neg√≥cio**

Ao longo desse trabalho, ser√° constru√≠do um **modelo de recomenda√ß√£o de lan√ßamento de jogos por regi√£o** baseado nos padr√µes de vendas observados nos dados.<br>

##### **Objetivo**

<div style="background-color: #6a0dad; color: white; padding: 10px; border-radius: 5px;">
<b>Recomenda√ß√£o de g√™neros populares por regi√£o</b> <br>
Quais g√™neros de jogos devem ser lan√ßados em uma regi√£o espec√≠fica para maximizar as vendas?
</div>

Para aprofundar o estudo, foram respondidas quest√µes mais objetivas durante a explora√ß√£o dos dados, que se encontra no arquivo **Parte 01 - EDA.ipynb**.<br>

---

# **1. Prepara√ß√µes**

### **1.1 Bibliotecas e programa√ß√µes iniciais**

In [264]:
# Manipula√ß√£o dos dados
import pandas as pd
import numpy as np

# Vizualiza√ß√£o dos dados

# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier  
from sklearn.metrics import accuracy_score, classification_report, multilabel_confusion_matrix

!pip install xgboost
from xgboost import XGBClassifier

# Filtro de avisos.
import warnings
warnings.filterwarnings('ignore')



---

# **2. Organiza√ß√£o dos dados para modelagem**

In [211]:
# Carregamento dos dados
df = pd.read_csv('DataSet_vgsales.csv')
df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


Nesse conjunto de dados, h√° os seguintes atributos:

- Rank - Classifica√ß√£o geral das vendas
- Name - Nome do jogo
- Platform - Platforma de lan√ßamento do jogo (PC,PS4, etc.)
- Year - Ano de lan√ßamento do jogo
- Genre - G√™nero do jogo
- Publisher - Empresa respons√°vel pela publica√ß√£o do jogo
- NA_Sales - Vendas na Am√©rica do Norte (em milh√µes)
- EU_Sales - Vendas na Europa (em milh√µes)
- JP_Sales - Vendas no Jap√£o (em milh√µes)
- Other_Sales - Vendas em outras regi√µes (em milh√µes)
- Global_Sales - Total mundial de vendas

In [212]:
''' 
Remo√ß√£o de colunas que n√£o ser√£o usadas para constru√ß√£o do modelo.
Como feito no documento Parte 01 - EDA, as colunas ser√£o traduzidas.
H√° valores nulos no dataframe, como visto na explora√ß√£o da Parte 1. As linhas com nulos ser√£o removidas.
A coluna Ano precisa de tratamento na tipagem para int.
'''

df = df.drop(['Rank', 'Name', 'Platform'], axis = 1)
df.columns = ['Ano', 'Genero', 'Publisher', 'Vendas_AN', 'Vendas_EU', 'Vendas_JP', 'Vendas_Outras', 'Vendas_Globais']
df = df.dropna()
df['Ano'] = df.Ano.astype(int)
df = df.reset_index(drop = True)

# Verificando as altera√ß√µes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16291 entries, 0 to 16290
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Ano             16291 non-null  int32  
 1   Genero          16291 non-null  object 
 2   Publisher       16291 non-null  object 
 3   Vendas_AN       16291 non-null  float64
 4   Vendas_EU       16291 non-null  float64
 5   Vendas_JP       16291 non-null  float64
 6   Vendas_Outras   16291 non-null  float64
 7   Vendas_Globais  16291 non-null  float64
dtypes: float64(5), int32(1), object(2)
memory usage: 954.7+ KB


### **2.1 Cria√ß√£o de novas features**

Nessa se√ß√£o, ser√£o definidas novas vari√°veis a partir dos dados selecionados.

Visando a interpreta√ß√£o do ano de lan√ßamento dos jogos e do hist√≥rico de performance de cada g√™nero, ser√° constru√≠da a feature "Tempo_Lan√ßamento":
- Vari√°vel categ√≥rica.
- Classifica√ß√£o de cada jogo com base em seu ano de lan√ßamento, isto √©, uma esp√©cie de fixa et√°ria:
    - Atual: lan√ßamento nos √∫ltimos 4 anos.
    - Recente: lan√ßamento entre 4 e 10 anos.
    - Antigo: lan√ßamento h√° mais de 10 anos.

In [213]:
''' 
Constru√ß√£o da feature "Tempo_Lan√ßamento"
'''
def definir_faixa_etaria(ano):
    if ano <= (df["Ano"].max() - 10):
        return 'Antigo'
    elif ano <= (df["Ano"].max() - 4):
        return 'Recente'
    else:
        return 'Atual'

# Aplicando a fun√ß√£o ao DataFrame
df['Tempo_Lan√ßamento'] = df['Ano'].apply(definir_faixa_etaria)

'''  
Com a constru√ß√£o dessa nova coluna, a vari√°vel Ano torna-se redundante, portanto ser√° retirada.
'''
df = df.drop('Ano', axis = 1)

Visando a interpreta√ß√£o da relev√¢ncia das publishers em cada regi√£o, ser√£o criadas colunas "Popularidade_[regi√£o]":
- Vari√°vel num√©rica.
- Cada publisher ter√° sua popularidade medida com base na m√©dia de venda em cada regi√£o (AN, EU, JP e Outras).
- Valores em milh√µes.

In [214]:
''' 
Constru√ß√£o das features "Popularidade_[regi√£o]"
'''

lista_popularidade = ['Popularidade_AN','Popularidade_EU', 'Popularidade_JP', 'Popularidade_Outras' ]

for i, regiao in enumerate(['Vendas_AN', 'Vendas_EU', 'Vendas_JP', 'Vendas_Outras']):
    df[lista_popularidade[i]] = df.groupby('Publisher')[regiao].transform('mean').round(2)

Considerando o objetivo desse projeto, ser√° criada uma nova feature que indique a regi√£o com destaque de vendas de cada jogo: Regiao_Mais_Vendas
- Vari√°vel categ√≥rica.
- Receber√° o nome da regi√£o em que obteve o maior valor em vendas: Am√©rica do Norte, Europa, Jap√£o ou Outras regi√µes.

Essa feature ser√° a **vari√°vel foco** dos modelos de machine learning treinados.

In [215]:
''' 
Constru√ß√£o das features "Regiao_Mais_Vendas".
Primeiramente a coluna ser√° criada com um valor qualquer que ap√≥s ser√° alterado conforme c√≥digo.
'''
df['Regiao_Foco'] = 0
dic_regioes = {'Vendas_AN': 'Am√©rica do Norte', 'Vendas_EU': 'Europa', 'Vendas_JP': 'Jap√£o', 'Vendas_Outras': 'Outras regi√µes'}

for i in df.index:
    valor_max = df.iloc[i][['Vendas_AN', 'Vendas_EU', 'Vendas_JP', 'Vendas_Outras']].max()
    lista_maximos = []

    for r in ['Vendas_AN', 'Vendas_EU', 'Vendas_JP', 'Vendas_Outras']:
        if df[r][i] == valor_max:
            lista_maximos.append(r)
    
    lista_renomeada = [dic_regioes.get(elemento) for elemento in lista_maximos]
    df['Regiao_Foco'][i] = lista_renomeada[0]

In [216]:
# Visualizando o dataframe
df.head()

Unnamed: 0,Genero,Publisher,Vendas_AN,Vendas_EU,Vendas_JP,Vendas_Outras,Vendas_Globais,Tempo_Lan√ßamento,Popularidade_AN,Popularidade_EU,Popularidade_JP,Popularidade_Outras,Regiao_Foco
0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
1,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
2,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
3,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
4,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte


### **2.2 Tratamento das vari√°veis categ√≥ricas**

Para trabalhar com os modelos de machine learning selecionados, ser√° necess√°rio transformar os dados categ√≥ricos em num√©ricos.

Considerando a quantidade de publishers presentes nesse conjunto de dados e que a maioria causa pouco impacto no mercado, como visto na EDA, ser√° realizada sele√ß√£o desses dados:
- Ser√° calculada a mediana das popularidades nas quatro regi√µes.
    - Foi escolhido usar a mediana visto que pode haver discrep√¢ncia entre as popularidades de uma publisher e, nesses casos, ela n√£o sofre grande impacto quanto a m√©dia.
- Ser√£o **selecionadas as dez publishers** com maior mediana de popularidade.

In [217]:
df_mediana_popularidade = df[['Publisher', 'Popularidade_AN', 'Popularidade_EU', 'Popularidade_JP', 'Popularidade_Outras']].drop_duplicates().reset_index(drop = True)
df_mediana_popularidade['Mediana_Popularidade'] = 0

for i in df_mediana_popularidade.index:
    lista = []
    lista.append(df_mediana_popularidade['Popularidade_AN'][i])
    lista.append(df_mediana_popularidade['Popularidade_EU'][i])
    lista.append(df_mediana_popularidade['Popularidade_JP'][i])
    lista.append(df_mediana_popularidade['Popularidade_Outras'][i])
    
    df_mediana_popularidade['Mediana_Popularidade'][i] = np.median(lista)

df_mediana_popularidade = df_mediana_popularidade.sort_values(by = 'Mediana_Popularidade', ascending= False).reset_index(drop = True).head(10)

# Lista de publishers para filtrar dataframe
lista_top10_publishers = df_mediana_popularidade['Publisher']

# Filtrando o dataframe
df = df[df['Publisher'].isin(lista_top10_publishers)]
df.reset_index(inplace= True, drop = True)

In [218]:
# Verificando as mudan√ßas
df.head()

Unnamed: 0,Genero,Publisher,Vendas_AN,Vendas_EU,Vendas_JP,Vendas_Outras,Vendas_Globais,Tempo_Lan√ßamento,Popularidade_AN,Popularidade_EU,Popularidade_JP,Popularidade_Outras,Regiao_Foco
0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
1,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
2,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
3,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte
4,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,Antigo,1.17,0.6,0.65,0.14,Am√©rica do Norte


Transformando features categ√≥ricas em num√©ricas para aplica√ß√£o de modelos de machine learning.<br>
Para essa tarefa, ser√° utilizado o m√©todo get_dummies(), da biblioteca Pandas.

> Esse m√©todo consiste em transformar cada um dos **valores** de uma vari√°vel categ√≥rica **em uma vari√°vel bin√°ria** (0 e 1, True e False,  etc.).<br>
> Dessa forma, os modelos de machine learning conseguem interpretar se ocorreu tal caracter√≠stica (1 ou True)  ou n√£o (0 ou False).<br>
>
> **Por exemplo**:<br>
> O valor 'Sports' da vari√°vel Genero passa a ser uma coluna por si s√≥. Quando o jogo for desse g√™nero, aparecer√° 1 ou True nessa nova coluna 'Sports', do contr√°rio, aparecer√° 0 ou False.

Esse tratamento √© necess√°rio visto que os modelos de machine learning trabalham, em geral, com dados num√©ricos, portanto conseguem interpretar um valor '1', mas n√£o conseguem processar se for 'Sports'.

In [279]:
# Aplicando Get Dummies
df_para_modelo = pd.get_dummies(df, columns=['Genero', 'Publisher', 'Tempo_Lan√ßamento', 'Regiao_Foco'])

# Visualizando o resultado
df_para_modelo.head()

Unnamed: 0,Vendas_AN,Vendas_EU,Vendas_JP,Vendas_Outras,Vendas_Globais,Popularidade_AN,Popularidade_EU,Popularidade_JP,Popularidade_Outras,Genero_Action,...,Publisher_Red Orb,Publisher_RedOctane,Publisher_Sony Computer Entertainment Europe,Publisher_UEP Systems,Publisher_Valve,Tempo_Lan√ßamento_Antigo,Tempo_Lan√ßamento_Recente,Regiao_Foco_Am√©rica do Norte,Regiao_Foco_Europa,Regiao_Foco_Jap√£o
0,41.49,29.02,3.77,8.46,82.74,1.17,0.6,0.65,0.14,False,...,False,False,False,False,False,True,False,True,False,False
1,29.08,3.58,6.81,0.77,40.24,1.17,0.6,0.65,0.14,False,...,False,False,False,False,False,True,False,True,False,False
2,15.85,12.88,3.79,3.31,35.82,1.17,0.6,0.65,0.14,False,...,False,False,False,False,False,True,False,True,False,False
3,15.75,11.01,3.28,2.96,33.0,1.17,0.6,0.65,0.14,False,...,False,False,False,False,False,True,False,True,False,False
4,11.27,8.89,10.22,1.0,31.37,1.17,0.6,0.65,0.14,False,...,False,False,False,False,False,True,False,True,False,False


# **3. Modelagem**

Para atingir o objetivo de recomendar qual regi√£o ser√° mais vantajosa para o lan√ßamento de um jogo a partir de seu g√™nero, nesse estudo ser√£o propostos modelos de **classifica√ß√£o**. <br>
Isto √©, o modelo classificar√° qual regi√£o ser√° mais interessante com base nas informa√ß√µes dos jogos j√° presentes no conjunto de dados.<br>
Essa classifica√ß√£o ser√° interpretada como a sugest√£o de regi√£o a ser focada.

Ser√£o testados inicialmente tr√™s modelos com o intuito de verificar qual apresenta melhores resultados:
- Decision tree
- Random Forest
- XGBoost

Ap√≥s as primeiras avalia√ß√µes, um dos modelos ser√° escolhido para aprofundamento da modelagem.

**Prepara√ß√£o dos conjuntos de treino e teste.**<br>
Essa etapa √© fundamental para o estudo dos modelos selecionados, pois ao treinar o modelo, ou ensinar, como ele deve proceder, √© necess√°rio verificar se suas previs√µes ap√≥s aprendizado s√£o razo√°veis.<br>
Para fazer essa verifica√ß√£o, precisa-se de dados confi√°veis e dos quais j√° se saiba as respostas.

Assim, a maior parte do conjunto de dados servir√° de treino e uma parte menos de teste.<br>

In [228]:
x = df_para_modelo.drop(['Regiao_Foco_Am√©rica do Norte', 'Regiao_Foco_Europa', 'Regiao_Foco_Jap√£o'], axis=1)
y = df_para_modelo[['Regiao_Foco_Am√©rica do Norte', 'Regiao_Foco_Europa', 'Regiao_Foco_Jap√£o']]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=13)

**Instanciando os tr√™s modelos.**<br>
Etapa de prepara√ß√£o. Os modelos da biblioteca SciKitLearn costumam necessitar desse processo, que consiste em determinar um objeto que guardar√° e funcionar√° com base nos comendas j√° estabelecidos na biblioteca.<br>
Ap√≥s instanciado, basta entregar indicar os dados a serem trabalhados que o objeto saber√° como proceder sem comandos adicionais.

In [231]:
# Decision Tree
modelo_dt = DecisionTreeClassifier()
modelo_dt.fit(x_train, y_train)

In [232]:
# Random Forest
modelo_rf = RandomForestClassifier()
modelo_rf.fit(x_train, y_train)

In [233]:
# XGBoost
modelo_xgb = XGBClassifier()
modelo_xgb.fit(x_train, y_train)