# **Previsão de vendas usando o Keras.**

Esse é um pequeno guia de como criar uma rede neural simples usando o Keras. NÃO irei focar na análise dos dados, apenas no pré-processamento e criação do modelo.

In [1]:
import pandas as pd 

from keras.models import Model
from keras.layers import Input, Dense, Activation

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

Using TensorFlow backend.


### **Carregamento e pré-processamento dos dados**

In [5]:
games = pd.read_csv('/content/Video_Games_Sales_as_at_22_Dec_2016.csv')
games.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,,,,,,
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,,,,,,


Aqui irei remover as colunas desnecessárias, no caso **Name**, **Year_of_Release**, **Other_Sales**,  **Global_Sales** e **Developer** (porque só preciso das vendas por continente)

In [6]:
games = games.drop(['Name', 'Year_of_Release', 'Other_Sales', 'Global_Sales', 'Developer'], 1)
games.head()

Unnamed: 0,Platform,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Rating
0,Wii,Sports,Nintendo,41.36,28.96,3.77,76.0,51.0,8.0,322.0,E
1,NES,Platform,Nintendo,29.08,3.58,6.81,,,,,
2,Wii,Racing,Nintendo,15.68,12.76,3.79,82.0,73.0,8.3,709.0,E
3,Wii,Sports,Nintendo,15.61,10.93,3.28,80.0,73.0,8.0,192.0,E
4,GB,Role-Playing,Nintendo,11.27,8.89,10.22,,,,,


In [7]:
# Removendo alguns outliers. Não irei remover do Japão pois seus dados já são bem escassos.
games = games.loc[games['NA_Sales'] > 1]
games = games.loc[games['EU_Sales'] > 1]
games.shape

(355, 11)

In [8]:
# Removendo valores nulos
games = games.dropna(axis=0)
games.shape

(258, 11)

##### Separar as *features* e o target.

In [0]:
# As variáveis preditoras são 'Platform', 'Genre', 'Publisher','Critic_Score', 'Critic_Count', 'User_Score', 
# 'User_Count', 'Rating'
X = games.iloc[:, [0, 1, 2, 6, 7, 8, 9, 10]].values

# E as variáveis alvo são 3, uma para cada continente
y_na = games['NA_Sales'].values
y_eu = games['EU_Sales'].values
y_jp = games['JP_Sales'].values

#### *Encode* das *features*.

In [0]:
ohencoder = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(),
                                            [0, 1, 2, 7])], remainder='passthrough')
X = ohencoder.fit_transform(X).toarray()

## **Pré-processamento concluído. Agora, devemos construir a rede neural.**

In [0]:
# Criando a camada de entrada
# 60 é o número de colunas de X
my_input = Input(shape=(60, ))

In [0]:
# Criando a primeira camada oculta
# (camada de entrada + números de saídas) / 2 = (60 + 3) / 2 = 32 aproximadamente
# É necessário dizer com quem a camada oculta se conecta, que nesse caso é com a camada de entrada
my_hidden_layer_1 = Dense(units=32, activation='sigmoid')(my_input)

In [0]:
# Criando a segunda camada oculta
my_hidden_layer_2 = Dense(units=32, activation='sigmoid')(my_hidden_layer_1)

In [0]:
# Criando as camadas de saida, uma para cada continente
# A função de ativação "linear" mantém os valores de saída.
my_output_layer_1 = Dense(units=1, activation='linear')(my_hidden_layer_2)
my_output_layer_2 = Dense(units=1, activation='linear')(my_hidden_layer_2)
my_output_layer_3 = Dense(units=1, activation='linear')(my_hidden_layer_2)

In [0]:
# Criando os modelo com as camadas de entrada e saída.
my_model = Model(inputs=my_input,
                outputs=[my_output_layer_1, my_output_layer_2, my_output_layer_3])

In [0]:
# Compilando o modelo criado
my_model.compile(optimizer='adam', loss='mse')

### **Treinamento do modelo** (processo um pouco demorado, dependendo da capacidade computacional da sua máquina).

In [0]:
my_model.fit(X, [y_na, y_eu, y_jp], epochs=7000, batch_size=100)

Epoch 1/7000
Epoch 2/7000
Epoch 3/7000
Epoch 4/7000
Epoch 5/7000
Epoch 6/7000
Epoch 7/7000
Epoch 8/7000
Epoch 9/7000
Epoch 10/7000
Epoch 11/7000
Epoch 12/7000
Epoch 13/7000
Epoch 14/7000
Epoch 15/7000
Epoch 16/7000
Epoch 17/7000
Epoch 18/7000
Epoch 19/7000
Epoch 20/7000
Epoch 21/7000
Epoch 22/7000
Epoch 23/7000
Epoch 24/7000
Epoch 25/7000
Epoch 26/7000
Epoch 27/7000
Epoch 28/7000
Epoch 29/7000
Epoch 30/7000
Epoch 31/7000
Epoch 32/7000
Epoch 33/7000
Epoch 34/7000
Epoch 35/7000
Epoch 36/7000
Epoch 37/7000
Epoch 38/7000
Epoch 39/7000
Epoch 40/7000
Epoch 41/7000
Epoch 42/7000
Epoch 43/7000
Epoch 44/7000
Epoch 45/7000
Epoch 46/7000
Epoch 47/7000
Epoch 48/7000
Epoch 49/7000
Epoch 50/7000
Epoch 51/7000
Epoch 52/7000
Epoch 53/7000
Epoch 54/7000
Epoch 55/7000
Epoch 56/7000
Epoch 57/7000
Epoch 58/7000
Epoch 59/7000
Epoch 60/7000
Epoch 61/7000
Epoch 62/7000
Epoch 63/7000
Epoch 64/7000
Epoch 65/7000
Epoch 66/7000
Epoch 67/7000
Epoch 68/7000
Epoch 69/7000
Epoch 70/7000
Epoch 71/7000
Epoch 72/7000
E