# 主題：遊戲人間

## 組員名單
107304001 統二 李宜隆<br>
107304015 統二 黃揚軒<br>
107304016 統二 高宏維<br>
107207418 統二 黃莫涵<br>

## 主題介紹
### 如果今天上市了一個新遊戲，還沒有相關的評價，可不可以由程式來評斷其遊玩分數?

## 發想動機

由於前陣子的防疫風波，大家變得必須以在室內活動為主，在室內玩遊戲就成了一個主要的休閒娛樂活動<br>
除了很紅的動物森友會，還有什麼可以玩呢？如果我們對於遊戲不夠了解，很容易就會踩到地雷<br>
所以我們想到是否可以透過遊戲的類別、公司、平台、銷售量來進行對遊戲評分的預測，試試看能否用深度學習達成這件事<br>

## 資料搜集過程與困難

我們原先的目標是：想要用遊戲的年份、平台、類型、公司及評分去預估它的全球銷售量(或平台、類型、公司、全球銷售量去預估評分)。<br>
在Kaggle資料庫裡面，我們找到了一份包含遊戲的年份、平台、類型、公司的數據集(約16000多筆)，收錄了銷售量超過十萬以上的遊戲。而根據此數據集取得資料的原始網站，我們發現該網站有遊戲評分的資料(約55000多筆)。我們開始想辦法要取得評分的資料，然而每個組員都沒有學過爬蟲，於是開始了各方求助。過程中遇到了許多阻礙，就在一個禮拜後爬蟲的問題仍未被解決時，我們赫然發現該網站的評分資料，有效的評分(沒有缺漏的部分)只有6000多筆，更別提是和Kaggle數據集有重疊的遊戲的資料就更少了。<br>
晴天霹靂之際，我們還是重振旗鼓，最後決定使用遊戲的平台、類型、公司去預測全球銷售量。<br>

#### 網址：  [原始資料集](https://docs.google.com/spreadsheets/d/1rZimHYmkhrH-QYJxH-j2M6bI05N2fYNweTNbiaPKNm8/edit?usp=sharing)

## 事前資料處理

我們將遊戲的平台(x1)、類型(x2)、發行公司(x3) 由文字編碼成數字取代，數字本身的大小並無特別意義，只純粹代表種類的區分。<br>
在16596筆資料中，平台(x1)編碼成0-30，類型(x2)編碼成0-12，發行公司(x3)編碼成0-571。<br>
全球銷售量(y)方面，我們依照銷售量的多寡編成0-10共11個等級，0-9級每級約有1600筆資料，第10級則是少數(約五十個)銷售量超過一千萬的遊戲。<br>

#### 網址：[編碼](https://drive.google.com/file/d/1d68EgwYbqCgeFsXSJnyxNj0ZJgraon1v/view?usp=sharing)&nbsp; &nbsp;&nbsp;[x資料](https://drive.google.com/file/d/1gIZgMQKk94BpCGx49FPzBB8iNwsJ8L_b/view?usp=sharing)&nbsp; &nbsp;&nbsp;[y資料](https://drive.google.com/file/d/10oUibj0GK14u6lQix0fwFxSf779L7d6F/view?usp=sharing) 

## 開始寫模型

In [191]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import tensorflow as tf

## 資料讀入、整理、檢查

In [192]:
from tensorflow.keras.utils import to_categorical

In [193]:
df=pd.read_excel("x.xlsx")  #用pandas讀取名為x的excel檔並存成dataframe

In [194]:
df  #欣賞內容

Unnamed: 0,Platform,Genre,Publisher
0,7,11,326
1,7,4,26
2,7,4,26
3,7,4,26
4,7,4,26
...,...,...,...
16591,1,6,34
16592,17,6,34
16593,16,10,548
16594,22,12,326


In [201]:
x1 = df.Platform   #取出x.xlsx檔中Platform(平台)那欄作為變數x1，Genre(類型)那欄作為變數x2，Publisher(發行公司)那欄作為變數x3
x2 = df.Genre   
x3 = df.Publishe

In [202]:
x1[1], x2[1], x3[1]

(7, 4, 26)

In [203]:
x1 = to_categorical(x1, 31)    #把數字做One-Hot Encoding，x1分0-30 共31類，x2分0-12 共13類，x3分0-571 共572類
x2 = to_categorical(x2, 13)   
x3 = to_categorical(x3, 572)  

In [204]:
x1[1], x2[1], x3[1]   #檢查是否轉換成功

(array([0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       dtype=float32),
 array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32),
 array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,

In [205]:
 x=np.concatenate((x1,x2,x3 ), axis=1)  #合併3陣列，命名x

In [206]:
x.shape   #檢查合併完x個數仍為16596個， 維度變為31+13+572=616

(16596, 616)

In [207]:
df2=pd.read_excel("y(0-10).xlsx")  #用pandas讀取名為y(0-10)的excel檔並存成dataframe

In [208]:
df2 #欣賞內容

Unnamed: 0,Global_Sales
0,8
1,4
2,5
3,4
4,4
...,...
16591,6
16592,5
16593,0
16594,2


In [209]:
y=df2.values #把 Dataframe 轉成 2D numpy array

In [210]:
y[0]

array([8])

In [211]:
y = to_categorical(y,11)   #把數字做One-Hot Encoding，分0-10級 共11類

In [212]:
y[0]   #檢查是否轉換成功

array([0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.], dtype=float32)

In [213]:
y.shape   #檢查y個數為16596個， 維度為11

(16596, 11)

In [214]:
x_train=x[0:13500]   #讓x,y16596筆資料當中，前13500筆作為訓練資料，後3096筆作為測試資料
y_train=y[0:13500]
x_test=x[13500:]
y_test=y[13500:]

## 打造神經網路

In [217]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

In [222]:
models=Sequential()
models.add(Dense(50,input_dim=616,activation='relu'))  #input維度是616
models.add(Dense(50,activation='relu'))
models.add(Dense(11,activation='softmax')) #output結果要11類

## 組裝我們的神經網路

In [226]:
models.compile(loss='mse',optimizer=SGD(lr=0.1),metrics=['accuracy'])

In [227]:
models.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_13 (Dense)             (None, 50)                30850     
_________________________________________________________________
dense_14 (Dense)             (None, 50)                2550      
_________________________________________________________________
dense_15 (Dense)             (None, 11)                561       
Total params: 33,961
Trainable params: 33,961
Non-trainable params: 0
_________________________________________________________________


## 訓練

In [264]:
models.fit(x_train, y_train, batch_size=5, epochs=60)

Train on 13500 samples
Epoch 1/60
Epoch 2/60
Epoch 3/60
Epoch 4/60
Epoch 5/60
Epoch 6/60
Epoch 7/60
Epoch 8/60
Epoch 9/60
Epoch 10/60
Epoch 11/60
Epoch 12/60
Epoch 13/60
Epoch 14/60
Epoch 15/60
Epoch 16/60
Epoch 17/60
Epoch 18/60
Epoch 19/60
Epoch 20/60
Epoch 21/60
Epoch 22/60
Epoch 23/60
Epoch 24/60
Epoch 25/60
Epoch 26/60
Epoch 27/60
Epoch 28/60
Epoch 29/60
Epoch 30/60
Epoch 31/60
Epoch 32/60
Epoch 33/60
Epoch 34/60
Epoch 35/60
Epoch 36/60
Epoch 37/60
Epoch 38/60
Epoch 39/60
Epoch 40/60
Epoch 41/60
Epoch 42/60
Epoch 43/60
Epoch 44/60
Epoch 45/60
Epoch 46/60
Epoch 47/60
Epoch 48/60
Epoch 49/60
Epoch 50/60
Epoch 51/60
Epoch 52/60
Epoch 53/60
Epoch 54/60
Epoch 55/60
Epoch 56/60
Epoch 57/60
Epoch 58/60
Epoch 59/60
Epoch 60/60


<tensorflow.python.keras.callbacks.History at 0x14fdc3190>

## 訓練成果

In [253]:
result = models.predict_classes(x_test)
print('神經網路預測是:', result)

神經網路預測是: [9 8 1 ... 0 0 3]


In [254]:
score = models.evaluate(x_test, y_test)



In [255]:
loss, acc = score
print('測試資料的正確率為', acc)

測試資料的正確率為 0.20865633


## 結論
我們發現訓練資料在多次訓練後準確率才會提高一點，但這樣也可能造就過度擬和的問題。
而測試資料的準確率並不高，代表機器並沒有真的把這些資料學好，表示單就遊戲平台、類型、發行公司沒有辦法很好的預測全球銷售量。

## 專案分工

黃莫涵：將數據庫16000多筆資料重新編碼與整理、建構全連結神經網路模型與預測結果、調整模型錯誤之處。<br>
高宏維：將數據庫16000多筆資料重新編碼與整理、爬蟲失敗後提出補救方案與重新整理可用資料、建構全連結神經網路模型。<br>
黃揚軒：試著利用爬蟲獲取遊戲網站的遊戲評分資料(後因資料不足而放棄)、爬蟲失敗後提出補救方案與重新整理可用資料、建構全連結神經網路模型。<br>
李宜隆：試著利用爬蟲獲取遊戲網站的遊戲評分資料(後因資料不足而放棄)、轉換資料為模型可用型態。<br>

## 實作心得

## 謝謝大家