# 主題：遊戲人間

## 組員名單
107304001 統二 李宜隆<br>
107304015 統二 黃揚軒<br>
107304016 統二 高宏維<br>
107207418 統二 黃莫涵<br>

## 原主題介紹
### 如果今天上市了一個新遊戲，還沒有相關的評價，可不可以由程式來評斷其遊玩分數?

## 發想動機

由於前陣子的防疫風波，大家變得必須以在室內活動為主，在室內玩遊戲就成了一個主要的休閒娛樂活動<br>
除了很紅的動物森友會，還有什麼可以玩呢？如果我們對於遊戲不夠了解，很容易就會踩到地雷<br>
所以我們想到是否可以透過遊戲的類別、公司、平台、銷售量來進行對遊戲評分的預測，試試看能否用深度學習達成這件事<br>

## 資料搜集過程與困難

我們原先的目標是：想要用遊戲的年份、平台、類型、公司及評分去預估它的全球銷售量(或平台、類型、公司、全球銷售量去預估評分)。<br>
在Kaggle資料庫裡面，我們找到了一份包含遊戲的年份、平台、類型、公司的數據集(約16000多筆)，收錄了銷售量超過十萬以上的遊戲。而根據此數據集取得資料的原始網站，我們發現該網站有遊戲評分的資料(約55000多筆)。我們開始想辦法要取得評分的資料，然而每個組員都沒有學過爬蟲，於是開始了各方求助。過程中遇到了許多阻礙，就在一個禮拜後爬蟲的問題仍未被解決時，我們赫然發現該網站的評分資料，有效的評分(沒有缺漏的部分)只有6000多筆，更別提是和Kaggle數據集有重疊的遊戲的資料就更少了。<br>
晴天霹靂之際，我們還是重振旗鼓，最後決定使用遊戲的平台、類型、公司去預測全球銷售量。<br>

#### 網址：  [原始資料集](https://docs.google.com/spreadsheets/d/1rZimHYmkhrH-QYJxH-j2M6bI05N2fYNweTNbiaPKNm8/edit?usp=sharing)

## 更改後主題
### 如果今天上市了一個新遊戲，可不可以藉由其遊戲類別、遊戲公司及平台來預測遊戲的銷售額?

## 事前資料處理

我們將遊戲的平台(x1)、類型(x2)、發行公司(x3) 由文字編碼成數字取代，數字本身的大小並無特別意義，只純粹代表種類的區分。<br>
在16596筆資料中，平台(x1)編碼成0-30，類型(x2)編碼成0-12，發行公司(x3)編碼成0-571。<br>
全球銷售量(y)方面，我們依照銷售量的多寡編成0-10共11個等級，0-9級每級約有1600筆資料，第10級則是少數(約五十個)銷售量超過一千萬的遊戲。<br>

#### 網址：[編碼](https://drive.google.com/file/d/1d68EgwYbqCgeFsXSJnyxNj0ZJgraon1v/view?usp=sharing)&nbsp; &nbsp;&nbsp;[x資料](https://drive.google.com/file/d/1gIZgMQKk94BpCGx49FPzBB8iNwsJ8L_b/view?usp=sharing)&nbsp; &nbsp;&nbsp;[y資料](https://drive.google.com/file/d/10oUibj0GK14u6lQix0fwFxSf779L7d6F/view?usp=sharing) 

## 開始寫模型

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import tensorflow as tf

## 資料讀入、整理、檢查

In [2]:
from tensorflow.keras.utils import to_categorical

In [3]:
df=pd.read_excel("x.xlsx")  #用pandas讀取名為x的excel檔並存成dataframe

In [4]:
df  #欣賞內容

Unnamed: 0,Platform,Genre,Publisher
0,7,11,326
1,7,4,26
2,7,4,26
3,7,4,26
4,7,4,26
...,...,...,...
16591,1,6,34
16592,17,6,34
16593,16,10,548
16594,22,12,326


In [6]:
x1 = df.Platform   #取出x.xlsx檔中Platform(平台)那欄作為變數x1，Genre(類型)那欄作為變數x2，Publisher(發行公司)那欄作為變數x3
x2 = df.Genre   
x3 = df.Publisher

In [7]:
x1[1], x2[1], x3[1]

(7, 4, 26)

In [8]:
x1 = to_categorical(x1, 31)    #把數字做One-Hot Encoding，x1分0-30 共31類，x2分0-12 共13類，x3分0-571 共572類
x2 = to_categorical(x2, 13)   
x3 = to_categorical(x3, 572)  

In [9]:
x1[1], x2[1], x3[1]   #檢查是否轉換成功

(array([0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       dtype=float32),
 array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32),
 array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,

In [10]:
 x=np.concatenate((x1,x2,x3 ), axis=1)  #合併3陣列，命名x

In [11]:
x.shape   #檢查合併完x個數仍為16596個， 維度變為31+13+572=616

(16596, 616)

In [12]:
df2=pd.read_excel("y(0-10).xlsx")  #用pandas讀取名為y(0-10)的excel檔並存成dataframe

In [13]:
df2 #欣賞內容

Unnamed: 0,Global_Sales
0,8
1,4
2,5
3,4
4,4
...,...
16591,6
16592,5
16593,0
16594,2


In [14]:
y=df2.values #把 Dataframe 轉成 2D numpy array

In [15]:
y[0]

array([8])

In [16]:
y = to_categorical(y,11)   #把數字做One-Hot Encoding，分0-10級 共11類

In [17]:
y[0]   #檢查是否轉換成功

array([0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.], dtype=float32)

In [18]:
y.shape   #檢查y個數為16596個， 維度為11

(16596, 11)

In [19]:
x_train=x[0:13500]   #讓x,y16596筆資料當中，前13500筆作為訓練資料，後3096筆作為測試資料
y_train=y[0:13500]
x_test=x[13500:]
y_test=y[13500:]

## 打造神經網路

In [20]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

In [29]:
models=Sequential()
models.add(Dense(100,input_dim=616,activation='relu'))  #input維度是616
models.add(Dense(11,activation='softmax')) #output結果要11類

## 組裝我們的神經網路

In [30]:
models.compile(loss='mse',optimizer=SGD(lr=0.87),metrics=['accuracy'])

In [31]:
models.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_4 (Dense)              (None, 100)               61700     
_________________________________________________________________
dense_5 (Dense)              (None, 11)                1111      
Total params: 62,811
Trainable params: 62,811
Non-trainable params: 0
_________________________________________________________________


## 訓練

In [32]:
models.fit(x_train,y_train,batch_size=10,epochs=10)

Train on 13500 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x111532ed0>

In [33]:
models.fit(x_train,y_train,batch_size=15,epochs=20)

Train on 13500 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<tensorflow.python.keras.callbacks.History at 0x14611a350>

In [34]:
models.fit(x_train,y_train,batch_size=5,epochs=30)

Train on 13500 samples
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<tensorflow.python.keras.callbacks.History at 0x1461bfa90>

## 訓練成果

In [35]:
result = models.predict_classes(x_test)
print('神經網路預測是:', result)

神經網路預測是: [9 8 1 ... 2 1 3]


In [36]:
score = models.evaluate(x_test, y_test)



In [37]:
loss, acc = score
print('測試資料的正確率為', acc)

測試資料的正確率為 0.20316537


## 結論
我們發現訓練資料在多次訓練後準確率才會提高一點，增加Dense層數反而會降低準確率，所以只用了輸入層與輸出層。<br>
而測試資料的準確率並不高（只有0.2），代表機器並沒有真的把這些資料學好，表示單就遊戲平台、類型、發行公司沒有辦法很好的預測全球銷售量。<br>
中間我們有一度考慮將北美銷售額作為輸入資料的變數，但想到全球銷售額是北美、歐洲、日本、其他國家銷售額的總和，用一個結果去預測一個結果並不是很妥當，所以最後還是沒有採用此作法。<br>
這樣的結果或許代表我們放入的變數不夠多，抑或這些變數無法對銷售額進行準確預測，很遺憾沒能達成預期的結果，但還是很享受寫這次專案，找問題、解決問題的過程。

## 實作心得
黃莫涵：<br>
因為爸爸是資訊工程師的原因，從小就耳濡目染一些人工智慧、深度學習的知識，只是從沒真正寫過這類的程式。這學期同時修了程式設計概論跟計算機程式設計，可以邊學深度學習邊補足我對python語法的不熟悉。在做期末專案的過程中，我花好長時間在資料處理上，刪減變數，給那些文字的資料編程數字碼，眼睛都快花掉了哈哈，但也學到一些excel好用的資料彙整功能。寫程式的部分，因為我們組都不是對深度學習特別熟悉，所以就是按照炎龍老師教的基本步驟一步一步去做，比較大的困難有兩個。一是我們原先將那些編好的數字直接讓機器學，結果正確率為0我們超級失望，後來才發現沒有順序性的東西機器學不來，於是給他編成one hot encoding後正確率終於有點起色，頓時超有成就感！二是正確率一直無法有效提升，但因刪減變數也不會讓機器學得更好，增加Dense層數準確率反而更低，試了很多次還是沒有起色。雖然沒有達到預期結果，但還是有付出心血從頭到尾完成一個專案的感覺，是個有趣的經驗，至少知道了遊戲銷售量與平台、類型、公司沒有絕對的關係，我想也許銷售量，跟經濟景氣也有關係吧！<br>
<br>
高宏維：<br>
這個學期是第一次接觸和了解人工智慧這項技術，在此之前也沒有學過PYTHON，一切都是開學全部從0開始學習。雖然老師說，很歡迎沒有背景的同學一起來修，但是在資料收集的部分，如果沒有先備爬蟲這項技術，做起來其實挺困難的，就只能從現有的資料庫去做專案。我覺得負責我們這次爬蟲的同學們辛苦了，花了一個禮拜的時間去學習爬蟲，最後我們才發現要爬的資料其實不夠用來做訓練，真是有點失算，但是迫於時間壓力，我們也來不及尋覓更好的主題，所以便用原先資料庫裡有的資料，做我們所想到較為合理的訓練。雖說這次專案的經驗是令人心痛的，但還是學到不少東西，算是蠻特別的經驗。<br>
<br>
李宜隆：<br>
主題決定好後，我被分到的工作為利用爬蟲爬取數據庫網站的遊戲評分資料，但我對爬蟲完全一竅不通，所以與組員一起去問會的人和自己慢慢摸索爬取不同分頁的方法，如迴圈、改網址，最後看起來程式碼是沒什麼問題的，但不知道為什麼那個網站前兩千筆資料不管怎麼分段都可以爬但只要一爬到2001筆之後的資料，程式就會出錯，可能是網站本身有一些機制我們不太清楚或其他問題，總之我們進度又一度卡住，結果在求助期間，我們卻發現那個網站的有效評分資料只有六千多筆其他五萬筆左右的資料都是N/A，沒辦法我們只好用剩餘的資料去做補救，雖然之前的爬蟲算是做了白工，但也讓我稍微了解爬蟲這項技術，也非常謝謝組員們的凱瑞，不管是做出補救的方法還是後面模型的建構都花了許多心思，你們真的辛苦了，謝謝你們！<br>
<br>
黃揚軒：<br>
之前聽別人說python比較好入手，就來修修看炎龍老師的課程。雖然老師教得好上手，但我們自己在做報告的過程還是相當地辛苦，畢竟我們並沒有很深的基礎，要解決每一個問題都需要相當的時間跟心力，說實話是真的還蠻累的，但我也在這之中獲得了不少收穫，也對於怎麼樣形態的資料比較適合預測有了較具體的概念。<br>


## 專案分工

黃莫涵：將數據庫16000多筆資料重新編碼與整理、建構全連結神經網路模型與預測結果、調整模型錯誤之處、彙整及寫上註解。<br>
高宏維：將數據庫16000多筆資料重新編碼與整理、爬蟲失敗後提出補救方案與重新整理可用資料、建構全連結神經網路模型。<br>
黃揚軒：試著利用爬蟲獲取遊戲網站的遊戲評分資料(後因資料不足而放棄)、爬蟲失敗後提出補救方案與重新整理可用資料、建構全連結神經網路模型。<br>
李宜隆：試著利用爬蟲獲取遊戲網站的遊戲評分資料(後因資料不足而放棄)、轉換資料為模型可用型態。<br>

## 謝謝大家

## 問題回覆

### 1.請問模型訓練時是否發生over fitting的現象
Overfitting是指模型過度訓練自己的訓練資料，使 in sample 的模型配適的非常好。而我們的狀況是，訊練多次後，雖然訓練資料的誤差有下降，但其準確率一直無法有效提升(目前只有0.36)，模型並沒有配適得很好，還不到overfitting的程度。若再繼續訓練下去，恐怕模型只會「記住」訓練資料而非從中「學習」規律，無法讓測試資料out sample也符合此模型，屆時就會發生overfitting了。<br>


### 2.模型結果20%的情況下是否有考慮其他解決方法以提升準確率
因模型測試結果只有0.2，我們考慮可能是變數多寡與模型複雜度的問題。有試過刪減變數、增加原始資料集中的year變數、把模型改得更複雜(而非只有輸入層與輸出層)，仍然無法讓正確率有效提升，甚至可能讓準確率更低。我們總結可能是資料集本身，遊戲平台、類型、公司、年份並不是影響遊戲銷售量的最關鍵因素。<br>

### 3.請說明輸入資料為何使用one hot encoding
我們原先是將那些整理好的數字編號直接讓機器學 ex:(7,14,326)，結果不管怎麼建模型，更改層數、activation、loss function等等，訓練資料的正確率都為0。後來發現這三個變數的編碼是沒有順序性的，這個遊戲發行公司編碼為1不代表他是最大的公司（並不是像銷售量y一樣，數字越大表示銷售額越好），這些沒有意義的數字機器學不來，於是給三個變數one hot encoding再concatenate後讓機器學習，訓練資料正確率終於有點起色。<br>