In [None]:
#===============================================================================================
# 資料集：倫敦數據科學資料集(Data Science London + Scikit-learn)
# 功能　：鐵達尼號乘客生存預測
# 作者　：顏瑋良 (WeiLiang,Yan)
# 用意　：因中文範例教學較少，故撰寫此範本希望可以幫助剛學習的中文使用者，加速理解。
# 　　　　也在此作紀錄，給予lab未來學弟妹學習教學使用。
#===============================================================================================

In [None]:
#===============================================================================================
# 以個人經驗做出簡易的作業標準流程(SOP)如下圖:
# 大致步驟分為三部分：(模型與資料處理皆很彈性沒有一定，所以參考即可)
# Step1.資料的預處理(Preprocessing data)
# Step2.模型選擇與建立(Data choose and build)
# STep3.模型驗證(Model validation)
#===============================================================================================

In [None]:
print("\n簡易作業流程圖： \n\n")
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://i.imgur.com/6FQ3BZA.png")

In [None]:
#===============================================================================================
# 載入需要的套件，做資料的預處理(在後續執行時會一一講解)。
#===============================================================================================
import pandas as pd
import numpy as np
from sklearn import preprocessing

In [None]:
#===============================================================================================
# Step1：資料觀察與預處理
# Step1-1 開啟檔案
# Step1-2 觀察資料
# Step1-3 處理資料的NAN
# Step1-4 特徵挑選及資料正規化與編碼
#===============================================================================================

In [None]:
#===============================================================================================
# Step1：資料觀察與預處理
#　｜
#　｜
#　－－－Step1-1 開啟檔案
#　　　　　｜
#　　     －－－ Step1-1-1　絕對位址
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-1-1-1 因電腦會將\與"跳脫字元"混淆，故將\改成/也可以順利讀取。
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-1-1-2 為了讓電腦不會將\與"跳脫字元"混淆，故將\改成\\也可以順利讀取。
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-1-1-3 因電腦會將\與"跳脫字元"混淆在""前加上r(表示使用原始字元顯示)
#　　　　　｜
#　　     －－－ Step1-1-2　相對位址
#　　　　　　　　　　｜
#　　　　　　　　　　－－－Step1-1-1-1 讀取資料相對位置讀取方法 (使用讀取Kaggle上的資料位置為範例)
#　　　　　　　　　　｜
#　　　　　　　　　　－－－Step1-1-1-2 因電腦讀取相對位址會是使用\，故無法使用絕對位置後面兩種方法會讀取失敗。
#===============================================================================================

# 絕對位置
#train_data = pd.read_csv("C:/Users/user/Desktop/機器學習教學/Data_Science_London/train.csv")
#train_data = pd.read_csv("C:\\Users\\user\\Desktop\\機器學習教學\\Data_Science_London\\train.csv")
#test_data = pd.read_csv(r"C:\Users\user\Desktop\機器學習教學\Data_Science_London\test.csv")

# 相對位置
train_data_feature = pd.read_csv("../input/data-science-london-scikit-learn/train.csv",header=None)
train_data_label = pd.read_csv("../input/data-science-london-scikit-learn/trainLabels.csv",header=None)
test_data = pd.read_csv("../input/data-science-london-scikit-learn/test.csv",header=None)

print("\n\n訓練特徵資料：\n\n",train_data_feature)
print("\n\n訓練標籤資料：\n\n",train_data_label)
print("\n\n測試集資料：\n\n",test_data)

In [None]:
#=============================================================================================================
# Step1：資料觀察與預處理
#　｜
#　－－－Step1-2 觀察資料 (介紹筆者喜愛使用指令)
#　　　　　｜
#　　　　　－－－ Step1-2-1　Pandas.DataFrame 類型
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-2-1-1 .columns      :判斷資料的行數及名稱
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-2-1-2 .info()　　　　：主因方便確認每行(column)是否有缺值(NAN)，和資料型態大小與行列數。
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-2-1-3 .shape        :這也可也用來單純確認，資料行列數(形狀)
#　　　　　｜　　　　｜
#　　　　　｜　　　　－－－Step1-2-1-4 .describe()　 ：描述資料基本狀態(如:平均值、標準差、最大值...等)
#　　　　　｜
#　　　　　｜
#　　　　　－－－Step1-2-2　Numpy.narray 類型
#　　　　　　　　　｜
#　　　　　　　　　－－－1-2-1 .unique()　　　：可以顯現出所有不重複的元素，可以判別標籤(label)內有幾類等。
#　　　　　　　　　｜
#　　　　　　　　　－－－1-2-2 np.sort()　　　：蠻常需要將數值比大小等，可以將資料排序方便觀察。
#=============================================================================================================

In [None]:
#=============================================================================================================
# Step1：資料觀察與預處理
#　｜
#　－－－Step1-2 觀察資料 (介紹筆者喜愛使用指令)
#　　　　　｜
#　　　　　－－－ Step1-2-1　Pandas.DataFrame 類型
#　　　　　　　　　　｜
#　　　　　　　　　　－－－Step1-2-1-2 .info()　　　　：主因方便確認每行(column)是否有缺值(NAN)，和資料型態大小與行列數。
#
#=============================================================================================================

train_data_feature.info()

#=============================================================================================================
# 觀察後確定資料無缺值(NAN)
#=============================================================================================================

In [None]:
#=============================================================================================================
# Step1：資料觀察與預處理
#　｜
#　－－－Step1-2 觀察資料 (介紹筆者喜愛使用指令)
#　　　　　｜
#　　　　　－－－ Step1-2-1　Pandas.DataFrame 類型
#　　　　　　　　　　｜
#　　　　　　　　　　－－－Step1-2-1-2 .info()　　　　：主因方便確認每行(column)是否有缺值(NAN)，和資料型態大小與行列數。
#
#=============================================================================================================

train_data_label.info()

#=============================================================================================================
# 觀察後確定資料無缺值(NAN)
#=============================================================================================================

In [None]:
#=============================================================================================================
# Step1：資料觀察與預處理
#　｜
#　－－－Step1-2 觀察資料 (介紹筆者喜愛使用指令)
#　　　　　｜
#　　　　　－－－ Step1-2-1　Pandas.DataFrame 類型
#　　　　　　　　　　｜
#　　　　　　　　　　－－－Step1-2-1-2 .info()　　　　：主因方便確認每行(column)是否有缺值(NAN)，和資料型態大小與行列數。
#
#=============================================================================================================

test_data.info()

#=============================================================================================================
# 觀察後確定資料無缺值(NAN)
#=============================================================================================================

In [None]:
#=============================================================================================================
# Step1：資料觀察與預處理
#　｜
# 　－－－Step1-4 挑選特徵並將資料正規化與編碼
#　　　　　｜－－－Step1-4-1 挑選特徵
#　　　　　｜　　　　(淘汰不重要的特徵，例如名字、學號...等具備唯一性值，通常沒有什麼參考性，因為大家都不一樣較難有共通點)
#　　　　　｜
#　　　　　｜－－－Step1-4-2 將資料正規化
#                 (將數值型資料正規化，映射至[0,1]之間，避免overflow也可以加快運算)
#　　　　　｜－－－Step1-4-3 將資料編碼
#                 (將分類型資料編碼，因若是字串比較時間複雜度會比數值型高上許多，所以需要做編碼加快運算)
#=============================================================================================================

In [None]:
#================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　｜
#　－－－模型選擇簡易分類
#　　　　　｜
#　　　　　－－－Step2-1 監督式學習(Data含有標籤)
#　　　　　|　　　　｜
#　　　　　|　　　　－－－Step2-1-1 線性回歸(Linear Regression)
#　　　　　|　　　　｜
#　　　　　|　　　　－－－Step2-1-2 分類(Classification)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-1 支持向量機(Support Vector Machines)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-2 最近的鄰居(Nearest Neighbors)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-3 決策樹(Decision Trees)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-4 隨機森林(Forests of randomized trees)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-5 神經網路(Neural Network models)
#　　　　　|　　　　　　　　｜
#　　　　　|　　　　　　　　－－－Step2-1-6 高斯過程(GaussianProcess)｜
#　　　　　|
#　　　　　－－－Step2-2 無監督式學習(Data無標籤)
#　　　　　 　　　　｜
#　　　　　 　　　　－－－Step2-2-1 聚類(Clustering)
#　　　　　 　　　　　　　　｜
#　　　　　 　　　　　　　　－－－Step2-2-1 K均值(K-means)
#　　　　　 　　　　　　　　｜
#　　　　　 　　　　　　　　－－－Step2-2-2 神經網路(Neural Network models)
#================================================================================

In [None]:
#=============================================================================================================
# 依觀察資料得知，為分類問題(標籤值只有0,1)，特徵有40行(columns)內的值看似都是隨機。
# 故不捨棄任何特徵行，直接將資料讓機器去學習
#=============================================================================================================

In [None]:
#==========================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-1 支持向量機(Support Vector Machines)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#==========================================================================================
from sklearn.model_selection import train_test_split
from sklearn import svm
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

svm_model = svm.SVC()
svm_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("支持向量機(Support Vector Machines)模型準確度(訓練集):",svm_model.score(train_feature, train_label))
print ("支持向量機(Support Vector Machines)模型準確度(測試集):",svm_model.score(test_feature, test_label))
svm_model_acc = svm_model.score(train_feature, train_label)



#==========================================================================================
# 觀察知訓練集與測試集的準確度無落差，故判斷支持向量機(Support Vector Machines)訓練無過度擬合的情形
#==========================================================================================

In [None]:
#===============================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-2 最近的鄰居(Nearest Neighbors)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#===============================================================================================
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

KNeighbors_model = KNeighborsClassifier(n_neighbors=2)
KNeighbors_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("最近的鄰居(Nearest Neighbors)模型準確度(訓練集)：",KNeighbors_model.score(train_feature, train_label))
print ("最近的鄰居(Nearest Neighbors)模型準確度(測試集)：",KNeighbors_model.score(test_feature, test_label))
KNeighbors_model_acc = KNeighbors_model.score(train_feature, train_label)

#==========================================================================================
# 觀察知訓練集與測試集的準確度有落差，故判斷最近的鄰居(Nearest Neighbors)訓練有過度擬合的情形
#==========================================================================================

In [None]:
#===============================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-3 決策樹(Decision Trees)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#===============================================================================================
from sklearn.model_selection import train_test_split
from sklearn import tree
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

DecisionTree_model = tree.DecisionTreeClassifier()
DecisionTree_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("決策樹(Decision Trees)模型準確度(訓練集)：",DecisionTree_model.score(train_feature, train_label))
print ("決策樹(Decision Trees)模型準確度(測試集)：",DecisionTree_model.score(test_feature, test_label))
DecisionTree_model_acc = DecisionTree_model.score(test_feature, test_label)

#==========================================================================================
# 觀察知訓練集與測試集的準確度有落差，故判斷決策樹(Decision Trees)訓練有過度擬合的情形
#==========================================================================================

In [None]:
#========================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-4 隨機森林(Forests of randomized trees)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#========================================================================================
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

RandomForest_model = RandomForestClassifier(n_estimators=10)
RandomForest_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("隨機森林(Forests of randomized trees)模型準確度(訓練集)：",RandomForest_model.score(train_feature, train_label))
print ("隨機森林(Forests of randomized trees)模型準確度(測試集)：",RandomForest_model.score(test_feature, test_label))
RandomForest_model_model_acc = RandomForest_model.score(test_feature, test_label)


#==========================================================================================
# 觀察知訓練集與測試集的準確度有落差，故判斷隨機森林(Forests of randomized trees)訓練有過度擬合的情形
#==========================================================================================

In [None]:
#=============================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-5 神經網路(Neural Network models)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#=============================================================================================
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

MLP_model = MLPClassifier(solver='lbfgs', 
                                   alpha=1e-5,
                                   hidden_layer_sizes=(6, 2), 
                                   )
MLP_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("神經網路(Neural Network models)模型準確度(訓練集)：",MLP_model.score(train_feature, train_label))
print ("神經網路(Neural Network models)模型準確度(測試集)：",MLP_model.score(test_feature, test_label))
MLP_model_acc = MLP_model.score(test_feature, test_label)

#==========================================================================================
# 觀察知訓練集與測試集的準確度有落差，故判斷神經網路(Neural Network models)訓練有過度擬合的情形
#==========================================================================================

In [None]:
#=============================================================================================
# Step2.模型選擇與建立(Data choose and build)
#　　|
#　　－－－Step2-1-2 分類(Classification)
#　　　　　｜
#　　　　　－－－Step2-1-6 高斯過程(GaussianProcess)
#
# train_test_split 套件功能，將資料集分成訓練及與測試集合(測試時可以看出是否過度擬合(overfitting))
#=============================================================================================
from sklearn.model_selection import train_test_split
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

GaussianProcess_model = GaussianProcessClassifier()
GaussianProcess_model.fit(train_feature, train_label)

#將原本train_data資料，分成訓練集與測試集合，並丟入訓練好的模型測試準確度
print ("高斯過程(GaussianProcess)模型準確度(訓練集)：",GaussianProcess_model.score(train_feature, train_label))
print ("高斯過程(GaussianProcess)模型準確度(測試集)：",GaussianProcess_model.score(test_feature, test_label))
GaussianProcess_model_acc = GaussianProcess_model.score(test_feature, test_label)


#==========================================================================================
# 觀察知訓練集與測試集的準確度有太大落差，故判斷高斯過程(GaussianProcess)訓練有過度擬合的情形
#==========================================================================================

In [None]:
models = pd.DataFrame({
    'Model': ['支持向量機(Support Vector Machines)', 
              '最近的鄰居(Nearest Neighbors)', 
              '決策樹(Decision Trees)',
              '隨機森林(Forests of randomized trees)', 
              '神經網路(Neural Network models)',
              '高斯過程(GaussianProcess)'
             ],
    'Score': [svm_model_acc,
              KNeighbors_model_acc,
              DecisionTree_model_acc,
              RandomForest_model_model_acc,
              MLP_model_acc,
              GaussianProcess_model_acc, 
              ]
                       })
models.sort_values(by='Score', ascending=False)

In [None]:
#===============================================================================================
# Step3.模型驗證(Model validation)
# 以圖表觀察知支持向量機的準確度較高，故選擇此模型實施驗證
# 故在支持向量機訓練模型那加上這段 test_data_predict = DecisionTree_model.predict(test_data))
# 並將網站給的 test_data 丟給訓練好的模型預測
#===============================================================================================
# test_data也需要做預先處理，將輸入處理更改成與train_feature 一樣 
# 可以想像成用什麼資料特徵訓練出來的模型，只能吃一樣的輸入。
#(例如:我使用身高、體重訓練一個模型，訓練完後我無法使用體脂肪與肝指數丟入(會不準確或是shape不同而無法丟入模型中))
#===============================================================================================


#=======================================訓練模型=================================================
from sklearn.model_selection import train_test_split
from sklearn import svm
train_feature, test_feature, train_label, test_label = train_test_split(train_data_feature,train_data_label,test_size=0.2)

svm_model = svm.SVC()
svm_model.fit(train_feature, train_label)
#===============================================================================================



#將測試及丟入訓練好的模型(輸出則為預測的標籤)
test_data_predict = DecisionTree_model.predict(test_data)







In [None]:
test_data_predict.shape

In [None]:
Id=[]
for i in range (1,9001):
    Id.append(i)
Id=np.array(Id)
Id.shape

In [None]:
#===============================================================================================
# 官網教學將你的預測資料輸出上傳，恭喜完成 =")
#===============================================================================================
output = pd.DataFrame({'Id':Id,'Solution': test_data_predict})
output.to_csv('Submission.csv', index=False)

In [None]:
output